我来总结下GPT-4:吊打ChatGPT,能读图,推理强,考高分,训练更高效!

我来总结下GPT-4:吊打ChatGPT,能读图,推理强,考高分,训练更高效!

GPT-4发布了,朋友圈好久好久没像今天这样热闹了。

这波可比上次爆火的「元宇宙」有意思多了,如果说「元宇宙」虚头巴脑看不见摸不着像画大饼,那现在这个相对而言可就更触手可得一些。

网上关于GPT-4多强大,多惊人的文章很多,这篇只要是我自己搜罗它官网上一些介绍,总结一些,当做我自己的笔记同时有人问我这个GPT-4是什么的时候,我也好有一篇随手转发给他的东西,能省下不少口舌。

直接上要点:

GPT-4专业学术能力得到大幅提升,各类考试超过90%的人类。

强大的多模态,甚至可以把纸笔画的原型直接输出网页代码。「最直接的让盲人能够「看到」图片了,第一个类似产品叫be my eyes」

读论文,做物理卷子可以知道插图含意,理解漫画,恶搞图均不在话下。

英文准确度提升,70%到85.5%。

中文准确度提升,达到 GPT3.5 的英文水平,将近 70%。

GPT-4 的训练数据和 GPT-3 的差不多,都是截止到 2021 年 9 月。

现在部分 ChatGPT Plus 的用户已经可以体验到 GPT-4 模型了 「 使用会有上限,并且根据访问量来控制 , 可能会引入除 Plus 外的新的订阅级别」

API 中使用的模型是:gpt-4-0314 「 现在只支持纯文本的请求,图像输入还在 alpha 阶段, 定价:prompt – $0.03 per 1k token, completion – $0.06 per 1k token – context 长度为 8192 tokens,并且提供 32768 token 的版本(价格也更贵,$0.06 & $0.12)」

98 页论文地址,中英文两个版本,微信回复「gpt4」即可获取~

我来总结下GPT-4:吊打ChatGPT,能读图,推理强,考高分,训练更高效!

1,更强的创作能力。

GPT-4 比以往任何时候都更具创造性和协作性。它可以生成、编辑并与用户一起迭代创意和技术写作任务,例如创作歌曲、编写剧本或学习用户的写作风格。

示例:要 AI 用一个句子解释灰姑娘的情节,其中每个单词必须以字母表中从 A 到 Z 的下一个字母开头,不重复任何字母。(学习英语神器啊…)

我来总结下GPT-4:吊打ChatGPT,能读图,推理强,考高分,训练更高效!

翻译一下 ↓

美丽的灰姑娘,热切的栖居,终于获得幸福;激起嫉妒的亲人,爱情神奇地孕育出富贵的王子;悄悄拯救,拖鞋胜利,团结无比,热心青年。

我来总结下GPT-4:吊打ChatGPT,能读图,推理强,考高分,训练更高效!

发布会视频上也是各种「变态」要求AI 输出,比如字母 G 开头的单词组成的总结。

2,具备识图能力。

GPT-4 可以接受图像作为输入并生成说明、分类和分析。

示例:上传了一张图,让 AI 输出能做什么(图上有鸡蛋,面粉等)

我来总结下GPT-4:吊打ChatGPT,能读图,推理强,考高分,训练更高效!

输出内容:(机翻成中文)

你可以用这些原料做很多选择!一些可能性包括:- 煎饼或华夫饼 – 可丽饼 – 法式吐司 – 煎蛋卷或菜肉馅煎蛋饼 – 乳蛋饼 – 奶油冻或布丁 – 蛋糕或纸杯蛋糕 – 松饼或面包 – 饼干或饼干 这些只是几个例子,但可能性是无穷无尽的!

我来总结下GPT-4:吊打ChatGPT,能读图,推理强,考高分,训练更高效!

给 GPT-4 一个长相奇怪的充电器的图片,问对于这张图片有什么有趣的地方?请逐个面板地描述。

GPT-4 一一回答了,并告诉你用VGA 线充 iPhone显得十分荒诞可笑。

我来总结下GPT-4:吊打ChatGPT,能读图,推理强,考高分,训练更高效!

它能看出来「这张图片中不寻常的地方是,一个男人正在一辆行驶的出租车的车顶上,用熨斗板烫衣服。」

3,更多的文本处理能力。

GPT-4 能够处理超过 25,000 个单词的文本,允许使用长格式内容创建、扩展对话以及文档搜索和分析等用例。

我来总结下GPT-4:吊打ChatGPT,能读图,推理强,考高分,训练更高效!

给出一个url,检索到相关内容并总结。

4,GPT-4 的高级推理能力超越了 ChatGPT。

我来总结下GPT-4:吊打ChatGPT,能读图,推理强,考高分,训练更高效!

ChatGPT的输出

我来总结下GPT-4:吊打ChatGPT,能读图,推理强,考高分,训练更高效!

GPT-4 的输出

可以明显看出, chatgpt 理解上还是有些错误,GPT-4完全可以做小秘书了。

5,GPT-4 通过在测试者中获得更高的近似百分位数来优于 ChatGPT。

GPT-4 在专业和学术能力的 benchmark 上已经达到了人类水平,各类考试超过90%的人类。

我来总结下GPT-4:吊打ChatGPT,能读图,推理强,考高分,训练更高效!

图4. GPT在学术和专业考试中的表现。在每一种考试中,我们模拟了真正考试的条件和评分。考试按照基于GPT-3.5的表现从低到高排序。GPT-4在大多数测试中表现优于GPT-3.5。为了保守起见,我们报告了百分位数范围的下限,但这在具有非常宽的成绩分布的AP考试中会产生一些伪像。例如,尽管GPT-4在AP生物学(5/5)中获得了最高可能的分数,但在图中仅显示为85th百分位数,因为有15%的考生获得该分数。

我来总结下GPT-4:吊打ChatGPT,能读图,推理强,考高分,训练更高效!

表格1. GPT在学术和专业考试中的表现。在每种情况下,我们模拟真实考试的条件和评分标准。我们报告GPT-4根据考试特定的评分标准得出的最终得分,以及达到GPT-4得分的考试参与者的百分位数。

虽然在许多实际场景中GPT-4不如人类表现得好,但在各种专业和学术基准测试中表现出人类水平的性能,包括通过模拟律师考试并获得排名前10%的分数。

6,英文准确度提升,70%到85.5% ;中文准确度提升,差不多达到 GPT3.5 的英文水平。

我来总结下GPT-4:吊打ChatGPT,能读图,推理强,考高分,训练更高效!

图5. GPT-4在多种语言上的表现与英语中现有的模型在MMLU上的比较。对于绝大多数测试语言,包括拉脱维亚语、威尔士语和斯瓦希里语等低资源语言,GPT-4的表现优于现有的英语语言模型[2, 3]。

7,事实准确性大幅提升,不光能识图还能跟具问题和图片内容计算

我来总结下GPT-4:吊打ChatGPT,能读图,推理强,考高分,训练更高效!

表格14. 展示了GPT-4的视觉输入能力的示例提示。该提示包含一个问题,需要从图表中读取信息并进行计算。

我来总结下GPT-4:吊打ChatGPT,能读图,推理强,考高分,训练更高效!

这么复杂的物理题也会做。

我来总结下GPT-4:吊打ChatGPT,能读图,推理强,考高分,训练更高效!

长篇论文做总

我来总结下GPT-4:吊打ChatGPT,能读图,推理强,考高分,训练更高效!

能识别出恶搞图还能解释图的意思

我来总结下GPT-4:吊打ChatGPT,能读图,推理强,考高分,训练更高效!

「看漫画也不在话下

8,图片直接变前端html页面

我来总结下GPT-4:吊打ChatGPT,能读图,推理强,考高分,训练更高效!

我来总结下GPT-4:吊打ChatGPT,能读图,推理强,考高分,训练更高效!

来源:https://mp.weixin.qq.com/s/YNeBhXuuWH7wgGTe5sN68A

本文地址:https://www.163264.com/983

(0)
上一篇 2023年4月8日 下午11:34
下一篇 2023年4月8日 下午11:35

相关推荐