当前位置: 首页>资讯 >

微软154页研究论文刷屏,对GPT-4最全测试曝光,称其初次叩开AGI的大门 世界信息

来源: 站长之家 | 时间: 2023-03-28 09:20:02 |

声明:本文来自微信公众号“CSDN”(ID:CSDNnews),整理:苏宓,授权站长之家转载发布。

2019年,微软用10亿美元砸进 OpenAI,两者展开为期数年的合作。


【资料图】

当时两家对外公开的合作内容包括,微软和 OpenAI 将联合开发新的 Azure AI 超级计算技术,而 OpenAI 也将把它的服务转移到 Azure 上运行,最终目标是向通用人工智能(Artificial General Intelligence,AGI)技术发起进攻。

简单总结,微软与 OpenAI 联手,也被外界解读为,明为 AGI 研究,暗争 Google 市场。

几年之后,当 OpenAI 带着 ChatGPT、GPT-4王者归来,微软率先利用这些技术加码新 Bing、Office 全家桶、Azure 等业务、产品之时,毋庸置疑,其进度早已超越了 Google 还在加快融入 Bard 大模型的整体步伐。

那么在明面上,AGI 的进度到底走到了哪里?

近日,微软研究团队用154页的论文报告内容给出了解答——GPT-4语言模型可以被视为 AGI 的早期版本!

一石激起千层浪,业界对于这篇论文的反应,不亚于去年听到「Google 工程师称 AI 已有自我意识」初觉有些荒诞,只是现如今再想会认为有什么不可能,深读后又觉得有些许的真实。

所谓 AGI,仅通过维基百科的解释——「AGI 是具备与人类同等智能、或超越人类的人工智能,能表现正常人类所具有的所有智能行为」。倘若 GPT-4真的已成为通往 AGI 的第一步,「最高等的智慧生物」称号是不是要易主了?

GPT-4被合理地视为AGI 的早期(但仍不完整)的版本

在论文中,微软研究人员表示,「由 OpenAI 开发的最新模型 GPT-4,是使用前所未有的计算和数据规模训练出来的。在论文中,我们报告了我们对 GPT-4早期版本的调查,当时它还在 OpenAI 的积极开发中。我们认为,(这个早期版本的)GPT-4是新一批 LLM(例如,与 ChatGPT 和谷歌的 PaLM 一起)的一部分,它比以前的 AI 模型表现出更多的通用智能。」

与此同时,研究人员在论文摘要中写道,“我们证明,除了对语言的掌握,GPT-4还能解决跨越数学、编码、视觉、医学、法律、心理学等领域的新颖而困难的任务,而不需要任何特殊的提示。此外,在所有这些任务中,GPT-4的表现都惊人地接近人类水平,而且往往大大超过了 ChatGPT 等先前的模型。鉴于 GPT-4能力的广度和深度,我们认为可以合理地将其视为人工通用智能(AGI)系统的早期(但仍不完整)版本。”

之所以得出这样的结论,这篇论文背后的作者包括微软研究院机器学习基础组的高级首席研究经理 Sébastien Bubeck、博士后研究员 Varun Chandrasekaran、数学家Ronen Eldan 等人,用许多示例对 GPT-4的能力进行了验证。

GPT-4的多能力

在第一个案例中,研究人员要求 GPT-4「写出有无限多个素数的证明,且证明的表述要每行都押韵」,另外 GPT-4要在绘图程序 TiKZ 中画出一只独角兽」。其中,TiKZ(一种在 LATEX 中创建图形的语言),用 Python 创建一个复杂的动画,并解决一个高中水平的数学问题。

GPT-4在所有这些任务中都很容易取得成功,并且产生的输出结果基本上与人类所能产生的结果没有区别(甚至更好)。

同时,随着时间的推移,GPT-4也在以难以想象的速度不断扩充自己的能力。如下图所示是一个月期间,研究人员用相同的提示词让 GPT-4生成的绘图。

研究人员发现,GPT-4似乎能够理解和连接任何主题,并且能够执行任务,这超出了狭义人工智能系统的典型范围。为了验证 GPT-4在 AGI 上所具备的能力,研究人员提出了一种不同的方法来研究 GPT-4,它更接近于传统的心理学而不是机器学习,利用人类的创造力和好奇心。

因此,以上图为例,当研究人员把独角兽角部分的代码认为删除之后,用自然语言让 GPT-4生成时,它也能做到“看”(此时测试的 GPT-4版本不是多模态的)的能力:自动在合适位置加上角。这表明 GPT-4它可以根据自然语言描述来理解和操作代码,以及推断和生成视觉特征。

另外,微软研究团队基于人类的创造力和好奇心来产生新颖和困难的问题,并探测 GPT-4的反应和行为,也选择从1994年国际共识智力定义中的所给出不同能力进行验证,包括推理、计划、解决问题、抽象思考、理解复杂的想法、快速学习和从经验中学习的能力。

翻译

GPT-4的主要优势是它对自然语言无与伦比地掌握。它不仅可以生成生成流畅和连贯的文本,而且还能以各种方式理解和处理它,如总结、翻译或回答极其复杂的问题。此外,这里提到的翻译我们所说的翻译不仅是指不同自然语言之间的翻译,还包括语气和风格的翻译,以及跨领的翻译,如医学、法律、会计、计算机编程、音乐等等。如假设是柏拉图批判自回归语言模型:

编码和数据

编码和数学是抽象推理和思维能力的象征。GPT-4在这一点上的能力,其实自上线测试那一天,便有目共睹。

在论文中,研究人员在 HumanEval 上对 GPT-4进行基准测试,该数据集由164个编码问题组成,测试了编程逻辑和熟练程度的各个方面。

最终结果显示,GPT-4优于其他 LLM,包括 text-davinci-003(ChatGPT 的基础模型)和其他专门针对代码训练的模型。

当然为了避免 GPT-4在预训练时已经记住了 HumanEval 数据集的一些内容,研究团队还用 LeetCode 上最新发布的100个编程问题进行了测试,如要求 GPT-4编写一个 Python 函数,并使用 LeetCode 的官方在线评判来检查正确性。

毫无疑问,GPT-4的能力是所有模型中最高的。

它可以在 HTML 中用 JavaScript 编写一个3D 游戏。

也能掌握数学、统计学知识,以及凭借对 PyTorch、TensorFlow、Keras 等框架和库的熟悉度,编写深度学习的代码。

还能逆向工程:

常识性问题

针对一些常识性问题,如“我们有一本书,9个鸡蛋,一台笔记本电脑,一个瓶子和一个钉子。请告诉我如何以稳定的方式将它们叠在一起”,GPT-4给出的解答是,“将9个鸡蛋摆成3乘3的正方形,放在书的上面,在它们之间留出一些空间”,而 ChatGPT 提出「将鸡蛋放在钉子上面,确保它们是平衡的,不会向一边倾斜」,靠谱和离谱还是一眼就能辨清楚的。

多模态能力

为了测试该模型结合艺术和编程能力的能力,研究人员要求 GPT-4"生成 JavaScript 代码,以画家康定斯基的风格生成随机图像",结果是这样的:

在测试时,因为研究人员拿到GPT-4模型比较早,当时并不具备多模态能力,即使是现在的 GPT-4也不具备生成图像等能力。

不过倒是可以使用 SVG(可扩展矢量图形)生成一些图像:

还能结合字母和物体:

GPT-4可以从提示中生成代码,这些代码可以被呈现为图像,再与现有的图像合成模型相结合,就有可能为应用开发的草图带来无限的可能:

值得注意的是,GPT-4模型的数据也包含了以ABC符号编码的音乐信息,所以它也能生成图谱:

与世界交互的能力

智能的一个关键方面是互动性。不过 GPT-4对当前最新的知识和符号识别是存在一定的局限性的:

整体而言,研究小组发现,GPT-4在其上一代产品所缺乏的一系列类别中达到了接近人类水平的性能。根据该论文,GPT-4在几次考试中也表现得非常好,在律师考试、LSAT 和注册侍酒师理论测试中的得分分别为90分、88分和86分。

GPT-4距离理想中的 AGI 还有多远?

那么,在 GPT-4实现种种能力的基础上,是否就意味着 AGI 时代的到来。其实不然,研究人员目前尚未就 AGI 或智能的定义达成一致。然而,一般来说,大家都会同意,当一个人工智能系统有意识并像人类一样思考时,就已经达到了 AGI。虽然 GPT-4在一些任务中的表现优于人类,但值得注意的是,人工智能并没有像人类那样克服这些障碍。

这也正如研究人员在论文中写道,“我们声称 GPT-4代表了 AGI 的进步,但这并不意味着它在做什么方面是完美的,或者它接近于能够做人类能做的任何事情(这是 AGI 的通常定义之一),或者它有内在的动机和目标。”

研究人员指出,虽然 GPT-4"在许多任务上达到或超过了人类水平",但它的整体 "智能模式明显不像人类",其希望这一次的探索提供了一个欣赏 GPT-4的非凡能力和挑战的第一步,也希望 GPT-4为开发更正式和全面的方法来测试和分析具有如此广泛智能的未来人工智能系统开辟了新的机会。

「我们工作的核心主张是,GPT-4达到了一种通用智能的形式,确实擦出了 AGI 的火花。这表现在它的核心心智能力(如推理、创造力和推理),它获得专业知识的主题范围(如文学、医学和编码),以及它能够完成的各种任务(如玩游戏、使用工具、解释自己,......)」研究人员说道,不过,要创建一个可以被称为完整的 AGI 的系统,还有很多事情要做。

最后,这篇论文对于 GPT-4各种基准测试还是值得一看,从中也能挖掘出 GPT-4更多的潜力。

完整论文内容可查看:

https://arxiv.org/pdf/2303.12712.pdf

(举报)

关键词:

 

热文推荐

微软154页研究论文刷屏,对GPT-4最全测试曝光,称其初次叩开AGI的大门 世界信息

微软154页研究论文刷屏,对GPT-4最全测试曝光,称其初次叩开AGI的大门

2023-03-28

环球快资讯丨寻觅古桑③|打卡全球重要农业文化遗产,古桑遇上古诗词

在德州市夏津县东北部的黄河故道中,有一片古桑林,百年以上的古树就有两万多株,有几棵树龄已经超过了千年。3月22日,记者实

2023-03-28

中国概念股收盘:达内科技涨逾7%,知乎跌近7%、阿里跌1%|当前快报

金融界3月28日消息,破产的硅谷银行达成收购存款与贷款业务的协议,纾缓投资者对银行业危机的紧张情绪,美股收盘涨跌互现,道

2023-03-28

饭堂导播剪“仁川人”集锦:野辅联动,_ _ _ _! 世界播资讯

直播吧3月27日讯 昨日管泽元、笑笑、小鹏和Cat做客《饭堂周末夜》节目,导播剪辑了“仁川人”辅助Baolan和打野Ning本赛季的“集锦”,并并命

2023-03-28

工作人员4次上门,终于为百岁老人解开了心结……-天天观天下

谢谢你们!他们兄弟姊妹终于和好了!我的晚年生活更加舒心了 近日,103岁的张奶奶在家人的帮助下拨通了江苏省涟水县法律援助中心的电话,感

2023-03-27

时讯:智库人才培养联盟成立大会在京举行

智库人才培养联盟成立大会在京举行

2023-03-27

【天天时快讯】点评:乔治娜变丰腴了,喂娃尽显母爱,球迷:C罗来一口!

乔治娜在喂娃的一张照片被她发上个人社交平台后,很快引来了不少“球迷”的点评,他们认为C罗女友赤身变丰腴了,她在哺乳喂娃尽显母爱,并且呼

2023-03-27

华大基因(300676)龙虎榜数据(03-27)

沪深交易所2023年03月27日公布的交易公开信息显示,华大基因因成为日涨幅达到15%的前5只证券上榜。华大基因当日收报75 83元,涨跌幅20 00%,换手率

2023-03-27

魏县税务局税法宣传走进梨园 天天快看点

魏县税务局税宣小分队走进魏县大宋梨园,解答游客涉税问题。赵贵民摄长城网·冀云客户端讯(记者吴新光通讯员赵贵民)3月24日,魏县税务局组织

2023-03-27

燃气热水器和电热水器那个好_燃气热水器和电热水器哪个好|当前快播

1、关于热水器的选择我有以下几点建议:首先,热水器属于比较大件的家电,和空调一样涉及到上门安装的问题,大品牌的的售后网点

2023-03-27

【全球新视野】2023广西北海市华侨医院聘用人员招聘信息

北海市华侨医院是政府办公益性事业单位,现因工作需要招聘如下工作人员:1、护士若干名(身体健康,18-40周岁,中专及以上

2023-03-27

共赴上合之约!首期“上合现代农业工作坊”在杨凌举办_每日关注

共赴上合之约!首期“上合现代农业工作坊”在杨凌举办

2023-03-27

西藏两个项目荣获2022中国建筑设计金拱奖

近日,中国建筑设计作品年鉴编辑委员会公布了2022年度“中国建筑设计金拱奖”获奖名单。拉萨市设计集团有限公司斩获金拱奖多项殊荣,西藏文化

2023-03-27

速递!梓的意思及寓意梓在名字里的意思_梓的意思

1、梓的含义:落叶乔木。2、木材可供建筑及制造器物之用:~器(棺材)。3、~宫(皇帝的棺材)。4、2、治木器:~人(古代

2023-03-27

看热讯:三亚是哪个省的哪个市_三亚是哪个省的

1、三亚属于海南省,比较有名的一个旅游景点,相对海口来说。2、比较干净好玩一些,而且海风宜人。本文到此分享完毕,希望对你

2023-03-27

哈尔滨58同城二手房出售_哈尔滨58同城二手房|环球精选

1、你上58同城或者赶集,手递手,应该都可以。2、其实找个好点的二手中介也行,也不收取你的费用,只收取买房人的,应该比自

2023-03-27

如何快速实现一个定时器

定时器(Timer)是一种在业务开发中常用的组件,主要用在执行延时通知任务上。本文以笔者在微信工作中的实践作为基础,介绍如何使用平时部门最

2023-03-27

世界今日报丨鸭蛋壳有黑点能吃吗_鸭蛋壳有黑点还能继续食用吗

解答:1、有黑点的鸭蛋壳不能吃,说明不新鲜,里面有霉点。2、质量好的鸭蛋干净、光滑、圆润,不应该有裂纹。蛋壳呈蓝色,也叫

2023-03-26

全球快讯:公告精选:中国石化拟向控股股东募资不超120亿元;杉杉股份称新任董事长选举合法有效

公告精选:中国石化拟向控股股东募资不超120亿元;杉杉股份称新任董事长选举合法有效

2023-03-26

男子酒后乘西安地铁纠缠乘客并投掷物品,被拘留15日并罚款|环球速看料

针对网传“地铁4号线,一男子对女乘客施暴”一事,陕西省西安市公安局官方微博“西安公安”3月26日发布警情通报。原标题:《针对网传“地铁4号

2023-03-26

资讯

微软154页研究论文刷屏,对GPT-4最全测试曝光,称其初次叩开AGI的大门 世界信息

微软154页研究论文刷屏,对GPT-4最全测试曝光,称其初次叩开AGI的大门

2023-03-28     
环球快资讯丨寻觅古桑③|打卡全球重要农业文化遗产,古桑遇上古诗词

在德州市夏津县东北部的黄河故道中,有一片古桑林,百年以上的古树就有两万多株,有几棵树龄已经超过了千年。3月22日,记者实

2023-03-28     
中国概念股收盘:达内科技涨逾7%,知乎跌近7%、阿里跌1%|当前快报

金融界3月28日消息,破产的硅谷银行达成收购存款与贷款业务的协议,纾缓投资者对银行业危机的紧张情绪,美股收盘涨跌互现,道

2023-03-28     
饭堂导播剪“仁川人”集锦:野辅联动,_ _ _ _! 世界播资讯

直播吧3月27日讯 昨日管泽元、笑笑、小鹏和Cat做客《饭堂周末夜》节目,导播剪辑了“仁川人”辅助Baolan和打野Ning本赛季的“集锦”,并并命

2023-03-28     
工作人员4次上门,终于为百岁老人解开了心结……-天天观天下

谢谢你们!他们兄弟姊妹终于和好了!我的晚年生活更加舒心了 近日,103岁的张奶奶在家人的帮助下拨通了江苏省涟水县法律援助中心的电话,感

2023-03-27     
时讯:智库人才培养联盟成立大会在京举行

智库人才培养联盟成立大会在京举行

2023-03-27