女同 a片 沃顿商学院解说发文领会o1:才气仍有短板,「东说念主机协同智能」或成AGI最进击难题
OpenAI最近送上了满血版的o1 Pro女同 a片,这一全新系列的模子究竟有多强?它能否指明AI发展的异日主义?沃顿商学院解说在3个月的前一篇博客就中给出了「神预言」一般的谜底。
o1 preview问世3个月后,满血版的o1 Pro终于在上周以每月200好意思元的身价认真上线,奥特曼堪称其为「现辞世界上最智能的模子」。
是以,这个认简直o1 Pro究竟遒劲到了什么进度?
不错深信的是,它远远不是一个走到AGI尽头的灭霸,但这是scaling law之后的又一个里程碑吗?代表着异日LLM的发展主义吗?能像OpenAI谈判院Jason Wei所说的,足以成为一个「传奇」吗?
就在o1 Pro发布确当口,沃顿商学院副解说、GenAI实验室衔尾主任Ethan Mollick拿起了这篇我方3个月前写就的博客,不错说既是模子发布前的「神预言」,亦然一盆有理有据、恰到克己的「冷水」。
Ethan Mollick暗意,早在9月份咱们第一次见到o1 preview时,他就写下了这篇博客著作,详解这个模子对当下和异日王人意味着什么。模子的质地很进击,但更为进击的是,了解模子对东说念主工智能异日的潜在真义。
底下,咱们就把这篇著作当成时分传送门,将3个月前横空出世的o1 preview和处在性价比旋涡中的o1 Pro放在一齐比较,粗略不错给当下提供更多启发。
「草莓」本事稀奇
一段时分之前,我也曾交游到了传说沸沸扬扬的被称为「草莓」的增强版推理系统,现在OpenAI将其发布了,我也终于不错共享一些观念。
这个模子的确让东说念主骇怪,但才气仍然有限,但最进击的是,它的出现指明了AI的发展主义。
新模子被称为o1-preview(此处Mollick狠狠吐槽OpenAI等一众AI公司在定名上相配恶运),让AI在惩办问题之前先「念念考」一个问题,因此能够惩办需要策划和迭代的繁难问题。
字据这张咱们王人老练的基准后果图,o1-preview在数学和科学限制尤为强悍,关于极其繁难的物理问题,甚而不错打败博士级别的东说念主类大家。
但需要明确的是,o1-preview并不是在系数方面王人有普及,比如在写稿方面就莫得比GPT-4o更强;但关于需要主义的任务来说,变化就特地大了。
由于很难评估系数这些复杂任务的输出,因此要展示「Strawberry」模子的普及(以及一些弃世),也许最浅显直不雅的法度等于游戏——比如填字游戏(crossword puzzle)。
不要轻蔑了填字游戏,这是一个下限很低但上限也很高的面容,最难的填字游戏全王人不错达到地狱模式,况兼相配查验逻辑推理才气。
电影《效法游戏》中就有这么的情节:二战时代,AI之父Alan Turing担任英国密码破译面容Enigma的负责东说念主,为了接管寰宇在数学和密码学方面的才俊,他就在报纸上登出了一个填字游戏动作报名测试,甚而临了一关的现场窥伺亦然条件a在王法时天职作念出填字游戏题。
电影《效法游戏》剧照
由于o1 preview还无法从图片中读取笔墨,因此Mollick只可我方手动打出来喂给模子。如下图所示,这是一个特地具有挑战性的难题,况兼,Mollick只挑选了18条萍踪中的8条提供给o1。
性吧有你春暖花开填字游戏关于LLM来说尤其繁难,因为需要迭代惩办:尝试并否决掉许多互相关联的谜底——这是之前的大模子无法作念到的,因为他们一次只可在谜底中添加一个token/单词。
如下图所示,淌若给Claude提供相应的萍踪,它领先给出序号1的谜底(它预料是STAR,但这个谜底是荒诞的),然后在此基础上尝试解答其余部分。
然则,由于第一颗扣子就扣错了,Claude长久王人无法接近正确谜底。淌若莫得策划经过,它就只可上前冲,并不知说念我方前进的主义是对是错。
Claude的尝试
但面对疏浚的问题时,「草莓」时会何如作念呢?
领先,它会运行「念念考」,这个过程握续了整整108秒(但大广阔问题王人能在更短的时天职惩办)。
况兼,o1念念考时并不是一声不吭,而是会「自言自语」,输出我方的「念念维链」让你看到它的观念。底下是其中的一个示例(还有更多履行未展示出来),况兼这些观念相配有启发性,值得你花点时分阅读。
在这个过程中,「草莓」反复迭代,抑制创造观念并否决其中不能行的部分,后果作念得很好,令东说念主印象深入。
但值得明慧的是,o1-preview似乎仍然基于GPT-4o,况兼未必关于言语的泄漏过于古板于字面兴味。
比如,下图右侧中1 Down的谜底是「Galaxy cluster」,这彰着并不是指实在的星系,而是Samsung Galaxy手机——「APPS」。
AI并莫得猜到这层兴味,因此抑制尝试各式星系团的称号,然则笃定Down 1是COMA(是一个实在的星系团),了然于目,其余的后果也不正确。天然不全王人顺应王法,但也特地有创意。
但自制来讲,Mollick本东说念主也莫得猜到这层兴味。淌若把「Down 1是APPS」这个萍踪提供给o1,不错看到模子又运行在接下来的1分钟内快速迭代观念(下图左侧),并正确推理出了Across 1的谜底是「ACTS」。
这里是o1在一条萍踪的基础上给出的最终谜底,全王人正确,况兼惩办了硬援用,尽管它幻想出了一条不存在的新萍踪。比较之下,身为名牌大学副解说的Ethan Mollick甚而王人没能接近这个正确谜底。
至此咱们不错发现,o1-preview作念了一些莫得Strawberry就不能能完成的事情,但它仍然不是绰有余裕的:荒诞和幻觉仍然会发生,况兼仍然受限于底层模子GPT-4o的「智能」的弃世。
天然Claude有许多优点,但比较之下,o1在复杂策划或解题方面远远胜出,代表了这些限制的弘远飞跃。
从协同智能到...
o1-preview意味着咱们正濒临东说念主工智能范式的变嫌。「策划」是智能体的一种弘扬口头,东说念主工智能不错在莫得东说念主类匡助的情况下自行得出论断并惩办问题。
不错从上头的例子中看到,AI完成了太多贫困的念念考使命,并产生了完满的后果,东说念主类动作配联合伴的扮装反而被减轻了,系数这个词过程的主体是AI完成了我方的使命并给出谜底。
天然,咱们不错筛选推理念念维链的输出来发现AI犯了哪些荒诞,但Ethan Mollick的嗅觉是,他动作叮属任务的东说念主,和AI的输出履行之间莫得什么有计划,也莫得在开拓惩办决策的走进取阐发进击作用。这不一定是赖事,但和之前不同。
跟着这些系统抑制升级并逐渐接近实在的自主智能体,咱们需要弄清怎样与其保握东说念主类在保握同步——既能拿获荒诞,又要实时察觉到咱们试图惩办的问题。
o1-preview正在缓缓拉开帷幕,解锁咱们尚未见到的AI才气,尽管它目下还存在局限性。这给咱们留住了一个重要问题:跟着AI的发展,咱们怎样进化东说念主类与东说念主工智能的配合?这是o1-preview目下还无法惩办的问题。
参考费力:
https://x.com/emollick/status/1864857524840616345女同 a片