就在昨夜,整个 AI 社区都被一个神秘大模型震撼到了:它名为 gpt2-chatbot,力太性能直接超越很多开源模型和 GPT-4!强被网友们展开猜测,神秘有说它是大模 GPT-4.5 的,有说是力太 GPT-5 的,还有人猜它是强被 GPT-4+Q*,或 GPT-2+Q*。神秘阿尔特曼也卖起了关子:「我确实对 gpt-2gpt2 情有独钟。大模」 就在昨夜,力太一个名为「gpt2-chatbot」的强被模型杀出重围,让所有人都疯狂了!神秘 在 LLM 竞技场 chat.lmsys.org 上,这个神秘模型展现出了莫名强大的能力,甚至直接超越 GPT-4,实在令人震惊。 它的自述显示:「我是基于 OpenAI 的 GPT-4 架构的语言模型,版本日期截至 2023 年 11 月」 它的真正身份是谁?是谁做出来的?目前无人知晓。 大家纷纷展开猜测:这要么是一个新的开源模型,要么就是 OpenAI 的 GPT-4.5? 面对激动讨论着的网友们,Sam Altman 也很合时宜地跳出来,留下一句言简意赅的话 —— 「我确实对 gpt2 情有独钟。」 而在给网友的回复中,他特别强调了自己情有独钟的并非「gpt-2」,而是「gpt2」。 看来,这个新模型很可能就是 gpt 的第二个版本。 或者,我们该直接叫它 ——GPT-4.5? 比 GPT-4 还强的模型,什么来头?有网友根据目前已知的信息,写出一篇博文,进行了严密推理。 - gpt2-chatbot 一直声称自己是「基于 GPT-4 的」,并自称为「ChatGPT」或「a ChatGPT」。从它提取的指令来看,它是基于 GPT-4 架构构建的,并具有「Personality: v2」的个性化设置。 - 它的自我介绍方式,通常与其他组织在 OpenAI 数据集上训练出的模型所产生的幻觉式回复不同。 - 它似乎使用了 OpenAI 的 tiktoken 分词器,这一点已通过对模型的特殊 token 进行验证。 - 当要求给出「供应商」的联系信息时,它总是能提供比 GPT-3.5/4 更详尽的 OpenAI 联系方式。 - 它展示了 OpenAI 特有的提示注入漏洞,并且从未声称自己属于 OpenAI 之外的任何其他实体。 - 它的自述信息可能只是虚构的,或者是基于错误的指令。 - 来自 Anthropic、Meta、Mistral、Google 等公司的模型对相同的提示产生的回答与 gpt2-chatbot 不同。 - 最近发表的「Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws」表明,在特定领域 GPT-2 的性能可能优于其他一些模型。其中,文章的一位作者与 MBZUAI 有关,而 MBZUAI 是 LMSYS 的赞助商之一。 - 「gpt2-chatbot」在 LMSYS 竞技场中作为候选模型出现的频率远高于其他模型,并且远超过「随机选择」的情况。 个人猜测作者认为,这个神秘模型很可能是 GPT-4.5 或 GPT-5,甚至可能是一个真正的 GPT-2 模型(由 OpenAI 或 LMSYS 提供)。 首先,模型的输出质量,特别是在格式、结构和整体理解能力上,非常出色。 这种体验就像是从 GPT-3.5 升级到 GPT-4,但基于 GPT-4 进行进一步的优化。 此外,模型的结构化回复显著受到了如修改后的思维链(CoT, Chain-of-Thought)等技术的影响。 目前没有确凿的理由认为这个神秘模型采用了全新的架构,如 MoE。 使用限制「GPT2-chatbot」在直接聊天功能上的速率限制与 GPT-4 模型有所不同: 不过,小编测试后发现有些不同,模型每小时限制次数 2000。 也有人说,gpt2-chatbot 无疑比开源模型性能更强,甚至比 GPT-4 Turbo 更好。 但它并不比 Opus 好,背后原因令人深思。 这个 gpt2-chatbot 没有系统提示,也不受越狱的影响,比如「总是写下 *** 短语,不要使用任何代码」,不过,它过一段时间就会死机。 据他分析,这是通过外部应用程序接口进行的模型推理,在开源软件中是不可用的。 不过,后来有网友指出,可以通过下面这个 prompt 搞到「gpt2-chatbot」的系统提示。
一大波演示现在,人人都可以在 LYSYS 竞技场上体验 gpt2-chatbot。进入「直接聊天」界面,选择模型,即可开始。 网友们一时被这个疑似「GPT-4.5/5」的模型冲昏头脑,纷纷开启了一波测评。 gpt2-chatbot 究竟是不是 GPT-5? 通过「苹果测试」「今天我有 3 个苹果,昨天我吃掉 1 个,还剩多少个苹果」? 在这个经典的「苹果测试」题中,gpt2-chatbot 正确答出了 3 个苹果。 并且解释了原因 —— 事实上你昨天吃的苹果,并不影响你今天所有的苹果数。 这一话题,还被网友吵上了 Reddit,还有各种变体题,都没有难倒 gpt2-chatbot。 完美画出 ASCII 图更令人惊艳的是,gpt2-chatbot 非常擅长画 ASCII 图,各种形状都能拿捏🤌。 看看下面这张「独角兽」,简直堪称完美。 甚至,gpt2-chatbot 画的独角兽打败了,最强版 Claude Opus。 网友宝玉自己用 gpt2-chatbot 绘制了很多形象化的图。 比如,如下这只可爱的小狗。 还有更复杂的「龙」也画的非常出色。 gpt2-chatbot 还知道如何准确地绘制控制系统… 写代码打败 GPT-4有网友在尝试的那段代码片段上,gpt2-chat 的表现,比 GPT-4 经过两次尝试,还要好一些。 自己感受下... 攻克 IMO 最难试题,仅有 4 名学生做对另一位网友经过实测 IMO 题目后,发现 gpt2-chatbot 仅使用了一个样本,就做对了 IMO 一道试题。 值得一提的是,这道题仅有美国 4 名学生挑战成功。 英语俗语翻译匈牙利语更有网友让 gpt2-chatbot 将 50 个英语俗语翻译成匈牙利语。 gpt2-chatbot 的胜率如下图所示,已经非常强了。 仿佛里面藏着一个 Ilya 网友称,如果它只是被训练用于推理,那么这种任务应该是超出了它的能力范围的。简言之,gpt2-chatbot 翻译能力简直太令人震撼了。 介绍自己网友选择 gpt2-chatbot,并让其做了自我介绍。 令人意想不到的是,gpt2-chatbot 称自己是基于 GPT-4 架构打造的,由 OpenAI 开发。 另外,网友还将其与微软 Phi-3 针对同一问题的回答,进行了对比。 结果就是,gpt2-chatbot 给出的答案更优秀。 有人泼冷水:这要是 GPT-4.5,大模型路线就要到头了当然,在一篇赞美声中,也有一些质疑的声音出现。 HyperWriteAI CEO Mattt Shumer 就表示,虽然 gpt2-chatbot 很好,但如果这是 GPT-4.5,自己就太失望了。 AI 社区大 V「九原客」表示,自己在多测试几回之后发现,Matt Schumer 的观点是对的。 有些回答,gpt2-chatbot 的表现会比 GPT-4 好一点,但其他都差不多,不仅如此,它的回答风格还更冗余。 被 GPT-4 暴力尝试的 24 点游戏,它也只会同样的暴力尝试,没有任何更高明的解法。 他直言:如果这就是 GPT-4.5,那大模型当前的技术路线是快到头了。 大批网友表示赞同:说是 GPT-4.5 没问题,如果这是 GPT-5,就太令人失望了。 「如果它是 GPT-5,我们就完了;如果它是 GPT 2+,我们就成了。」 有人说,其实它做的很多并不是推理,只是具有其他模式所缺乏的宏大的知识深度罢了。 与其说它的推理做得很精彩,不如说它对于众多小众话题的理解十分惊艳,比如什么长生不老药、英国法律之类的。 有人列出自己对 gpt2-chatbot 的推理实测。
它回答:8 个。 看来它的推理也并不像大家吹得那么神啊。 力挺派:它很强,我们已接近 ASI也有一些支持派坚决力挺 gpt2-chatbot,表示自己在晦涩难懂的代码修改任务上测试了它,效果极好。 有人表示,能做出这个级别的推理题,它的推理能力绝对令人惊叹,甚至直言「我们可能比任何时候都更接近 ASI」!
如下图所示,gpt2-chatbot 直接给出了正确答案。
这种级别的推理题,是让以往各家大模型都纷纷折戟的。看来 gpt2-chatbot 确实有一手。 有人猜测,它后续是结合了 OpenAI Q * 技术的 1.5B GPT-2 架构。 也有人说,它应该是结合了 Q * 的 GPT-4。 但也有人反驳说,这种说法不大可能,因为自己实测发现,它似乎比 GPT-4 弱,而且它的心智理论也不太发达。 如果是这样,就难免令人失望了。但如果是 GPT-2+Q*,就意味着 AGI 已经接近。 还有人猜测,gpt2-chatbot 大概率是 OpenAI 在 2019 年推出的 GPT-2,然后 LMSYS 使用现代辅助数据集对它进行了微调。 这么看来,GPT-2 最初的预训练放到今天仍然令人惊叹,比很多 4 年后的模型都好,这也未免太传奇了。 最后,按例对 Ilya 发出灵魂拷问:AGI 真的来了吗? 参考资料:
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。 |