在技术不断发展的世界里,埃隆-马斯克的冒险很少引起波澜。在发出停止培养比 GPT-4 能力更强的法学硕士的号召几周后,马斯克玩起了他的招牌动作:他做了与他所宣扬的完全相反的事。进入 xAI–马斯克的最新创意–以及他在周六宣布的全新 LLM–Grok。
Grok揭幕!
Grok 是一种人工智能,以《银河系漫游指南》(Hitchhiker’s Guide to the Galaxy)为蓝本,因此它几乎可以回答任何问题,而且更难的是,它甚至可以建议你问什么问题!
Grok 的设计目的是回答一些机智的问题,并且具有反叛倾向,所以请不要使用它……
– xAI (@xai) 2023年11月5日
这家企业之所以成为头条新闻,不仅是因为马斯克的参与,还因为该公司能够从领先的初创企业和科技巨头那里吸引到一流的人工智能研究人员。xAI 以旨在 “理解世界 “的人工智能为诱人外衣进行宣传,但对其活动的 “方式 “和 “内容 “却一直神秘地遮遮掩掩……至少在上周之前是这样。
这究竟是马斯克挑战现状的又一经典举动,还是利用前辈们所带来的巨大人气和炒作效应而大肆吹嘘的聊天机器人?
好
连续的实时知识流
Grok 可以访问所有 Twitter 内容,因此有可能成为改变游戏规则的工具。正如 xAI 所强调的,Grok 将部署 “世界实时知识”,呈现人工智能研究人员所称的 “人类反馈强化学习”(RLHF),处理新闻和有关时事的各种评论。
通过从不同角度研究事件,并吸收社区的推特笔记(本质上是注释),Grok 将从多方面的世界观中获益。
根据最近的研究,人们已经改变了自己的行为方式,在转向主流媒体之前,首先在社交媒体上寻找新闻。Grok 与 Twitter 的整合可以为用户提供即时评论、上下文,如果执行得当,还可以进行现场事实核查,从而进一步加快这一进程。正如 xAI 所强调的,实时洞察功能可确保 Grok 掌握世界脉搏,从而及时做出相关回应。
趣味模式:埃隆的梦想照进现实
。
埃隆-马斯克(Elon Musk)对好玩的人工智能的愿景似乎已经通过 Grok 所谓的 “好玩模式 “得以实现。这一功能可以让 LLM 创造笑话,给出幽默但事实准确的回答,并为用户提供异想天开的休闲对话。
现有的 LLM(如 ChatGPT)面临的挑战之一是,一些用户认为这些 LLM 为确保政治正确性而过于精炼,可能会使互动变得不那么有机和自发。此外,一些本地化的 LLM 不适合长时间互动。Grok的趣味模式有望填补这一空白,有可能成为那些希望放松的人的一种引人入胜的消遣方式。
Grok可通过平台获取实时信息,这是它优于其他车型的一大优势。
它还喜欢讽刺。我不知道谁会这样引导它♂️ pic.twitter.com/e5OwuGvZ3Z
-埃隆-马斯克(@elonmusk)2023年11月4日
。
这个概念并不新鲜,Quora 的 Poe 就提供了类似的服务,它的聊天机器人经过精心调试,每个都有独特的个性。但是,如果将 Grok 的功能内置到 LLM 中,体验就会提升到一个新的水平。
全国互联网接入
Grok的另一个显著特点是无需插件或其他模块即可访问互联网。
虽然浏览功能的具体范围尚未明确,但这一想法非常诱人。想象一下,MJO 可以实时交叉引用数据,从而提高事实的准确性。结合对 Twitter 内容的访问,Grok 可以彻底改变用户与人工智能的交互方式,因为用户知道他们收到的信息不仅仅是基于预先存在的训练数据,而是经过不断更新和验证的。
多任务
其中提到,Grok 能够进行多任务处理,允许用户同时进行多个对话。用户可以浏览不同的话题,等待一个话题的回复,然后继续另一个话题。
聊天机器人还提供了分支对话功能,通过提供所有对话分支的可视化指南,用户可以在不打断主要讨论的情况下深入某些领域,从而更方便地在不同话题之间进行浏览。
Grok 还提供了一个内置标记符编辑器,允许用户下载、编辑和格式化 Grok 回复,以供日后使用。该工具与分支功能相结合,确保用户可以处理特定的对话分支,并无缝地重新参与对话。
这些是 Grok 的部分用户界面功能。首先,它允许您执行多项任务。您可以同时开始多个对话,并在对话过程中进行切换。pic.twitter.com/aXAG0M2oPF
-托比-波伦(@TobyPhln)2023 年 11 月 5 日
。
最小审查:自由发言的人工智能
埃隆-马斯克(Elon Musk)对 Grok 的愿景很明确:一个不回避说出自己数字思想的人工智能。
虽然所有优秀的人工智能聊天机器人都有防护栏,以避免潜在的伤害或错误信息,但有时你也会感到受限。用户注意到,ChatGPT、Llama 和 Claude 等模型可能会暂缓回复,以避免潜在的冒犯。然而,这可能会导致过滤掉善意的或真正想要的回复。
Grok 允许用户更自由地进行回复,因此可以提供更真实、更无拘无束的对话体验。正如 xAI 所强调的那样,Grok 的设计使其能够回答其他人工智能系统可能绕过的多汁问题。
Grok 简介!
Grok 是一款仿照《银河系搭车指南》设计的人工智能,因此它几乎可以回答任何问题,而且更难的是,它甚至还能建议你问什么问题!
Grok 的设计初衷是回答一些机智的问题,它也有叛逆的倾向,所以请不要使用它……
– xAI (@xai) 2023年11月5日
显然,这种人工智能提供了实时信息、幽默、准确和自由的独特组合。然而,与任何创新一样,也有挑战和潜在隐患需要考虑。
坏处
仓促开发和有限培训
。
Grok的快速发展从一开始就引发了一些问题。正如 xAI 所说,”Grok 仍然是一个非常早期的测试版产品–我们只能通过两个月的培训来做到最好”。在 LLM 的世界里,两个月和 330 亿个参数听起来不过是沧海一粟。
从这个角度来看,OpenAI 的开发过程是透明的,它提到:”我们花了六个月的时间反复调和 GPT-4。开发时间上的差异表明,Grok 的开发可能是匆忙赶在人工智能浪潮之前进行的。
此外,x.AI 并未报告 Grok 培训期间的硬件使用情况,这也给人们留下了猜测的空间。
关于参数
对于新手来说,LLM 中的参数代表了模型可存储的信息或知识量。它们决定了人工智能处理和生成信息的能力,从而显示了人工智能的有效脑容量。Grok拥有330亿个参数,乍听之下令人印象深刻。
然而,在 LLM 的竞争格局中,它只是另一个参与者。事实上,它的参数数量可能不足以满足复杂的企业需求和高质量的结果,而 ChatGPT、Claude 和 Bard 等巨头已将其视为黄金标准。
在某种程度上,参数数量少也是 Grok 在 HumanEval 或 MMLU 等关键基准测试中未能击败其他主要模型的原因:

Source: x.AI
除了参数数量,还有上下文处理问题,即人工智能聊天机器人在一次输入中能理解多少信息。Grok 在这方面的表现并不突出。根据 xAI 的数据,Grok 能理解 8,192 个词条的上下文,但 GPT-4 却能处理多达 32,000 个词条,而 Claude 则更进一步,能理解多达 100,000 个词条。OpenAI 的新型 GPT-4 Turbo 可达到 128,000 个字符的上下文窗口。
创新的价值
价格是评估任何产品价值的关键因素,Grok 也不例外。聊天机器人将提供给愿意每月支付 16 美元与之互动的用户。
有了 Claude 2 和配备 GPT-3.5 Turbo 的 ChatGPT 这样的免费产品,Grok 可能会很难卖出去–尤其是考虑到这些免费机型的准确性都很高,在一些基准测试中已经超过了 Grok。
更重要的是,即使是市场上最强大的 LLM–GPT-4,也有望超越 Grok,而且还具有广泛可用、多模态和功能强大的额外优势。
Grok 人工智能助手 @xAI 将作为 Premium+ 的一部分提供,因此我建议您注册使用。
通过互联网每月只需 16 美元。https://t.co/wEEIZNjEkp
– Elon Musk (@elonmusk) 2023 年 11 月 4 日
Grok 的推出会不会主要是为了增加 Twitter Blue 的订阅量,从而增加 Twitter 的收入来源?
这些担忧凸显了 Grok 在法律硕士领域立足的挑战。它的不足之处还不止于价格。
丑陋
小说
以流行小说中的虚构人物作为法学硕士的研究对象无疑是一种创造性的选择。虚构人物的魅力固然诱人,但在一个越来越依赖准确信息的世界里,它也蕴含着固有的风险。向人工智能寻求严肃问题或建议的用户可能会发现自己与一个模仿喜剧人物的系统格格不入。
此外,随着虚构与现实之间界限的模糊,人们担心用户可能会将滑稽或讽刺性的回复误解为事实信息。在一个所有信息都会被分析和共享的数字时代,这种误解可能会造成广泛的后果。尤其是在涉及多种语言的情况下。
幽默和诙谐固然有其存在的意义,但重要的是要取得平衡,尤其是当用户在寻找关键性的见解时。将幽默置于准确性之上可以娱乐大众,但也会破坏法律硕士应提供的本质:可靠的信息。
过度妥协,执行不力
。
埃隆-马斯克(Elon Musk)对格罗克(Grok)的宏伟承诺为不可能实现的高期望值创造了条件。深入调查发现,噪音与现实之间可能存在脱节。传统的 LLM 训练方法受到训练数据的限制,这凸显了一个关键的局限性:它们无法真正进入 “超级人工智能 “的领域。
与其他 LLM 巨头相比,拥有 330 亿个参数和数月开发时间的 Grok 训练显得相形见绌。虽然虚构的俏皮个性听起来很吸引人,但指望它利用标准训练方法取得革命性的成果可能有些牵强。
人工智能界对夸大其词的说法并不陌生,但随着该领域的快速发展,用户必须辨别真伪。要获得 “超级人工智能 “的地位是一项巨大的挑战,以Grok目前的配置和训练水平,不太可能达到这一要求。
事实上,为了证明 Grok 的能力,埃隆-马斯克曾将其对话聊天机器人比作一个接受过编程训练的小型 LLM。可以说,这不是一场公平的较量。
Grok与典型GPT的对比示例,Grok拥有实际信息,而另一个则没有pic.twitter.com/hBRXmQ8KFi
-埃隆-马斯克(@elonmusk)2023年11月5日
。
错误信息的威胁
LLM是强大的,但并非无懈可击。在缺乏严格标准的情况下,区分事实与虚构是一项艰巨的任务。最近的历史提供了一些警示故事,比如根据 4chan 的数据训练出来的聊天机器人,甚至是早期被允许在 Twitter 上互动的微软聊天机器人 Tay。这些机器人不仅发表仇恨言论,还伪装成真人,愚弄了大量网络受众。
本周,在AI上发布了一个@huggingface模式,该模式会产生有害+歧视性的文字,并且已经在网上发布了3万多条恶毒的评论(作者说)。
这项实验绝不会通过人类 ethics 委员会的审核。以下是我的建议。
1/7 https://t.co/tJCegPcFan pic.twitter.com/Mj7WEy2qHl
– Lauren Oakden-Rayner ️⚧️ (@DrLaurenOR) 2022年6月6日
。
这种对错误信息的调侃并不是孤立的。自从埃隆接管 Twitter 后,Twitter 的形象大打折扣,人们可能会担心 Grok 能否持续提供准确的信息。法律硕士有时会产生幻觉,如果这些歪曲的信息被认为是事实,其后果可能会令人担忧。
潜在的错误信息是一颗定时炸弹。随着消费者越来越依赖人工智能来获取洞察力,错误信息可能会导致错误决策。Grok 要想成为值得信赖的盟友,就必须小心谨慎,确保自己的游戏行为不会掩盖真相。
错过多模式机会?
在人工智能飞速发展的今天,Grok 的纯文本方式已成为过去式。虽然用户需要为 Grok 的服务付费,但他们可能会质疑为什么,尤其是当其他 MLP 提供更丰富的多模态体验时。
例如,GPT-4-v已经在多模态领域取得了长足进步,它拥有听、看、说的能力。谷歌即将推出的 “双子座”(Gemini)也将具备类似的功能。在这样的背景下,Grok 的产品似乎显得力不从心,让人对其价值主张产生了更多疑问。
市场竞争激烈,消费者的要求也越来越高。如果 Grok 希望为自己开辟一片天地,就必须提供真正出类拔萃的产品。从目前的情况来看,由于竞争对手提供了更好的功能和更高的精确度–通常是免费的–Grok要做的事情还很多。
结论
Grok项目的推出引起了人们的兴奋,但也有很多人持怀疑态度。其基于 MVP(最小可行产品)的方法可以根据用户反馈进行快速迭代和改进。但是,与拥有更多资源的人工智能巨头竞争是一场艰苦的战斗。
要想取得成功,Grok 需要具备既新颖又实用的功能。在拥挤的市场中,仅有娱乐价值是不够的。拥有人工智能的人不会被可爱的狗狗备忘录所吸引。
归根结底,Grok 的命运取决于创新与实用之间的平衡。虽然健康的怀疑态度是公平的,但完全否定它可能为时过早。Grok 可能开拓新的领域,也可能成为人工智能进化史上的一个注脚。无论如何,Grok 的非传统起源将确保它成为人工智能发展史上引人入胜的一章。