打造能 " 理解宇宙真正本质 " 的人工智能。
在 ChatGPT 发布一年之后,生成式 AI 已经成为一个具有确定性的技术浪潮,而伊隆 · 马斯克旗下的 xAI 公司计划在本周将它 11 月初发布的大模型 Grok 接入 X 平台(推特),对 X Premium 订阅者们开放。
xAI 在今年 7 月成立,之后迅速训练出 Grok-0 这个基础模型,然后又经过调优进化成 Grok-1。这个模型虽然参数只有大约 330 亿,但是能力已经超过 llama2 70B 和 GPT-3.5,尤其在数学和编码方面表现突出。研究团队也在大模型的推理能力和可靠性方面开展研究。
马斯克组建了一个豪华的核心技术团队,团队成员们来自 DeepMind、OpenAI、谷歌研究院、微软研究院、特斯拉和多伦多大学,主导过多个 AI 基础算法研究和知名 AI 项目,华人比例奇高,其中还有两位研究人员的论文引用数超过 20 万。
Grok 将通过独家访问 X(原推特)及其实时的用户生成的帖子和信息来实现差异化,它能访问在 X 上发布的最新数据,并在用户询问实时问题时提供最新信息。
01 打造 " 追求真理的 " 的 AI,马斯克组建了豪华核心团队
作为 xAI 的创始人,马斯克对 AI 有深刻的积累和认知。一方面,早在 2013 年,他就开启了特斯拉在自动驾驶方面的探索,目前特斯拉的自动驾驶硬件迭代到第四代,FSD 算法迭代到 V12 版本,并将在近期更新。
另一方面,马斯克是 OpenAI 的联合创始人之一,当 OpenAI 还是非盈利研究组织时,他为 OpenAI 注入了 5000 万 -1 亿美元资金,支持它的早期发展。而 OpenAI 的联合创始人之一 Andrej Karpathy 在 2017 年 6 月 -2022 年 7 月担任特斯拉的 AI 总监,主导着特斯拉的自动驾驶项目。
2018 年,马斯克离开了 OpenAI,根据 OpenAI 的博客文章和马斯克后来的推文,理由是防止随着特斯拉更加专注于人工智能而与 OpenAI 产生利益冲突;根据 Semafor 报道,马斯克曾提议他接管 OpenAI 的领导,并在提议被拒绝后离开;而《金融时报》报道称,马斯克的离开也是由于与其他董事会成员和员工在 OpenAI 的人工智能安全方法上的冲突。
在离开 OpenAI 多年,且 ChatGPT 引发了 AI 热潮后,马斯克于今年 7 月宣布成立 xAI,这家公司的目标是构建能 " 理解宇宙真正本质 " 的人工智能。

马斯克在接受采访时表示:" 从人工智能安全的角度来看,一个极度好奇的人工智能,一个试图理解宇宙的人工智能,将会支持人类。"
豪华的核心技术团队
马斯克搭建了一个豪华的核心技术团队,他们来自 DeepMind、OpenAI、谷歌研究院、微软研究院、特斯拉和多伦多大学。
他们在过去主导过不少 AI 研究和技术的突破,例如 Adam 优化器,对抗性示例,Transformer-XL,Memorizing Transformer,自动形式化等。此外,还包括 AlphaStar、AlphaCode、Inception、Minerva、GPT-3.5 和 GPT-4 等工程和产品方面的重要成果。
这个团队除了来自大厂和研究院外,还有一个特点是大多数拥有扎实的数学、物理背景。

例如 xAI 联合创始人杨格(Greg Yang )在哈佛取得数学学士与计算机硕士学位,师从丘成桐。丘成桐带着杨格出席活动、认识各个方向的博士生、数学家,还推荐他申请数学界本科生能取得的最高荣誉:摩根奖。

杨格透露,xAI 将深入研究人工智能的一个方面— " 深度学习的数学 ",并 " 为大型神经网络发展‘万物理论’ ",以将人工智能 " 提升到下一个层次 "。
除了作为联合创始人的杨格外,在核心团队中还有张国栋 (Guodong Zhang),戴自航 (Zihang Dai),吴宇怀(Yuhuai Tony Wu),以及之后加入的 Jimmy Ba、xiao sun、Ting Chen 等华人成员,他们都在底层技术上有建树。
戴自航(Zihang Dai)是 CMU 和 Google Brain 于 2019 年发布预训练语言模型 XLNet 论文的共同一作,这个模型在 20 项任务上超越了当时的 SOTA 模型 BERT。

戴自航 2009 年入读清华经管学院的信息管理与信息系统专业,此后前往 CMU 开启六年的计算机硕博生涯,师从 Yiming Yang。在博士期间深度参与图灵奖得主 Yoshua Bengio 创立的 Mila 实验室,Google Brain 团队,并在博士毕业后正式加入 Google Brain,担任研究科学家,主要方向为自然语言处理、模型预训练。
张国栋( Guodong Zhang)本科就读于浙江大学,他在辅修的竺可桢学院工程教育高级班中连续三年排名专业第一;此后,他前往多伦多大学攻读机器学习博士学位。

读博期间,他在 Geoffrey Hinton 的指导下,作为谷歌大脑团队的实习生从事大规模优化与快速权重线性注意力研究(Large-scale optimization and fast-weights linear attention),而他也在多智能体优化与应用、深度学习、贝叶斯深度学习等领域发表顶会论文。
博士毕业后,张国栋全职加入 DeepMind,成为 Gemini 计划(直接对标 GPT-4)的核心成员,负责训练与微调大型语言模型。
吴宇怀 Yuhuai ( Tony ) Wu的高中和大学时光均在北美度过,他本科在纽布伦斯威克大学读数学,并在多伦多大学获得机器学习学位,师从 Roger Grosse 和 Jimmy Ba(也是 xAI 核心团队成员)。

在求学期间,吴宇怀在 Mila,OpenAI,DeepMind 和 Google 做过研究员。而在他的一项研究中,他和其他研究人员训练了一个增强大语言模型 Minerva,这个模型数学能力很强,在波兰的 2022 年国家数学考试中,答对了 65% 的问题。这与 xAI 深入研究 " 深度学习的数学 " 的目标非常匹配。
Jimmy Ba曾担任多伦多大学的助理教授(AP),他的本硕博也都在多伦多大学完成,博士时的导师是 Geoffrey Hinton。

他还是加拿大先进研究院人工智能主席,长期目标是如何构建具有类人效率和适应性的通用问题解决机器。Jimmy Ba 在谷歌学术的引用数达到 200844,而光是与 Adam 优化器有关的论文就超过 16 万,2015 年与注意力相关的论文引用也超过 1.1 万。他事实上也是现在大模型技术的理论奠基人之一。
xiao sun在北京大学获得学士学位,在耶鲁大学获得 EE 的博士学位,此后在 IBM Watson 和 Meta 担任研究科学家。他的技术背景不在于 AI 模型,而在于 AI 相关的硬件和半导体,尤其是 AI 的软硬件协同。他曾获得 MIT TR35(35 岁以下创新 35 人)奖项。
Ting Chen在北京邮电大学获得学士学位,在美国东北大学和 UCLA 分别获得一个博士学位。之后他在谷歌 Brain 担任研究科学家,他的谷歌学术总引用数达到 22363。他引用数最高的论文提出 SimCLR,一个简单的视觉表示对比学习框架。这篇论文是与 Geoffrey Hinton 合作的,引用数达到了 14579。
除了 Jimmy Ba 外,创始团队中还有另一位谷歌学术论文应用数超过 20 万的资深研究者,他是Christian Szegedy。Szegedy 是吴宇怀在谷歌时的团队负责人,在谷歌工作了 13 年,有两篇论文引用数超过 5 万,另有多篇超过 1 万,文章的方向都指向 AI 的本质性算法研究。Szegedy 是波恩大学应用数学博士。
Igor Babuschkin和Toby Pohlen共同参与了 DeepMind 著名的 AI 项目 AlphaStar,AlphaStar 从 50 万局「星际争霸 2」游戏中学习,随后自己玩了 1.2 亿局来精进技术。最终,它达到了最高的宗师段位,水平超越了 99.8% 玩家。
02 Grok-1 模型能力仅次于 GPT-4,在推理和数学能力上优化
xAI 在 11 月初发布了他们的第一个基础大语言模型 Grok-1(约 330 亿参数),这个模型是在它们的原型大模型 Grok-0 的基础上经过微调和 RLHF 完成。他的训练数据截至 2023 年第三季度,输出上下文长度为 8k。
据称,Grok-0 只使用了一半的训练资源,就达到了接近 llama 2 70B 的能力,之后又在推理和编码能力进行了针对性的优化。
在 xAI 官方公布的测试中,我们可以评估 Grok-1 的能力。在这个评测中,主要包括:
1.GSM8k:中学数学文字问题,使用思维链提示。
2.MMLU:多学科选择题,考验综合理解能力。
3.HumanEval:Python 代码完成任务,考验编码能力。
4.MATH:中学和高中数学问题,用 LaTeX 编写,考验更高阶的数学能力。

从图表中可以看出,Grok-1 在几乎所有的测试中都领先 llama 2 70B 和 GPT-3.5,在 HumanEval 和 Math 这两个测试中更是大幅领先 llama 2 70B。但是它与 Claude2 和 GPT-4 仍然存在可见的差距。
不过鉴于 Grok-1 的模型规模应该只有 33B,而且训练资源上只花费了 llama 2 70B 的一半,我们可以说它在效率方面有突出表现。未来若推出参数规模更大的版本,能力还有提升的空间。
由于以上的测试都比较主流,为了摒除刻意优化的因素,xAI 测试了 Grok 与主要竞争对手在 2023 年匈牙利国家高中数学期末考试上的实际表现,这更贴近真实场景,为表公平,xAI 没有为这次评估做特别的调整。

实验结果显示,Grok 以 C 级(59%)通过了考试,而 Claude-2 也获得了相同的成绩(55%),GPT-4 则以 B 级(68%)通过。
除了大模型,xAI 还公布了 PromptIDE,这是一个集成的开发环境,专为提示工程和可解释性研究而设计。PromptIDE 的目的是为了让工程师和研究人员能够透明地访问 Grok-1。这个 IDE 旨在赋予用户能力,帮助他们快速探索 LLM 的能力。
在 11 月初刚发布大模型时,Grok-1 只对有限的用户开放,在本周 xAI 计划将 Grok 的能力向 X Premium 订阅者们开放,xAI 也为 Grok 提供了搜索工具和实时信息的访问权限,这一点相较于其他模型具有差异化优势。
它还提供专用的 " 趣味 " 模式、多任务处理、可分享的聊天和对话反馈。趣味模式将是所有功能中最有趣的,因为它赋予 Grok 独特的个性,使其能够以带有讽刺和幽默的方式进行更吸引人的对话。
03 大模型的竞争格局会变么?能力将往何处发展?
在 ChatGPT 发布正好一年的这一天,看起来 OpenAI 的模型能力和生态产品建设在各个大模型厂商中仍旧是明显领先的。能够与它竞争的公司 Anthropic,Inflection,包括 xAI 都还处于追赶态势。谷歌,亚马逊等大厂也仍然落后。
基础大模型厂商之间的竞争,是全方位的竞争,而且鉴于 AI 模型预训练需要的高成本,当未来模型版本迭代时,又需要持续投入巨大的算力和资金成本。除此之外,找到能够充分释放模型能力价值的场景也非常重要,不然无法形成反馈的循环。
目前来看,xAI 不缺人才,也不缺算力和资金,此外因为 X(推特)的存在,它也不愁在前期找不到应用场景。尽管 Grok-1 现在的绝对能力与 GPT-4 仍然有差距,但是当后续它有更大规模参数的版本出现后,将会大大缩小与 OpenAI 的距离。
大模型的竞争是大厂与超级独角兽的竞争,但是正因为有这些公司在竞争和迭代,做应用的公司和终端的用户才会有越来越强,越来越便宜的 AI 能力使用,最终所有行业都会被 AI 翻新一遍。
在大模型进入公众视野一年后,对于大模型的局限性我们有了更清楚的认知,那就是推理能力和可靠性的不足。而在发展方向上,肯定是多模态。
xAI 为了应对这些问题,也做了定向研究,对于推理能力不足,他们研究可扩展的工具辅助监督学习,让 AI 和人类协同对 AI 模型进行调优。
对于 AI 的可靠性不足,他们研究形式验证,对抗性鲁棒性等技术,增强 AI 的可靠性。此外,尽管目前 Grok 因为参数量的原因在多模态能力上不如 GPT-4 等模型,但是 xAI 也在积极研究这个方向,未来会有具备视觉和音频能力的模型。
科技热搜 喜马拉雅 天猫精灵 手表 设备 韭菜 新闻 资讯 直播 视频 美图 社区 本地 热点 2023-08-07
科技热搜 华为 芯片 余承东 华为mate 雷蒙 新闻 资讯 直播 视频 美图 社区 本地 热点 2023-09-29
科技热搜 华为mate google pixel oppo find x iphone 新闻 资讯 直播 视频 美图 社区 本地 热点 2023-11-17
娱乐热点 造型 韩国 尺度 中国人 穿着 新闻 资讯 直播 视频 美图 社区 本地 热点 2024-02-04
娱乐热点 导演 a股 李产 股市 陈真 新闻 资讯 直播 视频 美图 社区 本地 热点 2024-01-18
曾被卖出19万美元高价!这台初代iPhone太猛了
科技热搜 2024-03-13
科技热搜 2024-03-13
科技热搜 2024-03-13
科技热搜 2024-03-13
科技热搜 2024-03-13
科技热搜 2024-03-13
科技热搜 2024-03-13
科技热搜 2024-03-13
科技热搜 2024-03-13
科技热搜 2024-03-13