中美“围剿”英伟达，万亿 AI 芯片市场难独霸

热搜大全 > 新闻热搜 > 科技热搜 > 正文

中美“围剿”英伟达，万亿 AI 芯片市场难独霸

热搜大全 2023-09-24

在 2023 外滩大会期间拍摄的英伟达 logo（来源：钛媒体 App 编辑拍摄）

随着英伟达率先占领 AI 大模型算力芯片市场，并超过万亿市值。而同时，英特尔、AMD 和中国 GPU 芯片公司也在暗暗较劲，希望在 AI 算力芯片市场中分一杯羹。

9 月 19 日，美国圣何塞举行的 Intel On 技术创新大会上，62 岁英特尔 CEO 基辛格（Pat Gelsinger）" 火力全开 "，以俯卧撑开场演讲。

此次会议上，基辛格一口气发布一系列新技术产品：基于 Intel 4（5nm）工艺的英特尔酷睿 Ultra 处理器，代号 "Meteor Lake"；预览第五代至强服务器芯片和后续至强产品路线图；披露 5nm AI 芯片 Gaudi 3 等。

中美“围剿”英伟达，万亿 AI 芯片市场难独霸

英特尔 CEO 基辛格（Pat Gelsinger）现场做俯卧撑场景

相比往届，此次基辛格 " 变身皮衣老黄 "，全场近 2 小时大谈 AI 算力对经济的作用。据钛媒体 App 统计，此次演讲中，基辛格约有 200 次提到 " 人工智能 "、" 深度学习 " 相关术语。

几乎在同一时间，英特尔、英伟达的竞争对手 AMD 公司，发布了最新 EPYC 8004 CPU（中央处理器）芯片，并预计年底前出货 MI300 系列 AI 芯片，以对抗英伟达。此外在国内，包括华为、天数智芯等 AI 芯片厂商也在积极布局大模型训练推理和 AI 算力产品。

" 我们与 AI 算力芯片市场领导者英伟达竞争非常激烈。但无论是 Gaudi2 还是 Gaudi3，都比他们往前迈出了一大步。我们正在获得动力，市场开始意识到，AI 芯片行业领导者中还有另一个机会。" 基辛格 9 月 20 日对 CNBC 表示。

市场竞争加剧，" 老黄 " 难以独食万亿 AI 算力

2023 年至今，以 ChatGPT 为代表 AI 大模型 " 热潮 " 席卷全球，大模型正推动 AI 向更通用方向发展。

同时，算力的稀缺和昂贵已成为制约 AI 发展的核心因素。而算力也成为了全社会数字化、智能化转型的重要基石，从而带动智能算力需求激增。

据 AMD 首席执行官苏姿丰（Lisa Su）提供的数据显示，2023 年，全球数据中心 AI 加速器的潜在市场总额将达到 300 亿美元左右，预计到 2027 年，这一数字将超过 1500 亿美元（约合人民币 1.095 万亿元），年复合增长率超过 50%。

英伟达企业运算副总裁曼努维尔 · 达斯（Manuvir Das）给出了另一组数据显示，预计 AI 所在的潜在市场（TAM）规模将增长至 6000 亿美元。其中，芯片和系统可分得 3000 亿美元，生成式 AI 软件可分得 1500 亿美元，另外 1500 亿美元则由英伟达企业软件贡献。

很明显，AI 算力芯片市场是一块大 " 蛋糕 "。

但目前，英伟达却占据全球数据中心 AI 加速市场 82% 的份额，而且以 95% 的市场占有率垄断了全球 Al 训练领域的市场，成为这轮 AI 混战中最大赢家。而黄仁勋和他的英伟达公司赚的盆满钵满，市值超越 1 万亿美元。

与此同时，算力需求的激增，直接导致英伟达 GPU（图形处理器）" 一卡难求 "。而有多少英伟达 A100 显卡，已经成为衡量一个公司算力的标准。

中美“围剿”英伟达，万亿 AI 芯片市场难独霸

事实上，一家企业若想研发通用大模型，在算力层面需首先关注两点：显卡数量和价格。

其中，显卡数量方面，OpenAI 使用了 1 万 -3 万颗英伟达 GPU 来训练 GPT-3.5 模型。据集邦咨询最新报告显示，如果以英伟达 A100 显卡的处理能力计算，运行 ChatGPT 将可能需要使用到 3 万块英伟达 GPU 显卡。另外在开源模型方面，Llama 模型则是在 2048 块 80GB A100 上训练，整个训练算力接近 2000 PTOPS 算力。

价格方面，目前国内可以买到的 H800 价格已经高达 20 万 / 张，而 A100/A800 价格已涨至 15 万、10 万 / 张左右。以 2000P 算力需求为例，H800 GPU 单卡算力 2P，需要 1000 张，预测整个卡价格为 2 亿元；A800 单卡算力约为 0.625P，需要数量为 3200 张，预计整个显卡价格就高达 3.2 亿元。

除了买 GPU 显卡，服务器还要考虑整机配置运算，包括 CPU、存储、NV-Link 通讯连接等，以及电力消耗、场地租金和运维成本等因素。

当下，A800 和 H800 服务器主要以 8 卡机型为主，为了满足 2000 P 的算力，就需要配置 125 台 8 卡 H800 服务器，或 400 台 8 卡 A800 服务器，价格分别为 3 亿元、5.6 亿元。而且，由于 H800 还支持 PCIe 5.0、新一代的 CPU 和内存等，因此需要提升价格，才能发挥其最优的算力性能。

所以，从大模型训练角度看，购买 H800 的总成本要低于 A800，性价比更高，而且也比搭建 CPU 的成本要低——这也就是英伟达 CEO 黄仁勋最近常说的：" 买的越多，省的越多 "。

当然，如果你实在买不起也没关系。英伟达还贴心地推出在线租赁服务 DGX 超级 AI 计算系统，通过租赁的方式开放给企业，搭配 8 个 H100 或者是 A100 的 GPU，每个节点 640GB 内存，每月租金为 37000 美元，从而不用自建数据中心购买大量 GPU 显卡。这类租赁方式毛利率很高，根据一份关于微软 " 云端算力租赁 " 服务报告显示，该业务毛利率高达 42%，已成为微软新的 " 现金奶牛 "。

那么国内市场，英博数科、商汤 AIDC 和其他超过 11 个智算中心 / 云厂商也有类似的服务，对于大模型来说，整体价格要比自建价格减少 20% 以上。

此外还有大模型训练时间。英伟达最新发布的 NVIDIA L40S GPU，比 A800/H800 模型训练效率更高。一个 70 亿参数的模型，HGX A800 跑完需要 17 个小时，而 L40S 速度要快 1.3 倍，短短半天时间就跑完了，更不用说一个 1750 亿参数的模型，用 L40S 一个周末时间就能训练完。

中美“围剿”英伟达，万亿 AI 芯片市场难独霸

总的来说，一家企业要做大模型，需要在算力成本方面就要耗资数亿元，而这才只是 " 入场券 "。

早前有消息称，百度、字节跳动、腾讯和阿里巴巴已经向英伟达下单订购价值 50 亿美元的芯片，加上此前的囤积的显卡数量，国内拥有英伟达 GPU 显卡总额超过千亿元。市场调研机构 Counterpoint 发布报告称，尽管半导体行业周期性下行未止，但腾讯、百度等中国企业仍在大举采购英伟达 A800 芯片。

那么，这么一个万亿级规模的重要市场，无论是芯片企业，还是下游客户，都不想看到 " 英伟达 " 一家独占鳌头。因此，AMD、英特尔和中国 GPU 芯片企业纷纷试图挑战英伟达在 AI 芯片市场的霸主地位。

中美“围剿”英伟达，万亿 AI 芯片市场难独霸

AMD 首先出击。

AI 芯片方面，今年 1 月 2023 年消费电子展（CES）上，AMD 董事长、CEO 苏姿丰（Lisa Su）正式发布下一代面向数据中心的 APU（加速处理器）产品 Instinct MI300，采用台积电 5nm 6nm 结合的 Chiplet 架构设计，集成 CPU 和 GPU，拥有 13 颗小芯片，晶体管数量高达 1460 亿个，AI 性能和每瓦性能是前代 MI250 的 8 倍和 5 倍（使用稀疏性 FP8 基准测试），将在 2023 年下半年量产供货。

随后 6 月，AMD 还公布全新专为生成式 AI 打造、拥有 1530 亿个晶体管的 AI 加速芯片 Instinct MI300X、Instinct MI300A 等产品，在存储容量、互联带宽方面均有提升，MI300X 的晶体管数量比 H100 多两倍，HBM3 高带宽内存是 H100 的 2.4 倍。单颗芯片上可以运行 800 亿参数的大模型，预计今年底之前发货。

这不仅全面展示收购赛灵思之后的数据中心 AI 技术能力，而且也在挑战英伟达 AI 算力芯片霸主地位。

当然不止是 GPU 和 AI 芯片，AMD 最擅长的就是做 CPU（中央处理器）芯片，毕竟数据中心需要 CPU 的通用计算能力。去年 11 月，AMD 发布了采用 Zen 4 架构的第四代数据中心 EPYC 9004 系列，代号为 " 热那亚 "（Genoa），不仅架构升级，苏姿丰还在这颗芯片上堆料堆到了极致：台积电 5nm 制程，96 个核心，192 个线程，384M 三级缓存，支持 PCle5.0。

与英特尔的八核处理器相比，AMD 的数据中心、边缘计算 CPU 系列在能耗、性能方面都有很大提升，包括热那亚芯片面积减少 40%，同时能源效率提高 48%。

今年 9 月，AMD 则推出最新第四代 EPYC 8004 系列，将 "Zen 4c" 核心引入专用 CPU，提供从智能边缘（例如零售、制造和电信）到数据中心、云计算等领域。

事实上，亚马逊云 AWS 发布了基于热那亚 M7A 通用计算实例，最终结果显示，性能相比前一代提升 50%，而相比英特尔第四代至强白金版 8490H 版，热那亚在多个应用场景的性能提升达 1.7-1.9 倍，整体的能效提升达 1.8 倍，全面用于金融建模、天气模拟、药物研发等高性能计算领域。另外在 IoT Edge 网关工作负载中，最新八核 EPYC 8024P 供电的服务器也为每 8kW 机架提供大约 1.8 倍的总吞吐量性能。

整体来看，无论是 CPU、GPU，还是 FPGA、DPU 数据中心处理器，或是软件栈工具 AMD ROCm 系统，AMD 都已经做好了准备，正 " 磨刀霍霍 " 以挑战英伟达的产品。

作为成立 60 多年的芯片巨头，英特尔也不想将市场 " 拱手让人 "。

今年 7 月 11 日，芯片巨头英特尔公司（Intel）在北京发布面向中国市场、采用 7nm 工艺的 AI 芯片 Habana Gaudi2，可运行大语言模型，加速 AI 训练及推理，运行 ResNet-50 的每瓦性能约是英伟达 A100 的 2 倍，性价比相较于 AWS 云中基于英伟达的解决方案高出 40%，并预计今年 9 月性价比超越英伟达最新 H100。

英特尔执行副总裁 Sandra Rivera 今年 7 月对钛媒体 App 表示，不可能有唯一一家企业独霸 AI 芯片市场。因为市场需要多样性，并且客户也希望看到更多的芯片企业在 AI 领域发挥领导作用。

中美“围剿”英伟达，万亿 AI 芯片市场难独霸

英特尔 CEO 基辛格（Pat Gelsinger）

9 月，在美国圣何塞举办的英特尔 On 技术创新大会上，基辛格宣布采用 5nm 制程的 AI 芯片 Gaudi 3 将于明年推出，届时，其算力将会是 Gaudi 2 的两倍，网络带宽、HBM 容量则会是 1.5 倍。

同时，基辛格还预览第五代英特尔至强可扩展服务器处理器，称下一代至强将拥有 288 核心，预计将使机架密度提升 2.5 倍，每瓦性能提高 2.4 倍。另外，英特尔还发布 Sierra Forest、Granite Rapids，与第四代至强相比 AI 性能预将提高 2 到 3 倍。

阿里云首席技术官周靖人表示，阿里巴巴将第四代英特尔至强处理器用于其生成式 AI 和大语言模型，即 " 阿里云通义千问大模型 "，而英特尔技术大幅缩短了模型响应时间，平均加速可达 3 倍。

此外，对于 AI 大模型训练来说，比较重要的是软件生态。英特尔宣布与 Arm 公司合作，使其至强产品部署到 Arm CPU 上，同时推出 AI 推理和部署运行工具套件 OpenVINO，不仅支持预训练模型，而且只需编写一次即可部署任何可用的关键跨平台支持，已支持 Meta 的 Llama 2 模型。

同时，Linux 基金会在本周还宣布成立统一加速（UXL）基金会，提供开放标准的加速器编程模型，简化高性能、跨平台应用程序的开发，核心是加速演进英特尔 oneAPI 计划，创始成员包括 Arm、谷歌云、英特尔、高通、三星等公司——英伟达不在其中。

英特尔公司高级副总裁、英特尔中国区董事长王锐对钛媒体 App 等表示，英特尔后续将发布拥有 288 核的处理器。数据中心在未来也会越来越多，英特尔将推出 Gaudi3、Falcon Shores 等产品，产品矩阵将构成未来加速器与 AI 计算发展的路线图。

" 我们把 AI 的能力内置到芯片中。根据不同需求，内置 AI 能力将使用不同算力、不同架构来提供支持。" 王锐表示，在数据中心方面，从客户端到边缘端，再到云端，AI 已经渗透到各种应用场景；从进行大语言模型训练到进行小规模、普惠语言模型训练，AI 的影响力无处不在。

今年 8 月底基辛格表示，他认为英特尔正迈向达成其宏大的整顿目标，朝着恢复在产业的领先地位前进。而谈及英伟达时，基辛格坦承英伟达布局良好，能抓住支持 AI 软件扩张所需系统的需求，但他说，英特尔很快将开始赢得这些加速器芯片市场的订单。

" 他们做得很好，我们都赞扬他们。但我们即将展现实力。" 基辛格表示。

英伟达市值蒸发千亿美元，国产芯片能否抓住机遇？

英伟达在 2023 年的辉煌表现，似乎在近两个月有所减弱。

根据 Refinitiv 的数据显示，尽管英伟达今年股价上涨约 190%，表现十分亮眼，但其在 9 月的股价表现不佳：自 8 月 31 日以来，英伟达股价已下跌超过 10%，总市值蒸发了超过 1760 亿美元。

事实上，英伟达股价下跌因素有很多。

首先，市场对美联储为了抑制通膨而将利率维持在较高水准更长时间的担忧加剧，整个股市承压，标准普尔 500 指数 9 月平均下跌 0.7%、迄今下跌近 4%。

其次，以 LIama 2 为代表的开源模型陆续发布，更多企业开始直接使用这些模型，仅需要 AI 推理芯片即可应用，这导致了对算力训练芯片的需求有所减少。

最后，据 The Information 报道，英伟达一直非常关注一些美国中小型云计算公司的显卡供应情况，在当前 " 一卡难求 " 的情况下，英伟达对谷歌、Meta 等大公司以及中国企业的后续服务和显卡供应，似乎不再是首要优先，而这直接导致市场对于英伟达产品供应能力的质疑。

当然，瑕不掩瑜，英伟达在 AI 算力市场有很大的先发优势。除了 GPU 芯片性能领先外，其庞大的 AI 软件生态 CUDA 让很多人望尘莫及。另外，英伟达的 NVLink 高速 GPU 互连技术也成为大模型技术提升的 " 关键法宝 "，它的作用远高于 GPU 单卡本身。

百川智能创始人、CEO 王小川曾提到，在该行业中，GPU 的算力成本大概占 40%-70%，而其中网络连接成本和 GPU 显卡成本的比例大概为 3：1。

" 未来如果往更高模型去发展，算力储备非常关键。从训练、推理两部分看，推理需要有国产 AI 芯片，而不止有英伟达，但训练目前只有英伟达做的最好。这场‘算力仗’，中国的国产 AI 芯片必须要能顶上。" 王小川表示。

实际上，除了两大芯片巨头之外，随着国内 " 百模大战 "，AI 算力需求激增，但英伟达 AI00/H100 等多款 AI 芯片限制向中国出口，国内企业越来越难拿到美国的高端芯片。

2022 年 10 月，美国商务部下属工业和安全局（BIS）发布出口管制新规，量化各项芯片算力、带宽、制程等指标，限制美国企业对中国出口，其中关于高算力芯片的限制，直接冲击中国 AI、超算、数据中心等相关行业发展。主要满足 AI 等需求的 GPU（图形处理器）厂商英伟达，8 月就接到了美国政府限制有关先进芯片出口的通知。

英伟达反应迅速，2022 年三季度就投产了 A800 芯片，以替代无法继续向中国出货的 A100。这也是美国公司为此推出的首个 " 特供 " 产品。英伟达并未对外公布关于 A800 的详细参数，不过，其经销商提供的产品手册显示，A800 峰值算力与被限制出口的 A100 一致，但传输速率被限制在 A100 的三分之二，以符合美国政府的相关要求。而最新的 " 中国特供版 "H800 的训练算力则比 H100 要差约 40%，如果没有英伟达提供的互连模块，算力差距可达 60% 以上。

英特尔则于 2023 年 7 月为其 Gaudi 2 产品推出中国版本。Gaudi 2 是一款 ASIC（专用集成电路）芯片，主要面向高性能深度学习 AI 训练。与 2022 年 5 月公布的国际版相比，中国版 Gaudi 2 中集成的以太网端口由 24 个减少为 21 个。英特尔当时称，这是一个相对较小的变动，对实际性能表现影响有限。基辛格日前表示，目前公司正在中国销售 Gaudi 2 中国版，他希望之后一直这样做下去。

所以在国外芯片限制影响下，华为、天数智芯、寒武纪、登临科技等国内 AI 算力公司积极布局，以填补国产 AI 算力空缺。

目前，国产 AI 算力市场主要分为三大派别：一是华为鲲鹏和昇腾 AI 生态的算力方案，其中没有英伟达 GPU 的参与；二是混合型算力支持，大量采用英伟达 A100 芯片，并在部分环境中加入 AMD、英特尔以及天数智芯、寒武纪、海光等芯片，以支持大模型的训练；三是租用性价比更高的服务器云算力，以补充算力不足情况。

今年 8 月举行的 2023 亚布力中国企业家论坛第十九届夏季高峰会上，科大讯飞创始人、董事长刘庆峰表示，华为的 GPU 技术能力现在已经与英伟达 A100 相当，现在已经做到对标英伟达 A100。

9 月 20 日，华为副董事长、轮值董事长、CFO 孟晚舟表示，华为推出全新架构的昇腾 AI 计算集群，可支持超万亿参数的大模型训练。华为将持续打造坚实的算力底座。

天数智芯的董事长兼 CEO 盖鲁江透露，目前，多家国内大模型公司已开始使用国产 GPU 显卡，且该公司已与北京智源研究院合作运行了 AquilaCode-7B 模型和 650 亿参数的模型。另外，其他国产 GPU 企业多数正处于 AI 推理训练阶段。

盖鲁江认为，在国内，英伟达在训练领域的市场份额高达 95% 以上，部分达到 99%，基本实现了垄断，这主要得益于其硬件架构和广泛应用的 CUDA 生态——已有超过 300 万全球用户。当前，国内 GPU 企业面临生态迁移难题，由于众多基于 CUDA 的代码，转向新生态将需大量时间和成本。

在最近一场圆桌活动上，登临科技联合创始人兼首席架构师王平提到，对于 AIGC 的客户来说，不仅需要文本生成图片等解决方案，更重要的是实用的产品。因此，需要具有大算力和通用性强的算力产品落地应用，为客户创造价值。据悉，登临科技的新一代 AI 芯片产品能耗比国际主流通用 GPU 产品有 3 倍以上的优势。

盖鲁江表示，对于天数智芯来说，下一步计划优化产品迭代，需依赖数据、客户反馈与技术创新，并针对国内特殊需求进行调整。同时，公司会积极完善生态体系和软件栈，确保用户在效率、成本、性能和性价比上获得最优体验，以推动产品进一步商业化。

王平认为，由于获取美国高端芯片的难度增加，虽然国内尚无企业能生产能真正替代的芯片，但他相信国产算力会不断增长。芯片需不断迭代，用户越多，问题反馈越多，国产 AI 芯片企业才能在后续迭代中改进，提升使用体验。

" 对国内通用 GPU 企业来讲，这是一个重大的机遇。" 盖鲁江告诉钛媒体 App。

（本文首发钛媒体 App，作者｜林志佳编辑 | 马金男）