拿起运行百亿参数模型的手机，0.6秒就进入了AI世界

热搜大全 > 新闻热搜 > 科技热搜 > 正文

拿起运行百亿参数模型的手机，0.6秒就进入了AI世界

热搜大全 2023-11-10

作者｜包永刚

编辑｜王川

年初在手机上用 AI 生成一张图还需要 15 秒，半年多后的今天只需要 0.6 秒，0.6 秒大概就是点击一下鼠标点时间，数码发烧友瑞泽被手机 AI 进化的速度吓到。

让瑞泽同样吃惊的是，10 月底发布的 AI PC 处理器骁龙 X Elite，能够以 30 tokens/s 的速度运行 70 亿参数的生成式 AI 模型。

这比普通人每分钟阅读 200-300 个单词，也就是每秒处理 5-7 个 tokens 的速度，快了好几倍，就算问 AI PC 数字助理一个复杂答案，马上就能得到答案。

触手可及的智能手机和 AI PC，已经成为了进入 AI 世界的任意门。

走进终端 AI 的任意门里，用一张自拍照，无需等待就能生成超乎想象的照片；让手机 " 看 " 几秒食物，就能知道是否还能食用；对着贴身数字管家说出旅行的要求，瞬间就能获得专门定制的旅行计划。

"生成式 AI 在终端上的应用呈几何式增长，一年前我们只能看到一两个用例，现在有数百个，预计到 2024 年我们将会看到上千个用例，骁龙将会发挥非常核心的作用。"高通公司总裁兼 CEO 安蒙说，" 我们见证了下一个转型的开始，AI 将无处不在。"

拿起运行百亿参数模型的手机，0.6秒就进入了AI世界

每一次重大技术革命的背后，都需要底层强大的计算和连接力作支撑，高通会成为这场 AI 变革的主角，让端侧 AI 像电力一样全面融入普通人的生活。

能跑百亿参数大模型，手机变身进入 AI 世界的「任意门」

瑞泽最常用的手机 AI 功能是拍照，他没料到，最新旗舰级第三代骁龙 8 具备运行 100 亿参数的生成式 AI 模型的能力后，不仅能将前后摄像头的画面实时合成在一起，将视频中多余的人或物体去除，大幅增强夜景视频效果，还带来了超越想象的全新功能。

拿起运行百亿参数模型的手机，0.6秒就进入了AI世界

" 照片扩展 " 就是一个让人眼前一亮的新功能，用户使用任意照片进行缩放，生成式 AI 都能让照片看起来具有广角的效果。比如用一朵花的照片，缩放后马上就能会变成一片花海的照片。

拿起运行百亿参数模型的手机，0.6秒就进入了AI世界

端侧生成式 AI 还有更多用法，如果用在工作中，一个电话会议结束之后，马上就能获得通话中聊到的重要事项并添加待办事项；如果想去一个目的地，手机可以基于你所在的位置给出最符合你出行习惯的路线规划；如果你想开始徒步，简单输入个人信息，再扫描一下皮肤状态，就会有私教般的运动训练建议。

拿起运行百亿参数模型的手机，0.6秒就进入了AI世界

这些任务都是在手机端完成，完全不用担心隐私问题，也不用付月费，高通和合作伙伴就像是打开了生成式 AI 世界的任意门。

如此让人眼前一亮的端侧 AI 应用的实现并非一蹴而就，在 AI 领域投入超过 10 年的高通，2015 年首次将 AI 技术集成到商用的产品用，用于增强音频技术，此后逐步将 AI 应用到了影像和视频技术中。

拿起运行百亿参数模型的手机，0.6秒就进入了AI世界

三年前高通启动第三代骁龙 8 开发时，终端智能就被放在了首位，这也是为什么第三代骁龙 8 一发布，手机端 AI 大模型文字生成图片的速度就能从 15 秒速降到 0.6 秒。

"0.6 秒的运行时间带来一个优势，可以将这一模型嵌入相机应用。"高通技术公司产品管理高级副总裁 Ziad Asghar 对雷峰网表示，" 消费者通常希望拍摄之间最多间隔 1-2 秒，如果运行一次模型需要 15 秒，将无法使用。"

第三代骁龙 8 如何实现数量级的 AI 性能提升？

强大的硬件是基础，第三代骁龙 8 的 CPU 性能相比前代提升高达 30%，GPU 性能提升 25%，Hexagon NPU 性能直接翻倍，第三代骁龙 8 的 AI 性能站在了行业之巅。

" 通过改进架构，提高向量加速器主频、升级独特的微切片推理技术等方式，来加速 Transformer 网络推理。" 高通技术公司产品管理总监 Lekha Motiwala 介绍，第三代骁龙 8 支持业内最新的 LPDDR5-x 内存，频率达到 4.8GHz，通过更快的数据速度和更大带宽支持用户运行更大、更复杂的 AI 模型。

要让第三代骁龙 8 能够以每秒生成 20 个 token 的速度运行大语言模型（如 Llama2），还需要升级高通 AI 软件栈工具。

" 我们先将庞大的 AI 模型量化到 INT4，实现了性能、精度和能效间的绝佳平衡。再充分发挥业界最快 DDR 内存的优势，凭借 77GB/s 吞吐量来支持 LLM，以惊人的速度运行量化模型。"Ziad Asghar 说，"Hexagon NPU 能够以闪电般的速度支持 LVM。我们采用了一个 100 亿参数模型，并使用了蒸馏等先进技术和高效的 UNET 模型，大大加快了扩散过程，达到了 0.6 秒这个如此惊人的速度。"

Ziad Asghar 透露，SnapFusion 支持 Snap 以同样快的速度生成图像，而不会牺牲图像质量。SnapFusion 将在 2024 年支持 Snapchat Dreams 功能，支持用户生成超乎想象的自拍图片。

拿起运行百亿参数模型的手机，0.6秒就进入了AI世界

要激发基于第三代骁龙 8 平台的端侧 AI 创新，少不了高通 AI 软件栈的优化。

高通 AI 软件栈的核心是高通神经网络处理 SDK 和高通 AI 引擎 Direct，连接芯片与所有主流 AI 框架，高通利用托管模型，开发者可以直接使用 TensorFlow、ONNX、PyTorch，轻松访问 Hexagon NPU，这将大幅降低基于第三代骁龙 8 移动平台进行 AI 创新的门槛。

除了 AI 图像生成，聊天机器人也是生成式 AI 世界的另一类重要应用。

为了让能够实现聊天机器人功能的大模型在终端上流畅运行，高通使用了推测性解码的技术。" 我非常兴奋地宣布，这是预测解码首次在边缘终端中使用。"Ziad Asghar 说。

拿起运行百亿参数模型的手机，0.6秒就进入了AI世界

如果要为聊天机器人加上一个虚拟形象，可以利用高通 AI 引擎中 Adreno GPU 强大的渲染能力，渲染出嘴形和声音同步的 AI 虚拟形象。

出色的 AI 体验还不能仅靠单一的输入或输出形式，视觉、文本、语音的结合更为直观，这就是多模态 AI。

第三代骁龙 8 支持多模态 AI，还能充分利用用户手机上的全部数据，利用 LoRA 等端侧学习技术，可以在保障用户数据隐私的同时，让终端侧的 AI 模型变好的同时更加个性化。

比如，询问 AI 助理回家的最佳路线或推荐的餐厅时，云端 AI 方案给出的回复是通用答案。而基于第三代骁龙 8 的 AI 终端，发挥高通传感器中枢与终端侧大语言模型持续协作，能够基于用户的年龄、最喜欢的活动、当前位置等个人信息生成定制化回复。

以搭载第三代骁龙 8 手机为代表的终端侧 AI，性能足，节省成本和时间，并且更加隐私和安全、还能提升个性化，是触手可及的 AI 世界任意门。

拿起运行百亿参数模型的手机，0.6秒就进入了AI世界

同样触手可及的 PC 也会是进入 AI 世界的任意门吗？

AI 性能 6 年提升 100 倍，AI PC 提高效率又激发创意

AI PC 才是进入 AI 世界的另一个任意门。

"回顾行业历史，仅有两项其他技术像如今的 AI 一样具有颠覆性。二十世纪六七十年代，命令行的盛行使得个人电脑的广泛使用成为可能。二十世纪九十年代，图形用户界面让普通用户能够轻松、容易地使用 PC。" 惠普公司高级总监 Bobby Moore 在 2023 骁龙峰会上说，"AI 正推动 PC 计算变革，使其变得更加个性化、更加自然、更加直观。"

高通技术公司高级副总裁兼手机、计算和 XR 业务总经理阿力克斯 · 卡图赞（Alex Katouzian）也表示，" 目前，我们在衡量 PC 性能方面处于转折点，虽然 CPU 和 GPU 依旧至关重要，但同时我们引入了第三个衡量维度：终端侧 AI。"

过去很长一段时间，普通消费者选择笔记本电脑的时候很难兼顾轻薄外形和高性能，骁龙 X Elite 的发布，让笔记本电脑实现了轻薄外形下的超高性能和超高能效，特别是强大的 AI 功能。

拿起运行百亿参数模型的手机，0.6秒就进入了AI世界

骁龙 X Elite 搭载的高通自研 Oryon CPU，相比苹果 M2 Max，实现相同单线程性能，Oryon CPU 能耗减少 30%。对比专门为高性能游戏终端设计的 i9-13980HX CPU，Oyron 实现相同性能功耗降低 70%，成为了 PC 移动处理器领域性能和能效的新标杆。

GPU 性能也艳压群雄，与性能领先的 x86 集成 GPU 相比，骁龙 X Elite 的性能领先高达 80%，达到竞品的最高性能功耗可以降低 80%。

作为专为 AI PC 而生的处理器，骁龙 X Elite 的 AI 性能更加惊艳，Hexagon NPU 算力可以达到 45 TOPS，是竞品近期发布 NPU 的 4 倍。包含 CPU、GPU 和 NPU 在内的整个高通 AI 引擎，可以让骁龙 X Elite 的 AI 性能达到 75TOPS。

骁龙 X Elite 高达 75TOPS 的 AI 性能，是高通骁计算平台 6 年 AI 性能提升 100 倍里程碑。这样强劲的 AI 性能可以在没有云端资源的情况下运行超过 130 亿参数的 AI 生成式模型。

拿起运行百亿参数模型的手机，0.6秒就进入了AI世界

与第三代骁龙 8 一样，骁龙 X Elite 的 Hexagon NPU 同样做了大量升级，包括增加全新的供电系统兼顾极致性能和功耗，引入微切片推理，对张量加速器进行升级，增加共享内存规模。

这让骁龙 X Elite 这个性能猛兽应对 AI 任务游刃有余。

DaVinci Resolve 的付费版包含一系列在好莱坞创意界被广泛使用的 AI 强大功能，比如 MagicMask 支持近乎即时的物体追踪 / 轮镜、AI 赋能的自动字幕生成和剪辑，以及音轨分离和对话平衡器来实现卓越音质。

对于支持 AI 的计算密集型 Magic Mask，骁龙 X Elite 比采用集成 GPU 的高端十二核 x86 处理器快 1.7 倍。Magic Mask 在骁龙 X Elite 的集成 NPU 上运行，比在同为 Arm 架构的 12 核处理器上运行快 3 倍，这是让所有创作者兴奋的效率提升。

将于 2024 年发布的搭载骁龙 X Elite 的笔记本电脑，可以运行原生 ARM64 的 DaVinci Resolve。

AI 原生公司 Uniphore 用上为 AI 而生的骁龙 X Elite，AI PC 作为生产力工具的效率会进一步提升，Uniphore 将生成式 AI 模型用于语音到文本转录、情绪分析和通话摘要，帮助企业交付更高质量的服务的同时，降低使用云端 AI 的成本。

" 商业笔记本电脑大约占一半的 PC 销量。" 高通技术公司产品管理高级总监 Nitin Kumar 表示，"94% 的商界领袖表示，AI 已在工作中提高生产力。在 IT 决策者中，AI 是影响购买决策的最大因素。新的研究表明，近一半的 IT 决策者准备基于 AI 性能更换 PC 品牌。骁龙 X Elite 恰逢其时。"

拿起运行百亿参数模型的手机，0.6秒就进入了AI世界

大幅提升效率的同时，骁龙 X Elite 还能激发出更多 AI 用例，骁龙 X Elite 集成的高通传感器中枢进行了升级，性能提高 2 倍的同时还保持超低功耗，加上率先引入的始终感知 ISP，端侧 AI 节省成本和时间，更加隐私和安全、提升个性化的优势，也能在 AI PC 上展现的淋漓尽致，让 PC 游戏更有沉浸感，生产效率更高。

端侧生成式 AI 的大门全面开启

与 AI PC 和手机开启 AI 无处不在时代的，还有各种形态的终端 AI 设备。

2023 骁龙峰会上最新推出的高通 S7 音频平台的 AI 性能是前代平台的 100 倍，强大的 AI 能力可以提高使用者沉浸式音频应用的精准性。

" 我们不仅设计了完全在终端上运行的 AI 技术，这些功能还将扩展至我们的全部产品线。"Ziad Asghar 说，" 我们将从产品形态最小的功能开始，比如智能手表中的活动建议和 AR 眼镜中的 3D LVM，到电动车中的终端侧助手。"

拿起运行百亿参数模型的手机，0.6秒就进入了AI世界