电脑壁纸科技感酷炫技术交流网官网

Mark wiens

发布时间:2023-11-04

  9 月 14 日 -15 日,2023 全球 AI 芯片峰会(GACS 2023)在深圳市南山区举行……

电脑壁纸科技感酷炫技术交流网官网

  9 月 14 日 -15 日,2023 全球 AI 芯片峰会(GACS 2023)在深圳市南山区举行。在首日主题演讲开幕式上,高通 AI 产品技术中国区负责人万卫星分享了主题为《终端侧 AI 是 AI 的未来》的主题演讲。

  万卫星着重分享了高通对生成式 AI 未来发展趋势的观察:随着云端处理生成式 AI 的成本不断提升,未来云经济将难以支撑生成式 AI 的规模化发展。此外,基础模型正在向多模态扩展,模型能力越来越强大,而垂直领域模型的参数量也正在变得越来越小。未来,丰富的生成式 AI 模型将在终端侧运行,让大众享受到生成式 AI 带给生活、工作、娱乐上的变革。

  尊敬的各位嘉宾,各位同行,大家上午好!很荣幸作为高通中国的代表参加这次峰会并进行演讲,我非常期待能跟各位一起共同推动 AI 产业在中国的繁荣发展。今天我给大家带来的演讲主题是终端 AI 是 AI 的未来。

  随着去年 Stable Diffusion、Midjourney 和 GPT 的火爆,生成式 AI 的概念在以指数速度在我们普通大众中普及。前面有嘉宾也分享了,ChatGPT 是有史以来最快的,只花了两个月的时间就拥有了 1 亿使用者的应用。

  回到这张胶片,虽然我在这里列举的多数是图片相关的生成式 AI 应用,但是我们也知道生成式 AI 应用不仅仅是局限于图像,还包括文字生成文字、图片生成图片电脑壁纸科技感酷炫,甚至包括文字生成代码、音乐,图片生成视频,等等。

  我们看到现在的基础大模型都在朝多模态模型转变,我们认为这将深刻影响到我们的生活、工作和娱乐方式。为了让普通大众能够更方便地享受到生成式 AI,生成式 AI 需要在终端侧运行,这也是高通公司努力推动的一个方向。

  除此之外,我们还可以根据端侧的信息为不同的用户提供定制化、个性化的服务,所有的这些服务都不依赖于任何网络连接。对于一些有着上千亿参数,只能在云端运行的大模型,高通的 5G 技术也能够帮助我们充分利用云端的算力,提高我们在端侧的 AI 体验。

  在今年 2 月份的世界移动通信大会上,我们基于第二代骁龙 8 的终端演示了全球首个在安卓手机上运行 Stable Diffusion 的终端侧演示,通过高通全栈式 AI 对 Stable Diffusion 这样一个超过 10 亿参数的文生图大模型的优化,我们可以 15 秒内完成 20 步推理,输出一张 512*512 的图片。

  第一个趋势,生成式 AI 的成本。我们这里举了一个例子,单就网络搜索为例,使用生成式 AI 的新技术跟传统的办法相比,每次搜索的成本提升 10 倍。考虑到还有各种各样的生成式 AI 应用正在涌现,以及全球数十亿的用户,显而易见,云经济将难以支撑生成式 AI 的规模化发展。

  第三个趋势电脑壁纸科技感酷炫,我们能看到现在的基础模型变得越来越强大,但同时垂直领域模型的参数量变得越来越小,比如说 GPT-3 总的参数量在 1750 亿,但是 Meta 发布的 Llama,包括国内的百川等模型,他们的参数量要小很多,可能只有 70 亿或者 130 亿。

  跟大参数量基础模型相比,这些相对较小参数量的大模型在某些垂直领域,性能依然十分强大,这也是为什么我们认为在未来技术交流网官网,我们非常有机会将这些模型在终端侧部署,让更广泛大众能够享受到生成式 AI 给我们的生活、工作电脑壁纸科技感酷炫、娱乐带来的各种变革。

  如果我们仔细看一下不同的这些生成式 AI 的用例,包括文字生成图像或对话、NLP(自然语言处理)、编程、推理甚至包括图像、视频理解等等,所有支撑这些 AI 用例的大模型,它的参数量在 10 亿 -150 亿之间,这也是为什么我们认为在终端侧完全有可能让这些模型跑起来。

  像手机这样的终端,它有着相机、麦克风、传感器、蓝牙、Wi-Fi、调制解调器等等能够提供感知信息的模块,而这些感知信息可以作为生成式 AI 输入提示,让终端可以提供更个性化的服务,而不需要通过任何网络连接。

  高通之所以能够支撑这些超过 10 亿参数,甚至未来超过 100 亿参数量的大模型在终端部署,所依赖的是高通强大的高通 AI 引擎和统一的技术路线图。

  第一就是我们的硬件高通 AI 引擎。可以看到,高通 AI 引擎既有通用的 CPU、GPU 硬件加速单元,还有一颗专门为大算力 AI 工作负载而设计的高性能 AI 硬件加速单元 Hexagon 处理器。

  高通的 AI 硬件优势在哪里?我觉得第一是性能,我们不仅能提供领先的峰值性能,也能提供非常好的能效。我们在既定功耗下的性能领先于手机和 PC 领域的竞争对手。

  微切片推理技术可以把一个比较大的模型切成更细粒度的切片,在更细粒度的层面上对整个算子融合,包括边缘计算等做加速,充分利用较大的配套内存,提高配套内存的使用率,尽量去降低跟 DDR 的交互。

  因为大家知道,其实在数据读取上,读取配套内存跟读取 DDR,性能大概有 1-2 个数量级的差异。除此之外,我们还专门针对 Transformer 里面的激活函数和分组卷积做了专门的加速。

  大家都知道神经网络里面有不同的数据类型,这颗 Hexagon 处理器上有标量、向量和张量加速器。尤其是张量加速器电脑壁纸科技感酷炫,跟上一代产品相比电脑壁纸科技感酷炫,算力翻倍。

  前面讲的大多数跟硬件相关,在软件方面我们推出了高通 AI 软件栈(Qualcomm AI Stack),这是一个跨平台、跨终端、跨 OS 的统一软件栈,它贯彻了我们的每一条产品线,包括手机,汽车、PC,还有各种 IoT 设备、机器人等。

  再往下是 Runtimes 层,高通有自己的 Runtimes,叫高通神经网络处理 SDK,我们的合作伙伴或者开发者可以直接调用我们的 Runtimes。当然,我们也支持开源的 Runtimes,包括像 ONNX、Direct ML、TF Lite 等等。我们还有更底层的模块去支持第三方的 Runtimes,叫高通 AI 引擎 Direct。第三方 Runtimes 可以调用高通 AI 引擎 Direct 的接口,充分利用高通 AI 引擎的 AI 硬件加速单元来做推理加速。

  再往下就是开发者库和服务层,我们提供丰富的加速库给到开发者去做调用。同时,我们还提供编译器,让开发者在做模型转化时对高通底层的硬件更友好。同时我们的编译器也可以支持用户通过我们给定的引导去写自己定义的算子。

  除了编译器之外,我们还提供比较丰富强大的分析器和调试器。开发者在做推理部署的时候会发现,很多时候推理性能或者精度不如人意,我们的工具可以告诉开发者整个推理性能在哪里;网络结构、推理结构对高通硬件是否友好;或者是哪一层引起的精度问题,是因为量化位宽不够,还是本身的算子在高通 HTP 实现的效率不够好等等。

  再往下就是我们的系统层。系统层提供了丰富的系统接口,也提供了各种各样底层的 Kernel 驱动器。当然,我们还提供了一个仿真支持。如果开发者没有拿到高通的平台或者开发板,但又想知道整体算法在骁龙平台上部署的表现情况或者精度怎么样,可以用我们的仿真支持,我们有一个模拟器会给到大家。

  再往下就是 OS 层,高通的产品线非常丰富,OS 层支持安卓手机、平板、PC 的 Windows 系统,还有各种 IoT 设备采用的 Linux 或者是 CentOS 等等,还有我们的 QNX。我们把所有的 OS 都集成在高通 AI 软件栈里面,能够支持高通所有的产品形态。

  除此之外,我们还有高通 AI 模型增效工具包(AIMET),AIMET 最主要有两个功能,一个是帮助大家做量化,我们支持 PTQ(量化感知训练)和 QAT(训练后量化);另外是模型压缩。

  结一下,高通 AI 软件栈是一个跨平台、跨终端技术交流网官网、跨 OS 的统一软件栈。高通 AI 软件栈旨在帮助合作伙伴及开发者在骁龙平台上更高效地完成软件部署,提高它的扩展性,也就是所谓的一次开发、多次部署。以上就是我今天演讲的全部内容,谢谢大家!

免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186