中国电子技术网

设为首页 网站地图 加入收藏

 
 
  • 首页 > 新闻 > 芯来科技: :以 RISC-V V 扩展加速 AI 推理,开启嵌入式智能新纪元

芯来科技: :以 RISC-V V 扩展加速 AI 推理,开启嵌入式智能新纪元

关键词:芯来科技RISC VAI

时间:2025-07-18 15:23:04      来源:互联网

7月18日,在第五届RISC-V中国峰会的AI分论坛上,芯来科技嵌入式软件工程师舒卓发表演讲时介绍了芯来科技是如何通过 RISC-V V扩展技术,为这一难题提供了一套创新且高效的解决方案,为嵌入式 AI 的发展注入了强劲动力。

从智能家居到智能交通,从医疗诊断到工业自动化,AI 的应用场景不断拓展,其对算力的需求也日益攀升。然而,在资源受限的嵌入式设备上实现高效的 AI 推理,一直是困扰业界的难题。

7月18日,在第五届RISC-V中国峰会的AI分论坛上,芯来科技嵌入式软件工程师舒卓发表演讲时介绍了芯来科技是如何通过 RISC-V V扩展技术,为这一难题提供了一套创新且高效的解决方案,为嵌入式 AI 的发展注入了强劲动力。

背景:嵌入式 AI 的挑战与机遇

随着 AI 技术的飞速发展,其应用范围逐渐从云端服务器向边缘设备和嵌入式系统延伸。嵌入式设备以其低功耗、高性能、高集成度等特性,在物联网、智能穿戴、工业控制等领域展现出巨大的应用潜力。然而,嵌入式设备的硬件资源相对有限,其算力难以满足复杂 AI 模型的直接运行需求。因此,嵌入式 AI 通常采用“训练 - 推理分离”的模式,即在服务器上完成模型的训练,然后将训练好的模型部署到嵌入式设备上进行推理运算。

舒卓指出,在硬件架构方面,嵌入式 AI 系统多采用“通用 + 专用”的架构组合。专用架构如专用的 DSA(Domain - Specific Architecture)或 NPU(Neural Processing Unit),它们针对特定的 AI 算法进行了优化,能够提供强大的算力支持,但灵活性较差,难以适应算法的快速迭代。而通用架构则以 RISC-V V 扩展为代表,它能够随着算子的演进而不断升级,为嵌入式设备提供了更为灵活的 AI 加速方案。

Nuclei AI Library:为 VPU 加速赋能

在这样的行业背景下,芯来科技推出了 Nuclei AI Library,旨在为开发者提供一套基于 RISC-V V 扩展的高效 AI 算子优化库。Nuclei AI Library 的出现,正是为了填补 NPU 在某些场景下无法满足需求的空白,为嵌入式设备上的 AI 推理提供更强大的支持。

Nuclei AI Library 对常见的 AI 算子进行了深度优化,覆盖了 int8、int16、fp16、bf16、fp32 等多种数据格式,能够满足不同精度要求的 AI 应用场景。无论是矩阵运算、卷积操作,还是激活函数等,这些经过优化的算子都能在 RISC-V VPU(Vector Processing Unit)上实现高效的运行。而且,该库还提供了对不同运行环境的支持,包括裸机、RTOS(Real - Time Operating System)以及 Linux 环境,极大地增强了其在实际应用中的适用性。

在实际的性能测试中,Nuclei AI Library 的表现令人瞩目。以 GEMM(General Matrix Multiply,通用矩阵乘)算子为例,这是 AI 模型中算力占比极高的一个算子。通过采用一系列优化策略,如避免使用效率较低的 Reduction 指令、充分“榨取”已加载的数据以减少 Load 操作、尽量用满 V 数据寄存器等,Nuclei AI Library 在 Nuclei nx900fdv 上对 GEMM 算子进行了优化,实测结果显示其性能提升倍数显著,为嵌入式设备上的矩阵运算带来了质的飞跃。

对于 CNN(Convolutional Neural Network,卷积神经网络)中占比极高的 CON2D(二维卷积)算子,Nuclei AI Library 同样提供了高效的优化方案。目前常用的优化方法有两种:一种是使用 Im2col + GEMM,另一种是使用 Winograd + GEMM 加速小尺寸卷积核。这两种方法的核心都是将复杂的卷积运算转化为矩阵乘法运算,从而充分利用矩阵运算的高效性。在 Nuclei nx900fdv 上的测试数据表明,经过 V 扩展优化后的 CON2D 算子性能得到了大幅提升,为嵌入式设备上 CNN 网络的推理运算提供了有力支持。

Nuclei BF16 扩展:提升 AI 计算效率的利器

除了对常见 AI 算子的优化,芯来科技还针对当前 AI 领域对计算效率和精度的双重需求,推出了 Nuclei BF16 扩展。BF16(Brain Floating - Point 16)是由 Google 提出的一种数值格式,它保留了与 FP32(32 位浮点数)相同的 8 位指数宽度,从而具有与 FP32 相同的动态范围,但在精度上略低于 FP32。然而,在许多深度学习应用场景中,这种精度的降低对最终结果的影响微乎其微,而 BF16 的位宽减半却能显著提高内存带宽利用率,若再配合 SIMD(Single Instruction Multiple Data,单指令多数据)指令优化,计算效率可成倍提升。

RISC-V 官方目前定义了基本的 BF16 转换指令和向量乘加指令(zvfbfmin 扩展),但这种方式存在一定的局限性,即需要将 BF16 转换为 FP32 后才能进行其他计算,这无疑降低了计算效率和带宽利用率。针对这一问题,芯来科技通过硬件与工具链的协同优化,提出了 Nuclei BF16 扩展。该扩展兼容官方 BF16 指令,自定义了 BF16 rvv intrinsic function,生成与 FP16 相同的指令,并通过设置不同的寄存器值来切换硬件行为,从而避免了不必要的转换,充分发挥了 BF16 的算力优势。

Nuclei BF16 扩展具有诸多显著特点。首先,它生成的 BF16 指令与 F16 保持一致,通过 CSR(Control and Status Register,控制状态寄存器)寄存器配置来动态决定硬件处理行为,这种灵活的配置方式使得硬件能够根据不同的应用场景灵活切换运算模式。其次,Nuclei BF16 扩展提供了专用 intrinsic API,完整支持 BF16 标量和向量运算,为开发者提供了强大的工具,使其能够充分利用 BF16 的高效计算能力。实际测试结果表明,采用 Nuclei BF16 扩展的方案相比官方 zvfbfmin 扩展,性能提升可达 1 倍以上,这一显著的性能提升无疑为 AI 应用在嵌入式设备上的高效运行提供了有力保障。

Nuclei 矩阵扩展:定制化指令助力性能飞跃

在 AI 应用中,矩阵运算是最为基础且频繁的操作之一,其性能的优劣直接关系到整个 AI 系统的运行效率。舒卓表示,为了进一步提升矩阵计算性能,芯来科技在 Nuclei GCC(GNU Compiler Collection)工具链中引入了定制化的 VPU 扩展 Xxlvqmacc。该扩展遵循 IME(Instruction - set Meta - Architecture,指令集元架构)group 规范设计,实现了高效的整数矩阵乘加指令,并提供了相应的 intrinsic functions,以方便开发者在实际编程中使用。

Xxlvqmacc 扩展支持 8 位整数输入值扩展至 32 位精度,这对于需要高精度计算的 AI 应用场景具有重要意义。通过这种扩展,开发者可以在保持较低存储和传输带宽需求的同时,获得更高的计算精度,从而在嵌入式设备上实现更为复杂的 AI 算法。例如,在进行矩阵乘法运算时,传统的实现方式需要多层循环嵌套,逐个元素进行计算,这种方式在嵌入式设备上效率较低。而借助 Xxlvqmacc 扩展,开发者可以利用向量化的指令,一次性处理多个数据,大大减少了循环迭代次数,显著提高了运算速度。

结语:引领嵌入式 AI 发展潮流

芯来科技通过 RISC-V V 扩展技术在 AI 推理领域的创新应用,成功地为嵌入式设备上的 AI 运算带来了前所未有的性能提升。Nuclei AI Library 为开发者提供了丰富的优化算子,涵盖了多种数据格式和运行环境,极大地简化了开发流程,降低了开发门槛;Nuclei BF16 扩展则针对 AI 领域对计算效率和精度的特殊需求,提出了高效的解决方案,显著提高了 BF16 格式的计算性能;而 Nuclei 矩阵扩展更是从底层硬件指令层面出发,为矩阵运算这一 AI 核心操作提供了强大的支持。

在未来的智能时代,随着 AI 技术的不断深化和应用场景的持续拓展,嵌入式设备上的 AI 推理将扮演越来越重要的角色。芯来科技凭借其在 RISC-V V 扩展领域的深厚技术积累和持续创新能力,将继续引领嵌入式 AI 的发展潮流,助力各行业实现智能化升级,为人们的生活和工作带来更多的便利和可能性。

  • 分享到:

 

猜你喜欢

  • 主 题:双频共振:IMU全局姿态与振动传感如何共塑人形机器人的生命力
  • 时 间:2025.07.24
  • 公 司:ADI

  • 主 题:小电阻大奥秘--分流电阻器使用方法之实践篇
  • 时 间:2025.07.29
  • 公 司:ROHM

  • 主 题:恩智浦半导体下一代毫米波雷达解决方案全介绍(单芯片/卫星雷达/成像雷达)
  • 时 间:2025.07.31
  • 公 司:NXP