GPU 出现性能瓶颈,ASIC 架构才是AI 芯片未来
- 来源:电脑报 smarty:if $article.tag?>
- 关键字:GPU,性能,芯片 smarty:/if?>
- 发布时间:2025-02-14 21:15
上善若水
随着AI 应用的不断深入和复杂化,GPU 在性能瓶颈、功耗和成本等方面的问题逐渐显现,ASIC 架构的崛起则为AI 芯片领域带来了新的发展方向。
AI芯片架构实现更替机会
“算力即国力”听得人热血沸腾,可有多少人清楚了解何为算力?算力通常是指计算机处理信息的能力,特别是在进行数字运算、数据处理和执行程序时的速度和效率。根据使用设备和提供算力强度的不同,算力可分为基础算力、智能算力、超算算力。智能算力即AI 算力,负责提供AI 算法模型训练与模型运行服务的计算机系统能力,其算力芯片通常包括GPU、ASICFPGA、NPU 等各类专用芯片。
AI 芯片本身分为GPU、FPGA 和ASIC 架构, 根据场景可以分为云端和端侧。当前市场主流AI 芯片为GPU 和ASIC,国际上,NVIDIA的H200Tensor Core GPU 以其卓越的计算性能和能效比领先市场,而Google 的第六代TPU Trilium ASIC 芯片则以其专为机器学习优化的设计提供高速数据处理。在国内,寒武纪的思元370 芯片(ASIC)凭借其先进的计算处理能力在智能计算领域占据重要地位,已与主流互联网厂商开展深入适配,海光信息的DCU 系列则基于GPGPU 架构,以其类“CUDA”通用并行计算架构较好地适配、适应国际主流商业计算软件和AI 软件。
在GPU 与CPU 的关于AI 市场的争锋中,GPU 凭借其独特的架构和并行处理能力占据了显著的优势地位。然而,随着AI 生态的不断壮大和算力需求的持续提升 ,当下主流GPU 架构出现明显的性能瓶颈。以英伟达最新发布的H100 GPU 为例,其理论算力达到1979 TFLOPS,但在实际AI 训练任务中,有效利用率往往不足30%。这种效率损失主要源于GPU 的通用计算架构设计,使其在处理特定AI 任务时产生大量冗余计算。在这样的背景下,针对特定算法和应用优化设计的ASIC 架构凭借较高的能效比开始冒头。
具有极强针对性的ASIC架构
ASIC 架构针对特定算法和应用进行优化设计,在特定任务上的计算能力强大,如在某些AI 深度学习算法中实现高效的矩阵运算和数据处理。虽然GPU 具有强大的并行计算能力,拥有众多计算核心,可同时处理多个任务,在通用计算和图形处理方面表现出色,适用于大规模的数据并行计算,如科学计算、图形渲染、视频处理等,但GPU 在特定任务上的计算效率可能不如ASIC,尤其是在能效方面。
ASIC 通常具有较高的能效比,因其硬件结构是为特定任务定制的,能最大限度减少不必要的功耗。GPU 由于其通用的设计架构,在执行特定任务时可能存在一些功耗浪费。具体而言,谷歌TPU v4 在同等功耗下,AI 训练性能较GPU 提升3 倍以上,能效比提升5 倍。这种优势就是源于ASIC 针对特定算法进行硬件级优化,消除了通用计算架构中的冗余设计。在自然语言处理任务中,ASIC 芯片的推理速度可达GPU 的10 倍,延迟降低80%。此外,成本也是ASIC 架构有望成为主流的关键原因。ASIC因其硬件结构是为特定任务定制的,减少了很多针对通用加速计算的不必要的硬件设计,其单位算力成本相比GPU 更低。谷歌TPUv5、亚马逊Trainium2 的单位算力成本分别为英伟达H100 的70%、60%。
积极站队的互联网巨头
目前,全球科技巨头已展开ASIC 布局,谷歌TPU已迭代至第四代,亚马逊推出Inferentia芯片,特斯拉自研Dojo 超算系统。这些专用芯片在各自领域展现出惊人性能,其中TPU v4 在图像识别任务中实现99.9% 准确率,Inferentia 将推理成本降低70%,Dojo 使自动驾驶训练效率提升10 倍。
值得一提的是我国AI 芯片公司多以 ASIC 为主如知名的昇腾、寒武纪等都属于这一品类。在近两年的全球大模型竞赛中,中国企业并未落后太多,而在未来百花齐放的应用时代,ASIC 将不再成为软肋,也将随着 AI 芯片的发展大放异彩。
未来三年,ASIC 架构将重塑AI 计算格局。预计在2025 年,全球AI 芯片市场规模将突破1000 亿美元,其中ASIC 占比将超过40%。随着工艺制程进入3nm时代,ASIC 的性能优势将进一步扩大,推动AI 计算进入专用化时代,届时,全球AI 芯片话语权必然出现新的变化。
