● 能够执行时间神经网络处理的图形处理单元 (GPU)
● Google张量处理单元 (TPU) 等空间加速器
● Sambanova的DataScale等粗粒度可重构计算架构 (CGRA)
● 经过向量处理扩展的大规模多核标量处理器
所有此类芯片均可以几十个或几百个组合使用,形成更大的系统,处理更大型的神经网络。比如说,如果将Google的TPU合并到pod配置中,那么可以带来超过100 petaFLOPS的处理能力来训练神经网络模型。NVIDIA旗下应用深度学习研究团队推出的Megatron创造了一个带有83亿参数转换器的语言模型,可提供8路模型并行和64路数据并行功能用于自然语言处理。要执行这一模型,就必须开发出具有 312 teraFLOP FP16计算能力的NVIDIA A100 GPU。另一种新兴的硬件类型是 CGRA,它能在编程不同网络时,在性能、能效与灵活性方面巧妙地实现权衡。
在这场关于AI硬件的讨论中,软件栈是不容忽视的存在,因为它能实现系统级性能表现,并确保充分利用硬件。TensorFlow等开源软件平台为开发人员提供各类工具、库和其他资源,帮助他们轻松构建和部署机器学习应用。Facebook Glow等机器学习编译器不断涌现,有助于促成高级软件框架与各种AI加速器的连接。
本站文章版权归原作者所有 内容为作者个人观点 本站只提供参考并不构成任何投资及应用建议。
本文转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本网联系,我们将在第一时间删除内容