前言:
作为al芯片的积极布局者与应用者,百度对外发布ai云端芯片“昆仑”,备受业界瞩目。在中国产业智能化进程的逐步深入,市场对于 ai 算力的需求超大规模增长,在端侧部署 ai 芯片也成为企业应用 ai 的重要一环。
芯片领域成为热点
我国在人工智能芯片领域不断取得创新突破。各个平台型企业也纷纷基于数据、算法和应用优势,宣布进军人工智能芯片领域。ai领域已经成为世界科技巨头争夺的制高点, ai 应用的爆发对运算能力提出越来越高的要求,基于传统芯片的 ai 运算加速,已经不能满足需求。
软件领域的谷歌、facbook,硬件厂商英伟达、英特尔等全都宣布了自己的芯片规划以及未来远景。在这个大背景下,以百度昆仑芯片为代表的国产技术,能够突破国际巨头技术体系的压制,成为国内业界普遍关注国产代表。
国内首款云端全功能芯片
中国首款云端al全功能ai芯片“昆仑”是中国在大规模ai运算实践中催生出的芯片。
与市面上已发布的适用于垂直场景的芯片不同,百度之所以将“昆仑”定义为国内首款云端全功能芯片,是因为其可高效地同时满足训练和推断的需求,除了常用深度学习算法等云端需求,还能适配诸如自然语言处理,大规模语音识别,自动驾驶,大规模推荐等具体终端场景的计算需求。
基于fpga打造的昆仑芯片
众所周知,gpu是打造ai芯片的重要手段之一。百度昆仑芯片是基于fpga所打造的ai芯片采用了xpu架构。在fpga方面,百度拥有超过8年的fpgaai加速器积累,累计上线超过了1万个。其xpu架构及软件栈也在实际业务中,有了超过8年的持续迭代。
昆仑芯片与gpu和专用ai芯片相比,在实行性能和性价比上都有一定的优势。昆仑芯片非常通用且灵活,既可以做训练也可以做推理,xpu的功能架构也在百度内部很多应用中得到验证,相对而言,它是一款全功能的al芯片。
昆仑芯片的闪光点
百度昆仑采用了14nm三星工艺、260tops性能、512gb/s内存带宽、100+ 瓦特功耗,由几万个小核心构成。昆仑芯片可以在100瓦+功耗下提供260tops ,每秒260万亿次定数运算性能。此前,nvidia用于汽车l 4.l .5自动驾驶的xavier芯片,8核arm cpu+512颗cuda的性能是30tops。
架构方面:昆仑芯片有2个计算单元,512gb/s的内存带宽,16mbsram/unit。16mb的sram对ai推理很有帮助,xpu架构上的xpu-sdnn是为tensor等而设计,xpu-cluster则能够满足通用处理的需求。
昆仑第一代芯片没有采用nvlink,而是通过pcie4.0接口进行互联。在三星14nm的制造工艺和2.5d封装的支持下,昆仑芯片峰值性能可以达到260tops,功耗为150w。
在灵活性和易用性方面:昆仑面向开发者提供类似英伟达cuda的软件栈,可以通过c/c++语言进行编程,降低开发者的开发难度。
基于第一代昆仑芯片,百度推出了两款ai加速卡,k100和k200,前者算力和功耗都是后者的两倍。在语音常用的bert/ernie测试模型下,昆仑也有明显性能优势。在线上性能数据的表现上,昆仑的表现相比英伟达t4更加稳定,且延迟也有优势。
强强合作提升领域发展
2019年12月18日,三星宣布代工百度首款云到边缘ai芯片“昆仑”,借由三星14纳米处理技术及其i-cube(interposer-cube)封装解决方案生产。
三星的 14nm 工艺是其最广泛使用的制造节点之一,该工艺的晶体管密度为 32.5 mtr /mm,主要用于英伟达的 geforce 10 系列,以及许多高通和三星芯片。它有多种变体,包括 14nm lpe(low power early)和 14nm lpp(low power plus)。
目前昆仑芯片已完成开发,并将批量生产。昆仑芯片首先将会用于百度的自家产品当中,能解决工业智能遇到的计算问题以及和飞腾arm处理器的适配。
昆仑芯片未来落脚点
工业上百度昆仑芯片也正式在微亿智造的工业智能质检设备上部署上线。百度智能云以整机一体化方式,向微亿智造交付搭载百度昆仑芯片的百度云质检一体机。
预计在今年以内,微亿智造的数千台智能质检设备将全部应用上百度昆仑芯片,而百度昆仑还将在更多场景中部署应用,百度的ai能力将成为“新基建”的重要基础,推动工业制造业的产业智能化升级。
结尾:
未来“昆仑”既将实现对数据中心、公有云等云端场景的全覆盖,也将用于满足自然语言处理、语音识别、自动驾驶等终端场景的计算需求。此次“昆仑”能成功落地,有望形成人工智能芯片与平台应用相互促进的良性循环。