“芯片大家说 I Say IC”第十一期大咖精彩回顾
2022-09-20 11:30:00

2022年9月14日,

由张江高科和芯谋研究共同主办的

第十一期“芯片大家说I Say IC”产业沙龙

在张江大厦举行。

本次沙龙的重磅嘉宾是上海天数智芯半导体公司副董事长兼CTO吕坚平博士,演讲主题为《自主通用GPU落地拿订单要过哪几关?》。因疫情原因,本次活动首次采用线上直播互动方式,吸引了上千名观众观看。

吕坚平 上海天数智芯半导体有限公司副董事长兼CTO

吕坚平,拥有近30年芯片研发技术经验,是GPU及AI硬件方面的顶级专家,也是AI演算法理论先驱。1995年,吕坚平毕业于耶鲁大学并获计算机科学博士学位。至今已获得数十项GPU和机器学习的专利,拥有多次成功将产品推向商业化的落地经验。放眼全世界,是唯一两次成功带领交付全新GPU(在三星及联发科期间)的领导者。

如今在天数智芯,吕坚平担任上海天数智芯半导体有限公司副董事长兼首席技术官。管理所有的工程团队,主导通用GPU产品的研发,在天数智芯首款全自研通用GPU云端训练芯片——“天垓芯片”的诞生过程中,吕坚平发挥了重要作用。

在演讲中,吕坚平博士提出GPU正引领进入万物皆可算的时代。无论是AI推理,渲染还是科学计算,最后都是大量的并行的乘加计算。GPU架构的特点是由众多的单指令多线程的计算单元组成,能够快速处理乘加运算。因此,从架构上看GPU与新兴计算完美匹配。AI算法创新等同于软件进步,没有适当配置的通用算力将穷于应付层出不穷的崭新算法,通用GPU是唯一被广泛采用开发新AI算法的软硬件平台。下一个AI架构赢家必定坚持通用。自主通用GPU企业想要落地拿订单,需要走过四大关卡。

第一关,在设计当初要决定是否要坚持通用。

吕坚平博士指出,通用GPU包含两个意义:一是在图形之外运用GPU的方式,二是不具备图形硬件的GPU(通用GPU加入图形加速功能之后,即成为GPU)。而GPU又包含“三重人格”:图形、AI和通用计算。其中,图形的趋势是持续走向通用,通用计算在追赶图形的效率,AI则是推动通用计算的最大动力。

“针对某些特定指标过度优化,会牺牲其他一些性能指标,而导致产品不够通用。这是GPU厂商需要决定的第一个问题。”吕坚平博士说。

在AI领域,无论是AI训练芯片还是AI推理芯片,都需要通用性。在训练侧,目前非通用GPU的AI训练芯片无法满足研发前沿AI算法的需求;无法顺利跑通AI学术大会层出不穷的新的算法和应用;非通用GPU的AI训练芯片落地出现困境。在推理侧,后摩尔时代,制作芯片耗时,耗资金,风险高,而为特定AI算法优化的专用推理芯片无法服务各行各业的细分领域;专用AI推理芯片不适用于算法多元的复杂场景(安防、自动驾驶),无法支持非AI算法。

天数智芯的天垓100是国内第一个7nm/2.5D高端芯片,也是目前唯一实现量产的AI训练通用GPU。吕坚平博士透露,天数智芯即将推出AI推理芯片智铠100。

第二关,如何确认真通用。

吕坚平博士认为,现在是一个“举世皆通用”的时代。通用GPU与AI的DSA芯片对AI的优化程度不分轩轾。AI DSA芯片也号称“通用”;“通用GPU”也未必坚持通用。

那么如何体现真通用呢?吕坚平博士给出四个评价标准:第一,开发易迁移;第二,性能可预期;第三,应用广覆盖;第四,全栈可定制。

天数智芯内部有一个确认真通用的方法。吕坚平博士介绍道,天数智芯甄选了百种算法,涵盖人工智能的各个领域,算法的代码基于开源社区,同时结合了落地场景,包括分类、分割、检测、科学计算、三维重建以及AI大会新鲜出炉的算法等,用以测试GPU产品是否真通用。

吕坚平博士提到,GPU的通用性不能只看性能与准确度,天数智芯制定了评价真通用的六大维度,包括性能、准确度、稳定性、线性度、能效比与显存占用。同时,针对不同算法的表现,给出可视化的集群性能分数评估。天数智芯将这套真通用评测体系命名为“DeepSpark”百大应用开放平台,即将在9月30日正式开源。

第三关,如何由真通用达到真量产。

吕坚平博士提到,要达到真量产需要有广泛的客户应用及全面的生态支持。以天数智芯为例,从算法框架、OS、服务器到CPU,都获得了全方面的生态支持。在算法框架上,天数智芯支持PyTorch、TensorFlow、飞桨、昇思等平台;在CPU领域,天数智芯覆盖了英特尔、AMD、飞腾、龙芯中科等国内外平台。

在行业应用上,想要达到真量产,通用GPU产品也需要覆盖场景多。安防、自动驾驶、工业/服务、医疗、教育、互联网、金融、零售、智能家居等应用领域,都有相应的数字化需求。天数智芯在数字孪生、体态识别、石油勘探、集群管理、病例分析和围棋AI等应用领域已有典型的商业落地案例。

吕坚平博士认为,产品的通用性水平越高,可获得市场空间就越大,客户也会越广泛。从设计、制造、实测到实现销售的产品周期中,技术成熟度与商业落地呈正向关系。目前,天数智芯的天垓100已累计触达用户超过300家,意向签约客户超过200家,业务覆盖行业超过20个,累计订单额度超2.3亿元。

第四关,如何持续落地拿订单。

对于硬科技公司来说,持续落地拿订单才是重点。在应用方面,元宇宙最近非常火热,吕坚平博士认为,GPU是未来元宇宙/数字孪生的基石,是通用GPU厂商持续拿订单的落地方向。

吕坚平博士表示,元宇宙会将人工智能带回到以人为本。元宇宙会带来四个社会趋势:城市智能化、载具无人化、工业自动化和娱乐置入化。技术潮流上将会有四大趋势,图形持续走向通用、AI与图形必然融合、图形人机界面必定移动、内容生成及图形渲染必在云端。

元宇宙可视、隐私、分布的三大要素的要求,需要厂商把GPU的三重人格(图形、AI和通用计算)进行融合。天数智芯认为,要把握这一市场机会,要遵循图形走向通用的潮流,以量产GPU为基础;支援云原生渲染,强化隐私计算,扩大集群管理;最终达成以人为本的元宇宙/数字孪生。

在路线上,天数智芯构建了完整的产品路线图。在天垓100的基础上,在规模集群,通用架构、AI应用以及AI渲染方面已经达到可以产品化的程度;天垓200将基于天垓100的技术,继续强大通用的算力,同时加上软件的渲染;天垓200也是为天垓300铺路,最终会加入硬件渲染。

“天数智芯会基于既有的产品路线规划,希望能够创新通用GPU,深耕应用与生态,开启算力新时代。”吕坚平博士说。

演讲过后,吕坚平博士与芯谋研究高级分析师张亚一起进入精彩的问答环节,接受线上观众的留言提问。

“芯片大家说/I Say IC”产业沙龙是由张江高科与芯谋研究联合打造的一个常态化、创新观念交流平台。未来平台将围绕产业发展热点问题,开展定期沙龙,致力于打造最有影响力的IC产业智慧、创新和交流平台。

信息来源:张江高科

up