欢迎来到芯果!
【通讯转载自网络|本文末尾注明出处】
美国的芯片大计进展似乎不顺。据知情人士称,五角大楼取消了向英特尔公司提供25亿美元芯片资助的计划,转而让美国商务部出资。而这可能会限制英特尔最后获得的补贴总额。
英特尔一直希望从美国的芯片计划中获得价值超过100亿美元的激励措施。而美国军方此前决定划出35亿美元激励英特尔,用以生产先进的国防和情报相关用途的半导体,其中10亿美元由商务部承担,25亿美元则由美国国防部出资。
但知情人士透露,五角大楼在资助截止日期前的最后几天取消了这一计划,国会方面只能指示商务部来补上这个缺口。
而这一变化一则可能暴露出美国芯片计划面临的资金短缺问题,二则可能改变英特尔本身在军事和商业两条道路上的资源分配方案。
按照原本的计划,英特尔获得的美国政府补贴将更多专门用于军事用途,国防协议中也要求英特尔成为五角大楼军事和情报需求芯片的专用供应商,并在英特尔工厂内部设立一个所谓的“安全飞地”(Secure Enclave)。
金钱与政治
安全飞地这一特殊条款实际上引发了不少芯片公司的不满。有人表示,格芯公司正在积极游说反对英特尔成为唯一的安全飞地。一些立法者也对依赖一家公司来为美国制造敏感的尖端芯片而感到担忧。
美国商务部在一份声明中表示,有关于安全飞地补贴的决定尚未正式作出,正在通过单独的流程进行评估。
这也是美国芯片计划中最新出现的问题。此前,美国商务部长雷蒙多还就资金短缺问题发出过警告,称该机构只有390亿美元可供分配,而超过600家公司对联邦拨款表达了兴趣,导致该机构不得不拒绝很多潜力巨大的公司。
英特尔首席执行官Pat Gelsinger则在2月安抚称,美国政府补贴将帮助其实现转型,支持其在亚利桑那州200亿美元建厂的计划。他还称补贴计划将很快推出,但知情人士称,英特尔的补贴方案本该在五角大楼撤回资金前发布。
目前也无消息透露,安全飞地的相关资金是否会计算入发放给英特尔的总补贴包中,其可能会削减英特尔最终获得的总资金额度。
来源:财联社 作者:马兰
编辑:桃子好困
【新智元导读】AI世界的进化快的有点跟不上了。刚刚,全球最强最大AI芯片WSE-3发布,4万亿晶体管5nm工艺制程。更厉害的是,WSE-3打造的单个超算可训出24万亿参数模型,相当于GPT-4/Gemini的十倍大。
全球最快、最强的AI芯片面世,让整个行业瞬间惊掉了下巴!
就在刚刚,AI芯片初创公司Cerebras重磅发布了「第三代晶圆级引擎」(WSE-3)。
性能上,WSE-3是上一代WSE-2的两倍,且功耗依旧保持不变。
90万个AI核心,44GB的片上SRAM存储,让WSE-3的峰值性能达到了125 FP16 PetaFLOPS。
这相当于52块英伟达H100 GPU!
不仅如此,相比于800亿个晶体管,芯片面积为814平方毫米的英伟达H100。
采用台积电5nm制程的WSE-3,不仅搭载了40000亿个晶体管(50倍),芯片面积更是高达46225平方毫米(57倍)。
专为AI打造的计算能力
此前,在传统的GPU集群上,研究团队不仅需要科学地分配模型,还必须在过程中处理各种复杂问题,比如处理器单元的内存容量、互联带宽、同步机制等等,同时还要不断调整超参数并进行优化实验。
更令人头疼的是,最终的实现很容易因为小小的变动而受到影响,这样就会进一步延长解决问题所需的总时间。
相比之下,WSE-3的每一个核心都可以独立编程,并且专为神经网络训练和深度学习推理中,所需的基于张量的稀疏线性代数运算,进行了优化。
而团队也可以在WSE-3的加持下,以前所未有的速度和规模训练和运行AI模型,并且不需要任何复杂分布式编程技巧。
单芯片实现集群级性能
其中,WSE-3配备的44GB片上SRAM内存均匀分布在芯片表面,使得每个核心都能在单个时钟周期内以极高的带宽(21 PB/s)访问到快速内存——是当今地表最强GPU英伟达H100的7000倍。
超高带宽,极低延迟</>
而WSE-3的片上互连技术,更是实现了核心间惊人的214 Pb/s互连带宽,是H100系统的3715倍。
单个CS-3可训24万亿参数,大GPT-4十倍
由WSE-3组成的CS-3超算,可训练比GPT-4和Gemini大10倍的下一代前沿大模型。
再次打破了「摩尔定律」!2019年Cerebras首次推出CS-1,便打破了这一长达50年的行业法则。
官方博客中的一句话,简直刷新世界观:
在CS-3上训练一个万亿参数模型,就像在GPU上训练一个10亿参数模型一样简单!
显然,Cerebras的CS-3强势出击,就是为了加速最新的大模型训练。
它配备了高达1.2PB的巨大存储系统,单个系统即可训出24万亿参数的模型——为比GPT-4和Gemini大十倍的模型铺平道路。
简之,无需分区或重构,大大简化训练工作流提高开发效率。
在Llama 2、Falcon 40B、MPT-30B以及多模态模型的真实测试中,CS-3每秒输出的token是上一代的2倍。
而且,CS-3在不增加功耗/成本的情况下,将性能提高了一倍。
除此之外,为了跟上不断升级的计算和内存需求,Cerebras提高了集群的可扩展性。
上一代CS-2支持多达192个系统的集群,而CS-3可配置高达2048个系统集群,性能飙升10倍。
具体来说,由2048个CS-3组成的集群,可以提供256 exafloop的AI计算。
能够在24小时内,从头训练一个Llama 70B的模型。
相比之下,Llama2 70B可是用了大约一个月的时间,在Meta的GPU集群上完成的训练。
与GPU系统的另一个不同是,Cerebras晶圆规模集群可分离计算和内存组件,让开发者能轻松扩展MemoryX单元中的内存容量。
得益于Cerebras独特的Weight Streaming架构,整个集群看起来与单个芯片无异。
换言之,一名ML工程师可以在一台系统上开发和调试数万亿个参数模型,这在GPU领域是闻所未闻的。
具体来说,CS-3除了为企业提供24TB和36TB这两个版本外,还有面向超算的120TB和1200TB内存版本。(之前的CS-2集群只有1.5TB和12TB可选)
单个CS-3可与单个1200 TB内存单元配对使用,这意味着单个CS-3机架可以存储模型参数,比10000个节点的GPU集群多得多。
除此之外,与使用GPU相比,在Cerebras平台上开发所需的代码量还减少了高达97%。
更令人震惊的数字是——训练一个GPT-3规模的模型,仅需565行代码!
Playground AI创始人称,GPT-3正稳步成为AI领域的新「Hello World」。在Cerebras上,一个标准的GPT-3规模的模型,只需565行代码即可实现,创下行业新纪录。
首个世界最强芯片打造的超算来了
由G42和Cerebras联手打造的超级计算机——Condor Galaxy,是目前在云端构建AI模型最简单、最快速的解决方案。
它具备超过16 ExaFLOPs的AI计算能力,能够在几小时之内完成对最复杂模型的训练,这一过程在传统系统中可能需要数天。
其MemoryX系统拥有TB级别的内存容量,能够轻松处理超过1000亿参数的大模型,大大简化了大规模训练的复杂度。
与现有的基于GPU的集群系统不同,Condor Galaxy在处理GPT这类大型语言模型,包括GPT的不同变体、Falcon和Llama时,展现出了几乎完美的扩展能力。
这意味着,随着更多的CS-3设备投入使用,模型训练的时间将按照几乎完美的比例缩短。
而且,配置一个生成式AI模型只需几分钟,不再是数月,这一切只需一人便可轻松完成。
在简化大规模AI计算方面,传统系统因为需要在多个节点之间同步大量处理器而遇到了难题。
而Cerebras的全片级计算系统(WSC)则轻松跨越这一障碍——它通过无缝整合各个组件,实现了大规模并行计算,并提供了简洁的数据并行编程界面。
此前,这两家公司已经联手打造了世界上最大的两台AI超级计算机:Condor Galaxy 1和Condor Galaxy 2,综合性能达到8exaFLOPs。
G42集团的首席技术官Kiril Evtimov表示:「我们正在建设的下一代AI超级计算机Condor Galaxy 3,具有8exaFLOPs的性能,很快将使我们的AI计算总产能达到16exaFLOPs。」
如今,我们即将迎来新一波的创新浪潮,而全球AI革命的脚步,也再一次被加快了。
参考资料:https://www.cerebras.net/
IT之家 3 月 15 日消息,根据韩媒 ETNews 报道,苹果即将推出的 OLED 面板 iPad Pro 将由三星公司独家供应显示驱动芯片(Display Driver IC,DDI)。
苹果为了追求多元化供应链渠道,通常会选择多家供应商,很少会选择某家公司独家供应。此前消息称 OLED 面板 iPad Pro 初期备货 850 万台,其中 11 英寸由三星供应,为 400 万台;而 12.9 英寸由 LG 供应,为 450 万台。
目前在 DDI 市场,三星是该行业第一名,截至去年第三季度,三星电子 DDI 的市场份额为 29.7%。
IT之家附上三星官方对 DDI 的介绍如下:
显示驱动芯片是驱动薄膜晶体管液晶显示器(TFT LCD)、等离子显示器等显示器(PDP)的集成电路芯片。
显示器中的每个像素由三个子像素组成,即红、绿、蓝(RGB)三原色。每个子像素处设置有一个晶体管,显示驱动芯片就负责控制这些晶体管。
显示驱动芯片由栅极驱动芯片和源极驱动芯片组成,前者具有开关功能且可以控制子像素(RGB)的栅极,后者能调节子像素的图像信号以产生色差。