快捷搜索:  as  2018  FtCWSyGV  С˵  test  xxx  Ψһ  w3viyKQx

亿博体育靠谱吗:Groq发布全球首款每秒1000万亿次运算的AI加速卡



2016岁尾,谷歌TPU团队的十位核心开拓者中的八位悄然默默离职,创办了一家名为 Groq 的机械进修系统公司,是进军AI加速卡的第100家、是商业化推向市场的第2家,是首家达到每秒1000万亿次运算的公司。假如做比较,那么它是当前NVIDIA最强大年夜显卡机能的四倍。

The Groq Tensor Streaming Processor (TSP) 要求每个内核达到300W,而且他们已经成功做出来了。而且更幸运的是,已将其从劣势转变为TSP的最大年夜上风。

这款TSP是一块伟大年夜的硅处置惩罚器,险些只有矢量和矩阵处置惩罚单元以及高速缓存,是以没有任何节制器或后端,编译用具有直接节制权。TSP分为20个超级通道。超级通道按从左到右的顺序构建:矩阵单元(320 MAC),互换单元,存储单元(5.5 MB),矢量单元(16 ALU),存储单元(5.5 MB),互换单元,矩阵单元( 320个MAC)。

指令流(只有一个)被馈送到超通道0的每个组件中,此中矩阵单元有6条指令,开关单元有14条指令,存储单元有44条指令,向量单元有16条指令。每个时钟周期,单元履行操作,并将数据移到超通道内的下一个位置。每个组件都可以从其相亿博体育靠谱吗邻邻居发送和接管512B。

超级通道的操作完成后,它将所有内容通报到下一个超级通道,并接管上方的超级通道(或指令节制器)拥有的所有内容。指令始终在超级通道之间垂直向下通报,而数据仅在超级通道内水平传输。

在ResNet-50中,它可以在任何批处置惩罚大年夜小下每秒履行20,400个推理(I / S),推理延迟为0.05毫秒。Nvidia的Tesla V100可以以128亿博体育靠谱吗的批量大年夜小履行7,907 I / S,或者以1的批量大年夜小履行1,156 I / S。

但有了 Groq 的硬件和软件,编译器就可以准确地知道芯片的事情要领以及履行每个谋略所需的光阴。编译器在精确的光阴将数据和指令移动到精确的位置,这样就不会有延迟。到达硬件的指令流是完全编排好的,使得处置惩罚速率更快,而且可猜测。

开拓职员可以在 Groq 芯片上运行相同的模型 100 次,每次获得的结果都完全相同。对付安然和准确性要求都异常高的利用来说(如自动驾亿博体育靠谱吗驶汽车),这种谋略上的准确性至关紧张。别的,应用 Groq 硬件设计的系亿博体育靠谱吗统不会受到长尾延迟的影响,AI 系统可以在特定的功率或延迟预算内进行调剂。

这种软件优先的设计(即编译器抉择硬件架构)理念赞助 Groq 设计出了一款简单、高机能的架构,可以加速推理流程。该架构既支持传统的机械进修模型,也支持新的谋略进修模型,今朝在 x86 和非 x86 系统的客户站点上运行亿博体育靠谱吗。

根据官方宣布的新闻稿,该TSP已经作为Nimbix Cloud的加速器面向部分客户开放。

滥觞:cnBeta

您可能还会对下面的文章感兴趣: