加州圣克拉拉2019年5月22日 /美通社/ -- 提供基于FPGA(现场可编程门阵列)的硬件加速器设备和高性能eFPGA(嵌入式FPGA)IP的全球领先企业Achronix半导体公司(Achronix Semiconductor Corporation)今天推出全新的创新型FPGA系列,以满足人工智能/机器学习(AI/ML)以及高带宽数据加速应用不断提高的要求。在一种经过高度优化的全新架构上打造而成的Achronix Speedster®7t系列超越了传统的FPGA解决方案,具有类似ASIC(特定用途集成电路芯片)的性能、FPGA的广泛适应性和可简化设计的增强功能。
Speedster7t FPGA系列是专门按照AI/ML和高带宽工作负载的要求来设计的,采用了革命性的全新2D片上网络(NoC)和高密度的新型机器学习处理器(MLP)阵列。Speedster7t系列将FPGA可编程性与ASIC路由结构及计算引擎相结合,创造出一种名为“FPGA+”的新技术。
随着AI/ML用例的迅速演变,人们需要用新的解决方案来满足更高性能、更高灵活性和更快走向市场等各种要求。在这样的背景下,Semico Research Corp.预计AI应用领域的FPGA的市场规模将在未来四年内扩大3倍,达到52亿美元。
Achronix半导体公司总裁兼首席执行官罗伯特-布莱克(Robert Blake)表示:“我们正处在智能化、自学习计算高速发展的起步阶段,这将对我们日常生活的方方面面产生广泛的影响。Speedster7t系列的推出是Achronix历史画卷上最浓墨重彩的一笔,它代表了四代硬件架构和软件开发的创新与学习,是我们与重要客户密切合作的成果。该系列融合了灵活的FPGA技术和ASIC核心效率,开创出全新的‘FPGA+’级芯片,真正突破了高性能计算加速的界限。”
为开发Speedster7t系列FPGA,Achronix的设计团队重新设计了整个FPGA架构,力求做到片上处理、组件互连和外部I/O(输入/输出设备)之间的平衡,同时最大限度地提高数据密集型工作负载的吞吐量,最典型的就是基于边缘和服务器的AI/ML应用、网络和存储方面的负载。
Speedster7t器件采用了台积电(TSMC)的7nm FinFET(7纳米鳍式场效应晶体管)制造工艺,可接受来自多个高速数据源的大量数据,再将数据分发到可编程的片上算法和处理单元上,然后以尽可能低的延迟实现计算加速。Speedster7t器件包括高带宽GDDR6接口、400G以太网端口和PCI Express Gen5 -- 所有这些组件都互相连接,能在提供ASIC级带宽的同时,完整保留FPGA的可编程性。
Semico Research的ASIC和SoC(片上系统)首席市场分析师里奇-瓦夫日尼亚克(Rich Wawrzyniak)评论说:“为了处理直接瞄准AI应用的海量数据,创新型硅架构频频问世,而全新推出的Achronix Speedster7t FPGA系列就是最好的例子。它将数学函数、内存和可编程性融合到机器学习处理器中,再结合跨芯片二维NoC结构,提供了消除瓶颈和确保数据在整个器件中自由流动的最佳途径。对AI/ML应用而言,内存带宽就是一切,Achronix Speedster7t系列在这方面树立起极高的性能标准。”
针对计算性能进行优化
Speedster7t FPGA的核心是新型MLP中的大规模并行可编程计算元件阵列,可提供业界最高的基于FPGA的计算密度。MLP是高度可配置的计算密集型单元块,支持4到24位的整数格式和高效的浮点模式,包括直接支持TensorFlow的16位格式以及增强型块浮点格式,将每个MLP的计算引擎增加一倍。
MLP与嵌入式内存块紧密耦合,消除了传统上与FPGA路由相关的延迟,确保以750 MHz(兆赫)的最高性能将数据传送到MLP。高密度计算和高性能数据传输的结合使处理器结构能够让基于FPGA的有效运算速度Tops(万亿次/秒)达到最高。
世界级带宽
对于高性能计算和机器学习系统而言,非常关键的一点就是片外内存的带宽要高,才能提供和缓冲多个数据流。Speedster7t是唯一支持最高带宽外部内存技术——GDDR6内存——的FPGA器件。由于每个GDDR6内存控制器都能支持512 Gbps(吉比特每秒)带宽,Speedster7t器件中最多有8个GDDR6控制器,这样GDDR6总带宽便达到4 Tbps(太比特每秒),内存带宽与基于HBM(高带宽内存)的FPGA相同,但成本要低得多。
美光(Micron)计算与网络业务部营销副总裁马尔-汉弗莱(Mal Humphrey)表示:“美光很高兴与Achronix合作打造全球首个与GDDR6直接相连、可满足高带宽内存需求的FPGA。像这样极具创新特色且可扩展的解决方案将推动AI领域进一步加大差异化,而这一领域需要异构计算选项和高性能内存相结合来加速数据洞察。”
除高内存带宽之外,Speedster7t器件还包括业界性能最高的接口和端口,能支持极高带宽的数据流;采用72个最高性能的SerDes,运行速率在1到112 Gbps之间;带有前向纠错(FEC)功能的硬化400G以太网MAC(媒体接入控制器);支持4x 100G和8x 50G两种配置;以及硬化PCI Express Gen5控制器,每个控制器有8或16个通道。
超高效的数据传输
虽然从Speedster7t的高速I/O和内存端口传输多太比特数据很容易超出一个传统FPGA的面向比特、可编程互连结构的路由容量,但Speedster7t架构包括一个创新、高带宽的二维NoC,在整个FPGA结构中横向及纵向铺展开,连接FPGA所有高速数据和内存接口。Speedster7t NoC就像是叠加在FPGA互连城市街道系统上的高速公路网络,支持片上处理引擎之间的高带宽通信。NoC中的每一行或每一列都通过两个符合行业标准的256位单向AXI信道来通信,频率为2 Ghz(吉赫兹),同时在每个方向进行512 Gbps的数据传输。
专用2D NoC的运用极大简化了高速数据传输,并确保数据流可以轻松地定向到整个FPGA架构中的任一自定义处理引擎。最重要的是,NoC解决了传统FPGA会出现的拥塞和性能瓶颈问题,传统FPGA利用可编程路由和逻辑查找表(LUT)资源,在整个FPGA中传送数据流。这种高性能网络不仅可以提高Speedster7t FPGA的总带宽容量,还可以在降低功耗的同时,提高LUT有效容量。
针对安全关键型和硬件保证型应用的安全功能
Speedster7t FPGAs具备最先进的比特流安全功能,以多层防御机制,确保比特流的保密性和完整性,从而有效抵御第三方攻击的威胁。基于防篡改物理不可克隆功能(PUF)对密钥进行加密,比特流的加密和验证采用的是256位AES-GCM方法。为了防御边信道攻击,比特流被分割开,每个分段使用单独导出的密钥,而解密硬件采用了差分功耗分析(DPA)防御对策。此外,Speedster7t还运用2048位RSA公钥认证协议来激活解密和验证硬件。用户可以放心地加载安全的比特流,因为这是一种专门设计的配置,已通过RSA公钥、AES-GCM私钥和CRC(循环冗余校验码)校验的验证。
可靠且低成本的ASIC转换方案,满足大批量生产需求
Achronix是唯一一家同时提供独立FPGA和Speedcore™嵌入式FPGA IP的公司。Achronix在Speedster7t FPGA中使用的便是Speedcore eFPGA IP技术,支持从Speedster7t FPGA向ASIC的无缝转换。FPGA应用通常具有必须保持可编程性的功能,而其他则是专用于特定系统应用的固定功能。在向ASIC转换时,固定功能可以硬化为ASIC结构,从而缩小芯片尺寸,并降低成本和功耗。通过Speedcore eFPGA IP将Speedster7t FPGA转换成ASIC,客户可以节省高达50%的功耗和90%的成本。
供货
Speedster7t FPGA器件提供363K至2.6M六输入LUT架构配置。支持Speedcore eFPGA和Speedchip™ FPGA芯片粒等所有Achronix产品的ACE设计工具现已上市。
第一批用于评估的器件和开发板将于2019年第四季度推出。