超導RSFQ計算機
2017-02-14 by:CAE仿真在線 來源:互聯(lián)網
來源:《中國計算機學會通訊》2016年第3期《專欄》
作者:唐光明
引言
2015年,國產超級計算機“天河二號”以理論峰值計算速度54902.4TFlop/s、實際峰值運算速度33862.7TFlop/s第六次蟬聯(lián)世界超級計算機500強第一名,當之無愧成為全球最快的超級計算機。它是由312萬個計算核心構成,功耗為17808.00 kW,峰值運算時能耗比為1.9GFlops/W。2015年,最省電的超級計算機是日本理化所信息中心的菖蒲(Shobu)集群,其能耗比為7.03GFlops/W。我們如果利用現(xiàn)在的半導體集成電路技術,即使在不斷改進計算機系統(tǒng)結構和制造工藝技術的情況下,要想制造出滿足“大數(shù)據(jù)”時代需要的能耗比為50 GFlops/W的E級計算機也將十分困難。其中面臨的最大挑戰(zhàn)就是難以忍受的巨額耗電量和由此帶來的散熱問題。因此,各國研究者們都在開始尋找可替代半導體的新器件。
2015年,是超導現(xiàn)象被發(fā)現(xiàn)104周年和約瑟夫森效應被發(fā)現(xiàn)53周年。超導高速單磁通量子(Rapid Single-Flux-Quantum, RSFQ)電路因其具有超高運算速度和超低功耗的特性而受到研究者們關注??陀^地講,因超導自身特性,使其應用局限于只追求超高運算速度和超低功耗的特殊應用領域。因為難以實現(xiàn)大容量存儲器和單位面積上約瑟夫森結較高集成密度,致使該技術永遠不可能成為主流數(shù)字集成電路技術。雖然一直有工業(yè)界的參與和政府的大力支持,但是至今為止仍沒能制造出一臺完整的超導計算機。
在本文中,我們首先介紹RSFQ數(shù)字電路的基本特征、意義和應用前景,然后了解以前幾個超導計算機項目及研究現(xiàn)狀,最后展望超導RSFQ計算機未來的發(fā)展方向及其面臨的挑戰(zhàn)。
超導RSFQ電路技術及其EDA工具
超導RSFQ電路中的基本構成器件為約瑟夫森結(Josephson Junction, JJ),通過在兩個超導體之間加一層厚度約為2~3nm的絕緣層形成。由于隧道效應,會有約瑟夫森電流經過兩個超導體。約瑟夫森結可以由電流控制工作狀態(tài),能夠在幾個皮秒內改變狀態(tài)并產生一個單磁通量子(Single-Flux-Quantum, SFQ)脈沖。在RSFQ數(shù)字電路中,使用的是脈沖邏輯(pulse logic):出現(xiàn)SFQ脈沖時代表邏輯值“1”,否則為邏輯值“0”。表1比較了日本不同超導RSFQ數(shù)字集成電路制造工藝的性能。從中可以看出,超導芯片能夠達到傳統(tǒng)CMOS工藝無法達到的工作頻率。
與半導體芯片設計方法類似,設計超導芯片時必須要使用集成電路設計軟件。2006~2012年,日本名古屋大學計算機系高木直史教授(2010年調入京都大學計算機系)主持的“高性能低功耗單磁通量子處理器”項目中,研究人員使用SKILL語言編程調用Cadence提供的各種接口實現(xiàn)了超導RSFQ大規(guī)模集成電路設計的電子自動化。與CMOS芯片設計不同,在RSFQ芯片設計中,根據(jù)不同的時鐘供給方式,需要準確計算每個數(shù)據(jù)和時鐘到達每個邏輯門的時間,并使其滿足每個邏輯門的保持時間和建立時間要求,以此保證每個邏輯門能正常工作。但在大規(guī)模RSFQ數(shù)字集成電路設計中,計算這兩個時間需要花費大量時間。為了縮短設計周期,高木研究室的研究人員設計了自動計算這兩個時間的工具箱,這大大縮短了現(xiàn)在日本的RSFQ大規(guī)模集成電路設計周期。
2002年國際超導產業(yè)技術研究所超導工學研究所(SRL)、情報通信研究機構(NICT)(神戶)、名古屋大學和橫濱國立大學共同開發(fā)了適用于工藝STP2的CONNECT單元庫。該單元庫包含200多個邏輯門和傳輸線。每個CONNECT單元都由數(shù)字層、模擬層和版圖構成。每個單元的數(shù)字層用Verilog HDL虛擬硬件語言描述了單元的數(shù)字行為,主要定義在不同偏置電壓條件下單元的保持時間和延遲時間等;模擬層定義單元的模擬電路模型,主要包括電感、電阻、電容、約瑟夫森結等參數(shù),并負責從數(shù)字層提取各種時間參數(shù)以完成低頻功能時序仿真;根據(jù)STP2工藝將模擬層定義的各種電路模型參數(shù)以相應厚度、長度和寬度物理實現(xiàn)到不同層就得到了單元的版圖。后來在CONNECT單元庫的基礎上又開發(fā)出了適用于ADP2工藝標準的ADP單元庫。這樣,我們就可利用EDA工具將計算機體系結構人員設計的RSFQ邏輯電路進行布線布局形成大規(guī)模集成電路并進行設計規(guī)則檢查(DRC)和電氣規(guī)則檢查(ERC),局部修改后通過檢查就可以生成GDSII版圖文件交付日本產綜研(AIST)進行RSFQ芯片制造。芯片被制造完成后再送到名古屋大學藤卷研究室由田中雅光帶領的小組進行高頻測試。
在美國,紐約州立大學石溪分校(SBU)開發(fā)了適用于HYPRES 4.5kA/cm^2 1.5μm 4層鈮工藝的單元庫SBU VHDL單元庫?,F(xiàn)在還沒有適用于MIT林肯實驗室10層鈮工藝單元庫的相關報道。
超導RSFQ計算機的發(fā)展
1972~1983年,IBM首次嘗試使用約瑟夫森結制造超導計算機。在這個項目中,研究人員使用鉛合金制造約瑟夫森結,導致電路熱周期特性不穩(wěn)定;以及采用與CMOS電路類似的工作邏輯,需要另加交流電完成復位,從而使超導數(shù)字電路喪失了在速度上的優(yōu)勢。
繼IBM項目失敗15年之后,RSFQ電路理論奠基人紐約州立大學石溪分校教授利哈廖夫(K. K. Likharev)領導了混合技術多線程(HTMT)體系結構超導計算機項目(1996~2000)。當時的制造工藝僅僅只能實現(xiàn)幾千個約瑟夫森結的集成度,無法滿足HTMT中每個處理器芯片需要幾百萬個約瑟夫森結的要求。最后,由幾萬個處理器構成的HTMT超導計算機系統(tǒng)以沒有制造出一個芯片而告終。
有了以上兩個項目失敗的經驗教訓后,美國人開始從實際出發(fā),結合工藝水平,研制8位并行處理器FLUX-1。雖然美國人并沒有打算將此處理器應用到任何地方,但最后該項目并沒有成功演示一個完整的并行超導RSFQ處理器。
由于受到約瑟夫森結集成度的限制,日本主要集中研制8位串行結構處理器。但是實際應用中真正需要的是32位或64位處理器。2012年日本發(fā)展了ADP2制造工藝,可以在1cm^2的芯片上集成105個約瑟夫森結的同時并開發(fā)了超導無源傳輸線PTL,使32位RSFQ處理器的實現(xiàn)成為可能。所以,現(xiàn)在日本名古屋大學(負責芯片物理實現(xiàn)和測試)、京都大學(負責計算機體系結構和硬件算法)、橫濱國立大學(負責存儲器)和AIST(負責芯片制造)開始共同研制32位串-并體系結構處理器,并且已經成功演示基于4位串-并體系結構的32位ALU。該成果已經于2016年1月在IEEE Transactions on Applied Superconductivity 26卷第一期上發(fā)表。4位串-并體系結構32×32位乘法器也被設計完成,該成果將于2016年6月被發(fā)表在IEICE Transactions on Electronics E99-C卷第6期上。美國仍繼續(xù)研制并行體系結構32位/64位處理器。直到2015年,只有日本成功演示了完整的8位串行處理器CORE1。
8位串行體系結構微處理器
2002~2007年,日本名古屋大學、橫濱國立大學、東北大學、SRL、NICT(神戶)共同開展CORE1處理器項目。雖然功能簡單,但CORE1仍是至今唯一被成功演示且功能完整的處理器。
CORE1α(ver.5)是第一個被成功演示的RSFQ處理器。它包含4999個約瑟夫森結,工作時鐘為15GHz,功耗為1.6mW,性能為167MIPS(每秒百萬條指令)。在CORE1α(ver. 6)中使用了超導無源傳輸線 PTL技術,包含6319個約瑟夫森結,工作時鐘為18GHz,功耗為2.1mW,性能提高到240MIPS。后來又發(fā)展出CORE1α(ver. 10),CORE1β,CORE1γ(ver.2)等幾個版本,圖1所示的CORE1γ(ver.4)是CORE1的最后一個版本,包含22302個約瑟夫森結,面積為6.36×6.20mm^2,性能為666 MOPS(峰值),擁有四級流水線,工作時鐘頻率25GHz,功耗為6.56mW。
高性能低功耗超級計算機系統(tǒng)結構
1997~2001年,日本科技廳確立RSFQ電路基礎技術研究項目,SRL、AIST、富士通、日立、日本電氣公司(NEC)、NICT、東北大學、橫濱國立大學、名古屋大學等開展對相關技術的研究。2002~2006年國立研究開發(fā)法人新能源產業(yè)技術綜合開發(fā)機構(New Energy and Industrial Technology Development Organization, NEDO)確立RSFQ數(shù)字電路設計技術研究項目。
從2006年秋開始,以用RSFQ電路來開發(fā)高性能低功耗計算機為目標,JST-CREST確立了“計算機系統(tǒng)超低功耗技術革新和融合技術”研究領域的“高性能低功耗單磁通量子處理器”項目,對相關基礎技術進行深入研究。領導者為名古屋大學計算機系高木直史教授,參與研究的單位有:九州大學計算機系村上和彰研究室、名古屋大學量子工學系藤卷朗研究室、橫濱國立大學吉川信行研究室、SRL日高睦夫研究小組。
該項目開始時,SRL和NEC已經擁有了成熟的2μm超導集成電路工藝,并正在此基礎上進行1μm工藝的研究。在2μm工藝中,基于元件庫的設計技術已經成熟,擁有了完備的基本邏輯單元庫,且正在開展JTL自動布線工具的研發(fā)。雖然可以開發(fā)Nb六層的器件,但是沒有任何針對1μm工藝的設計與開發(fā)環(huán)境。
在該項目中,研究者提出可用“大規(guī)??芍貥嫈?shù)據(jù)通路(LS-RDP)”(見圖2)作為一種未來RSFQ電路實現(xiàn)超級計算機的體系結構。在LS-RDP中,由數(shù)千個浮單元(FPU)互聯(lián)構成一個可重構的網絡(Operand Routing Network, ORN),并將這種大規(guī)模具有計算機功能的加速器加入處理器中。LS-RDF具有可重構功能,大多數(shù)FPU采用并行流水線結構,具有數(shù)據(jù)依賴關系的命令均可以被直接執(zhí)行。在此RSFQ電路中,只要ORN的重構被完成,LS-RDP內部的數(shù)據(jù)流向就被確定,各個FPU處理后的數(shù)據(jù)依次被傳輸直至運算完成,且計劃用RSFQ電路實現(xiàn)LS-RDP中數(shù)據(jù)讀取的“流緩沖”。整個項目中的處理器、主存儲器等均采用半導體器件。為了在將來能完全實現(xiàn)超導RSFQ計算機系統(tǒng),日本當前正在進行32位串-并體系結處理器的研制。
32位串-并體系結構計算機
由日本科學振興機構(JST)戰(zhàn)略創(chuàng)造研究推進事業(yè)先端低碳技術開發(fā)項目下支持的“Superconductor Electronic System Combined with Optics and Spintronics (2011~2017)”項目計劃研制一個超導RSFQ計算機系統(tǒng)。名古屋大學藤卷朗主持此項目,參與單位有NICT、橫濱國立大學、京都大學和AIST。此項目中的核心單元為一個采用MIPS32指令系統(tǒng)的RSFQ微處理器,由京都大學高木研究室負責此處理器的體系結構和硬件算法研制工作。該研究小組采用串-并體系結構,現(xiàn)在已經完成ALU和乘法器研制工作。之所以采用串-并體系結構,是因為串行結構處理32位數(shù)據(jù)速度太慢,不能采用;也不能采用并行體系結構,因為現(xiàn)在日本最先進的ADP2工藝只能在1cm^2芯片上集成10萬個約瑟夫森結,而負責美國C3超導RSFQ計算機項目中計算機體系結構設計的SBU研究小組設計的32位并行算術邏輯單元需要36073個約瑟夫森結,32×32位并行乘法器需要75811個約瑟夫森結,這致使無法在一個芯片上實現(xiàn)32位處理器。因為,程序計數(shù)器(PC)、指令存儲器(IM)、數(shù)據(jù)存儲器(DM)和控制器(Controller)等也是處理器必不可少的部件。美國C3計劃中約瑟夫森結設計復雜度為107,需要每平方厘米高達106個約瑟夫森結集成密度。但就目前HYPERS和MIT林肯實驗室公開的數(shù)據(jù)來看,還沒有達到這一目標。
在算術邏輯單元設計過程中,為了能發(fā)現(xiàn)只須消耗硬件資源較少就可達到最快速度的體系結構。我們通過一系列研究發(fā)現(xiàn),即使將來約瑟夫森結的集成度增加了,也不一定會采用并行體系結構。因為,在32/64位處理器中,隨著電路規(guī)模增加,單元器件增多致使時鐘信號要使用大量有源分支元件Splitter,加之流水線級數(shù)加深,從而導致其處理數(shù)據(jù)的時間延遲急劇增加。所以在RSFQ數(shù)字電路中,并行體系結構并不一定有效,串-并體系結構可能是一種比較好的解決方案。
為了驗證上面的結論,我們選取了硬件資源消耗較少,計算速度最快(當工作頻率在35GHz以上時)的基于4位串-并體系結構的算術邏輯單元進行仿真、DRC和ERC,然后生成GDSII二進制文件送到AIST進行流片,最后到名古屋大學藤卷研究室進行高頻測試。測試結果顯示:該算術邏輯單元可執(zhí)行MIPS32的所有算術/邏輯指令,工作頻率為50GHz,功耗為1.01毫瓦,面積為3.09×1.66mm^2,消耗資源為3481個約瑟夫森結。圖3(a)~(c)分別顯示了封裝后的芯片以及電子顯微鏡下芯片內部的RSFQ電路。
64位并行體系結構計算機
2005年,美國國防部情報高級研究計劃署(IARPA)制定了超導RSFQ數(shù)字集成電路的發(fā)展綱要,2013~2018年開始實施Cryogenic Computing Complexity(C3)項目第一階段的研究,主要研制超導存儲器和邏輯電路關鍵技術,并以此尋求開發(fā)、驗證超導RSFQ數(shù)字電路在超級計算領域的潛力。
該項目最終的目標是分三個階段實現(xiàn)超導計算機系統(tǒng)。該計算機系統(tǒng)工作時鐘頻率為10GHz,吞吐量達1013bit-op/s,主存儲器228字節(jié),緩存為215字節(jié),I/O速度為109 bit/s。處理器為64位ARM或Intel Atom核,指令集采分別用ARM或簡單x86指令系統(tǒng)算術邏輯單元,只能處理一個64位整數(shù),無浮點運算能力。整個邏輯電路的約瑟夫森結復雜度達107,需要流片工藝106JJs /cm^2。MIT林肯實驗室負責芯片制造,他們的目標是2015年在單位面積上集成105個約瑟夫森結,到2020年約瑟夫森結集成度達106。SBU負責計算機體系結構和邏輯電路設計,目前已完成32位并行算術邏輯單元和32×32位并行乘法器的設計與仿真工作。IBM,Northrop Grumman也參與了這個項目。
未來面臨的挑戰(zhàn)
RSFQ數(shù)字集成電路雖然擁有超低功耗和超高速度的優(yōu)點,但由于這是一項全新的技術,也面臨許多有待解決的問題:
-
溫度引起的延遲抖動:使用超導約瑟夫森結構成的RSFQ數(shù)字電路邏輯門沒有固定的傳輸延遲,當工作環(huán)境有熱波動時,RSFQ數(shù)字電路邏輯門的傳輸延遲隨之就會產生抖動。這種現(xiàn)象在超高速和高寬帶數(shù)據(jù)通路的處理器中尤其容易發(fā)生。因此,我們在設計RSFQ數(shù)字集成電路時,必須要提供高可靠性的時鐘同步技術。
-
磁通捕獲效應:當磁通被捕獲或被凍結時,RSFQ數(shù)字電路的性能將被降低,從而導致操作故障。這種現(xiàn)象容易發(fā)生在從常態(tài)到超導態(tài)的轉變過程中。為了使磁通捕獲效應最小化,我們既需要采用雙層金屬鉬(Mu)屏蔽地球磁場,也需要在超導芯片版圖的接地層和面積較大的超導薄膜層上構建磁通阱(trap)或塹(moat)結構,從而使已被凍結的磁通遠離正處于工作狀態(tài)的RSFQ數(shù)字電路。
-
難以接受的延遲開銷:在RSFQ大規(guī)模數(shù)字集成電路中,較大規(guī)模的扇出(fan-out)會造成較大的延遲開銷。尤其是使用了“準備好”信號的異步并行流水線結構中, 由于邏輯門數(shù)量增大,延遲開銷就會被相應增加。因為在這類電路中,需要大量使用將信號一分為二的有源分支元件Splitter,這使我們必須要額外增加大量約瑟夫森傳輸線JTL將這些Splitter級聯(lián)起來,從而導致整個電路的延遲開銷被大大增加。因此,我們在設計RSFQ大規(guī)模數(shù)字集成電路時,體系結構和邏輯電路設計階段的工作尤為重要,需要不斷優(yōu)化設計,最大限度地減少電路的扇出規(guī)模,從而使整個電路的延遲開銷最小化。
-
靜態(tài)功耗:在RSFQ數(shù)字電路中,偏置電阻的靜態(tài)功耗最大。這在RSFQ大規(guī)模數(shù)字集成電路中是一個不容忽視的問題。目前,美國HYPRES的奧列格·穆漢諾夫(Oleg A. Mukhanov)正在開展對能量有效RSFQ(Energy-Efficient RSFQ)數(shù)字電路的研究,以期待解決RSFQ數(shù)字電路中靜態(tài)功耗的問題。
-
RSFQ超大規(guī)模數(shù)字集成電路EDA工具:我們雖然可以利用JSim(免費約瑟夫森結電路仿真器)、PSCAN’96(約瑟夫森結電路仿真器)、SPICE3(約瑟夫森結電路仿真器)、WRspice(約瑟夫森結電路仿真器)、InductEx(免費3D電感修改器)、SONNE(3D電磁仿真器)、HFSS(3D電磁仿真器)、LASI(免費IC版圖工具)等工具來仿真和評估RSFQ數(shù)字電路,但是這些工具無法完成LSI和VLSI級RSFQ數(shù)字電路的仿真和評估。本文中提到的EDA軟件要求體系結構和硬件算法設計人員完成后端設計,這就增加了設計周期。2009年,由南非開發(fā)的商業(yè)EDA軟件NioCAD是一款類似Cadence的集成開發(fā)環(huán)境,不過它現(xiàn)在仍處于發(fā)展階段,仍有待繼續(xù)完善其功能。
-
存儲器:RSFQ數(shù)字電路領域面臨的最大挑戰(zhàn)可能就是存儲器。因為存儲器的性能直接制約整個處理器以及整個計算機系統(tǒng)的性能,為此需要提供低延時、高吞吐量尋址能力的片內和片外存儲器。目前,研究者們正在研究約瑟夫森磁阻隨機存取存儲器(Josephson Magnetoresistive Random-Access Memory, JMRAM)和重新出現(xiàn)渦旋轉換存儲器(re-emergence of vortex transition memory)。在沒有出現(xiàn)高性能的超導存儲器之前,日本研究者使用數(shù)據(jù)延遲單元DFF(Data/Delay Flip-Flop)來作為片內存儲器。其優(yōu)點是實現(xiàn)容易,但其缺點是占用面積大,消耗硬件資源多。為了驗證程序計數(shù)器、控制器和存儲器等部件的功能,以便在以后要設計的32位串-并處理器中應用,在近期設計的8位增強版CORE e4中增加了32個8位數(shù)據(jù)存儲器和32個8位指令存儲器,它們占用的面積和約瑟夫森結數(shù)量幾乎占了整個芯片的50%。
總結
較目前的半導體CMOS數(shù)字集成電路,超導RSFQ數(shù)字集成電路在功耗和速度兩方面都有絕對優(yōu)勢。但是受超導自身性能影響,其工作環(huán)境要求在零下270攝氏度(~4.2K),而且還要增加雙層金屬鉬屏蔽地球磁場。這就意味著用超導RSFQ數(shù)字集成電路制成的設備還需要附加冷凍和屏蔽裝置。因此,此技術不能應用于便攜式設備和手持嵌入式設備中;更由于超導存儲器和約瑟夫森結高集成度難以實現(xiàn),所以RSFQ電路技術不能替代CMOS電路技術而成為主流數(shù)字集成電路技術,僅局限于只追求超高速運算速度和超低功耗而可以忽略其缺點的應用。
從科學技術發(fā)展的歷史長河來看,雖然超導RSFQ數(shù)字集成電路還存在許多需要解決的問題,但對需要超高速運算速度和超低功耗的應用仍具有吸引力。
致謝:
作者衷心感謝中科院計算所黃博文工程師的編輯工作,幫助作者將近60頁的原始文檔縮減到僅為18頁的文稿。感謝中國科學院計算技術研究所所長孫凝暉研究員和先進計算機系統(tǒng)研究中心副主任包云崗研究員給予的支持。正因為有了他們的幫助,本文才能與大家見面。作者的研究得到了ALCA-JST資助,CRAVITY制造了作者設計的芯片,京都大學高木研究室和名古屋大學藤卷研究室為作者開展工作提供了良好的條件,在此也一并表示感謝。
作者:
唐光明
日本京都大學,工學博士。主要研究方向為計算機體系結構、大規(guī)模單磁通量子集成電路設計。
相關標簽搜索:超導RSFQ計算機 機械設計培訓課程 基于數(shù)字方式的制造業(yè)升級 工業(yè)4.0 中國制造2025 CAD CAM自動化智能化機械制造的應用 Fluent、CFX流體分析 HFSS電磁分析 Ansys培訓 Abaqus培訓 Autoform培訓 有限元培訓