高性能計算的發(fā)展

2016-09-26  by:CAE仿真在線  來源:互聯(lián)網

摘要

繼理論科學和實驗科學之后,高性能計算成為人類科學研究的第三大范式。作為科技創(chuàng)新的重要手段,高性能計算廣泛應用于核爆模擬、天氣預報、工程計算等眾多領域,是當代科技競爭的戰(zhàn)略制高點,集中體現一個國家的綜合實力。本文介紹高性能計算發(fā)展的歷史和現狀,分析當前高性能計算所面臨的問題和挑戰(zhàn),探討高性能計算未來的發(fā)展方向。


利用大量處理單元的聚合計算能力來解決復雜問題,是高性能計算(high performance computing,HPC)最直觀的定義。高性能計算已成為繼理論科學和實驗科學之后科學探索的第三范式,被廣泛應用在高能物理研究、核武器設計、航天航空飛行器設計、國民經濟的預測和決策、能源勘探、中長期天氣預報、衛(wèi)星圖像處理、情報分析、互聯(lián)網服務、工業(yè)仿真等領域,對國民經濟發(fā)展和國防建設具有重要的價值。它作為世界高技術領域的戰(zhàn)略制高點,已經成為科技進步的重要標志之一,同時也是一個國家科技綜合實力的集中體現。

   

本文介紹高性能計算的發(fā)展現狀,分析現在高性能計算面臨的挑戰(zhàn),探討中國高性能計算未來的發(fā)展方向。

   

高性能計算的發(fā)展現狀

  


高性能計算作為計算機科學的一個分支,致力于開發(fā)高性能計算機和運行在高性能計算機上的應用軟件?;仡櫄v史,高性能計算作為一個強大的計算工具,與科學研究的發(fā)展密不可分。一方面,科學研究對計算能力永無止境的需求促進了高性能計算技術向前發(fā)展;另一方面,高性能計算技術的每一次巨大進步都為科學研究提供了全新的手段。

   

1)永無止境的計算需求

 

在近代科學研究中,單靠理論和實驗解決問題的難度逐漸增大,數值運算的方法被用來模擬物理世界,以求解復雜的問題,計算科學成為自然科學研究的必備工具。隨著求解問題規(guī)模的越來越大,對計算能力的需求成為驅動高性能計算發(fā)展最直接的動力。

   

第二次世界大戰(zhàn)時期,靠人力計算火炮的彈道非常困難,戰(zhàn)爭對計算能力的需要促進了第一臺電子計算機的誕生;早期的高性能計算機主要應用于解決軍事領域的計算問題,如美國在1960年代使用CDC超級計算機進行彈道計算、火箭設計等工作[1]20世紀90年代中期以后,隨著機群技術構建的高性能計算機的普及,高性能計算的成本和編程的復雜度大幅度下降,為高性能計算的廣泛使用創(chuàng)造了條件。如圖1[2]所示,現在高性能計算已經滲透到各個學科領域,不僅在氣候模擬、石油勘探、天體物理這些傳統(tǒng)應用領域保持強勁的生命力,在生命科學、人工智能、大數據處理這些新興領域也有廣泛的應用。

   


圖1  2014 年全球高性能應用領域分布


在傳統(tǒng)應用領域,如天氣預報、石油勘探、核爆模擬等,計算問題一般采用劃分網格的方式來解決,隨著應用的物理建模不斷精細,數值模擬分辨率越來越高,對計算能力的要求也越來越高。以氣候模擬與天氣預報為例,建立模擬氣候變化的模型是一個非常有挑戰(zhàn)性的工作,它需要模擬巨量的實體間相互作用,同時還需要在不同的時間和空間維度上進行分析,一般使用數十億個非線性方程從不同的維度描述各種物理過程。如圖2[3]所示,現在比較成熟的全球氣候模擬模型一般采用100~200 km的網格,它對地形效應、細粒度水文狀況的模擬能力很弱;最新出現的模型采用20~50 km的網格,在此分辨率下可以得到很大的改善,但需要強大得多的計算能力才能求解。如果將每個空間維度上的分辨率再提升1倍,則總的計算能力至少需要提升8倍。據分析,如果將模型的分辨率提升到1 km,則相應的計算能力需要提升100~1000 倍,這需要未來將高性能計算機的計算能力由現在的P級升級為E級(1018)。

   


圖2  IPCC 評估報告中所使用氣候模型的空間分辨率


天氣預報一般采用更高級的對流解析有限域模型,在未來很長一段時間內,實現1 km    水平分辨率的對流運動模型是氣象領域的一項重要工作。高分辨率的模型可以直接地求解對流系統(tǒng)的問題,模擬結果可以更好的展示地形效應、海洋大氣能力轉移過程,并且可以獲得更詳細的區(qū)域氣候情況。這些高分辨率的模擬結果能幫助我們更好地理解全球變暖對天氣的影響,同時可以利用對區(qū)域氣候的模擬來評估極端天氣事件對社會的影響。

   

激光聚變數值模擬對計算能力有著相似的需求。為了模擬內爆過程中輻射流體力學界面不穩(wěn)定性的演化,100 個波長的模擬是最低的要求。對單模模型,每個波長至少需要10個網格,則單個方向需要1000個網格,三維模擬總共需要109個網格。對多模模型,為了分辨單個擾動模,每個波長需要50個網格,如果模擬200個波長,需要的網格總數約為1012?[4]。當前,千萬億次計算機的CPU核數為104~105量級,勉強可滿足單模模型的需求,但模擬多模模型是目前千萬億次計算機難以承受的,計算能力至少需要有兩個量級的提升,需要更高性能的計算機。

   

在非傳統(tǒng)的新興應用領域,如生命科學、人工智能、大數據處理,這些應用的負載很多都是基于圖模型和圖算法來處理數據,而復雜的圖結構的規(guī)模非常龐大。例如,在娃娃魚基因組測序中,對應De Brujin 圖有超過1013個頂點,測序技術的發(fā)展對計算能力的需求不斷提高。

   

深度學習是新興領域中另一個典型代表。深度學習技術試圖通過大規(guī)模的神經網絡和大數據提供的海量訓練集合,將大腦學習識別的過程加以抽象,從而獲得極高的識別準確度,這些都帶來了極大的計算需求和吞吐需求。在早期使用深度神經網絡進行語音識別的模型中,擁有429個神經元的輸入層,整個網絡擁有156 M個參數,訓練時間超過75[5,6];人工智能和機器學習頂級學者Andrew Ng 和分布式系統(tǒng)頂級專家Jeff Dean 打造的Google Brain項目[7],用了包含16000CPU核的并行計算平臺訓練超過10億個神經元的深度神經網絡,在語音識別和圖像識別等領域取得了突破性的進展。如圖3[8]所示,如果模擬人類大腦的全腦級的神經系統(tǒng),需要模擬1000億個神經元,需要計算能力有數個數量級的提升。許多商用或開源系統(tǒng)如Caffe、TheanoTensorFlow 等相繼出現,尤其是由谷歌開源的TensorFlow系統(tǒng),支持異構設備分布式計算,可以靈活的從單個CPU/GPU擴展到數千個CPU/GPU組成的分布式系統(tǒng);深度學習的進步也促進了專用加速器的發(fā)展,例如中國科學院計算技術研究所陳云霽團隊所設計的寒武紀神經網絡處理器,相對于x86指令集的CPU 有兩個數量級的提升,而面積和功耗只有其1/10。

   


圖3  腦模擬對高性能計算性能的要求


以上所列舉的各個學科對計算能力的需求有一些相似的特點:它們需要強大的計算能力來模擬更大規(guī)模的應用,并同時增加應用的分辨率,因此需要的計算能力要有幾個數量級的提升。按照推測,滿足這些應用的未來計算機系統(tǒng)峰值性能在2020年至少應該達到1 Eflop/s。

   

2)計算利器:高性能計算系統(tǒng)

 

高性能計算系統(tǒng)利用大量處理單元的聚合計算能力來滿足應用巨大的計算需求,其關鍵問題是實現眾多計算節(jié)點的大規(guī)模集成和高效協(xié)同計算,核心技術涉及高性能計算機和大規(guī)模并行應用程序。

   

(1)高性能計算機

 

自第一臺電子計算機ENIAC問世以來,以電子器件、系統(tǒng)結構和計算模式的重大變革為標志,高性能計算機發(fā)展已經歷經三次大的發(fā)展階段(圖4)。

   


圖4  高性能計算機發(fā)展歷史


集成電路的發(fā)明推動了信息技術革命,1965 年,Intel 創(chuàng)始人Moore 提出集成電路的第一定律“摩爾定律”,即“集成電路上可容納的晶體管數目大約每隔18個月便會增加1倍,性能也提升1倍”[9]。摩爾定律完美預測了此后近50年通用微處理器的發(fā)展軌跡,但“摩爾定律”的提升速度不足以滿足快速增長的計算需求,體系結構開始引領高性能計算機的發(fā)展,相繼出現了向量機、SMP、ccNUMAMPP(massively parallel processing)和機群5種主要架構。

   

“擴展性”和“成本”是推動體系結構進步的兩個關鍵因素。從20世紀70年代中期到90年代初的接近20年時間里,向量機占據了高性能計算機的統(tǒng)治地位。雖然僅一條指令就可以處理整個向量,但向量化編程存在困難,加之全定制處理器高昂的成本,導致向量機遇到了瓶頸,基于通用微處理器構建的共享存儲多處理器系統(tǒng)(SMP)逐漸成為主流。SMP集中式的共享機制導致了擴展性受到限制,帶有分布式特征的ccNUMA(支持cache 一致性的非一致訪存架構)被斯坦福大學提出,并在1991年完成了第一臺ccNUMA架構的并行機Dash。ccNUMA 結構延續(xù)了SMP的編程模型,苛刻的遠程訪存延遲需求決定了其難以實現大規(guī)模的擴展。

   

為了解決大規(guī)模擴展的問題,很快出現了MPP 體系結構,它可擴展到上萬個結點。其結點被分為計算結點和服務結點兩類,計算結點運行輕量級定制操作系統(tǒng),用于提供計算能力;服務結點運行完整操作系統(tǒng),為計算結點提供諸如文件系統(tǒng)、任務管理和I/O等服務。結點間以定制的高速網絡互連,采用基于消息傳遞的編程模型。因為MPP采用了專用部件,較高的構建和維護成本成為它廣泛使用的限制因素。Cluster(機群)應運而生,其節(jié)點和網絡均采用商業(yè)化的部件,制造和維護成本都很低,同時具備MPP 的高可擴展特性,迅速成為高性能計算機領域的主流。到2007年,世界Top 500榜單的系統(tǒng)就已經完全被MPPCluster系統(tǒng)壟斷(圖5)。

   


圖5  高性能計算機體系結構發(fā)展


但是到了2008 年左右,能耗問題制約了處理器主頻的大幅度提升,如果繼續(xù)采用當時主流的機群技術(曙光4000A,Top 500的第10名),實現千萬億次系統(tǒng)需要64000 個節(jié)點,占地近14000 m2(約兩個足球場),功耗約38MW(一個中等縣城的用電量)。為了突破系統(tǒng)規(guī)模、計算密度、系統(tǒng)能耗這三個因素的制約,采用通用處理器和加速器協(xié)同計算的異構計算模式被提出,并成為系統(tǒng)性能提升的主要推動力,其中主流的加速器有GPGPU、眾核處理器和FPGA。由于加速器不需要執(zhí)行復雜的控制流,專注于浮點計算,因此它可以實現大量浮點計算部件的堆疊,峰值計算性能超過通用處理器數倍或數十倍,對一些特定應用甚至可以實現上百倍性能的提升,極大提高了計算節(jié)點的效能比。在2015 11 月發(fā)布的Top 500 排名中[10],使用加速器的系統(tǒng)提供的總性能達到榜單中計算機性能總和的1/3,新構建的高性能計算機系統(tǒng)中,近1/2采用加速器,目前已有超過2/3的高端應用代碼支持GPU優(yōu)化。

   

6是支持異構計算的曙光高性能計算機結構示意,其高密度異構計算刀片節(jié)點可以繼承大量高性能異構計算部件,節(jié)點間采用大規(guī)?;ミB網絡連接,并配以海量存儲系統(tǒng)。中國的曙光6000(星云)和天河1號系統(tǒng)分別使用了NVIDIAATI公司的GPU作為加速器,在2010年先后獲得了世界高性能計算機Top 500榜單的第二和第一名,采用Intel Xeon Phi眾核加速器的天河2號系統(tǒng)自2013年就一直保持著世界第一的排名。

   

圖6  曙光系列高性能計算機組成結構示意


2015年美國總統(tǒng)奧巴馬簽署推出“國家戰(zhàn)略計算計劃”(NSCI)的行政命令來支持高性能計算機的繼續(xù)發(fā)展,目標建造計算峰值達到百億億次的高性能計算機,也就是E級計算機系統(tǒng)[11]。中國也啟動了在“十三五”期間建造E級系統(tǒng)的計劃。異構計算模式將是達到E級計算能力的必由之路,這一點國際上已經達成共識;由于系統(tǒng)功耗限制(功耗墻),E級系統(tǒng)之后,僅借助當前的異構計算模式難以再實現大幅性能提升(圖4)。人們寄希望于計算原理的突破來開啟高性能計算機的下一個大發(fā)展階段,量子計算、光計算和DNA計算都是這一方向的研究熱點。2013年美國谷歌、NASA和大學空間研究聯(lián)合會購買了D-Wave 公司的“D-Wave Two”量子計算機,成為量子計算產業(yè)化的標志性事件。但量子計算機仍處于探索階段,存在大量結構和算法問題,短期內難以規(guī)模產業(yè)化。

   

(2)基礎算法庫和并行應用軟件

 

高性能計算機的峰值性能不等同于應用軟件運行時的實際性能,它們之間往往存在巨大的鴻溝。以稀疏矩陣類應用為例,SpMV(稀疏矩陣乘法)的浮點性能通常不超過峰值性能的10%,在GPU眾核處理器上的浮點效率甚至低于2%。要發(fā)揮高性能計算機的高速硬件優(yōu)勢,必須要有適用的算法和調優(yōu)的應用程序來實現數百萬核之間的并行。因此,大規(guī)模并行軟件和高性能算法的發(fā)展水平象征著各個國家高性能計算的軟實力。

   

現在大規(guī)模并行軟件在各個領域發(fā)揮著重要作用,知名的有:大氣領域的WRF、計算化學的Gaussian、流體力學的Fluent、LS-Dyna等。美國和日本是高性能并行軟件強國,高性能計算領域最高獎項“戈登·貝爾獎”20多年來一直被美國和日本壟斷;歐洲同樣非常注重應用軟件的研發(fā),計算化學的ADFMOLPRO、分子模擬的GROMACS、材料計算的VASP 在世界范圍廣泛使用。大規(guī)模并行應用軟件的發(fā)展都與國家巨額投入息息相關,美國能源部(DOE)在硬件上的花費不到總投資的1/6,大部分預算都花在了物理建模、算法研究和軟件研制方面。

   

國內則更重視有顯示度的高性能計算機硬件的研制,對應用軟件的投入欠缺,且缺乏整體計劃,雖然也開發(fā)了數個幾十萬核、乃至百萬核的大規(guī)模應用,但多局限于對于計算數據的測試、算法程序的并行優(yōu)化等基本的輔助性操作。

   

大規(guī)模并行應用程序的核心是基礎算法模塊,許多科學問題的解決高度依賴于基礎算法與可計算建模的發(fā)展水平。高效的基礎算法和滿足實際精度要求的可計算模型可以顯著降低計算復雜度和計算量,提高利用計算機解決科學與工程問題的能力。例如,著名的高性能數學庫BLAS、ScaLAPACKFFTW 等在提高大量應用性能上發(fā)揮了關鍵性作用。20123月美國能源部發(fā)布了題為“Report on the extreme-scale solvers: Transition to future architectures”的報告,指出在CPU核數為10萬量級的計算機上,稀疏線性解法器在很多復雜應用數值模擬中占了90%的時間;在核爆模擬和激光聚變等很多數值模擬應用中,稀疏線性解法器也同樣消耗了絕大部分運行時間。美國能源部“
先進計算促進科學發(fā)現(SciDAC)”項目在最新發(fā)布的第3期計劃中,成立了FASTMath(Frameworks,Algorithms, and Scalable Technologies for Mathematics)研究小組作為第一批啟動的重點內容,其目標是面向實際復雜應用的大規(guī)模數值模擬,發(fā)展可擴展的共性算法和使能技術,最終形成高性能數學工具箱,包括了13個具有共性的軟件包。

   

北京應用物理與計算數學研究所和中國科學院數學與系統(tǒng)科學研究院分別研制了JASMIN框架和PHG平臺,面向科學計算領域中的自適應結構網格和非結構網格數值模擬應用,它們將科學計算中現有的很多共性算法集成,并封裝形成共性層模塊,支撐數值模擬應用(如激光聚變、油藏和電磁場)在國產高性能計算機上的發(fā)展。

   

在互聯(lián)網領域,大數據處理應用也存在共性基礎模塊。例如,數據挖掘中大量采用的線性代數解法器、網頁排序算法PageRank屬于典型的稀疏線性迭代方法。在社交網絡分析、系統(tǒng)生物學和基因測序中,基于圖的建模是基本的處理方式,圖算法已經成為事實上的基礎模塊。這些實際問題中的圖多數用稀疏矩陣來描述,數學模型可抽象為線性代數的表示,其算法與稀疏線性代數存在數學上的等價性。這類數據處理應用具有更嚴重的不規(guī)則計算與通信模式,以及更低的計算訪存(通信)比,如何并行優(yōu)化成為高性能計算研究的熱點和難點。20106月,美國Sandia實驗室牽頭聯(lián)合美國幾大國家實驗室和科研機構,發(fā)布了以圖遍歷算法為核心的Graph500基準測試程序[12],在用于高性能計算機系統(tǒng)排名的同時,也促進了面向E級數據處理的并行算法設計和優(yōu)化技術的研究。

   

3)高性能計算機產業(yè)

 

根據IDC 2015年的統(tǒng)計[2],全球高性能計算市場規(guī)模在250億美元,其中高性能計算機系統(tǒng)(包括服務器、存儲和網絡)約占60%,軟件和服務約占35%;據預測在20152020 年間高性能計算市場規(guī)模將以8.3%的復合增長率而增長,在2020年達到440億美元。自2012年的4年間,世界高性能計算機Top 500排行榜的入門性能和性能總和分別提高了4倍和3.7倍。

   

美國公司仍然占據整機市場的領先地位,2014年全球Top 500高性能計算機市場份額的80%被惠普、IBM Cray 三家公司占據(圖7)。但受系統(tǒng)升級以及2014年聯(lián)想收購IBM x86服務器部門的影響,2015 IBM 的份額大幅下降,國產的曙光高性能計算機異軍突起,以9.8%的份額取代IBM 位列第三,這證明了中國高性能計算機整機技術和產業(yè)化能力都達到了世界領先水平。在國家高技術研究發(fā)展計劃(863計劃)的持續(xù)支持下,中國已經掌握了包括高密度服務器、機群操作系統(tǒng)、高性能存儲系統(tǒng)、冷卻技術在內的各項整機系統(tǒng)技術。國產高性能計算機系統(tǒng)已經連續(xù)兩年占據中國Top 100系統(tǒng)90%以上的份額,曙光信息產業(yè)股份有限公司更是連續(xù)7 年蟬聯(lián)中國Top 100 份額第一。隨著聯(lián)想對IBMx86 服務器并購的完成,曙光、聯(lián)想和浪潮三強爭霸的局面已經形成。

   


圖7  全球Top 500 高性能計算機市場份額


在國家自主可控和保障信息安全的宏觀政策引導下,中國啟動了基于自主可控處理器構建國產高性能計算機的計劃,“核高基”重大科技專項支持了3個高性能處理器系列的研制,即飛騰(國防科大,ARM指令集)、申威(江南計算所,基于Alpha 的自定義指令集)和龍芯(中科龍芯,MIPS指令集)。國家高技術研究發(fā)展計劃(863 計劃)項目中1Flops神威藍光計算機全部采用了申威16CPU,曙光星云計算機部分部署了龍芯8CPU,國防科技大學天河系統(tǒng)部分部署了飛騰多核CPU。但由于采用非x86指令集,商用并行軟件都不能運行,還沒有能力構建自己的軟件生態(tài)系統(tǒng),這些因素使其應用領域受到很大限制,市場容量過于狹小。到目前為止,基于自主可控處理器的高性能計算機還局限在國家科技項目范疇,尚沒有開始產業(yè)化進程,在國家戰(zhàn)略應用中進行推廣是一條可行的發(fā)展道路。

   

國產HPC應用軟件是中國高性能計算的短板,與國際上的差距最大。在工業(yè)界應用極為廣泛的CAE 軟件,仍然被以ANSYS等為代表的國外軟件壟斷,幾百并行度的軟件就需要數百萬人民幣的License 費用,高端的開源HPC軟件也主要來自美國、日本以及歐洲國家。具有代表性的國產商用應用軟件僅有GeoEast(石油勘探領域)和Grape(大氣科學領域),由于投入不足,近年來沒有再涌現類似商用軟件。大多的國產私有應用軟件也是以大學和科研院所自用為主,少有成規(guī)模的推廣使用,特別是國產HPC 應用軟件在開源和中間件上基本剛起步,而它們早已成為應用軟件規(guī)?;l(fā)展的主流模式。

   

高性能計算面臨的挑戰(zhàn)

  


根據Top 500歷史數據進行預測,高性能計算機將在2020年左右進入E級時代。美國政府在“Strategy for American Innovation”計劃中,將E級計算列為21 世紀美國最主要的技術挑戰(zhàn),美國國防部、能源部、自然科學基金委、國家核安全局等部門以及日本文部省、歐盟、俄羅斯聯(lián)邦原子能署等均對此進行了大量的投入,中國也在“十三五”期間啟動了E 級計算機的研制計劃。E級計算系統(tǒng)在能耗、可靠性、應用效率等方面都將面臨一系列挑戰(zhàn)。

   

1)功耗挑戰(zhàn)

 

美國、日本、歐盟已經制定了20182020年研制E級高性能計算機的目標,系統(tǒng)功耗指標設定為20 MW,即每瓦500億次浮點計算,而目前能效比最高的系統(tǒng),即Green 500排名第一的由日本研制的Shoubu 超級計算機,其能效比也僅達到70 億次/w 的水平[13],距離E級機的能效指標尚有10倍左右的差距。可以說,制約E級機實現的最大技術障礙之一是能耗比。

   

針對降低高性能計算系統(tǒng)能耗這一關鍵問題,國際學術界和工業(yè)界已有大量努力,涉及計算機系統(tǒng)從應用至芯片各個層次的優(yōu)化,例如高效能眾核處理器、減少數據移動的算法優(yōu)化、能耗感知的系統(tǒng)調度、低能耗的系統(tǒng)、與機房冷卻技術等。從目前的技術水平估計,即使考慮“摩爾定律”因素,在2020年實現20 MW的功耗目標仍存在相當大的困難。

   

2)可靠性的挑戰(zhàn)

 

隨著高性能計算機規(guī)模越來越大,軟件結構越來越復雜,E級系統(tǒng)中的故障檢測與診斷是非常有挑戰(zhàn)性的問題。在億億次的規(guī)模下,系統(tǒng)的平均無故障時間(mean time between failure,MTBF)僅為5 h左右;而在E級系統(tǒng)中,處理器的核數將達到108的量級,在概率上MTBF將會變得更短,其可靠性問題將會更加嚴重。越來越短的平均無故障時間導致故障將在海量現場數據的保存或恢復過程發(fā)生,傳統(tǒng)的周期性保存現場的粗粒度檢查點機制將會失效,在算法和應用層次進行細粒度容錯設計,將是解決可靠性問題的重要途徑。

   

由于涉及海量信息(包括各種日志、系統(tǒng)運行性能指標)采集和多維度(硬件、軟件、誤操作等)故障分析,及時定位故障也變得越來越困難。需要提高故障檢測與診斷的能力,使得E級計算機系統(tǒng)能夠快速發(fā)現故障,避免故障在系統(tǒng)中擴散,診斷出造成故障的根源,從而加速系統(tǒng)的恢復,保障系統(tǒng)的可用性。

   

3)應用效率挑戰(zhàn)

 

為降低系統(tǒng)的能耗,構建E級計算機系統(tǒng)將大量使用GPU 或眾核處理器。目前,GPU 或眾核處理器都已經擁有數百計算單元,E級計算系統(tǒng)總體并發(fā)度將達到數千萬量級,異構特性和海量并發(fā)度給并行程序的編寫、調試、性能調優(yōu)帶來了巨大的挑戰(zhàn),極大地加劇了峰值性能與應用性能之間的鴻溝,E級計算系統(tǒng)可能僅能發(fā)揮出1%的峰值性能,應用效率變得極低。

   

由于極大規(guī)模并行所帶來的復雜性,編程模型必須能夠表示所有異構層次的內在并行性和局部性,以實現可擴展性和可移植性。同時,編程范式要能充分利用分布存儲機制,以減少數據移動的開銷。面向領域的編程框架和算法工具庫有可能成為提高產出率的有效途徑。

   

目前中國在E級計算機研究方面與美國相比還存在較大差距,主要體現在基礎技術儲備不足,核心關鍵技術難以滿足E級計算的需求。應力爭在主流技術路線的若干關鍵技術和重大應用上取得突破,把握未來5~10年的關鍵時期,保持中國在高性能計算技術方面的可持續(xù)發(fā)展,更好地支撐中國科學研究走向世界一流,并進一步提升中國高性能計算機產業(yè)的國際競爭力。


高性能計算的未來方向

  


1)以應用為導向發(fā)展高性能計算機

 

當前的通用系統(tǒng)架構以一種結構應對多種計算需求,越來越無法實現應用需求與硬件性能的最優(yōu)適配,導致計算的低效和功耗的浪費。協(xié)同設計(co-design)正在被越來越多的專家認為是解決這一問題的主要技術途徑和頂層方法論。所謂協(xié)同設計是指通過領域科學與計算機科學間的跨學科緊密協(xié)作,抽象出面向領域應用的負載特征,根據應用的特征對計算、訪存、通信等能力進行優(yōu)化配置,實現自硬件到應用軟件的一體化定制設計。

   

應用與系統(tǒng)的協(xié)同設計理念使得E級系統(tǒng)的設計更加具有針對性,E級計算應用協(xié)同設計方法,需要覆蓋氣候模擬、核聚變、天體物理、材料科學、生物信息和人工智能等計算相關學科,從應用物理模型、計算方法、并行軟件實現等多個層面尋求應用共性、區(qū)分特性,將系統(tǒng)研制與多領域應用軟件能力提升擰成一體,最大限度發(fā)揮未來計算系統(tǒng)的通用計算效能。隨著系統(tǒng)效能問題的日益嚴峻,領域定制系統(tǒng)將帶動面向典型負載的新型加速器和處理器的發(fā)展,面向領域定制的高性能計算機有望成為未來高端HPC 市場的主流。此外,領域定制系統(tǒng)將帶動面向典型負載的新型處理器市場,成為國產處理器獲得發(fā)展的機會。另外,中國的并行應用軟件起步較晚,遺產代碼量相對較少,反而成為中國發(fā)展自硬件到應用的全定制HPC系統(tǒng)的優(yōu)勢。

   

2)面向新興應用發(fā)展新型高性能計算機

 

隨著互聯(lián)網的普及和技術的發(fā)展,許多與傳統(tǒng)高性能計算應用完全不同的應用模式競相出現,如Web 服務應用、物聯(lián)網服務應用、云計算應用等,在Google、百度、阿里等互聯(lián)網企業(yè)使用數十萬的服務器向數以億計的用戶提供各種服務。這些新型應用很多是基于海量數據提供吞吐密集型服務,這與傳統(tǒng)計算密集型的高性能應用有很大的差別,這從另一個方面賦予了高性能計算新的含義,即面向服務的高通量計算(high-volume throughput computing,HTC)。

   

高通量計算一般是基于海量的數據向大量的用戶提供交互式、高并發(fā)的服務,在用戶和負載動態(tài)變化時能夠動態(tài)的擴展以滿足對系統(tǒng)處理能力的需要,同時這樣的計算對成本非常的敏感。但是現在運行這些應用的計算機系統(tǒng)體系結構本質上與用于科學和工程計算的系統(tǒng)是相同的,完全是通用處理器加通用系統(tǒng)技術,成本高、效能低。例如,現在面向Web 服務的應用計算量很少,對處理器的浮點部件要求較低,而對I/O 系統(tǒng)的要求較高,如果使用通用部件會造成成本的極大浪費。

   

現在國際上對于這種面向特定領域的高通量計算的研究還處于起步狀態(tài),對于技術路線和標準的制定還處于碰撞期。隨著互聯(lián)網的進一步發(fā)展,這必然會發(fā)展成為另一個戰(zhàn)略高地,因此中國應該及時加大這個方向的投資力度,解決高通量專用芯片以及高通量計算機的若干技術問題,使中國在未來互聯(lián)網領域的技術競爭中占據主導地位。

   

3) HPC in Cloud

 

HPC Cloud 可能給未來高性能計算市場帶來的影響最大。這種基于云計算理念構建的HPC 服務,主要面向對計算規(guī)模和性能要求較低的中低端HPC 用戶,在平攤了設備購置和運維成本的同時,向用戶屏蔽了復雜的高性能計算機技術細節(jié),降低了高性能計算機的使用門檻。公有云提供商是這一趨勢的主要推動者,亞馬遜AWS首先推出HPC 服務,用戶可以創(chuàng)建數千處理器規(guī)模的虛擬高性能計算機系統(tǒng),2011年亞馬遜的一臺虛擬HPC系統(tǒng)獲得了世界Top 500 排名的第42 位,Linpack效率接近70%2015年底,阿里云也發(fā)布了中國首個云上高性能計算平臺。

   

HPC in Cloud 可能成為未來超算中心的重要運營模式之一,若越來越多的HPC用戶形成購買HPC服務而非自建系統(tǒng)的習慣,勢必形成計算資源的聚集,未來的中低端HPC 計算機市場可能被云計算中心所主導。

   

4)新興使能技術帶來新機遇

 

日益涌現的新興使能技術,如3D堆疊技術、光子學、憶阻器、磁基半導體技術等,對目前仍占主導地位的CMOS、DRAM和磁盤等成熟技術提出了挑戰(zhàn)。若量子計算、光計算或DNA計算等新型計算理論和技術發(fā)展成熟,更將從根基上顛覆整個現代計算機體系。

   

每一個新興使能技術孕育著顛覆性創(chuàng)新的機會,這迫切需要體系結構的創(chuàng)新,以挖掘新技術的全部潛力。隨著3D堆疊等新技術的成熟,很可能會出現面向高性能計算的“大芯片”產品,在單芯片內集成眾核CPU、高速互連以及加速器等,這將帶來處理器體系結構上的重大革新?;诖呕陌雽w新工藝速度比傳統(tǒng)硅基可提升1000 倍以上?;诠庾訉W的全光通信技術,可極大降低通信成本。此外,非易失性內存技術(如憶阻器和相變存儲器)也驅動著系統(tǒng)設計人員對內存和外部存儲系統(tǒng)之間關系的重新思考。因此,新興使能技術是“彎道超車”的機會,也應該是中國高性能計算領域基礎研究的重點。

 

參考文獻

 

[1]Higbie L C. Tutorial: Supercomputer architecture[J]. Computer, 1973, 6(12):48-58.

[2]IDC. 2015, IDC HPC Update at ISC'15[EB/OL]. [2016-04-28].http://www.slideshare.net/insideHPC/ hpc-market-update-from-idc-51061896.

[3]Solomon S. Climate change 2007-the physical science basis: Working group I contribution to the fourth assessment report of the IPCC[M]. Cambridge:Cambridge University Press, 2007.

[4]Kohl S, Leitzl K H, Schmidt M. Transient numerical simulation of CO2 laser fusion cutting of metal sheets: Simulation model and process dynamics[C]//Proceedings of the 37th MATADOR Conference. Manchester:Springer, 2012: 403.

[5]Mohamed A, Yu D, Deng L. Investigation of full-sequence training of deep belief networks for speech recognition[C]. INTERSPEECH 2010, 11th Annual Conference of the International Speech Communication Association, Makuhari, Chiba, Japan,September 26-30, 2010.

[6]Seide F, Li G, Yu D. Conversational speech transcription using context-dependent deep neural networks[C]. INTERSPEECH 2011, 12th Annual Conferenceof the International Speech Communication Association,Florence, Italy, August 27-31, 2011.

[7]The New York Times. How many computers to identify a cat? 16,000[J/OL].Communications of the Acm, 2012-06-26[2016-04-28], http://www.cs.cornell.edu/courses/CS6700/2013sp/readings/04-a-Deep-Learning-NYT.pdf.

[8]Chi K R. Neural modelling: Abstractions of the mind[J]. Nature, 2016,531(7592): S16-S17.

[9]Moore G. Moore's law[J]. Electronics Magazine, 1965, 38(8): 114.

[10]The Top500 List 2015. [EB/OL]. [2016-04-20]. Available: http://www.Top500.org.

[11]Bryant R E, Polk W T. The National Strategic Computing Initiative[C]//Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis: ACM, Austin 2015.

[12]Murphy R C, Wheeler K B, Barrett B W, et al. Introducing the graph 500[J]. CrayUser's Group (CUG), 2010, 14(3): 15555-15558.

[13] The Green500 List. [EB/OL]. [2016-04-22]. Available: http://www. Green500. org.

(編輯  傅雪)




作者簡介:臧大偉,中國科學院計算技術研究所,助理研究員,研究方向為高性能計算、數據中心網絡。

:本文發(fā)表在《科技導報》2016年第14期,歡迎關注。本文部分圖片來自互聯(lián)網,版權事宜未及落實,歡迎圖片作者與我們聯(lián)系稿酬事宜。


開放分享:優(yōu)質有限元技術文章,助你自學成才

相關標簽搜索:高性能計算的發(fā)展 ls-dyna有限元分析培訓 ls-dyna培訓課程 ls-dyna分析 ls-dyna視頻教程 ls-dyna技術學習教程 ls-dyna軟件教程 ls-dyna資料下載 ansys lsdyna培訓 lsdyna代做 lsdyna基礎知識 Fluent、CFX流體分析 HFSS電磁分析 

編輯
在線報名:
  • 客服在線請直接聯(lián)系我們的客服,您也可以通過下面的方式進行在線報名,我們會及時給您回復電話,謝謝!
驗證碼

全國服務熱線

1358-032-9919

廣州公司:
廣州市環(huán)市中路306號金鷹大廈3800
電話:13580329919
          135-8032-9919
培訓QQ咨詢:點擊咨詢 點擊咨詢
項目QQ咨詢:點擊咨詢
email:kf@1cae.com