公司新聞
[點擊量:262][來源:創選寶防靜電專家(www.hunny103.com)]
2023-06-30
六月下旬,2023年的國際計算機架構會議(International Symposium on Computer Architecture,ISCA)在美國佛羅里達的奧蘭多舉辦。ISCA是全球最頂尖的計算機架構會議,許多經典處理器芯片的架構研究都是在這個會議上發布,而每年ISCA上發表的論文也是未來幾年內計算芯片的重要風向標。
今年恰逢ISCA五十周年紀念,全球最頂尖的計算機架構領域學者也在上周發表了一篇回顧過去ISCA五十年發表論文走向的論文《Fifty Years of ISCA: A data-driven retrospective on key trends》(我們翻譯如下:《從頂會50年,看計算機體系架構變遷》),我們希望能借著這篇論文來洞察未來計算芯片的走向。
芯片工藝決定了未來計算芯片架構
上述論文中,總結了ISCA舉辦至今五十年內,每個十年發表論文的共性主題。事實上,如果我們把這些主題的變化和半導體芯片工藝的變化結合起來的話,可以看到一個非常清晰的脈絡:
首先,1973年到1992年的ISCA舉辦前二十年是單處理器性能突飛猛進的二十年,而對應半導體工藝則是Dennard Scaling規律占主導的二十年。在半導體領域中,“每18個月晶體管集成度翻倍”的摩爾定律廣為人知,但是半導體工藝演進的過程中,除了晶體管之外,還牽扯到了電源電壓和晶體管的時鐘頻率。
Dennard Scaling就是摩爾定律在這二十年中的表現形式,即每18個月晶體管集成度翻倍(如摩爾定律所描述的),同時電源電壓降低30%,時鐘頻率升高40%。因此,根據Dennard Scaling,每18個月芯片除了集成度翻倍之外,芯片的性能還會提高40%,而且芯片整體功耗不會發生變化。換句話說,在Dennard Scaling的時代,單芯片性能隨著工藝節點變化突飛猛進,同時不用擔心功耗過大。
這樣的時代對應到處理器架構,就是如何把單核處理器的性能做到極致,如何能把處理器的時鐘頻率盡可能提升,并且在一個時鐘周期內做盡可能多的事情。ISCA上研究的重點方向就包括并行處理(例如流水線,超標量架構,分支預測,超長指令字等等),以及如何確保處理器不被速度較慢的主存所拖累(因此誕生了緩存架構的經典研究),這一點在1993年ISCA發表論文的關鍵字云中可以看到。
第二個時代是1993年到2012年,在這個時代中,半導體工藝繼續維持摩爾定律,即芯片集成度持續指數級上升,但是Dennard Scaling在進入21世紀后逐漸到了尾聲,就是說芯片在集成度翻倍是無法的同時,性能雖然提升但是不會有1.4倍這么多,電源電壓雖然下降但是芯片的功耗密度不再維持不變而是會上升。
對應到處理器架構,就意味著無論是從晶體管性能還是功耗的角度,繼續把單核性能提升都不再是一個可持續的提升整體計算機性能的模式了,也就是在這20年,多處理器相關的研究得到了廣泛重視,處理器芯片也從單核走向了多核時代。
第三個時代是2013年到今天。在這個時代,摩爾定律的發展受到了嚴重的挑戰,雖然晶體管集成度還在上升,但是單晶體管性能的提升已經非常有限。而另一方面,各種層出不窮的新應用,尤其是人工智能應用,對于處理器芯片的性能提升卻提出了非常高的要求。
在這個時代,專用加速器(accelertor)已經取代了通用處理器(processor)成為了最熱門的關鍵詞——因為通用處理器的性能提升已經不足以滿足新應用的需求,只有根據應用量身定做,并且使用算法-架構協同設計的專用加速器才能滿足應用對于算力的需求。
未來將是計算芯片架構設計的黃金時代
展望未來,我們認為未來十年將是計算芯片架構領域的黃金十年,我們會看到大量有影響力巨大的研究出現,對于算法和應用產生深遠的影響;另一方面,隨著新應用和需求的出現,相關的加速器研究也會慢慢變得主流,因此計算芯片架構的研究覆蓋面將進一步拓寬。
從計算芯片架構的影響力來看,我們已經從人工智能領域看到專用加速器的架構研究和演進對于整個科技行業乃至于人類社會帶來的深遠影響。從2015年開始,隨著以神經網絡為主流算法的人工智能成為主流,相關的加速器架構在幾年內也發生了深刻而且意義巨大的改變。這些新的架構設計往往是結合了算法的相關特性,同時又助推了新一代人工智能算法的誕生。
這里我們謹舉幾個例子:首先是谷歌的TPU架構設計,2017年的第一代TPU架構設計考慮了當時最流行的卷積神經網絡,使用了脈動陣列做計算并且搭配了大量片上SRAM,一舉成為了一個經典設計,同時相關論文也是ISCA五十年內引用第二數量第二高的論文;后面幾代的TPU則在大規??蓴U展性等方面做了巨大的努力(例如專門研發了光學電路來實現超高性能數據互聯),而最終這些架構上的新穎研究讓TPU成為谷歌在人工智能領域最強的核心能力之一。
另外一個例子則是Nvidia從2015年開始為人工智能設計的GPU架構演進;隨著人工智能算法的發展,Nvidia在幾代GPU中加入了大量和人工智能算法結合的架構要素,包括對于低精度計算(FP16,INT8)的支持,對于稀疏矩陣計算加速的支持,以及對于Transformer模塊的專用支持等。
這些架構上的改變,每一個都大大提升了GPU對于相關算法性能的提升,而Nvidia能一直占據人工智能加速領域的龍頭地位,靠的不僅僅是每一代GPU都能使用最先進的半導體工藝,而且是靠這些先進的架構設計,以及軟件生態領域的護城河。
從另一個角度來看,這些計算架構領域的演進,已經對于我們的整體社會帶來了深遠的影響。例如,最近已經對于各大行業的生產模式帶來深遠影響的ChatGPT,其背后的大語言模型需要海量的算力支持才能在合理的時間內完成計算,而這些都離不開過去十年中人工智能加速器芯片架構領域的研究,可以說每一個研究都在為今天ChatGPT的成功添磚加瓦。
而隨著這類下一代人工智能給社會帶來全新的變革,相關的人工智能加速器架構領域也會得到整個社會前所未有的關注,因此計算芯片架構的未來十年可謂是黃金十年。
除了重點領域的縱向影響力巨大之外,加速器芯片架構領域橫向發展也會很快,這里的橫向主要是指會有新的應用對于新的專用加速器芯片有需求。從最近幾年的ISCA(以及其他的相關芯片會議例如ISSCC)來看,已經有一些新的加速器領域正在蓬勃發展,包括:
加密計算,尤其是同態加密(homomorphic)計算,該領域可以云端服務器在不解密用戶數據的前提下,就完成相關的計算(例如把加密的用戶數據直接送到機器學習模型里做計算)。
我們知道,人工智能對于數據的需求是前所未有的,而加密計算技術有可能在保護用戶隱私的前提下同時給人工智能算法提供高質量的數據,從而成為人工智能的關鍵賦能技術之一。加密計算對于算力需求很高,相關的加速器研究也得到了非常多的關注,2022年ISCA引用數量最多的兩篇論文都是關于加密計算加速器架構,其潛力可見一斑。
量子計算,在物理、化學以及規劃領域,相關算法都是NP-Hard問題,即經典算法無法在合理的時間范圍內得到最優解,而量子計算則可以解決相關的問題。因此,最近量子計算,或者使用量子計算相關算法的計算芯片架構研究也是加速器最有潛力的新領域之一。
仿生計算,目前人工智能神經網絡計算的功耗非常驚人,相對而言人類大腦的功耗比起執行人工智能計算的硬件來說要低幾個數量級,因此如何使用neuromorphic等仿生計算來降低計算功耗,并且通過模仿生物大腦的計算模式來啟迪下一代人工智能算法也是一個非常有潛力的方向。
未來計算芯片架構設計需要系統級思維
半導體工藝摩爾定律正在接近尾聲,但是芯片性能和能效比的指數發展規律仍然如火如荼,尤其是在熱門的專用加速器領域——例如GPU計算的能效比就是每2.2年改善兩倍。
如前所述,為了維持這樣的指數級性能上升,專用加速器的一個核心要點是與上層算法協同優化,從而可以產生巨大的推動力:目前人工智能模型里面最常用的Transformer模塊就是一個典型例子,Transformer在誕生之初就比較適合在GPU上做運算,因為其計算主要是矩陣計算;另一方面Nvidia在設計GPU架構時又加入了對于Transformer的優化,最終使得以Transformer為底層模塊的大語言模型能夠順利實現大規模訓練,并且點燃下一代人工智能。
下一代芯片架構設計除了需要和上層算法打通之外,還需要能把半導體電路系統中的高級封裝乃至半導體器件都納入設計和優化范圍,從而實現最優的性能。
例如,隨著未來整體芯片架構變得越來越復雜,而先進工藝的良率難以提高,這就意味著系統中會有更多的小的芯片粒,而這就需要能以一種靈活的架構支持這樣的多芯片系統,同時能提供性能和效率的顯著提升。顯然,這樣靈活的架構需要能把對于芯片粒高級封裝的技術考慮在內。AMD就是這樣在架構中積極考慮高級封裝,從而實現性能顯著提升的典型例子;其CDNA3和3D V-Cache等最新的架構設計中,高級封裝(包括芯片粒和3D堆疊)都是架構中的重要因素。
回到ISCA上面的研究,我們也可以發現在2023年的研究詞云中,“電路”(circuit)首次出現。ISCA在往年都是專注于抽象層次較高的架構設計,但是如我們所說的摩爾定律遇到瓶頸,未來的架構需要能使用系統級思維把底層電路系統也納入考慮范圍之內,這也是我們認為今年ISCA詞云中出現電路這個關鍵詞的原因。
總結我們的觀察,ISCA給了我們一個非常好的預測未來的角度。以史為鑒,過去50年半導體工藝始終主導著計算芯片架構的設計;未來半導體工藝演進速度減慢但是應用對于性能需求的提升仍然保持指數級增長,因此需要芯片架構設計從多個維度來看都變得越來越重要。從縱向維度來看,架構設計需要能夠有系統級思維,把上層算法到下層電路和半導體器件都打通實現最優設計;而從橫向維度來看,隨著新應用層出不窮,會有越來越多的專用加速器領域出現。
(來源:半導體行業觀察)