如同Intel并不是以CPU起家,而是從存儲器跨足到IC設計,至今成為x86處理器的龍頭。ARM也是一樣,這一切都要從Hermann Hauser和Chris Curry所創(chuàng )立的Cambridge Processor Unit開(kāi)始說(shuō)起。
1978年,由物理學(xué)家Hermann Hauser和工程師Chris Curry一同在英國劍橋成立了一間公司,公司名稱(chēng)直接取作Cambridge Processor Unit(CPU),主要從事提供當地電子儀器設備的業(yè)務(wù)。第一份合約即是為ACE Coin Equipment公司開(kāi)發(fā)一款水果盤(pán),也就是拉霸的游戲機。
隨著(zhù)時(shí)間過(guò)去,漸漸地發(fā)現原本的硬件設計已不符需求,Acorn想要升級機器內的CPU。當時(shí)處理器的發(fā)展潮流是由8位元轉向16位元,一開(kāi)始有考慮使用美國國家半導體以及Motorola新的16位元芯片,但是經(jīng)過(guò)評估后,發(fā)現2個(gè)缺點(diǎn)。
執行上有點(diǎn)慢,中斷的回應時(shí)間太長(cháng),而且太貴。
一臺500英鎊的計算機,CPU售價(jià)高達100英鎊。
于是只好轉向Intel,要求提供一些80286設計資料以及樣品,但是卻遭到Intel拒絕。這件事情后來(lái)直接導致Acorn決定設計自己需要的CPU,由于采用RISC架構的關(guān)系,名稱(chēng)就稱(chēng)為Acorn RISC Machine(ARM)。
處理器的指令集可簡(jiǎn)單分為2種,CISC(complex instruction set computer)以及RISC(reduced instruction set computer)。一開(kāi)始的處理器都是CISC架構,隨著(zhù)時(shí)間演進(jìn),有越來(lái)越多的指令集加入。由于當時(shí)編譯器的技術(shù)并不純熟,程序都會(huì )直接以機器碼或是匯編語(yǔ)言寫(xiě)成,為了減少程序設計師的設計時(shí)間,逐漸開(kāi)發(fā)出單一指令,復雜操作的程序碼,設計師只需寫(xiě)下簡(jiǎn)單的指令,再交由CPU去執行。但是后來(lái)有人發(fā)現,整個(gè)指令集中,只有約20%的指令常常會(huì )被使用到,約占整個(gè)程序的80%;剩余80%的指令,只占整個(gè)程序的20%。于是1979年美國加州大學(xué)柏克萊分校的David Patterson教授提出了RISC的想法,主張硬件應該專(zhuān)心加速常用的指令,較為復雜的指令則利用常用的指令去組合。
RISC的優(yōu)點(diǎn)列舉如下:
指令長(cháng)度固定,方便CPU譯碼,簡(jiǎn)化譯碼器設計。
盡量在CPU的暫存器(最快的存儲器元件)里操作,避免額外的讀取與載入時(shí)間。
由于指令長(cháng)度固定,更能受益于執行線(xiàn)路管線(xiàn)化(pipeline)后所帶來(lái)的效能提升。
處理器簡(jiǎn)化,晶體管數量少,易于提升運作時(shí)脈。比起同時(shí)脈的CISC處理器,耗電量較低。
RISC的缺點(diǎn)列舉如下:
復雜指令需要由許多的小指令去完成,程序變得比較大,存儲器也占用比較多,這在硬盤(pán)昂貴,常常使用磁帶儲存的時(shí)代來(lái)說(shuō),是個(gè)大缺點(diǎn)。
程序變長(cháng),代表著(zhù)讀取工作變得繁重,需要更多的時(shí)間將指令從存儲器載入至處理器內。
這里也提供一個(gè)小小的概念,CISC是在RISC出現之后才出現的相對名詞,并不是從一開(kāi)始就有CISC、RISC這2種處理器架構。
3. 首顆RISC架構CPU
于1985年,Acorn設計出了第一代處理器芯片,稱(chēng)為ARM1,由Sophie Wilson設計出類(lèi)似于6502的指令集,因為當時(shí)Acorn為英國國家廣播公司BBC所制造的BBC Micro計算機采用MOS 6502處理器,使用類(lèi)似的指令集有助于縮短開(kāi)發(fā)時(shí)間以及技術(shù)轉移。Steve Furber則是負責設計硬件實(shí)作。ARM1以第二顆處理器的身分,安裝在BBC Micro內部。
ARM1在晶圓設計部分,規格為3微米制程、2層金屬層、總計2萬(wàn)5千個(gè)晶體管、6MHz運作時(shí)脈、消耗功率120mW、芯片面積50mm2。當時(shí)Intel的80286使用1.5微米制程、13萬(wàn)4千個(gè)晶體管、6~12Mhz運作時(shí)脈,同時(shí)這2款處理器都不包含快取。
同年10月,Intel發(fā)表80386處理器,與之相比,ARM1顯得功能簡(jiǎn)單、能源消耗較少,在效能上不是80386的對手。這一差異導致ARM系列處理器往后的設計路線(xiàn)明顯與Intel不同,Intel持續邁向x86高效能設計,ARM專(zhuān)注于低成本、低功耗的研發(fā)
4. 漸入佳境、架構變更
真正商業(yè)化的處理器為ARM2,ARM1處理器架構為ARMv1,到了ARM2更新到ARMv2,這一代新增乘法器在核心之中。ARMv2的進(jìn)階版ARMv2a則是多包了存儲器管理核心、繪圖及I/O處理器。接下來(lái)的ARM3,處理器架構ARMv2a,是第一次于CPU里內建了4KB快取。1990年,Acorn開(kāi)始與蘋(píng)果計算機合作發(fā)展新一代的ARM芯片,特地還為此設立了一間公司,稱(chēng)為Advanced RISC Machines公司。最初財務(wù)吃緊,辦公室僅為一個(gè)谷倉,成員也僅有12人。原本ARM所代表的Acorn RISC Machine,也在此時(shí)更換為Advanced RISC Machine。
1991年發(fā)展出的ARM6,處理器架構更新為ARMv3,主要擴展存儲器定址線(xiàn)。之前的ARM產(chǎn)品都只有26bit的存儲器定址線(xiàn),最大可支援64MB的存儲器。從ARM6開(kāi)始,完整支援32位元存儲器定址,最大支援到4GB。在此離題一下,ARM6處理器家族下的ARM610處理器,曾經(jīng)用在蘋(píng)果計算機的Newton Message Pad上頭,Newton也被視為現今PDA與Smart Phone的始祖。
5. 開(kāi)始大賣(mài)的ARM7
1993年推出的ARM7延續著(zhù)ARMv3核心,但是由于制程的進(jìn)步,快取加大至8KB,時(shí)脈也一舉拉高至40MHz。
ARM7TDMI(處理器架構ARMv4T),除了原本的32位元指令集外,還新增了Thumb,也就是精簡(jiǎn)過(guò)的16位元指令集,讓編譯出來(lái)的程序可以縮小程序碼體積,官方表示與標準的ARM指令集相比,可以縮小35%的程序碼體積,又能享受32位元架構所帶來(lái)的效能提升。Thumb指令在執行時(shí)會(huì )通過(guò)處理器內一個(gè)叫做Thumb譯碼器的東西,及時(shí)解壓成32位元ARM指令,同時(shí)也可受惠于32bit的存儲器總線(xiàn),加速指令與資料的載入。
但之后的ARM8家族和Digital Equipment Corporation向ARM買(mǎi)授權自行制作的處理器StrongARM,都不支援Thumb。
ARM7EJ的處理器架構為ARMv5TEJ,直接加入稱(chēng)為Jazelle DBX的運算電路,能夠以硬件加速大部分的Java bytecode,提升Java程序的執行效率;同時(shí)也新增適合處理DSP的指令,如飽和運算(saturated arithmetic)可以加速多媒體應用
5.1. Java的執行方式
程序設計師以Java語(yǔ)言寫(xiě)出程序后,經(jīng)過(guò)編譯器編譯成Java bytecode檔,執行時(shí)便把這個(gè)Java bytecode丟入一個(gè)稱(chēng)作JVM(Java Virtual Machine)的模擬器里執行,在各種平臺上都有不同的JVM,所以編譯過(guò)后的Java bytecode能夠跨平臺執行。
正常以二進(jìn)制表示為11111111(255)+00000001(1)=100000000(256),但是一個(gè)8bit的加法器,當輸入255+1的指令后,計算出來(lái)的結果將會(huì )是0。因為處理器只有8bit,最高位會(huì )產(chǎn)生數值溢位,實(shí)際交由8bit加法器運算將變成11111111(255)+00000001(1)=00000000(0)。但是當處理器支援飽和運算后,255+1的結果將變成255,經(jīng)計算后的數值資料只會(huì )頂天立地(該資料類(lèi)型的最大值或最小值),不會(huì )產(chǎn)生overflow或是underflow。
6. 更換為哈佛架構
ARM9處理器家族內部處理器架構為ARMv5TE,導入了相當重要的架構更新,以往ARM和x86處理器都是采用馮?紐曼架構,意即中央處理器和儲存裝置是分開(kāi)的,中央處理器到儲存裝置中讀取一段程序碼執行,而不同程序碼可以造成不同的執行結果。相較于古早時(shí)代的計算機,一旦要執行不同的程序碼時(shí),必須更動(dòng)硬件設計,重新接線(xiàn)。約翰?馮?紐曼在1945年的論文中提出這個(gè)處理單元和儲存單元分離的概念,對于后來(lái)計算機發(fā)展有相當重大的影響。
哈佛架構則是馮?紐曼架構的延伸,哈佛架構更進(jìn)一步定義了程序和資料是由兩個(gè)獨立的空間儲存,同時(shí)也有兩個(gè)存儲器控制單元分別操作。讀取程序后譯碼便得到資料位址,再到資料存儲器中讀取資料。此種架構好處在于指令和資料的存儲器操作能夠同時(shí)進(jìn)行,當處理器在運算資料時(shí),便可以先行擷取下一道指令。
7. 智能型手機應用大爆發(fā)
被蘋(píng)果相中的ARMv6
在2007年的Macworld發(fā)生了一件大事,劃時(shí)代的iPhone誕生了,直覺(jué)的使用者操作立刻席卷全球,App Store的商業(yè)模式解決以往PDA程序太少的窘?jīng)r。而第一代的iPhone和其后的iPhone 3G便是采用ARMv6處理器架構,也是第一次讓人感受到,原來(lái)ARM可以做到這么好的使用者體驗。
ARMv6架構在2001提出,對應ARM11處理器家族。新增SIMD處理功能,相當適合影片處理加速使用。同時(shí)也提出ARM11MPCore,首次將多核心的概念導入ARM處理器中。Thumb指令集也升級到第2代Thumb-2,將原先16bit的指令集部分擴展到32bit,變成同時(shí)擁有16bit和32bit指令長(cháng)度的指令集。
不過(guò)這個(gè)ARMv6架構有點(diǎn)短命,還沒(méi)看到幾顆多核的ARM11處理器(NVIDIA的Tegra即為ARM11MPCore),就被ARM緊接而來(lái)的Cortex處理器給蓋過(guò)去。
在A(yíng)RM11之后的處理器家族,改采Cortex命名,并針對高、中、低階分別劃分為A、R、M三大處理器。象是高階手機用的Coretex-A系列,或者是微控制器所使用的Coretex-M系列,需要較高性能、或是實(shí)時(shí)處理的系統則改用Coretex-R系列。
除了Cortex-M0、Cortex-M1為ARMv6-M,馮?紐曼架構之外,其他Cortex的處理器架構更新到ARMv7,一樣由高至低分成ARMv7-A、ARMv7-R、ARMv7-M三種,其中ARMv7-M不支援最原始的ARM指令集,僅支援16bit的Thumb指令集,卻加入NVIC(Nested Vectored Interrupt Controller),提供更快的中斷處理、還有負責CPU在深層睡眠時(shí)的中斷處理WIC(Wake-up Interrupt Controller)。
Cortex-A(ARMv7-A)和 Coretex-R(ARMv7-R)2種架構基本上是相同的,都支援更新的進(jìn)階型SIMD處理,稱(chēng)為NEON,ARM宣稱(chēng)效能至少是上一代處理器架構ARMv6的2倍。NVIDIA的Tegra 2處理器較為特殊,雖是采用Cortex-A的CPU,但沒(méi)有包含NEON,反而使用自家的技術(shù),內建專(zhuān)門(mén)的音訊處理器和視訊處理器。
Cortex-A和 Coretex-R最大的差異在于存儲器管理單元部分,Cortex-A使用MMU(memory management unit)、Cortex-R使用MPU(memory protection unit)。前者的存儲器管理單元提供虛擬存儲器的支援,后者只能運作在存儲器保護模式。
7.2. 存儲器管理:real、protected、virtual
最初的CPU存儲器管理只有real mode,在這個(gè)模式下,所有程序都可以直接存取存儲器、I/O、計算機附加的硬件。但是在這種模式下的存儲器空間少(1MB),程序無(wú)法多工(如果2個(gè)程序同時(shí)喂給打印機資料,印出來(lái)會(huì )是什么鬼?。。?。到了80286處理器后,導入了protected mode,將作業(yè)系統和程序的存儲器區塊分開(kāi),如果程序想要存取存儲器,必須經(jīng)由作業(yè)系統中介。從而提升系統安全性和穩定性。virtual memory則是在protected mode下的產(chǎn)物,允許硬盤(pán)之類(lèi)非實(shí)體存儲器的裝置能夠模擬成存儲器。邏輯上來(lái)說(shuō),可以在不增加硬件花費的情況下,直接加大實(shí)體存儲器容量。但硬盤(pán)的存取速度卻遠不如實(shí)體存儲器,目前SATA 6Gb/s界面頻寬為6Gb/s,DDR3-1600雙通道的界面頻寬卻有25.6GB/s,兩者相差約43倍。
ARM一開(kāi)始與蘋(píng)果、VLSI所投資的資金下成立,初期營(yíng)運狀況不佳,而英國當地也沒(méi)有什么晶圓廠(chǎng),同時(shí)ARM也決心將自行發(fā)展的技術(shù)成為業(yè)界的標準。在這些條件的加總之下,ARM選擇了以IP授權的方式經(jīng)營(yíng)。
IP(intellectual property智慧財產(chǎn)權)授權,即是把自己所創(chuàng )造的東西,以某種方式授權給其他人利用。例如我們在行人穿越線(xiàn)兩旁所看到的小綠人走路燈號,當初的設計者便可以把此種想法授權給其它地區采用,借以收取授權費。而ARM也是透過(guò)此種方式營(yíng)利,除了一開(kāi)始的授權費之外,每賣(mài)出一顆芯片還需要付版權費。另一家較為知名采用IP授權營(yíng)利的公司為MIPS,其產(chǎn)品常??梢栽诰W(wǎng)絡(luò )設備中見(jiàn)到。
這種授權方式使得每家公司都可以依據自身需求,設計出客制化芯片。比如說(shuō)產(chǎn)品并不需要繪圖的部分,便可以把繪圖IP核心拿掉,亦或者也可以在芯片里塞入其他家廠(chǎng)商做出的IP核心,讓功能更多元。相較于Intel近年強迫中獎的顯示核心,ARM的作法彈性許多。
如同 x86邁向x64一般,ARM也需要更大的總線(xiàn)來(lái)增加效能。在下一代的ARMv8架構中,也將加入64bit的支援,但是一切都還在討論中。但是現在也不急,暫時(shí)還有個(gè)Coretex-A15可以拿來(lái)填一下發(fā)展時(shí)程,至于會(huì )增加哪些指令集則尚未確定。
ARMv8處理器將有2個(gè)執行狀態(tài),AArch32和AArch64。前者將完全兼容ARMv7的指令集及架構,將原封不動(dòng)地移植到ARMv8身上。后者AArch64則是全新的指令集與處理器架構。
ARM目前也在積極建立并等待64bit的生態(tài)鏈完備,就如同x86轉換到x64一般,AMD的64位元處理器早在2003年問(wèn)世,但是等到64位元作業(yè)系統、程序真正普及,卻也只是近幾年的事情而已。更別說(shuō)一般人計算機C槽里那個(gè)Program Files x86資料夾,放在里面的程序應該比Program Files還要多。
最近開(kāi)始身價(jià)上漲的硬件加解密功能,ARM也預計加入AES加解密的指令,利用進(jìn)階SIMD的128bit暫存器來(lái)實(shí)作,SHA-1和SHA-256也在支援中。