醞釀近三年,運算級架構的 ARM 應用處理器 NVIDIA K1 不光只為消費市場而生

醞釀近三年,運算級架構的 ARM 應用處理器 NVIDIA K1 不光只為消費市場而生

去年 NVIDIA 在 GTC 公布後兩年 Tegra 的規劃表,當時指出在 2014 年問世的 Logan 將是搭載 Kepler 架構以及 Cortex-A15 的四核應用處理器, 2015 年的 Parker 才會是搭載四核 64 位元 Denver 的設計;但隨著 ARM 架構 64 位元化在去年被蘋果 A7 點燃,就不斷有傳聞 NVIDIA 可能會提前推出 64 位元的 Logan ,在 CES 由 CEO 黃仁勳親口證實了這個消息。

有趣的是,這項計畫雖然加速 NVIDIA 的 64 位元布局,卻未牴觸 NVIDIA 先前要在 2015 年才會導入四核 64 位元 Denver 核心的承諾、因為這款提前亮相的 64 位元 Tegra 只有雙核 Denver 。

而 Tegra K1 的推出也不僅僅象徵 NVIDIA 搶先推出 Android 可用的 64bit ARM核心,在架構也有許多可探討之處。且對於 ARM 陣營, Tegra K1 的發表也意味著 ARM 架構邁向新的里程碑,因為 Tegra K1 已經是一款具備高效能運算架構的 ARM 應用處理器,比起目前 ARM 伺服器晶片多是以儲存管理為主又更前進了一步。

醞釀近三年,運算級架構的 ARM 應用處理器 NVIDIA K1 不光只為消費市場而生

先從核心部份談起, Tegra 一直到 Tegra 4 為止,皆是使用 ARM 授權的標準 Cortex-A 架構,然而 Denver 核心則是 NVIDIA CEO黃仁勳醞釀已久的計畫,因為 Denver 不再依賴標準 ARM 架構,而是基於 ARMv8 指令集的自主架構。

自主架構之路是一條艱辛的路,因為要快速且安穩的導入設計,直接向 ARM 購買架構授權是最快的,不過也許像某家廠商說的一樣,購買架構雖然快,但因為 ARM 是開放授權,你辦的到的別人也同樣辦的到。

NVIDIA 選擇在 64 位元基於 ARMv8 設計自主架構想必也有同樣的考量,就是與競爭對手產生更多差異化;另外一點也許就是為了自主架構調整功耗與效能最佳化,尤其手持設備的應用處理器效能不斷飆高,功耗就成了最大問題,如果能夠設計出比大小核更有效減少功耗的設計,也能提升市場的競爭力。

醞釀近三年,運算級架構的 ARM 應用處理器 NVIDIA K1 不光只為消費市場而生

但最重要的一點,恐怕還是 Denver 架構是為了運算級應用而生,可從官方釋出的投影片看到,即便僅有雙核心, Denver 架構的 Tegra K1的 L1 大小硬是比 4+1 核心的 Cortex-A15 版本大了許多,為 128K+64K ,除了 64bit 架構對於 L1 的需求增加外,恐怕 NVIDIA 本身也希望藉由更大的 L1 提升效能。

另一個重點就是運算級的 GPU ; Tegra K1的 K ,正是代表這款 Tegra 首度揮別使用已久的 GeForce ULP ,並且迎向 PC 級 GPU 架構" Kepler "的開始;而且 Kepler 不僅相較 GeForce ULP是個先進的架構,即便比起前一代的 PC 級GPU Fermi 也是相當大的改變。

Kepler 一改 Fermi 前強調單一流處理器運算力的作法,改為使用單一運算力較低的流處理器,但使用更多的流處理器換取運算效能;不過單一流處理器運算力較低是因為比較基準是 Fermi ,比上古老的 GeForce ULP 的流處理器效能仍是較好的。

依照 Kepler 的 SMX 單元切割模式, Tegra K1 的 192 流處理器剛好是構成一顆 SMX 單元所需的流處理器數量,雖然 NVIDIA並未對 Mobile Kepler 的架構多做著墨,不過目前是可合理懷疑其結構就是將一個降低時脈且製程最佳化的 Kepler 架構的 SMX 單元整合到Tegra K1 的 SoC 內。

醞釀近三年,運算級架構的 ARM 應用處理器 NVIDIA K1 不光只為消費市場而生

Tegra K1 圖形效能多高?這次 CES 已經釋出參考用的效能測試,已經是目前用於平板、智慧手機的應用處理器當中最高效能的;撇開跑分不說, NVIDIA 也推出許多的應用展示,其中針對數位儀表版設計的 Project Mercury 更展現 Tegra K1 的效能足以進行真實材質模擬的運算,更不用說能夠獲得 Unreal 4 引擎宣布支援。

既然強調是完整的 Kepler 架構,意味著 Tegra K1 在圖形相關技術與 PC 級 GPU 幾乎相同, Tegra K1 除了能相容行動領域最新的 OpenGL ES 3.0 之外,還可支援PC 業界標準的 OpenGL 4.4 、 Direct X 11 ,顯示 Tegra K1 的架構可更輕易的在圖形相關應用導入原本用於 PC 領域的應用,更重要的是, Tegra K1 的 Kepler 架構也可支援 CUDA 。

CUDA 為何重要?雖然目前業界紛紛吹起一股使用 Open GL 提供平行運算的風潮,但 CUDA 指令集早已被用在許多的專業平行運算領域,包括專業繪圖、地震分析模擬、天氣預測、金融運算等, Tegra K1 能夠支援 CUDA 指令集,意味著 Tegra K1 本身就是一顆具有運算級伺服器架構的 SoC 。

換言之,只要有足夠的 Tegra K1 構成群組,就能夠組成一套支援 CUDA 平行運算的超級電腦系統,故 NVIDIA 去年在 GTC 就先行推出將 Tegra 3 搭配一張提供 CUDA 架構顯示卡的 Kayla 開發板,讓軟體開發者預先進行開發。當然現在談 Tegra K1 用於運算領域還言之過早,這次 NVIDIA 也未把重點放在運算級應用,而是針對火熱且最近大有斬獲車載應用。

醞釀近三年,運算級架構的 ARM 應用處理器 NVIDIA K1 不光只為消費市場而生

但去年整年 Tegra 的表現對 NVIDIA 而言是個尷尬的一年,不像 Tegra 3 獲得多款大廠平板電腦的採用, Tegra 4 推出至今採用此應用處理器的消費裝置不多,  Tegra K1 雖然擁有更強的運算力與先進的架構,但除了車載平台外能否再次獲得手機、平板大廠的青睞。

另外, Tegra K1 雖然搶先支援包括 64 位元核心、標準的 Direct X11 、 OpenGL 4.4 等,不過撇拍運算級應用,回到 Android 平台的發展現況,這些先進的支援性並未能達到顯著的加分;現在的智慧手持裝置重視的是完整的方案,高通、聯發科之所以這幾年廣獲手機廠商選擇,除了方案選擇多之外,能提供基頻方案也是決勝的重點。

NVIDIA 雖然去年發表首款整合 ICERA  LTE 基頻的 Tegra 4i ,不過至今還未看到採用此晶片的終端推出,此次發表 Tegra K1 也未提到 ICERA 基頻相關的訊息,如果 NVIDIA 未能在節能與解決方案有顯著的突破,恐怕無法在消費性電子產品領域打破僵局。

但是相對於消費性電子產品,耕耘車載平台的效益逐漸有所斬獲,除了宣布採用的車廠增加,搭載 Tegra 平台的車輛也越來越多款,也成為目前 Tegra 成長最穩定的領域;另外運算級應用應該可預期是 NVIDIA 對 Tegra 下一個目標市場,在導入 64 位元核心與 Kepler GPU 後的 Tegra ,是否能顛覆超級電腦領域呢?

醞釀近三年,運算級架構的 ARM 應用處理器 NVIDIA K1 不光只為消費市場而生