為了提升計(jì)算基礎(chǔ)設(shè)施的性能,并緊跟數(shù)據(jù)分析與 AI 不斷攀升的需求,眾多企業(yè)將硬件加速視為主要的解決方案。在大多數(shù)情況下,先進(jìn)的可編程硬件(主要是指 GPU 和 FPGA)是加速的主要方式。通過(guò)使用這種先進(jìn)的硬件,企業(yè)正在贏(yíng)得計(jì)算優(yōu)勢(shì);然而,對(duì)于編程難度,他們?nèi)匀淮嬖诤侠淼膿?dān)憂(yōu)。
圖 1:分析/AI 流水線(xiàn)組件
硬件制造商正在將加速方法應(yīng)用于計(jì)算存儲(chǔ),這是專(zhuān)門(mén)設(shè)計(jì)用于包含內(nèi)嵌計(jì)算元素的存儲(chǔ)。這種方法已經(jīng)被證明可以為分析和 AI 應(yīng)用提供優(yōu)異的性能(圖 1)。使用或者不使用機(jī)器學(xué)習(xí)輔助的分析以及驗(yàn)證,都可以借助計(jì)算存儲(chǔ)器件進(jìn)行加速。這些器件提供了一個(gè)關(guān)鍵的優(yōu)勢(shì),使得成本高昂的計(jì)算被卸載到存儲(chǔ)器件上,而不必在服務(wù)器 CPU 上完成。與標(biāo)準(zhǔn)的存儲(chǔ)/CPU 方法相比,通過(guò)計(jì)算存儲(chǔ)獲得的優(yōu)勢(shì)包括:
1. 借助應(yīng)用專(zhuān)用編程定制可編程硬件,獲得更高性能
2. 將計(jì)算任務(wù)從服務(wù)器卸載到存儲(chǔ)器件,釋放 CPU 資源
3. 數(shù)據(jù)與計(jì)算共址,降低數(shù)據(jù)傳輸需求
這種新穎的方法前景光明。不過(guò),您應(yīng)根據(jù)具體用例評(píng)估這種方法,考量性能、成本、功耗和易用性。性?xún)r(jià)比和單位功耗性能在選擇加速硬件評(píng)估時(shí),占據(jù)主要比率。在本文中,我們將研討單位功耗性能(另一篇文章則專(zhuān)門(mén)研討性?xún)r(jià)比)。
計(jì)算存儲(chǔ)功耗比較
3種系統(tǒng)
在這個(gè)場(chǎng)景中,我們將比較以 CSV 數(shù)據(jù)讀取用例為主的三種工具:英偉達(dá) GPUDirect 存儲(chǔ) 和RAPIDS存儲(chǔ),以及基于賽靈思技術(shù)的三星 SmartSSD 存儲(chǔ)。CSV 讀取在計(jì)算密集型流水線(xiàn)中起著重要的作用(參見(jiàn)圖 1)。
在下文中,我們將性能定義成 CSV 的處理速率,或處理“帶寬”。我們先快速回顧一下三種系統(tǒng)的運(yùn)行方式。
英偉達(dá) GPUDirect 存儲(chǔ)
·端到端滿(mǎn)足分析和 AI 需求
·將 GPU 用作計(jì)算單元,緊貼基于 NVMe 的存儲(chǔ)器件布局 (GPUDirect)
·使用 CUDA 進(jìn)行編程 (RAPIDS)
英偉達(dá)用其 CSV 數(shù)據(jù)讀取技術(shù)衡量相對(duì)于標(biāo)準(zhǔn) SSD 的性能提升。結(jié)果如圖 1 所示。使用 1 到 8 個(gè)加速器時(shí),對(duì)應(yīng)的吞吐量是 4 到 23GB/s。
三星 SmartSSD 驅(qū)動(dòng)器
·將賽靈思 FPGA 用作計(jì)算單元
·與存儲(chǔ)邏輯內(nèi)嵌駐留在同一個(gè)內(nèi)部 PCIe 互聯(lián)上
·通過(guò)編程在存儲(chǔ)平臺(tái)上開(kāi)展運(yùn)算
賽靈思數(shù)據(jù)分析解決方案合作伙伴 Bigstream 與三星合作,為 Apache Spark 設(shè)計(jì)加速器,包括用于 CSV 和 Parquet 處理的 IP。SmartSSD 的測(cè)試使用單機(jī)模式的 CSV 解析引擎,以便開(kāi)展比較。結(jié)果如圖 2 所示,使用 1 到 12 個(gè)加速器時(shí),對(duì)應(yīng)的吞吐量是 4 到 23GB/s,同時(shí)也給出英偉達(dá)的結(jié)果(使用 1 到 8 個(gè)加速器)。請(qǐng)注意,本討論中的所有結(jié)果都按 x 軸上的加速器數(shù)量進(jìn)行參數(shù)化。
這些結(jié)果令人振奮,但在選擇您的解決方案時(shí),請(qǐng)務(wù)必將功耗情況納入考慮。
圖 2:SmartSSD 驅(qū)動(dòng)器的 CSV 解析性能結(jié)果
單位功耗性能比較
圖 3 顯示了將功耗考慮在內(nèi)后的分析結(jié)果。它們代表單位功耗達(dá)到的性能水平,根據(jù)上述討論中引用的相關(guān)材料,給出了以下假設(shè):
·Tesla V100 GPU:最大功耗 200 瓦
·SmartSSD 驅(qū)動(dòng)器 FPGA:最大功耗 30 瓦
圖 3:CSV 解析的每瓦功耗帶寬比較
在這個(gè)場(chǎng)景下,計(jì)算表明,在全部使用 8 個(gè)加速器的情況下,SmartSSD 的單位功耗性能比 GPUDirect Storage 高 25 倍。
FPGA 與 GPU 對(duì)比:有關(guān)單位功耗性能的最終思考
計(jì)算存儲(chǔ)的優(yōu)勢(shì)在于能增強(qiáng)數(shù)據(jù)分析和 AI 應(yīng)用的性能。然而,要讓這種方法具備可實(shí)際部署的能力和實(shí)用性,就必須在評(píng)估時(shí)將功耗納入考慮。
針對(duì)用于 CSV 數(shù)據(jù)解析的兩種不同的計(jì)算存儲(chǔ)方法,我們已經(jīng)提出按功耗參數(shù)化的吞吐量性能曲線(xiàn)。結(jié)果顯示,在使用相似數(shù)量的加速器進(jìn)行比較時(shí),SmartSSD 驅(qū)動(dòng)器的單位功耗性能優(yōu)于 GPUDirect存儲(chǔ)方法。
GPUDirect 是英偉達(dá)通過(guò) NVIDIA DGX-2 應(yīng)用平臺(tái)提供的研究系統(tǒng)。
三星 SmartSSD 驅(qū)動(dòng)器是一種可部署的量產(chǎn)型 PCIe 可插拔平臺(tái),現(xiàn)在已經(jīng)通過(guò)賽靈思及分銷(xiāo)商供貨。
如需了解更多信息,請(qǐng)查看:
· 有關(guān) Bigstream 與 SmartSSD 計(jì)算存儲(chǔ)器件結(jié)合使用,加速大數(shù)據(jù)和數(shù)據(jù)分析的電子書(shū)。
· Bigstream 硬件加速 Apache Spark解決方案。
· 有關(guān)使用三星 SmartSSD 驅(qū)動(dòng)器給工作負(fù)載帶來(lái)優(yōu)勢(shì)的 三星 SmartSSD 頁(yè)面。