AIGC浪潮的襲來(lái),人們真正意識(shí)到AI給生產(chǎn)力帶來(lái)的巨大飛躍,AI大模型成為行業(yè)用戶重點(diǎn)關(guān)注的對(duì)象。
但ChatGPT的成功,除了整合Transformer等多種人工智能技術(shù)之外,基礎(chǔ)設(shè)施的高效支撐也功不可沒(méi):如何高效存儲(chǔ)與處理海量多元數(shù)據(jù),如何實(shí)現(xiàn)數(shù)據(jù)全生命周期的高效管理,如何為AI大模型選取合適的數(shù)據(jù)精度…
AI工作的負(fù)載不同于以往任何處理過(guò)的IT負(fù)載,具有全新的特點(diǎn),它面對(duì)的是海量的非結(jié)構(gòu)化數(shù)據(jù)集,需要極高的隨機(jī)訪問(wèn)性能,極低延時(shí)以及大規(guī)模存儲(chǔ)容量。
盡管AI時(shí)刻在推動(dòng)存儲(chǔ)發(fā)展,但是想要進(jìn)一步激活存儲(chǔ)潛力,仍需要解決AI場(chǎng)景下,存儲(chǔ)容易面臨的挑戰(zhàn)。
那么AI對(duì)存儲(chǔ)提出了怎樣的挑戰(zhàn)?
海量非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)
AI業(yè)務(wù)中除了個(gè)別業(yè)務(wù)場(chǎng)景主要針對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析外(例如消費(fèi)記錄、交易記錄等風(fēng)險(xiǎn)控制、趨勢(shì)預(yù)測(cè)場(chǎng)景),大多數(shù)場(chǎng)景需要處理的是非結(jié)構(gòu)化數(shù)據(jù),例如圖像識(shí)別、語(yǔ)音識(shí)別、自動(dòng)駕駛等,這些場(chǎng)景通常使用的是深度學(xué)習(xí)的算法,必須依賴海量圖片、語(yǔ)音、視頻的輸入。
數(shù)據(jù)共享訪問(wèn),對(duì)數(shù)據(jù)訪問(wèn)接口有一定要求
多個(gè)AI計(jì)算節(jié)點(diǎn)需要共享訪問(wèn)數(shù)據(jù)。由于AI架構(gòu)需要使用到大規(guī)模的計(jì)算集群(GPU服務(wù)器),集群中的服務(wù)器訪問(wèn)的數(shù)據(jù)來(lái)自一個(gè)統(tǒng)一的數(shù)據(jù)源,即一個(gè)共享的存儲(chǔ)空間。能實(shí)現(xiàn)共享訪問(wèn)的通常有對(duì)象存儲(chǔ)和文件存儲(chǔ)。從AI應(yīng)用框架的角度看,文件接口是最友好的存儲(chǔ)訪問(wèn)方式。
讀多寫(xiě)少
AI數(shù)據(jù)特點(diǎn)是讀多寫(xiě)少,要求高吞吐、低延時(shí)。深度學(xué)習(xí)過(guò)程訓(xùn)練中,需要對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練,以視覺(jué)識(shí)別為例,它需要加載數(shù)千萬(wàn)張,甚至上億張圖片,針對(duì)圖片使用卷積神經(jīng)網(wǎng)絡(luò)、ResNet 等算法,生成識(shí)別的模型。
完成一輪訓(xùn)練后,為了減少圖片輸入順序的相關(guān)性對(duì)訓(xùn)練結(jié)果帶來(lái)的影響,會(huì)將文件次序打亂之后,重新加載,訓(xùn)練多個(gè)輪次(每個(gè)輪次稱之為epoch)。這就意味著每個(gè) epoch 都需要根據(jù)新的順序加載數(shù)千萬(wàn)、上億張圖片。圖片的讀取速度,即延時(shí),對(duì)完成訓(xùn)練過(guò)程的時(shí)間長(zhǎng)短會(huì)造成很大影響。
“工欲善其事,必先利其器”,要想發(fā)揮出AI人工智能技術(shù)的最大威力,解決存儲(chǔ)挑戰(zhàn)就成為企業(yè)構(gòu)建強(qiáng)有力的IT基礎(chǔ)設(shè)施的重要一環(huán)。
有哪些數(shù)據(jù)存儲(chǔ)解決方案,能滿足以上AI大規(guī)模應(yīng)用的需求呢?
百代OSS國(guó)產(chǎn)新一代可信存儲(chǔ)系統(tǒng)——AI浪潮下的國(guó)產(chǎn)自主數(shù)據(jù)存儲(chǔ)解決方案
百代公司的OSS可信存儲(chǔ)系統(tǒng)是一款具備完整知識(shí)產(chǎn)權(quán)且自主可控的國(guó)產(chǎn)數(shù)據(jù)存儲(chǔ)系統(tǒng),實(shí)現(xiàn)存儲(chǔ)+應(yīng)用的生態(tài)體系,包含存儲(chǔ)OS、移動(dòng)端、客戶端及服務(wù)。
百代OSS所具備的幾大特性非常契合AI應(yīng)用的綜合需求。
首先百代OSS采用大型系統(tǒng)小型化搭建思路,支持分布式融合存儲(chǔ),且具備高擴(kuò)展能力、高可靠性等優(yōu)勢(shì),可以完美應(yīng)對(duì)AI海量數(shù)據(jù)帶來(lái)的種種挑戰(zhàn)。
第一大特征多元融合
百代OSS分布式融合存儲(chǔ)第一個(gè)重要的特征就是多元融合,融入大數(shù)據(jù)協(xié)議,利用協(xié)議融合免去數(shù)據(jù)復(fù)制,讓數(shù)據(jù)處理的效率大幅提升,滿足AI應(yīng)用的處理需求。
第二大特征智能敏捷
雖然當(dāng)前數(shù)據(jù)量爆炸性的增長(zhǎng),但是被用來(lái)分析的數(shù)據(jù)量依然很小。相關(guān)數(shù)據(jù)顯示,已獲取數(shù)據(jù)的平均留存率僅為2%,大量數(shù)據(jù)從未被分析和利用,百代OSS分布式融合存儲(chǔ)能夠?qū)崟r(shí)、智能地處理數(shù)據(jù),滿足各種AI應(yīng)用帶來(lái)的性能需求。
第三大特征數(shù)據(jù)安全
隨著AI應(yīng)用走向普及,各種安全問(wèn)題也隨之暴露,作為數(shù)據(jù)最后一道防線,百代OSS數(shù)據(jù)保護(hù)能力強(qiáng)大,多個(gè)備份目的地 包括本地或異地 NAS、服務(wù)器、公有云、私有云等。
靈活排程,將備份任務(wù)計(jì)劃為每天或每周自動(dòng)啟動(dòng);適用云存儲(chǔ),選擇云存儲(chǔ)或云對(duì)象存儲(chǔ)作為備份目的地。
支持多系統(tǒng)平臺(tái)的備份尤其針對(duì) Windows;不僅支持文件備份及一鍵恢復(fù),還支持操作系統(tǒng)的備份與恢復(fù),且可靈活對(duì)每個(gè)備份節(jié)點(diǎn)進(jìn)行恢復(fù);私有云數(shù)據(jù)保護(hù)平臺(tái)通過(guò)連續(xù)主動(dòng)的數(shù)據(jù)備份,將重要數(shù)據(jù)備份至存儲(chǔ)。
第四大特征高性能、高規(guī)格、高性價(jià)比
采用更好的硬件配置和工業(yè)設(shè)計(jì),保證系統(tǒng)擁有良好抗震動(dòng)、散熱和設(shè)備穩(wěn)定性。從小核 CPU 到大核到分布式,為用戶不同的業(yè)務(wù)提供多樣化的硬件選擇。
合理的價(jià)格,高端的用料和做工,保證產(chǎn)品的高性價(jià)比。
完善、易用的 虛擬化工具,既有輕量的容器化應(yīng)用,也有完整的虛擬機(jī)體系,極大節(jié)約了用戶的硬件成本。充分利用百代OSS完善的存儲(chǔ)和網(wǎng)絡(luò)體系,存儲(chǔ)系統(tǒng)虛擬化輕松實(shí)現(xiàn)容器、host、本地網(wǎng)絡(luò)里設(shè)備和外網(wǎng)對(duì)內(nèi)網(wǎng)的訪問(wèn)和互聯(lián)互通。
寫(xiě)在最后
或許很難預(yù)測(cè)未來(lái)的存儲(chǔ)技術(shù)究竟是怎么樣的,但是我們可以肯定的是,未來(lái)AI將持續(xù)驅(qū)動(dòng)存儲(chǔ)發(fā)展。
我們希望百代OSS能夠提供關(guān)于AI業(yè)務(wù)對(duì)存儲(chǔ)實(shí)際需求的觀察和洞見(jiàn),幫助客戶落地AI業(yè)務(wù),提供AI存儲(chǔ)產(chǎn)品的優(yōu)化方案。
免責(zé)聲明:市場(chǎng)有風(fēng)險(xiǎn),選擇需謹(jǐn)慎!此文僅供參考,不作買賣依據(jù)。
關(guān)鍵詞: