截至目前,通信行業都開啟了自己的人工智能業務,人工智能已經成為運營商發力數字化新業務的著力點。而在平臺AI核心能力層,將產生大量語音、圖像、視頻以及其他結構化數據,算力的進步也為深度學習集群方案提供了后盾支持。
為了提高網絡運營、服務和管理等全鏈條的智能化水平、運用信息通信技術更好地支撐和服務人工智能產業以及各行業的智能化轉型。近日,曙光通過多年通信行業的深耕經驗,以深度學習集群方案保障高效計算,滿足通信行業智能語音、市場營銷、網絡智能化、客戶服務智能運用等業務層需求。
曙光深度學習集群方案是如何支撐起通信行業AI智能運用的呢?
深度學習集群方案架構
從整體來看
曙光深度學習集群方案從計算、存儲、網絡、軟件等部分,組成了合理、符合通信行業用戶應用特點、沒有性能與功能短板的一套集群方案。
從計算層角度
GPU服務器為深度學習提供強勁的算力支持。GPU的眾核體系結構包含了大量的流處理器,矢量運算可以并行進行,對于矩陣運算的加速效果非常明顯,而深度網絡在訓練過程中需要進行大量的矩陣運算,這無疑成了深度模型訓練方面的首選方案之一,利用GPU訓練深度網絡可以充分的發揮計算核心的并行計算能力,在海量訓練數據的情況下,耗費時間短,使用服務器數量也變得更少。
針對不同深度學習場景,可以搭載多顆GPU的不同類型GPU服務器,在整個計算層中成為了的核心計算單元。同時,在計算層中針對集群管理和桌面服務等非核心計算部分采用通用機架服務器支撐。
從網絡層角度
網絡層主要包括物理網絡傳輸、集群管理調度、人工智能平臺三個部分。
網絡傳輸部分,對于深度學習網絡模型訓練,除了提供強大計算能力還需要保證PCI-E的傳輸帶寬,對于多機情況,需要能提供更好網絡帶寬的網絡設備來保證整個系統的數據傳輸效率,減少網絡數據傳輸帶來的影響;
集群管理調度需要對計算集群整體狀態和計算節點的實時狀態進行監控和分析,并形成實時的可視化數據報表;
人工智能平臺需要提供對深度學習開發環境的快速部署;并要針對深度學習開發,對運算資源按照訓練任務進行分割和分發。
從存儲層角度
存儲層主要用于存放計算數據,在高性能計算中,數十個或者上百個計算節點需要有一個統一映像的共享存儲,使用并行文件系統把所有的存儲陣列統一為一個大的存儲,而并行文件系統能夠滿足用戶需求。針對深度學習解決方案,曙光ParaStor系列采用分布式集群架構,提供充足的I/O聚合帶寬,存儲系統穩定可靠、具有線性擴展能力。
曙光ParaStor系列
隨著物聯網、5G等通信技術的應用,連接規模必將指數級地增長。當這張連接一切的網絡和被連接的單元都被賦予智能后,智能化的生產和生活將無處不在,將給全社會帶來天翻地覆的變化和全新的體驗。