• <bdo id="qgeso"></bdo>
        • <strike id="qgeso"></strike>
        • <sup id="qgeso"></sup><center id="qgeso"></center>
        • <input id="qgeso"></input>

          CRI-RM 助力浪潮AIStation提升云原生工作負載性能

          首頁 > 熱點 > > 正文

          日期:2021-11-17 16:24:58    來源:晶報網    

          在 KubeCon + CloudNativeCon + Open Source Summit China 2021 大會上, 英特爾®有多場技術分享,這里要給大家特別推薦的一場分享為:

          Friday, December 10 • 11:20 - 11:55

          深入研究:基于 CRI-RM 的中央處理器和非統一內存訪問架構親和性實現人工智能任務加速

          歡迎大家來交流。

          在這個議題中,演講嘉賓將就開源項目 CRI-RM 以及它在浪潮 AIStation 的實際應用跟大家分享。

          CRI-RM(Container Runtime Interface, Resource manager), 是英特爾®初創的一個開源項目,其目的是通過在節點上的動態劃分系統資源,配合 Kubernetes 調度器,實現在節點層面上的最優任務編排,把 Intel®平臺的特性完美的適配到 Kubernetes 的集群環境里。

          AIStation 是浪潮發布的人工智能開發平臺,面向深度學習開發訓練場景,全面整合 AI 計算資源、訓練數據資源以及 AI 開發工具。

          隨著 AI 技術創新、場景化 AI 應用持續落地,越來越多的企業開始嘗試搭建 AI平臺,進行 AI 技術開發、模型訓練,并將其應用到業務流程之中。但是,AI平臺的搭建并非一蹴而就。從 AI 模型的開發,到最終進入到生產部署階段,企業將面臨資源管理、模型測試等帶來的不同挑戰,同時還需要能夠充分發揮 CPU 等硬件的性能潛力,提升 AI 訓練性能。

          浪潮與英特爾合作,利用基于容器運行時接口的資源管理器 CRI-RM 進行了 AI 訓練加速實踐,可以在 K8s 集群上,按照拓撲資源實現物理主機的最優分配,從而突破使用 K8s 原生 CPU 管理機制所帶來的性能瓶頸,大幅提升 AI 計算的性能。

          AI 模型訓練進入云原生時代,算力挑戰浮出水面,提到 AI 模型訓練,不少開發者腦海中浮現出的是繁瑣的資源申請與管理流程、巨大的算力消耗、漫長的模型訓練時間……而云原生技術的出現,能夠在很大程度上化解 AI 資源的調度難題。通過 K8s ,企業將能夠管理云平臺中多個主機上的容器化應用,實現 AI 資源的統一部署、規劃、更新和維護,能夠有效提高用戶的 AI 資源管理率,提升平臺的可管理性、可擴展性、彈性與可用性。

          浪潮 AIStation 應運而生。面向人工智能企業訓練開發與服務部署場景,浪潮 AIStation包含完整的模型開發、訓練和部署全流程,可視化開發、集中化管理等特性,能夠為用戶提供高性能的 AI 計算資源,實現高效的計算力支撐、精準的資源管理和調度、敏捷的數據整合及加速、流程化的 AI 場景及業務整合。

          圖:浪潮 AIStation V3 架構圖

          要通過 AIStation 構建 AI 應用平臺,需要進行的一個重要抉擇便是:算力如何提供?雖然GPU 被普遍用于 AI 訓練,但這并不意味著 GPU 是唯一選擇。事實上,在大量的行業場景中,用戶希望充分利用既有的 CPU 計算資源,靈活地滿足 AI 等多種負載的要求,同時減少資本支出。 但是,在 K8s 集群上使用 CPU 進行訓練,用戶會遇到一定的性能瓶頸。這是因為 K8s 原生的 CPU 管理機制沒有考慮 CPU 綁定與 NUMA 親和性,高版本的 K8s 只會對 QOS 為 Guaranteed 的 Pod 生效,這可能會導致 CPU 在 AI 訓練中無法充分發揮性能。

          CRI-RM 優化助力浪潮 AIStation 突破性能瓶頸,在發現 K8s 集群上的 AI 算力瓶頸之后,浪潮與英特爾展開了深入合作,使用 CRI-RM(基于容器運行時接口的資源管理器)技術對 K8s 進行了優化。該組件可以插在 Kubelet 和 Container Runtime(CR) 之間,截取來自 Kubelet CRI 協議的請求,扮演 CR 的非透明代理,跟蹤所有集群節點容器狀態,能夠更好地將處理器、內存、IO 外設和內存控制器等資源分配給應用負載,從而有效提升性能表現。

          在TensorFlow CNN測試用例中,這一優化被證明能夠實現高達 57.76% 的性能提升[1]。這意味著在未對硬件配置進行更新的前提下,CRI-RM 的應用會帶來大幅度的性能提升,使得用戶無需在進行硬件投入便能夠獲得可觀的 AI 訓練性能提升,從而提高基礎設施的利用效率,并節約總體擁有成本 (TCO)。

          圖:使用 CRI-RM 進行優化前后的性能對比

          (Tensorflow | model: customized cnn,越低越好)

          在此次優化的基礎上,浪潮與英特爾還在探索在基于第三代英特爾® 至強® 可擴展處理器的 HPC 集群上進行進一步的性能驗證,并計劃在利用 CPU 進行人工智能推理和訓練方面進行更為廣泛的合作,通過硬件選型、軟件優化、系統集成等多種不同的方式,加速從云端到邊緣基礎設施上的人工智能性能表現。

          查看完整方案文,請訪問此方案

          [1] 數據援引自浪潮內部測試結果;測試配置:英特爾至強金牌6132處理器 @ 2.60GHz,28 核,56 線程,192GB內存,Centos 7.8.2003,Kubernetes 1.14.8,Docker 19.03,AIStation 3.1

          KubeCon + CloudNativeCon + Open Source Summit China 2021 由云原生計算基金會 CNCF 主辦。作為云原生領域的頂級技術盛會,歷年的 KubeCon + CloudNativeCon + Open Source Summit China 都匯聚了國內外最活躍的開源云原生社區、最先進的技術代表與行業的最佳落地實踐,推動云原生計算領域的知識更新和技術進步。本屆大會的議程安排現已全面上線,更多詳情請查看大會官網。

          免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據。

          關鍵詞: 原生 工作 負載

          下一篇:RingCentral 和 Mitel 宣布戰略合作伙伴關系,幫助客戶無縫遷移到基于云的統一商務通信
          上一篇:FHD酒店機電設計助力之下,酒店的未來能有多少新期待?

           
          国产三级日本三级日产三级66,五月天激情婷婷大综合,996久久国产精品线观看,久久精品人人做人人爽97
          • <bdo id="qgeso"></bdo>
              • <strike id="qgeso"></strike>
              • <sup id="qgeso"></sup><center id="qgeso"></center>
              • <input id="qgeso"></input>
                主站蜘蛛池模板: a视频免费观看| 亚洲大尺码专区影院| а√在线地址最新版| 一级一片免费视频播放| 黄色免费网站网址| 欧洲精品码一区二区三区免费看| 国产资源在线视频| 亚洲精品中文字幕乱码三区| 99久久亚洲精品无码毛片| 激情另类小说区图片区视频区 | 国语做受对白XXXXX在线| 人妻无码一区二区三区| 99热这里只有精品6免费| 波多野结衣33| 国产精品无码翘臀在线观看| 亚洲图片国产日韩欧美| 2022福利视频| 日韩电影免费在线观看中文字幕| 国产成人 亚洲欧洲| 久久夜色精品国产噜噜亚洲a| 贵妇的脚奴视频vk| 欧美xxxxx性喷潮| 国产成人精品视频一区二区不卡| 久久精品国产福利电影网| 顶部自由性别xx视频| 搞av.com| 免费一级毛片无毒不卡| 99久久精品美女高潮喷水| 欧美日韩电影网| 国产成人手机高清在线观看网站| 久久午夜无码鲁丝片直播午夜精品 | 一个色综合导航| 激情五月婷婷久久| 国产精品毛片一区二区三区| 九九影视理伦片| 色噜噜一区二区三区| 好爽好多水小荡货护士视频| 亚洲武侠欧美自拍校园| 欧美交换性一区二区三区| 欧美日韩一区二区三区四区 | 久久精品夜色国产亚洲av|