<em id="3efzx"></em>

    <progress id="3efzx"><track id="3efzx"></track></progress>
  1. <dd id="3efzx"><noscript id="3efzx"></noscript></dd>
  2. <rp id="3efzx"></rp>

    計世網

    天云軟件SkyForm AIP攜手齊魯工業大學 構建高性能數據分析平臺
    2021-07-07
    高性能計算機和計算中心已經越來越多的作為“基建”設施被各大高校爭先引入。

     

    近年來,國家對于高新技術自主研發的重視已經上升到了國家戰略層面,高校作為國家未來人才儲備,科研成果最多的單位之一,國家對其投入也在逐年加大。教學設施的優化與科研配套設備對于高校教研工作者來說尤為重要。在眾多科研設備中,高性能計算機和計算中心已經越來越多的作為“基建”設施被各大高校爭先引入。

    齊魯工業大學作為山東省重點建設的應用研究型大學、山東省綜合性自然科學研究機構以及山東省屬高校高水平大學,緊隨國家科技興國的發展戰略,提前布局高性能計算基礎設施,為教學、科研、行業應用等多種應用場景提供完善的融合服務平臺。尤其是在人工智能方向,校方迫切需要搭建自己的高性能數據分析集群,幫助在校老師及學生完成在人工智能領域的開發、模型訓練教學以及科研任務。

    人工智能領域的探索需要強大的算力支撐,高性能數據分析集群是不可或缺的基礎設施。它不僅需要良好的硬件支撐和友好的應用軟件,更需要能把性能發揮到最大化的中臺系統——“集群資源管理和調度軟件”。所謂集群資源管理和調度軟件就是協調底層硬件資源與應用層軟件的中樞系統,好比一個繁忙十字路口的紅綠燈,它可緩解擁堵的道路交通,并最大化提升道路運輸能力,這就是高性能計算中資源管理和調度軟件的作用。沒有它的管理,會造成用戶的任務大量沖突, IT資源大量浪費,導致科研項目進度大大降低。常規的開源軟件如基于容器技術的Kubernetes使用和維護門檻較高,需要使用者熟悉容器的制作和使用,運行和維護也缺乏代碼開發者的直接支持。

    天云軟件與合作伙伴一起積極聽取校方的需求與意見,從校方的使用場景出發,根據多年的服務經驗和高性能計算、高性能數據分析管理調度軟件的技術積累,基于天云自主的高性能計算管理和調度系統SkyForm AIP設計出了一套適合于高校的高性能數據分析平臺。重點提升對GPU資源的調度、使用和監控,實現完全云模式的操作流程,讓老師和學生們可以像在本地一樣遠程可視化使用應用。調度軟件不僅有效為模型訓練任務分配GPU,還可監控GPU實際的使用情況,對已分配GPU后不使用以及隨意使用未經調度分配的GPU的任務,將會根據規則自動處理,這樣極大的提高了GPU和集群其他資源的利用率,讓老師和同學們把精力集中在人工智能的科研和教學上,而不需要花費大量精力去學習和處理容器、操作系統命令等復雜的IT問題。

    當然項目也并非進行的一帆風順。在最初的高性能數據分析集群部署完成后,同學們爭先恐后的登錄平臺,想在平臺上盡快建立自己的研究項目,但這也引發了一個問題——稀缺的GPU資源長時間被某些用戶長時間占用,導致其他人無法使用。天云軟件的技術團隊迅速作出反應,對軟件產品進行了改進。首先對用戶任務類型分類,通過限制登錄時間和資源分配,有效釋放平臺緊俏資源;其次為防止資源分配沖突,對系統監控功能進行了重點升級,使得調度系統在監控下對資源分配得當,效率倍增;最后為了進一步提高整體系統安全性,天云軟件技術團隊對圖形應用內網端口動態端口做了統一映射到一個固定端口,用戶通過網關訪問系統,直接打開瀏覽器輸入登錄,安全便捷。齊魯工業大學計算機科學與技術學院姜文峰老師說:“平臺最開始確實有些使用問題,經過一段時間的磨合后,天云軟件逐步完善切實可行的升級方案,并為我們定制化開發了多項配套實用功能,他們不僅能夠快速響應,還專門建立了技術運維社群,7*24全天候在線處理突發問題,這樣的服務令我們非常滿意,目前碰到的問題都已妥善的解決,這個平臺對于我們學校的科研教學工作起到了很大的幫助。”

    天云軟件與合作伙伴通力合作克服了項目實施中的諸多難點,為齊魯工業大學搭建了一個模塊化、便捷、可靠且可擴展的高新能數據分析平臺。經過近兩年的使用和與運維團隊的緊密配合,系統運行穩定,資源效率實使用大幅提高,為校方教學、科研項目提供了良好的技術支撐,得到了老師同學們的一致好評。

    責任編輯:劉沙