<em id="3efzx"></em>

    <progress id="3efzx"><track id="3efzx"></track></progress>
  1. <dd id="3efzx"><noscript id="3efzx"></noscript></dd>
  2. <rp id="3efzx"></rp>

    計世網

    8倍性能提升,Cloudera攜手NVIDIA加速數據科學
    來源:計算機世界
    2021-08-09
    英偉達和Cloudera宣布將加深在數據平臺方面的合作。

     

    近日,英偉達和Cloudera宣布將加深在數據平臺方面的合作。最新版本的Cloudera Data Platform采用通過NVIDIA技術加速的Spark 3.0,能夠幫助操作團隊實現8倍性能提升,可以利用近乎無限數量和種類的數據,支持企業加快決策速度,進一步賦能企業加速數據科學。

    企業的數據科學問題

    隨著企業數字化轉型的加快,在提高工作的靈活性的同時,也給企業數據工作流帶來了新的挑戰。

    首先,面對大數據用例的持續增長,企業在數據模型構建、訓練和迭代的時間上不斷增加。

    其次,大規模的CPU基礎設施對于進行大數據操作來說是非常昂貴的,這也在不斷增加企業的運營成本。

    最后,生產大規模的數據處理操作需要重構和切換,周期時間增加,企業的時間成本也有所提升。

    據介紹,以英偉達 GPU 計算功能支撐的 Cloudera Data Platform 可以利用近乎無限數量和種類的數據,支持企業加快決策速度。

    美國國稅局應用案例

    近日,NVIDIA數據科學產品集團高級總監Scott和Cloudera機器學習副總裁Sushil共同分享了美國國家稅務局的通過Cloudera和NVIDIA的集成,打擊欺詐和身份盜竊,加速端到端工作流程的成功案例。

    美國國家稅務局有超過300 TB的數據庫需要數據科學家Tylor進行整理,以便尋找可能有助于識別身份盜竊和其他欺詐行為的規律。但在大批CPU服務器長時間工作之后,也沒有完成數據整理工作。

    此后,Cloudera的解決方案工程師Nasheb Ismaily向美國國稅局數據分析師技術支持團隊的經理Rahul Tikekar建議使用自帶GPU加速Apache Spark 3.0軟件的Cloudera Data Platform。對軟件進行快速測試后,在沒有修改任何代碼的情況下,Tylor表示工作中的許多步驟加快了5倍,但是有幾個部分仍然滯后。

    隨后,NVIDIA數據科學家團隊對代碼的核心內容進行了檢查,發現一些數據結構非常糟糕的任務仍在CPU上運行后,編寫了代碼來處理這些工作并將其插入Spark的RAPIDS軟件接口中。結果顯示,所有任務都能在分布式Spark集群的GPU上順利運行,而且速度提升非常明顯。

    美國國稅局研究和應用分析與統計部門技術主管Joe Ansaldi表示:“通過Cloudera和NVIDIA的這一技術整合,能夠利用以數據為依據的洞察來推動關鍵任務用例。”

    “目前正在應用這一技術整合,這使得數據工程和數據科學工作流程以一半的成本獲得了超過10倍的速度提升。” Ansaldi補充道。

    寫在最后

    去年,Cloudera與NVIDIA展開合作,借助NVIDIA GPU計算功能,Cloudera在公共云和私有云幫助企業加速數據工程、分析、機器學習和深度學習性能。

    今年4月,Cloudera再次宣布Cloudera Data Platform集成Apache Spark 3.0的RAPIDS加速器。該軟件部署在NVIDIA計算平臺上,能夠使企業加快數據管道,并突破數據和機器學習工作流的性能邊界,以推動更快的人工智能采用速度,并在不更改任何代碼的情況下提供更好的業務成果。

    如今,面對數字化轉型和企業發展帶來的大量數據,憑借由GPU驅動的服務器所組成的Spark集群,企業能夠加速工作進展,并助推企業高效處理所掌握的海量數據。

    未來,Cloudera 與 NVIDIA 表示將繼續合作,致力于為企業提供必要的技術支持,幫助企業更好地理解、處理數據,并充分發掘真正的 AI 轉型潛力。

    責任編輯:王莉娟