8倍性能提升,Cloudera攜手NVIDIA加速數據科學
企業的數據科學問題
隨著企業數字化轉型的加快,在提高工作的靈活性的同時,也給企業數據工作流帶來了新的挑戰。
首先,面對大數據用例的持續增長,企業在數據模型構建、訓練和迭代的時間上不斷增加。
其次,大規模的CPU基礎設施對于進行大數據操作來說是非常昂貴的,這也在不斷增加企業的運營成本。
最后,生產大規模的數據處理操作需要重構和切換,周期時間增加,企業的時間成本也有所提升。
據介紹,以英偉達 GPU 計算功能支撐的 Cloudera Data Platform 可以利用近乎無限數量和種類的數據,支持企業加快決策速度。
美國國稅局應用案例
近日,NVIDIA數據科學產品集團高級總監Scott和Cloudera機器學習副總裁Sushil共同分享了美國國家稅務局的通過Cloudera和NVIDIA的集成,打擊欺詐和身份盜竊,加速端到端工作流程的成功案例。
美國國家稅務局有超過300 TB的數據庫需要數據科學家Tylor進行整理,以便尋找可能有助于識別身份盜竊和其他欺詐行為的規律。但在大批CPU服務器長時間工作之后,也沒有完成數據整理工作。
此后,Cloudera的解決方案工程師Nasheb Ismaily向美國國稅局數據分析師技術支持團隊的經理Rahul Tikekar建議使用自帶GPU加速Apache Spark 3.0軟件的Cloudera Data Platform。對軟件進行快速測試后,在沒有修改任何代碼的情況下,Tylor表示工作中的許多步驟加快了5倍,但是有幾個部分仍然滯后。
隨后,NVIDIA數據科學家團隊對代碼的核心內容進行了檢查,發現一些數據結構非常糟糕的任務仍在CPU上運行后,編寫了代碼來處理這些工作并將其插入Spark的RAPIDS軟件接口中。結果顯示,所有任務都能在分布式Spark集群的GPU上順利運行,而且速度提升非常明顯。
美國國稅局研究和應用分析與統計部門技術主管Joe Ansaldi表示:“通過Cloudera和NVIDIA的這一技術整合,能夠利用以數據為依據的洞察來推動關鍵任務用例。”
“目前正在應用這一技術整合,這使得數據工程和數據科學工作流程以一半的成本獲得了超過10倍的速度提升。” Ansaldi補充道。
寫在最后
去年,Cloudera與NVIDIA展開合作,借助NVIDIA GPU計算功能,Cloudera在公共云和私有云幫助企業加速數據工程、分析、機器學習和深度學習性能。
今年4月,Cloudera再次宣布Cloudera Data Platform集成Apache Spark 3.0的RAPIDS加速器。該軟件部署在NVIDIA計算平臺上,能夠使企業加快數據管道,并突破數據和機器學習工作流的性能邊界,以推動更快的人工智能采用速度,并在不更改任何代碼的情況下提供更好的業務成果。
如今,面對數字化轉型和企業發展帶來的大量數據,憑借由GPU驅動的服務器所組成的Spark集群,企業能夠加速工作進展,并助推企業高效處理所掌握的海量數據。
未來,Cloudera 與 NVIDIA 表示將繼續合作,致力于為企業提供必要的技術支持,幫助企業更好地理解、處理數據,并充分發掘真正的 AI 轉型潛力。
責任編輯:王莉娟