轉帖|使用教程|編輯:龔雪|2014-08-13 09:28:55.000|閱讀 429 次
概述:張彭善是 PayPal Risk Data Science部門的研發工程師,在PayPal一直致力于使用Hadoop解決風險控制數學模型的特征提取。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
如何利用大數據訓練風險控制的數學模型一直以來都是PayPal在欺詐交易檢測的挑戰。PayPal在風險控制模型訓練上大致經歷過四個階段:
其中,Hadoop迭代式計算框架Guagua是PayPal的一個開源機器學習框架的子項目,已經。
張彭善是 PayPal Risk Data Science部門的研發工程師,在PayPal一直致力于使用Hadoop解決風險控制數學模型的特征提取、訓練及驗證等工作,是Shifu和Guagua的主要開發人員。InfoQ中文站編輯近日對張彭善進行了采訪,了解這個框架的開發背景和應用狀況。
InfoQ:首先問一下,這個框架為什么取了Guagua這個名字?
張彭善:這個 名字的得來其實很隨意。去年公司裝修期間,我在家開發Guagua的時候,苦于沒有一個合適的名字,我隨手翻了本我兒子平時比較喜歡的一本故事書,看到上 面一只小鴨子叫“呱呱”,我當時隨手就用了這個名字。后來等到Guagua成型,一直想換一個名字,但是那時Guagua在公司內部已經有了很大的知名 度,而且我的同事幫我設計了一個非常漂亮的Logo,Guagua就一直沿用至今了。
InfoQ:風險控制訓練的業務特點是什么?
張彭善:風險控制數學模型的主要特點是訓練數據量大、模型特征多、模型通用性低等等。
InfoQ:其訓練的算法有什么樣的特點?業內都有哪些公開的或者你了解的方法,各自有什么特點和不同?
張彭善:它的訓練方法和其它的分類問題并沒有太多不同,唯一比較大的不同是如何利用大數據來訓練數學模型。業內有很多相關的算法,決策樹、邏輯回歸、神經網絡、SVM等等,但是主要都是單機實現。即便是也并沒有把分類模型的分布式做好(Mahout中邏輯回歸和神經網絡均為單機算法)。
InfoQ:為什么要開發Guagua?換句話說,Guagua為什么是更適合你們業務特點的框架?
張彭善:在 PayPal,Guagua主要解決的是機器學習分類模型的分布式訓練問題,以往我們并沒有分布式模型的訓練框架或者產品,我們只能通過抽樣來把我們的訓 練數據限定在單機規模。此外,由于單機計算資源和內存的限制,我們以前訓練一個風控模型需要10小時左右的時間。使用Guagua,數據和計算都在 Hadoop之上實現了分布式,不僅訓練數據達到了我們之前不敢想象的TB級別,而且訓練時間也由10小時左右減少到1小時左右,且最終的模型沒有比單機 有任何的性能損失。
InfoQ:Guagua現在哪些地方滿足了你的要求,哪些方面還不完善,計劃做哪些工作改進它?
張彭 善:Guagua主要解決了模型訓練的分布式問題,現在PayPal可以利用大數據快速訓練風控數學模型。同時Guagua并沒有將自己局限在分類模 型,Guagua是一個基于Hadoop的迭代式計算框架,幾乎任何基于迭代的算法都可以利用Guagua為其添加分布式功能。此外由于Guagua對分 布式的良好支持,我們以前許多想做又不能做的工作比如模型特征自動選取都可以得以進行。
Guagua目前主要支持的是同步的Master-Workers結構的迭代式計算框架,今后我們希望能夠支持異步方式的迭代計算框架,2012年Google MapReduce之父Jeff Dean,上面提到了對神經網絡深度模型的支持,文章介紹他們的DistBelief框架訓練的神經網絡的數學模型可以支持10億級別的參數。這也是Guagua的另一個方向,支持超大規模的深度神經網絡模型。
來自: InfoQ
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn
文章轉載自:慧都控件網