轉(zhuǎn)帖|行業(yè)資訊|編輯:蔣永|2017-02-21 15:13:58.000|閱讀 320 次
概述:這些 Python 庫幫助你加速數(shù)據(jù)傳輸,通過 AWS Lambda 對(duì)大型計(jì)算工作做碎片化處理,并使用略低于 TensorFlow 的模型工作。
# 界面/圖表報(bào)表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
這些 Python 庫幫助你加速數(shù)據(jù)傳輸,通過 AWS Lambda 對(duì)大型計(jì)算工作做碎片化處理,并使用略低于 TensorFlow 的模型工作。
機(jī)器學(xué)習(xí)令人興奮,但具體工作復(fù)雜而困難。通常它涉及很多手動(dòng)提升——匯總工作流及傳輸渠道,設(shè)置數(shù)據(jù)源,以及在內(nèi)部部署和云部署的資源之間來回分流。
用來提高工作效率的手頭工具越多越好。慶幸的是,Python 是一個(gè)威力巨大的工具語言,在大數(shù)據(jù)和機(jī)器學(xué)習(xí)之中被廣泛使用。下面是 5 個(gè) Python 庫,幫助你緩解來自交易提升的重負(fù)。
地址://github.com/ericmjonas/pywren
PyWren,一個(gè)帶有強(qiáng)大前提的簡單包,能使你運(yùn)行基于 Python 的科學(xué)計(jì)算工作量,以作為 AWS Lambda 函數(shù)的多個(gè)例子。項(xiàng)目 At The New Stack 的簡介這樣描述 PyWren: 把 AWS Lambda 用作一個(gè)巨大的平行處理系統(tǒng),以處理那些可被切割成諸多小任務(wù)的項(xiàng)目,這些小任務(wù)的運(yùn)行不需要占用很多內(nèi)存或硬盤。
Lambda 函數(shù)的一個(gè)缺點(diǎn)是運(yùn)行時(shí)間最長不能超過 300 秒。但是,如果你需要一個(gè)只花費(fèi)幾分鐘就能完成的工作,并在數(shù)據(jù)集中需要運(yùn)行數(shù)千次,那么 PyWren 也許是一個(gè)好選擇,它可以一種用戶硬件上不可用的規(guī)模平行化云端的工作。
谷歌的 TensorFlow 框架正邁入偉大時(shí)刻,因?yàn)閯偘l(fā)布了 1.0。人們通常會(huì)問一個(gè)問題:如何利用在上面訓(xùn)練的模型而無需使用 TensorFlow 本身?
地址://github.com/riga/tfdeploy
Tfdeploy 可以部分解決這個(gè)問題。將訓(xùn)練過的 TensorFlow 模型輸出「一個(gè)簡單的基于 Numpy 的可調(diào)用對(duì)象(callable)」,也就是說,借由 Tfdeploy,可以在 Python 中使用模型,而且 Numpy 的數(shù)學(xué)和統(tǒng)計(jì)庫被作為唯一的依靠。幾乎所有能在 TensorFlow 上跑的運(yùn)行也能在 Tfdeploy 上跑,而且你可以通過標(biāo)準(zhǔn) Python 隱喻方式來延伸庫的行為(比如,超載一個(gè)類別)。
現(xiàn)在,壞的消息是:Tf 部署并不支持 GPU 加速,要是 Numpy 能克服那一點(diǎn)該多好。Tfdeploy 的創(chuàng)造者建議 gNumPy 項(xiàng)目是一個(gè)可行的替代。
地址://github.com/spotify/luigi
編寫成批作業(yè)通常只是處理海量數(shù)據(jù)的其中一步:你也不得不將所有這些工作串聯(lián)起來,做成類似工作流程的東西。Luigi 是 Spotify 打造的,用于「解決所有通常與長期運(yùn)行成批處理作業(yè)有關(guān)的管道問題。」
有了 Luigi,研發(fā)人員就可以從事幾個(gè)很難、與數(shù)據(jù)無關(guān)的任務(wù)處理——「一個(gè) Hive 詢問,一個(gè)在 Jave 上完成的 Hadoop 任務(wù),一個(gè) Scala 上的 Spark 任務(wù),一個(gè)從數(shù)據(jù)庫中導(dǎo)出表格」——創(chuàng)造一個(gè)端到端運(yùn)行它們的工作流。對(duì)任務(wù)的整個(gè)描述以及依存性被打造為 Python 模塊,和 XML 配置文檔或其他數(shù)據(jù)形式不同,因此,可以被組合到其他以 Python 為中心的項(xiàng)目中去。
地址://github.com/safarijv/kubelib
如果你采用 Kubernetes 作為完成機(jī)器學(xué)習(xí)工作的編排系統(tǒng)(orchestration system),你最不想要的就是它產(chǎn)生的問題比能解決的問題都多。Kubelib 為 Kubernetes 提供了一系列的 Python 接口,本來是用 Jekins scripting 作為幫助。但沒有 Jenkins 的情況下也能夠使用,它能夠完成 暴露在 kubectl CLI 或者 Kubernetes API 中的所有事。
地址://github.com/pytorch/pytorch
不要忘記了最近發(fā)布的、引人注目的 Python 庫新成員 Pytorch,這是 Torch 機(jī)器學(xué)習(xí)框架的一個(gè)工具。PyTorch 不僅為 Torch 添加了 Python 端口,也增加了許多其他的便利,比如 GPU 加速,共享內(nèi)存完成多重處理(multiprocessing,特別是多核上隔離開的工作。) 最好的是,它們能為 Numpy 中的無加速功能提供 GPU 驅(qū)動(dòng)的替代選擇。
本文轉(zhuǎn)自()
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請郵件反饋至chenjj@fc6vip.cn