轉帖|行業資訊|編輯:陳俊吉|2016-04-29 10:00:26.000|閱讀 339 次
概述:正如IBM對Spark大力投入的承諾,IBM目前正將Spark作為核心組件應用到IBM的大數據分析平臺中,并在公司內部各種項目中大力的推廣Spark。目前,IBM在云端的自助分析旗艦產品Watson Analytics,云端數據加工服務DataWorks都采用了Spark技術。而IBM目前也正使用Spark技術協助NASA下屬的非盈利科研機構SETI (致力于研究人類起源和外星文明的科研機構)來搜尋外星文明。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
過去數十年,SETI為了收集外星生命存在的跡象,構建了“艾倫望遠鏡陣列”(Allen Telescope Array,www.seti.org/ata)。這項工程由微軟聯合創始人保羅艾倫資助,目標是通過構建一個小型望遠鏡陣列,在降低成本的同時,達到巨型天文望遠鏡的探測效果。艾倫望遠鏡陣列將成為“世界上用于搜尋銀河系中其他文明的最有力的工具”-百度百科
艾倫望遠鏡陣列每小時產生4.5TB的數據流量,而且探測數據中夾雜大量由自然界和人類產生的干擾數據。如何處理如此巨大的數據流量,并通過機器學習算法排除其中的干擾數據,找出真正令人感興趣的“外太空信號“,是SETI需要解決的技術難題。當SETI找到IBM專家時,IBM的專家們想到了具有海量數據分析、高性能內存計算、深度學習算法的Spark技術,他們使用了IBM Bluemix上的Spark分析服務構建了一套分析應用,幫助SETI解決上述技術難題。
艾倫望遠鏡陣列產生的數據由兩部份組成:
1)結構化數據SignalDB
SignalDB中存儲了過去十幾年間1.68億條信號數據的基本描述,例如捕捉信號數據的太空方位,信號頻率的多普勒漂移,信號類型(載波還是脈沖)等。每個捕捉數據用一條上述記錄進行描述。以下是SignalDB中一條樣例記錄:
2)非結構化二進制數據CompAmps
捕捉的具體信號數據CompAmps用二進制存放,在進行分析之前,需要通過快速傅立葉變換(FFT)技術,將其轉化為可視化的波形。
整套分析架構采用IBM Bluemix上的Apache Spark服務構建,由艾倫望遠鏡陣列產生的數據被上傳到Bluemix上的Object Store存儲服務中,然后通過Spark進行分析。
分析應用采用IPython notebooks開發(IPYthon notebook是IBM Spark服務提供的交互式分析工具),分析服務包括
通過IBM Spark服務的IPythonnotebook可視化開發界面,可以將信號數據進行加工繪圖,形成可視化的結果(項目中成為瀑布式繪圖Waterfall Plot),下面就是對一個信號進行傅立葉變化繪圖后的結果:
檢測到的信號通常會具有“多普勒漂移”現象,即隨著時間變化其頻率(強度)會發生變化。想象一下消防車開過時聲音由遠到近再到遠的過程,就是多普勒漂移的例子。現在醫院常用的彩超也稱多普勒成像,就是利用了這個原理。信號的多普勒漂移通常可能由地球的自轉,公轉和信號源本身的移動(例如飛機,衛星的移動)產生。
在這個項目中,為了檢測來自外太空的異常信號,需要要將來自人類物體(例如飛機、衛星甚至微波爐)或自然界的噪音(例如太陽輻射、地震)過濾掉。而為了判斷 不同時間窗口收集到的信號哪些是由同一個信號源(例如飛機、衛星)產生的,則需要首先消除信號中不停變化的多普勒漂移產生的偏移量。由于涉及相當復雜的計 算和海量數據,這也是本項目最大的技術難題。
IBM 團隊首先建立了一套復雜的算法,可以根據不同時間、地點計算出地球自轉、公轉產生的多普勒漂移,然后利用Spark用算法對信號進行多普勒漂移的消減。消減之后的信號就可以比較容易的利用SparkML機器學習算法的聚類(Clustering)和貝葉斯算法進行分類,判斷出哪些信號是飛機、衛星、電器、地震等產生的,剩下的哪些無法被歸到正常類別的信號,就是需要深入調查的異常信號了。
SETI 項目中集結了來自 IBM Almaden 實驗室、IBM Johannesburg 實驗室和來自NASA,Penn State大學的世界級數據科學家和天文學家。他們利用IBM Bluemix上的Apache Spark服務,成功的構建了對艾倫望遠鏡陣列海量數據的計算和分析模型,也驗證了IBM Apach Spark服務在海量處理方面的穩定性、擴展性。利用IBM Apache Spark服務的IPython notebook,專家們可以快速的進行交互式分析和數據的可視化。通過項目,IBM也充分展示了通過Spark技術解決復雜問題的實施能力。
好吧,到這肯定有同學會問,哪么項目找到外星人了嗎?實際上,項目確實發現了一個位于磁偏角85的信號,而且確定與太陽輻射無關。科學家們正在對信號進行近一步分析,是不是外星人信號還未可知,但是這確實是第一次科學家們從海量數據中排除干擾,發現了可疑的信號。
最后,引用Dr. Seth Shostak,(天文學家, SETI研究中心主管)的話結束本文。
“通過Bluemix上的Spark服務,我們能夠和IBM一起構建出令人信服的新方法,通過分析艾倫望遠鏡陣列的信號數據,來探索外星文明存在的證據。這真是令人激動的合作。”
(“With Spark as a Service on Bluemix, we’ll be able to work with IBMto develop promising new ways to analyze signal data as we hunt for evidence ofintelligence elsewhere in the cosmos. This is an exciting example of synergy inthe service of science.” )
本文轉載自
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn