原創|解決方案案例|編輯:鄭恭琳|2020-06-23 15:24:43.423|閱讀 527 次
概述:數據科學平臺是慧都提供的數據挖掘、預測分析解決方案,平臺擁有簡單的圖形界面和高級分析能力,利用強大的建模、評估和自動化功能發現結構化和非結構化數據中的趨勢,使得企業和分析師增加生產力,分析大數據以獲取預測性洞察,制定有效的業務戰略。數據科學平臺可按照企業實際需求完全定制。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
數據科學平臺是慧都提供的數據挖掘、預測分析解決方案,平臺擁有簡單的圖形界面和高級分析能力,利用強大的建模、評估和自動化功能發現結構化和非結構化數據中的趨勢,使得企業和分析師增加生產力,分析大數據以獲取預測性洞察,制定有效的業務戰略。數據科學平臺可按照企業實際需求完全定制。
1.Logistic回歸
Logistic回歸是一種廣義線性回歸(generalized linear model),因此與多重線性回歸分析有很多相同之處。
優點:計算代價不高,易于理解和實現;
缺點:容易欠擬合,分類精度可能不高。
適用數據類型:數值型和標稱型數據。
適用情景:LR的好處是輸出值自然地落在0到1之間,并且有概率意義,但處理不好特征之間相關的情況。雖然效果一般,卻勝在模型清晰,背后的概率學經得住推敲。它擬合出來的參數就代表了每一個特征對結果的影響,是一個理解數據的好工具。
2.決策樹(decision tree)
決策樹是一個樹結構(可以是二叉樹或非二叉樹)。其每個非葉節點表示一個特征屬性上的測試,每個分支代表這個特征屬性在某個值域上的輸出,而每個葉節點存放一個類別。
優點:容易解釋,非參數型
缺點:趨向過擬合,可能或陷于局部最小值中,沒有在線學習。
適用情景:數據分析師希望更好的理解手上的數據的時候往往可以使用決策樹。同時它抗噪聲的能力較低,換句話說,它很容易被“臟數據”影響的分類器。因為決策樹最終在底層判斷是基于單個條件的,往往只要有一小部分“臟數據”就可以影響學習效果。受限于它的簡單性,決策樹更大的用處是作為一些更有用的算法的基石。
3.隨機森林
隨機森林顧名思義,是用隨機的方式建立一個森林,森林里面有很多的決策樹組成,隨機森林的每一棵決策樹之間是沒有關聯的。
優點:不會過擬合,能夠展現變量的權重,具有很好的抗干擾能力
缺點:可能由于疊加掩蓋真實的結果,對小數據或者低維數據分類效果差,學習效率慢。
適用情景:數據維度相對低(幾十維),同時對準確性有較高要求時。因為不需要很多參數調整就可以達到不錯的效果,不知道用什么方法的時候都可以先試一下隨機森林。
4.支持向量機(SVM)
支持向量機是建立在統計學習理論的VC維理論和結構風險最小原理基礎上的,根據有限的樣本信息在模型的復雜性(即對特定訓練樣本的學習精度)和學習能力(即無錯誤地識別任意樣本的能力)之間尋求最佳折中,以求獲得最好的推廣能力 。
優點:在非線性可分問題上表現優秀
缺點:非常難以訓練,很難解釋
適用情景:SVM在很多數據集上都有優秀的表現。相對來說,SVM盡量保持與樣本間距離的性質導致它抗攻擊的能力更強。和隨機森林一樣,這也是一個拿到數據就可以先嘗試一下的算法。
5.樸素貝葉斯(Naive Bayes)
在機器學習中,樸素貝葉斯分類器是一個基于貝葉斯定理的比較簡單的概率分類器,其中樸素是指的對于模型中各個特征有強獨立性的假設,并未將 feature 間的相關性納入考慮中。
優點:快速、易于訓練、給出了它們所需的資源能帶來良好的表現
缺點:如果輸入變量是相關的,則會出現問題
適用情景:需要一個比較容易解釋,而且不同維度之間相關性較小的模型的時候。可以高效處理高維數據,雖然結果可能不盡如人意。
6.KNN
kNN算法又稱為k近鄰分類(k-nearest neighbor classification)算法,是從訓練集中找到和新數據最接近的k條記錄,然后根據他們的主要分類來決定新數據的類別。該算法涉及3個主要因素:訓練集、距離或相似的衡量、k的大小。
優點:簡單,易于理解,易于實現,無需估計參數,無需訓練
缺點:懶惰算法,對測試樣本分類時的計算量大,可解釋性較差。
適用情景:適合對稀有事件進行分類(例如當流失率很低時,比如低于0.5%,構造流失預測模型)。特別適合于多分類問題(multi-modal,對象具有多個類別標簽),例如根據基因特征來判斷其功能分類
7.線性回歸
線性回歸是最為人熟知的建模技術之一,通常也是預測模型的首選技術之一。在這種技術中,因變量是連續的,自變量可以是連續的也可以是離散的,回歸線的性質是線性的。
優點:適合多因素模型,簡單,方便,計算結果唯一,可以準確地計量各個因素之間的相關程度與回歸擬合程度的高低。
缺點:需要選擇合適的輸入變量,且輸入變量不能有相關性,且有較高的局限性(響應變量和預測變量必須存在線性關系才能使用線性回歸)。
適用情景:如果輸入數據符合回歸模型的假設條件時,此種方法為最簡單明了,預測效果最佳的方法。任何數據質量不高或者數據模型選取不當的行為,都會導致學習的結果異常。
案例客戶為國內一家汽車制造企業,旗下暢銷車型銷量一直位列國內同級別前三位,工廠各產線常年處于全負荷運轉的狀態。此外,工廠擁有數量眾多的現代化生產設備,如沖壓設備、焊裝設備、涂裝設備、總裝設備等,企業設備管理科對各種設備維護檢修壓力巨大,設備配件的備件工作也始終是困擾客戶的難題。
經過多次去客戶現場實地考察以及和設備管理人員的深入溝通,慧都為客戶量身定制了設備運維預測分析平臺解決方案,方案依托于數據科學平臺打造,基于客戶的業務目標,利用機器學習算法,結合業務對象模型對特征值(采集的設備各參數)進行數據探究和特征項的預處理,通過不斷迭代的過程構建設備維護及故障預測模型,再結合測試數據集對構建的模型進行評估。
預測平臺的誕生,使得設備的維護不再像此前只是遵循固定的維護時間表,而是用預測模型判斷設備實際的運行狀況是否需要維護,有效降低維護的頻率,從而減少工廠設備維護的支出,設備配件備件人員也可按照預測情況進行科學的備件。除此之外,平臺還可根據歷史數據對設備的突發故障進行預測和預警,降低設備宕機的風險。
設備參數類型截圖:
經過對工廠設備數據的分析及考證,設備故障率隨時間變化趨勢如下:
平臺截圖如下:
關于慧都大數據分析平臺
慧都大數據分析平臺「GetInsight®」升級發布,將基于企業管理駕駛艙、產品質量分析及預測、設備分析及預測等大數據模型的構建,助力企業由傳統運營模式向數字化、智能化的新模式轉型升級,抓住數據經濟的發展勢頭,提供管理效能,精準布局未來。了解更多,請聯系。
慧都大數據專業團隊為企業提供商業智能大數據平臺搭建,免費業務咨詢,定制開發等完整服務,快速、輕松、低成本將任何Hadoop集群從試用階段轉移到生產階段。
歡迎撥打慧都熱線023-68661681或咨詢慧都在線客服,我們有專業的大數據團隊,為您提供免費大數據相關業務咨詢!
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn