轉帖|行業資訊|編輯:王香|2017-02-15 10:38:01.000|閱讀 298 次
概述:到現在為止,幾乎所有的輸入都可以愚弄對象識別模型。以至于當對象識別正確工作的時候我們都無比驚訝。今天,通過一些基準測試測量,對象識別算法的識別能力已經達到人類的水準了,讓我們感到驚訝的是,在非正常的輸入情況下,對象識別卻表現得不盡人意。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
對抗樣本是通過稍微修改實際樣本而構造出的合成樣本,以便于一個分類器以高置信度認為它們屬于錯誤的分類。垃圾類的樣本(如fooling images)是病態樣本,即使它們不屬于任意一個類,分類模型也會把它們以高置信度劃分到某一個類別中去。
一個對抗樣本,修改一張熊貓的圖片,讓機器學習模型將它識別成一只長臂猿。
使用32位浮點值作為網絡的輸入來執行修改,這個改變是如此的小以至于不會改變出版圖像的8位表示。更多細節請參考這篇論文。
這些錯誤抓住了公眾的想象力。在興奮之余,關于對抗樣本的一些誤解已經廣泛傳播。在這篇博客中,我列出了其中的一些誤解。
1. 神話:對抗樣本并不重要,因為它們不會出現在實踐中。
事實:的確,對抗樣本不太可能自然發生。然而,對抗樣本至關重要,因為訓練一個模型來抵制它們,可以提高其非對抗樣本的準確性。對抗樣本也可能在實踐中發生,如果它們的確是對抗性的。例如垃圾郵件發送者試圖騙過垃圾郵件檢測系統。
訓練一個網絡來正確分類對抗樣本,降低它在訓練數據集上的錯誤率,即使測試數據集的樣本沒有被擾動。這種技術提升了在MNIST數據集上的最高水平。
2. 神話:深度學習比其他類型的機器學習更容易受到對抗樣本的干擾。
事實:到目前為止,我們已經能夠為我們測試過的每一個模型生成對抗樣本,包括像最鄰近這樣的最傳統的機器學習模型。深度學習是目前為止對對抗訓練最有抵抗性的技術。
3. 神話:對抗樣本是由極度非線性深度模型導致。
事實:我們最近的實驗表明,深度模型的表現是非常線性的。線性模型在外推遠離訓練數據的區域有著極度的優勢。這也解釋了對抗性和垃圾分類樣本中發生的很多錯誤。
我們可以描繪出一個輸入空間中的線性路徑,通過對一張清晰的汽車圖像添加不同的對抗性微擾。這里,我們將比例因子范圍從-10到+10來繪制出這條線性路徑。我們看到,網絡的logits輸出在遠離數據的地方表現為線性。這將導致網絡的預測變得極端,垃圾類輸入數據以高置信度歸為有意義分類。
4. 神話:對抗樣本在小數據中很難找到或發生。
事實:空間中的大多數任意點都被誤判。例如,我們測試的一個網絡,把大約70%的噪聲樣本以高置信度歸類為馬。
5. 神話:我們能做到最好的是識別和拒絕處理對抗樣本。
事實:拒絕處理對抗樣本比將它錯誤分類要好,不過這不是一個令人滿意的解決方案。如果真是一個對抗樣本,如垃圾郵件發送者,對抗樣本仍然可以通過產生系統拒絕分類的樣本而占優勢。我們知道這可能是正確分類的對抗樣本,因為人們不會被它們迷惑,這也是我們設計模型的目標。
6. 神話:攻擊者必須訪問到模型才能產生對抗樣本。
事實:對抗樣本在整個網絡中擴散,用來訓練執行相同的任務,即使這些模型有不同的架構,由不同訓練數據集訓練。這意味著攻擊者可以訓練自己的模型,產生對抗模型來對抗目標模型,然后將這些對抗樣本部署到他們不能訪問的模型中。
7. 神話:對抗樣本可以很容易地用標準正則化技術解決。
事實:我們已經測試了幾種傳統的正則化策略,包括均化多重模型,均化圖像多采樣觀測(multiple glimpses),用時延權重或噪聲訓練模型,通過生成模型的推斷進行分類,結果均以失敗告終。
8. 神話:沒人知道人腦是否也會犯相似的錯誤。
事實:神經學家和心理學家通常研究幻覺和認知偏差。雖然我們無法進入我們的大腦,但是我們可以確認我們沒有像現代機器學習那樣被同一種對抗樣本所影響。如果我們的大腦和機器學習模型一樣犯了同樣的錯誤,那么由于交叉模型的泛化屬性,機器學習模型的對抗樣本將會使我們產生視覺錯亂。
總之,對抗樣本是一個頑固的問題,研究如何克服它們可以幫助我們避免潛在的安全問題,并且會讓機器學習算法對所要解決的問題有一個更準確的了解。
推薦閱讀
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn