轉帖|實施案例|編輯:龔雪|2017-03-27 16:56:54.000|閱讀 847 次
概述:用深度學習(CNN RNN Attention)解決大規模文本分類問題 - 綜述和實踐
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
業務問題描述:
淘寶商品的一個典型的例子見下圖,圖中商品的標題是“夏裝雪紡條紋短袖t恤女春半袖衣服夏天中長款大碼胖mm顯瘦上衣夏”。淘寶網后臺是通過樹形的多層的類目體系管理商品的,覆蓋葉子類目數量達上萬個,商品量也是10億量級,我們是任務是根據商品標題預測其所在葉子類目,示例中商品歸屬的類目為“女裝/女士精品>>蕾絲衫/雪紡衫”。很顯然,這是一個非常典型的短文本多分類問題。接下來分別會介紹下文本分類傳統和深度學習的做法,最后簡單梳理下實踐的經驗。
文本分類問題算是自然語言處理領域中一個非常經典的問題了,相關研究最早可以追溯到上世紀50年代,當時是通過專家規則(Pattern)進行分類,甚至在80年代初一度發展到利用知識工程建立專家系統,這樣做的好處是短平快的解決top問題,但顯然天花板非常低,不僅費時費力,覆蓋的范圍和準確率都非常有限。 后來伴隨著統計學習方法的發展,特別是90年代后互聯網在線文本數量增長和機器學習學科的興起,逐漸形成了一套解決大規模文本分類問題的經典玩法,這個階段的主要套路是人工特征工程+淺層分類模型。訓練文本分類器過程見下圖:
整個文本分類問題就拆分成了特征工程和分類器兩部分,玩機器學習的同學對此自然再熟悉不過了。
特征工程在機器學習中往往是最耗時耗力的,但卻極其的重要。抽象來講,機器學習問題是把數據轉換成信息再提煉到知識的過程,特征是“數據–>信息”的過程,決定了結果的上限,而分類器是“信息–>知識”的過程,則是去逼近這個上限。然而特征工程不同于分類器模型,不具備很強的通用性,往往需要結合對特征任務的理解。
文本分類問題所在的自然語言領域自然也有其特有的特征處理邏輯,傳統分本分類任務大部分工作也在此處。文本特征工程分位文本預處理、特征提取、文本表示三個部分,最終目的是把文本轉換成計算機可理解的格式,并封裝足夠用于分類的信息,即很強的特征表達能力。
文本預處理
文本預處理過程是在文本中提取關鍵詞表示文本的過程,中文文本處理中主要包括文本分詞和去停用詞兩個階段。之所以進行分詞,是因為很多研究表明特征粒度為詞粒度遠好于字粒度,其實很好理解,因為大部分分類算法不考慮詞序信息,基于字粒度顯然損失了過多“n-gram”信息。
具體到中文分詞,不同于英文有天然的空格間隔,需要設計復雜的分詞算法。傳統算法主要有基于字符串匹配的正向/逆向/雙向最大匹配;基于理解的句法和語義分析消歧;基于統計的互信息/CRF方法。近年來隨著深度學習的應用,WordEmbedding + Bi-LSTM+CRF方法逐漸成為主流,本文重點在文本分類,就不展開了。而停止詞是文本中一些高頻的代詞連詞介詞等對文本分類無意義的詞,通常維護一個停用詞表,特征提取過程中刪除停用表中出現的詞,本質上屬于特征選擇的一部分。
經過文本分詞和去停止詞之后淘寶商品示例標題變成了下圖“ / ”分割的一個個關鍵詞的形式:
夏裝 / 雪紡 / 條紋 / 短袖 / t恤 / 女 / 春 / 半袖 / 衣服 / 夏天 / 中長款 / 大碼 / 胖mm / 顯瘦 / 上衣 / 夏
文本表示和特征提取
文本表示:
文本表示的目的是把文本預處理后的轉換成計算機可理解的方式,是決定文本分類質量最重要的部分。傳統做法常用詞袋模型(BOW, Bag Of Words)或向量空間模型(Vector Space Model),最大的不足是忽略文本上下文關系,每個詞之間彼此獨立,并且無法表征語義信息。詞袋模型的示例如下:
( 0, 0, 0, 0, .... , 1, ... 0, 0, 0, 0)
一般來說詞庫量至少都是百萬級別,因此詞袋模型有個兩個最大的問題:高緯度、高稀疏性。詞袋模型是向量空間模型的基礎,因此向量空間模型通過特征項選擇降低維度,通過特征權重計算增加稠密性。
特征提取:
向量空間模型的文本表示方法的特征提取對應特征項的選擇和特征權重計算兩部分。特征選擇的基本思路是根據某個評價指標獨立的對原始特征項(詞項)進行評分排序,從中選擇得分最高的一些特征項,過濾掉其余的特征項。常用的評價有文檔頻率、互信息、信息增益、χ²統計量等。
特征權重主要是經典的TF-IDF方法及其擴展方法,主要思路是一個詞的重要度與在類別內的詞頻成正比,與所有類別出現的次數成反比。
基于語義的文本表示
傳統做法在文本表示方面除了向量空間模型,還有基于語義的文本表示方法,比如LDA主題模型、LSI/PLSI概率潛在語義索引等方法,一般認為這些方法得到的文本表示可以認為文檔的深層表示,而word embedding文本分布式表示方法則是深度學習方法的重要基礎,下文會展現。
分類器基本都是統計分類方法了,基本上大部分機器學習方法都在文本分類領域有所應用,比如樸素貝葉斯分類算法(Naïve Bayes)、KNN、SVM、最大熵和神經網絡等等,傳統分類模型不是本文重點,在這里就不展開了。
上文介紹了傳統的文本分類做法,傳統做法主要問題的文本表示是高緯度高稀疏的,特征表達能力很弱,而且神經網絡很不擅長對此類數據的處理;此外需要人工進行特征工程,成本很高。而深度學習最初在之所以圖像和語音取得巨大成功,一個很重要的原因是圖像和語音原始數據是連續和稠密的,有局部相關性,。應用深度學習解決大規模文本分類問題最重要的是解決文本表示,再利用CNN/RNN等網絡結構自動獲取特征表達能力,去掉繁雜的人工特征工程,端到端的解決問題。接下來會分別介紹:
分布式表示(Distributed Representation)其實Hinton 最早在1986年就提出了,基本思想是將每個詞表達成 n 維稠密、連續的實數向量,與之相對的one-hot encoding向量空間只有一個維度是1,其余都是0。分布式表示最大的優點是具備非常powerful的特征表達能力,比如 n 維向量每維 k 個值,可以表征 kn 個概念。事實上,不管是神經網絡的隱層,還是多個潛在變量的概率主題模型,都是應用分布式表示。下圖是03年Bengio在 A Neural Probabilistic Language Model 的網絡結構:
這篇文章提出的神經網絡語言模型(NNLM,Neural Probabilistic Language Model)采用的是文本分布式表示,即每個詞表示為稠密的實數向量。NNLM模型的目標是構建語言模型:
詞的分布式表示即詞向量(word embedding)是訓練語言模型的一個附加產物,即圖中的Matrix C。
盡管Hinton 86年就提出了詞的分布式表示,Bengio 03年便提出了NNLM,詞向量真正火起來是google Mikolov 13年發表的兩篇word2vec的文章 Efficient Estimation of Word Representations in Vector Space 和 Distributed Representations of Words and Phrases and their Compositionality,更重要的是發布了簡單好用的word2vec工具包,在語義維度上得到了很好的驗證,極大的推進了文本分析的進程。下圖是文中提出的CBOW 和 Skip-Gram兩個模型的結構,基本類似于NNLM,不同的是模型去掉了非線性隱層,預測目標不同,CBOW是上下文詞預測當前詞,Skip-Gram則相反。
除此之外,提出了Hierarchical Softmax 和 Negative Sample兩個方法,很好的解決了計算有效性,事實上這兩個方法都沒有嚴格的理論證明,有些trick之處,非常的實用主義。詳細的過程不再闡述了,有興趣深入理解word2vec的,推薦讀讀這篇很不錯的paper:word2vec Parameter Learning Explained。額外多提一點,實際上word2vec學習的向量和真正語義還有差距,更多學到的是具備相似上下文的詞,比如“good”“bad”相似度也很高,反而是文本分類任務輸入有監督的語義能夠學到更好的語義表示,有機會后續系統分享下。
至此,文本的表示通過詞向量的表示方式,把文本數據從高緯度高稀疏的神經網絡難處理的方式,變成了類似圖像、語音的的連續稠密數據。深度學習算法本身有很強的數據遷移性,很多之前在圖像領域很適用的深度學習算法比如CNN等也可以很好的遷移到文本領域了,下一小節具體闡述下文本分類領域深度學習的方法。
未完待續......
更多行業資訊,更新鮮的技術動態,盡在。
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn