轉(zhuǎn)帖|實(shí)施案例|編輯:龔雪|2017-05-10 11:25:22.000|閱讀 344 次
概述:本文通過(guò)對(duì)目前社會(huì)上關(guān)于網(wǎng)絡(luò)電信詐騙新聞進(jìn)行提取,從中分析當(dāng)前網(wǎng)絡(luò)詐騙發(fā)展趨勢(shì)和關(guān)鍵因素,進(jìn)而構(gòu)建合理的反詐騙模型。
# 界面/圖表報(bào)表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
文|西角邊的MR
網(wǎng)絡(luò)詐騙,電信詐騙層出不窮,花樣翻新,防不勝防,傷害普通百姓利益。本文通過(guò)對(duì)目前社會(huì)上關(guān)于網(wǎng)絡(luò)電信詐騙新聞進(jìn)行提取,從中分析當(dāng)前網(wǎng)絡(luò)詐騙發(fā)展趨勢(shì)和關(guān)鍵因素,進(jìn)而構(gòu)建合理的反詐騙模型。
參考
爬蟲獲取了網(wǎng)站關(guān)于電信詐騙的新聞。
其中keyword是通過(guò)jieba對(duì)文本進(jìn)行分詞得到的。對(duì)于關(guān)鍵詞的分析主要從兩個(gè)方面考慮,一個(gè)是關(guān)鍵詞之間是否有詐騙邏輯,第二是對(duì)具有詐騙邏輯的關(guān)鍵詞進(jìn)一步分析,分為消極詞匯(例如你被法院傳訊了)和積極詞匯(例如你又雙叒叕成為幸運(yùn)觀眾了),這兩種詞匯在詐騙中對(duì)受害者產(chǎn)生的心理影響是不同的。
由于爬蟲爬取的時(shí)間格式具體到秒,要以天為單位進(jìn)行的關(guān)鍵詞統(tǒng)計(jì),實(shí)現(xiàn)方法是以時(shí)間為索引構(gòu)建時(shí)間和關(guān)鍵詞詞典。
時(shí)間和關(guān)鍵詞的指標(biāo)矩陣如上圖所示,并將它存為csv文件以便后續(xù)處理。
通過(guò)構(gòu)建指標(biāo)矩陣可以大致得知這些關(guān)鍵詞出現(xiàn)的日期和頻率,為后期構(gòu)建關(guān)鍵詞詞組打下基礎(chǔ)。
接下來(lái)用pandas讀取上述csv文件,獲得一個(gè)Dataframe類型的變量來(lái)處理。
假設(shè)對(duì)于同一天出現(xiàn)在同一篇文章的關(guān)鍵詞具有相關(guān)性。
Dataframe里有自定義的函數(shù)corr可以求得每個(gè)column之間的相關(guān)系數(shù),經(jīng)過(guò)index轉(zhuǎn)換后得到一張相關(guān)性系數(shù)表。
經(jīng)過(guò)計(jì)算后,筆者發(fā)現(xiàn)這里面的相關(guān)性系數(shù)有正有負(fù),當(dāng)相關(guān)性系數(shù)大于0時(shí),可以認(rèn)為這個(gè)詞組存在詐騙邏輯。
對(duì)于變量大于0的情況,還要進(jìn)一步分類,計(jì)算它們的情感態(tài)度值。通過(guò)查閱資料,筆者發(fā)現(xiàn)需要許多數(shù)據(jù)才能構(gòu)成一張情感態(tài)度分值表,所以筆者使用了現(xiàn)成的snowNLP的工具包來(lái)獲得其態(tài)度值,并以0.5為界限進(jìn)行積極和消極分類,可視化展示如下:
以csv的形式存儲(chǔ)獲取的數(shù)據(jù),這個(gè)比例以后會(huì)用于計(jì)算詐騙概率。
從中我們便獲取了具有假設(shè)網(wǎng)絡(luò)詐騙邏輯的詞組。
對(duì)于用于判斷新的文本中提取出來(lái)的關(guān)鍵詞是否具有電信網(wǎng)絡(luò)詐騙的相關(guān)性,我們可以嘗試如下方法
對(duì)關(guān)鍵詞的相關(guān)性統(tǒng)計(jì)如下:
從圖中可以知道大部分詞語(yǔ)之間都是不能構(gòu)成詐騙邏輯,在0.5,0.75和1左右只有很少一部分詞語(yǔ)。如果數(shù)據(jù)量夠大的話或許可以采用這種方法。所以并不建議使用此類方法。
對(duì)于獲取的詞組,可以分為有相關(guān)性(>0)和沒有相關(guān)性的(<0)兩類,構(gòu)建為機(jī)器學(xué)習(xí)樣本({word1:value,word2:value,word3:value},class:value)。然后將樣本分為訓(xùn)練集和測(cè)試集。這里筆者分別使用了樸素貝葉斯的方法和決策樹的方法并進(jìn)行了比較。這個(gè)分類器可以自己嘗試寫,也可以使用nltk里的自帶函數(shù)來(lái)處理。
構(gòu)建的樣本代碼如上圖。
上圖是使用bayes和tree進(jìn)行分類,并計(jì)算準(zhǔn)確度。
從圖中發(fā)現(xiàn)訓(xùn)練集和測(cè)試集按照4:1進(jìn)行分類時(shí),使用bayes的精確度最為合適。
從中可以對(duì)新提取的關(guān)鍵詞來(lái)判斷是否具有相關(guān)性,而這個(gè)相關(guān)性也就是指符合電信網(wǎng)絡(luò)詐騙的邏輯思維。對(duì)于具有這種相關(guān)性的新詞組,可以繼續(xù)對(duì)詞組的情感態(tài)度進(jìn)行進(jìn)一步分類。
網(wǎng)絡(luò)電信詐騙中,時(shí)間因素也是一個(gè)很重要的參量。
一般節(jié)假日是案件的高發(fā)期,所以計(jì)算詐騙概率的時(shí)候要結(jié)合時(shí)間因素。怎樣對(duì)時(shí)間采樣可以獲得一個(gè)比較準(zhǔn)確的概率預(yù)測(cè)?這里筆者采用了以季度為單位和以月份為單位的預(yù)測(cè)模型。
筆者首先統(tǒng)計(jì)出這些新聞出現(xiàn)的大致變化趨勢(shì),新聞能從一定程度上反映當(dāng)前社會(huì)對(duì)于詐騙案件的關(guān)注程度。
橙黃色表示的是當(dāng)日對(duì)網(wǎng)絡(luò)電信詐騙新聞的報(bào)道篇數(shù),紅色表示一周左右的一個(gè)移動(dòng)平均數(shù),灰色是移動(dòng)平均標(biāo)準(zhǔn)差。從中大致可以看出電信網(wǎng)絡(luò)詐騙的出現(xiàn)頻率大致上是隨某一熱度時(shí)間出現(xiàn)。
為了能夠更好的分別熱度出現(xiàn)的時(shí)間閾值,筆者對(duì)時(shí)間進(jìn)行按月統(tǒng)計(jì)和按季度統(tǒng)計(jì)。
這是以月份為采樣的統(tǒng)計(jì),并進(jìn)行了擬合后的結(jié)果。從中分析電信網(wǎng)絡(luò)案件在1月,9月呈現(xiàn)高發(fā)態(tài)勢(shì)。
這是以季度為采樣的統(tǒng)計(jì),并進(jìn)行了擬合。從圖中大概可以看出一般在每年的四季度到下一年的一季度,每年的暑假到開學(xué)這季度,電信網(wǎng)絡(luò)詐騙案件呈現(xiàn)高發(fā)態(tài)勢(shì)。
為了能夠準(zhǔn)確統(tǒng)計(jì)詐騙隨時(shí)間變化的趨勢(shì),筆者使用類似決策樹算法的方法來(lái)計(jì)算兩種采樣頻率的信息熵。
這是兩種采樣對(duì)于不同階數(shù)的擬合誤差,如下圖所示:
以月份為采樣,對(duì)于不同階數(shù)的擬合誤差。
以季度為采樣,對(duì)于不同階數(shù)的擬合誤差。
經(jīng)過(guò)決策計(jì)算后,以季度為采樣頻率的計(jì)算反映詐騙隨時(shí)間變化的趨勢(shì)更為準(zhǔn)確。當(dāng)然擬合曲線是否具有預(yù)測(cè)性還等待確定。不過(guò)目前一個(gè)可行的方法就是以季度為采樣,統(tǒng)計(jì)各個(gè)季度的出現(xiàn)頻率并使用回歸模型預(yù)測(cè)(這里也試用過(guò)ARIMA模型,但是并沒有將這個(gè)劃歸為平穩(wěn)曲線,所以目前這只能這樣做)。
1、電信網(wǎng)絡(luò)詐騙中,更趨向于使用一些積極詞匯,例如中獎(jiǎng)等信息來(lái)對(duì)用戶實(shí)施詐騙。
2、電信網(wǎng)絡(luò)詐騙的大致發(fā)展趨勢(shì)是上一年的最后季度和年初的第一季度,從中可以大致得出其主要是利用了受害者在過(guò)年時(shí)放松警惕,易輕信他人的特點(diǎn)。
3、每年的開學(xué)季也是電信網(wǎng)絡(luò)詐騙的一個(gè)次要高峰期,這一階段的主要對(duì)象是學(xué)生群體,利用家長(zhǎng),學(xué)生的求學(xué)的心理來(lái)針對(duì)性的實(shí)施詐騙。
通過(guò)對(duì)于關(guān)鍵詞和時(shí)間序列的分析,在構(gòu)建網(wǎng)絡(luò)及電信詐騙模型的時(shí)候,我們要綜合考慮一下幾點(diǎn):
1、從文章中提取的關(guān)鍵詞要進(jìn)行相關(guān)性分類和情感態(tài)度分類。相關(guān)性分類是為了獲取具有詐騙邏輯的關(guān)鍵詞組,情感態(tài)度分類是為了對(duì)具有詐騙邏輯詞組的詞語(yǔ)進(jìn)行積極和消極分類。
2、對(duì)于新出現(xiàn)的詞組判斷是否具有相關(guān)性可以利用已有的相關(guān)性詞匯表,構(gòu)建訓(xùn)練集組成機(jī)器學(xué)習(xí)模型。
3、對(duì)于時(shí)間因素來(lái)說(shuō),要選擇合適的時(shí)間采樣頻率。實(shí)現(xiàn)方法是以不同的時(shí)間間隔,計(jì)算相應(yīng)時(shí)間間隔內(nèi)新聞出現(xiàn)的頻率,計(jì)算不同時(shí)間間隔的信息熵并進(jìn)行比較,最終選擇出對(duì)應(yīng)信息熵較低的時(shí)間頻率。
當(dāng)然我們同時(shí)也要不斷提高自己的防范意識(shí),不輕信,不貪占小便宜,對(duì)自己的財(cái)產(chǎn)安全負(fù)責(zé)。
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請(qǐng)務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請(qǐng)郵件反饋至chenjj@fc6vip.cn