作者:Yiqin Fu
分析社會、行業都都需要數據。在這里我簡單總結一下我用過的方法。方法肯定不全,也不一定適用于所有領域,歡迎大家批評與補充。
注:下面說的“數據”指的是描述社會活動的原始數據,來自大范圍統計和調查,不包括分析類數據(例如市場規模估算、行業增長預計等)。
獲取數據的方法我分為三類:網上下載、電話索取、自己生產。
網上下載
- 搜索引擎搜索
- 不管是中國還是外國數據,都推薦使用 Google 搜索,推薦用你會的所有語言各搜一次,結果頁面多翻幾頁,可能會有意想不到的效果
- 一般搜到的都是政府或國際組織網站(例如國家旅游局、世界銀行),這類數據的好處是來源可靠、一鍵下載,壞處是通常只有綜合數據(不會細分到地區、個人,不會細分到每月、每天),很多還缺歷史數據(只有當天、當月數據)
- 如果搜到的是論壇里的帖子,請一定核實數據來源,否則很容易以訛傳訛;需要論壇幣的資源先別急著買論壇幣下載,很多其實都可以通過下面提到的方法拿到
- 如果搜到的是媒體報道或轉載,請一定核實數據來源;媒體水平參差不齊,中文媒體很多不標注數據來源,使用的時候要特別小心
- 政府網站數據庫
- 很多政府網站都有數據庫,收錄比較詳細的數據(細分到地區、過去十年數據等);數據庫本身的展示方式決定了它們通常不容易直接搜到,需要你去網站自己查閱
- 統計部門的網站上沒有,可以試試其他部門網站(弄清政府各部門職能很重要);中央政府網站沒有,可以試試地方網站(弄清行政區劃很重要)
- 如果找到了你要的數據(例如統計年鑒)但無法直接下載,可以去圖書館借閱,也可以請你在大學或大公司的朋友幫忙借閱;年鑒通常有電子版(光盤),只是格式通常不是你想要的,需要后期清洗
- 國內外由政府、學術機構主導的調查
- 搜索“中國 家庭 收入 調查”幾個關鍵詞,就可以搜到相關調查;注意看組織方是誰——靠譜的調查通常由科研人員主導,方法公開且相對規范
- 在收入、教育、健康、價值觀等各領域,國際組織和各國大學都會做長期調查,方法全球統一,方便跨國、跨時間比較
- 此類數據可能會提供免費的線上閱覽版,對做 PPT 來說這些數據通常夠用;如果需要原始數據,調查方可能需要核實你的身份及研究目的,整個核實過程短則一天長則一個月
- 私人機構調查(“基金會”、“民調中心”、“大數據公司”)
- 私人機構在誠信、專業水平上良莠不齊,需要謹慎鑒別;如果只是做 PPT 可能夠用;做學術研究,需要確認調查方法是否科學、調查機構是否靠譜;至于去哪里找靠譜的調查,一個捷徑是多閱讀文獻,看知名作者引用過哪些
- 絕大多數私人機構都不會公開原始數據,所以一般能接觸到的只有機構官方發布的報告、博客文章等
- 學術期刊數據庫
- 很多期刊現在都要求作者公開原始數據,方便重復論文結果。所以期刊網站有每篇論文的配套數據,包括論文作者清洗過的公開數據和作者自己做的調查、實驗數據
- 此類數據只能按論文標題搜到,所以如果不讀文獻的話很難直接在搜索引擎上按關鍵字找到
電話索取
- 網上找不到的資料,可以試試直接給數據來源方打電話;幸運的話,他們的資料可以直接公布在網上、私下發給你、現場讓你閱覽
- 電話索取想要成功,關鍵在于你要繞過接線前臺、直接找到管理數據的人;這個步驟的難易程度又取決于你和數據來源方的關系:
- 你可以給數據來源方提供好處
- 如果你是記者或生意伙伴(即可以給對方提供曝光、投資等好處),可以直接請前臺轉公關、商務負責人
- 如果以后經常需要對方的信息,最好能和某位公關、商務建立長期關系
- 數據來源方與你毫無關聯
- 如果你想向業內公司打探行情但又無法提供任何好處,請一定要搞清楚公司內部結構,電話里客氣地直接要求找負責該業務的人(最好是直接報上對方姓名或分機號),避免和前臺糾纏太久
- 一定要準備好你的各類信息,例如聯系方式、辦公地址、老板姓名等,以便回答電話那頭的問題;如果是替雇主打電話,一定要向老板確認能否在電話里表明你的身份
- 電話那頭如果無法現在給你答復,一定要在掛斷前確認對方姓名及下次跟進的時間
- 常聽人說“上班前、下班后打電話可以繞過前臺直接找到老板”,在實踐中我還沒發現這樣做有用,可能公司與公司不同吧
- 數據來源方應該提供數據,但并不理你
- 向政府機構索要數據,一定要找到分管統計的部門(網上找分機號或直接請前臺轉接)。如果找錯部門,對方要么會說他們不管此事然后掛斷,要么給你轉分機再轉分機,一天就這么過去了
- 除了找對人,還要做好打持久戰的準備,預留足夠時間。統計部門的電話接通后,你很可能得到以下答復:今天馬上要下班了;政府在罷工;辦公室唯一管這件事的同事現在在休假,下個月才能回來;你要的數據得請示領導同意,而領導在出差,也不知道什么時候回來;申請數據需要填寫表格,政府確認你的申請需要一個月,答復需要三個月
- “你留個電話,有消息我們打給你”這類回復是永遠不能相信的。你需要在電話里問清對方姓名,買一張無限通話的電話卡,過一段時間主動打過去,指名找他
- 不管是打什么電話,成功主要靠厚臉皮和耐心。上午打不通就下午打;這次接電話的人不理你,過會兒打說不定是另一個人接;這家公司不行就換別家
自己生產
- 在一些情況下,數據是可以自己生產的,通過抓取網頁、調查、實驗三種方法
- 抓取網頁
- 什么情況下可以抓網頁?如果我們需要的就是網絡數據(電商商品價格、電影評分、社交媒體好友關系),又或者線上活動是很好的代理變量(量化一個不可觀測的變量)
- 怎樣抓取?如果是主流網站,搜索“網站名 抓取”或“網站名 爬蟲”,把搜索結果的時間限定調成“一年以內”,就能找到一步一步的教學;如果是小眾網頁,可以看看網頁結構然后搜索教學帖;現在也可以雇人寫腳本,過程方便且價格可以接受
- 調查
-
-
- 很多時候,調查其實并不需要那么多錢,尤其是網絡調查。真正困難的地方在于調查設計。如果沒有讀過專業書籍或積累實戰經驗,第一次做調查很難保證設計得科學
- 實驗
- (社會科學)實驗不一定需要很多錢。例如很多,只需要研究人員向大學、公司群發簡歷即可;很多研究政府的實驗,只需要向議員寫信即可;研究社交媒體的實驗,只需要寫程序來發帖即可
- 雖然沒有錢,但我們有很多時間。教授要付錢請人做的事,我們多花點時間、和其他錢少時間多的人合作,說不定也可以做出來
- 如果你有技術但沒有錢,可以和有資金的前輩合作,可以向政府或非政府機構提供免費咨詢、分析,以換取數據。當然,這個方法還是很靠“關系”
- “關系”如果真的夠硬,可以讓一國總統
“理想數據”與時間規劃
設計研究方案的時候,要先從“理想狀態”出發——問自己,能夠回答我研究問題的“最理想的數據”長什么樣?是個人、家庭、公司、省還是國家層面的數據,有哪些變量,是哪個時間段的……
只有想明白理想數據長什么樣,才可以開始搜索、采集。因為這樣你可以最快找到近似理想的數據,也可以最快發現找到的數據有哪些局限、對你研究最后得到的結論有哪些影響。
時間規劃方面,一定要給數據搜集預留充分的時間。很多時候你可能計劃用一周搜集數據,另一周分析。你以為你要的數據網上肯定有,幾秒鐘就可以下載完,給一周時間綽綽有余。
然而事實上,很多數據根本不存在(電腦普及之前的資料很多地方都沒有保存);如果有,對方也不一定會給你;對方給了你,也一定不是你拿到手就可以立刻分析的格式。所以時間規劃上一定不要盲目樂觀。通常一個項目,70% 甚至 90% 的時間都花在“準備工作”上。
本文轉載自:36大數據
