當(dāng)前大數(shù)據(jù)已經(jīng)在諸多領(lǐng)域得到應(yīng)用,與我們的生活息息相關(guān)。例如,打開網(wǎng)絡(luò)我們就會收到關(guān)于購物的推薦廣告,進(jìn)入電子郵箱時就會看到系統(tǒng)自動識別的垃圾信件等,這些現(xiàn)象背后均與大數(shù)據(jù)和人工智能密不可分。然而,與之形成對比的是,在國際關(guān)系研究領(lǐng)域,大數(shù)據(jù)似乎并未得到普遍應(yīng)用。那么大數(shù)據(jù)在國際關(guān)系領(lǐng)域應(yīng)用前景究竟如何呢?筆者嘗試就此作一番探究。
國際關(guān)系數(shù)據(jù)存在特殊性
大數(shù)據(jù)顧名思義是數(shù)據(jù)量巨大的數(shù)據(jù),有時也被稱為海量數(shù)據(jù)。隨著互聯(lián)網(wǎng)技術(shù)的應(yīng)用和普及,人類社會中產(chǎn)生了越來越多的數(shù)據(jù),例如網(wǎng)絡(luò)發(fā)言、網(wǎng)絡(luò)購物、圖片、音頻和視頻等。對于這些數(shù)據(jù)的挖掘和研究,有助于科研的創(chuàng)新和企業(yè)的發(fā)展。因此,我們可以看到大數(shù)據(jù)以及人工智能算法在我們生活中的諸多方面得到了普遍應(yīng)用。
然而與在國內(nèi)社會領(lǐng)域得到普遍應(yīng)用的情況不同,國際關(guān)系研究領(lǐng)域似乎尚未對大數(shù)據(jù)加以深入探究??梢钥吹剑瑹o論是理論前沿還是國際關(guān)系熱點,我們都很難看到大數(shù)據(jù)的應(yīng)用,這與國際關(guān)系研究的對象有關(guān)。國際關(guān)系的研究問題往往為高政治領(lǐng)域,例如國際沖突與戰(zhàn)爭、同盟締結(jié)與破裂等現(xiàn)象,而戰(zhàn)爭與結(jié)盟等現(xiàn)象的發(fā)生次數(shù)是有限的,樣本量往往很難上萬,依靠傳統(tǒng)數(shù)據(jù)庫就足以解決。這導(dǎo)致國際關(guān)系主流數(shù)據(jù)庫的數(shù)據(jù)規(guī)模都較小,例如戰(zhàn)爭相關(guān)因素數(shù)據(jù)庫(COW)、烏普薩拉沖突數(shù)據(jù)庫(UCDP)、奧斯陸國際和平研究所的武裝沖突數(shù)據(jù)(ACD)、同盟協(xié)議數(shù)據(jù)庫(ATOP)等。由于這些主流數(shù)據(jù)庫都可以免費使用,其變量、指標(biāo)和維度均受到國際關(guān)系專業(yè)人士的認(rèn)可,因此得到了廣泛應(yīng)用。
大數(shù)據(jù)在國際關(guān)系領(lǐng)域的應(yīng)用現(xiàn)狀
由于專業(yè)特性,大數(shù)據(jù)在當(dāng)前的國際關(guān)系研究領(lǐng)域似乎較少有用武之地,然而隨著數(shù)據(jù)挖掘的深入,也有一些國際關(guān)系研究開始將大數(shù)據(jù)作為研究的變量之一。首先,比較具有應(yīng)用前景的有GIS地理信息系統(tǒng)(Geographic Information System)提供的地理分布數(shù)據(jù)有助于學(xué)者對空間數(shù)據(jù)進(jìn)行建模,使既往研究中長期被忽視的地理因素得以重回大家的視野。其次,全球夜間燈光數(shù)據(jù)也具有應(yīng)用價值,該數(shù)據(jù)由美國國防氣象衛(wèi)星計劃(DMSP)的衛(wèi)星觀測所得,比較客觀地反映了各國/地區(qū)的生產(chǎn)、生活狀況,可以替代GDP成為度量經(jīng)濟(jì)活動的可行指標(biāo)之一。再次,谷歌(Google)公司提供的 GDELT全球事件數(shù)據(jù)項目(GDELT Event Database)提供了全球100多種語言的媒體、網(wǎng)頁上的事件信息,時間跨度為1979年至今,數(shù)據(jù)量達(dá)億級,包括國家、事件類型、地理位置等多個維度。除此以外,學(xué)者們也可以通過采用網(wǎng)絡(luò)爬蟲技術(shù)抓取網(wǎng)絡(luò)上自己感興趣的信息,然后再對自己挖掘的數(shù)據(jù)進(jìn)行文本分析、自然語言處理和圖像識別等技術(shù)加工。
根據(jù)以上分析,我們可以看到,大數(shù)據(jù)在國際關(guān)系領(lǐng)域的應(yīng)用存在局限。第一,從研究主體上看,傳統(tǒng)國際關(guān)系數(shù)據(jù)庫大部分關(guān)注的主體是國家,而大數(shù)據(jù)的主體則出現(xiàn)向微觀個體轉(zhuǎn)變的趨勢,例如網(wǎng)絡(luò)發(fā)言或微信等自媒體上的數(shù)據(jù)都是以個人為主體,因此應(yīng)用大數(shù)據(jù)有助于我們對于輿論的判斷和選舉的民情進(jìn)行評估。第二,從時間上看,大數(shù)據(jù)借助于新技術(shù)而出現(xiàn),例如網(wǎng)絡(luò)、衛(wèi)星等,因此大數(shù)據(jù)的時間段往往集中于最近數(shù)十年,這導(dǎo)致對于一些涉及較長時間段的普遍性理論,例如戰(zhàn)爭與和平問題,目前的大數(shù)據(jù)似乎難以提供有力的幫助。第三,從數(shù)據(jù)質(zhì)量看,大數(shù)據(jù)的質(zhì)量有待提高,例如應(yīng)用自然語言處理技術(shù)從新聞報道中獲得的大數(shù)據(jù),盡管有量大和速度快等優(yōu)點,但是這類數(shù)據(jù)受到新聞報道者偏好的影響很大,有些新聞會重復(fù)報道,有些偏遠(yuǎn)地區(qū)的事件則被忽視。例如近年來民眾似乎對歐洲“恐襲”印象深刻,然而從發(fā)生次數(shù)看,不論是與2010年以前的歐洲“恐襲”次數(shù)比較,還是與其他地區(qū)“恐襲”頻率比較,近年的次數(shù)并不多。顯然這一現(xiàn)象與全球媒體對歐洲的密切關(guān)注有關(guān)。因此,研究人員要對挖掘出來的大數(shù)據(jù)進(jìn)行清洗,排除重復(fù)報道、錯誤報道、有傾向性的報道等因素的影響。第四,大數(shù)據(jù)不一定包括總體,在統(tǒng)計中,隨機抽樣技術(shù)是為了盡量使樣本能夠體現(xiàn)出總體的特征,然而不能因為數(shù)據(jù)量的巨大就判定大數(shù)據(jù)能代表總體。例如,在考慮民情輿論時,根據(jù)網(wǎng)絡(luò)發(fā)言大數(shù)據(jù)得到的初步判斷可能是有偏差的,因為網(wǎng)絡(luò)言論只能表明那些樂于在網(wǎng)上表達(dá)意見的人群的立場,而沒有考慮到不愛上網(wǎng)的人群和上網(wǎng)不愛發(fā)言的人群的立場。
算法應(yīng)用提高預(yù)測準(zhǔn)確率
在李世石與AlphaGo的人機大戰(zhàn)中,機器學(xué)習(xí)、深度學(xué)習(xí)算法對AlphaGo的獲勝起了重要作用,這些算法同樣對于國際關(guān)系預(yù)測具有重大幫助。在傳統(tǒng)回歸方法中,統(tǒng)計模型的假設(shè)檢驗需要對樣本數(shù)據(jù)的分布做出假定,例如正態(tài)分布、卡方分布和F分布等,從而進(jìn)行進(jìn)一步計算。這一方法的缺陷是,如果樣本數(shù)據(jù)的分布不符合假定,則結(jié)論不一定成立。大數(shù)據(jù)中常用的機器學(xué)習(xí)算法主要采用交叉驗證,將數(shù)據(jù)分為訓(xùn)練集和測試集兩類,先用訓(xùn)練集建模,然后用測試集加以檢驗,可以規(guī)避傳統(tǒng)回歸中對分布假定帶來的不足。目前國際關(guān)系學(xué)界也應(yīng)用了一些算法進(jìn)行預(yù)測,例如樸素貝葉斯模型、Logistic模型、隱馬爾可夫模型、神經(jīng)網(wǎng)絡(luò)等,取得了較好的預(yù)測準(zhǔn)確率。
然而,機器學(xué)習(xí)、深度學(xué)習(xí)等算法往往關(guān)注的是變量間的相關(guān)關(guān)系,而較少考慮因果關(guān)系。即使根據(jù)某些算法能夠提高預(yù)測準(zhǔn)確率,研究人員也很難對模型中各變量的作用機制加以解釋。例如神經(jīng)網(wǎng)絡(luò)算法可以根據(jù)輸入的數(shù)據(jù)得出結(jié)果,但沒法給出被擬合函數(shù)的數(shù)學(xué)表達(dá)式,整個過程是黑箱操作。此外,神經(jīng)網(wǎng)絡(luò)結(jié)果對于參數(shù)十分依賴,然而調(diào)參沒有客觀標(biāo)準(zhǔn),由研究人員憑經(jīng)驗決定。由于以上特點,機器學(xué)習(xí)、深度學(xué)習(xí)算法往往被用于政策應(yīng)用或者現(xiàn)實生活,而較難給國際關(guān)系領(lǐng)域帶來重大理論突破。
在大數(shù)據(jù)時代,數(shù)據(jù)挖掘技術(shù)使研究人員可以獲得大量過去難以得到的數(shù)據(jù),這對國際關(guān)系學(xué)科的創(chuàng)新具有重大推動作用。然而,根據(jù)國際關(guān)系研究的特點,大數(shù)據(jù)及相關(guān)算法在國際關(guān)系領(lǐng)域存在應(yīng)用界限,我們一方面要充分利用新技術(shù)帶來的研究創(chuàng)新空間,另一方面也不必過度迷信大數(shù)據(jù),正確認(rèn)識到大數(shù)據(jù)的優(yōu)勢與不足,推進(jìn)學(xué)術(shù)創(chuàng)新。
網(wǎng)上經(jīng)營許可證號:京ICP備18006193號-1
copyright?2005-2022 3dtdv.cn all right reserved 技術(shù)支持:杭州高達(dá)軟件系統(tǒng)股份有限公司
服務(wù)熱線:010-59231580