山西資訊
更多>>商界企業(yè)
更多>> 西安市忻州商會(huì)揭牌成立!市委統(tǒng)戰(zhàn)部領(lǐng)導(dǎo)陳晉...
西安市忻州商會(huì)揭牌成立!市統(tǒng)戰(zhàn)部領(lǐng)導(dǎo)陳晉華出席 促進(jìn)西安、忻州兩地經(jīng)濟(jì)貿(mào)易交流與發(fā)...
社會(huì)觀察
小數(shù)據(jù)研究學(xué)者對(duì)大數(shù)據(jù)提出六點(diǎn)質(zhì)疑
新傳研讀社發(fā)表文章“大數(shù)據(jù)無所不能嗎?來自小數(shù)據(jù)研究者的六點(diǎn)質(zhì)疑”,華夏民意網(wǎng)節(jié)錄文章核心內(nèi)容與網(wǎng)友共同學(xué)習(xí),以便于探討借鑒。
大數(shù)據(jù)時(shí)代已經(jīng)來臨。計(jì)算機(jī)科學(xué)家、物理學(xué)家、經(jīng)濟(jì)學(xué)家、數(shù)學(xué)家、社會(huì)學(xué)家……都被沖入大數(shù)據(jù)的海洋之中。社交媒體中的互動(dòng)、健康報(bào)告、電話記錄、政府檔案等數(shù)字痕跡,都成為了學(xué)者們熱衷于追逐的研究素材。不過同時(shí),一個(gè)重要的問題也浮現(xiàn)出來:大數(shù)據(jù)能否幫我們創(chuàng)造更大的公共價(jià)值?亦或者說,它只會(huì)成為窺探隱私和侵入式營(yíng)銷的工具而已?
大數(shù)據(jù)是一種技術(shù)現(xiàn)象,同時(shí)也是文化現(xiàn)象。它迎合了人們“數(shù)據(jù)越大、智識(shí)水平越高”的信念。人們相信,大數(shù)據(jù)攜帶著真理、客觀和準(zhǔn)確的光環(huán),可以生產(chǎn)出我們從未企及的深度思考。另一方面,反烏托邦的觀點(diǎn)則擔(dān)心,大數(shù)據(jù)(big data)會(huì)成為一種新的老大哥(big brother),侵蝕人們的隱私空間、干擾公民行動(dòng)的自由、增強(qiáng)國(guó)家權(quán)力。
如今,已經(jīng)出現(xiàn)了不少對(duì)于大數(shù)據(jù)的研究。不過,我們?nèi)耘f有必要進(jìn)行批判性的思考:何為大數(shù)據(jù)?誰有權(quán)力接近大數(shù)據(jù)?數(shù)據(jù)分析是怎樣進(jìn)行的?目的是什么?在這篇文章中,我們提供了有關(guān)大數(shù)據(jù)研究的六種反思,希望能在不同領(lǐng)域的研究者之間引發(fā)討論。
反思01
大數(shù)據(jù)改變了知識(shí)的定義
大數(shù)據(jù)讓我們以前所未有的廣度和深度來收集數(shù)據(jù),這也在認(rèn)識(shí)論方面產(chǎn)生了深刻影響。也有研究者認(rèn)為,大數(shù)據(jù)的問題恰恰在于,在洪流一般的信息背后,缺少哲學(xué)意義上的管控。
大數(shù)據(jù)有自己的局限性。研究者更可能去關(guān)注那些正在發(fā)生和剛剛發(fā)生的數(shù)據(jù),因?yàn)闅v史數(shù)據(jù)幾乎不可能挖掘到。真正有價(jià)值的問題似乎是:大數(shù)據(jù)如何改變了學(xué)習(xí)的意義,這種新的知識(shí)系統(tǒng)究竟提供了哪些可能性,又具有哪些局限呢?
思考02
大數(shù)據(jù)宣稱的客觀、準(zhǔn)確是具有誤導(dǎo)性的
大數(shù)據(jù)提供給人文學(xué)科一種新機(jī)遇,來實(shí)現(xiàn)量化科學(xué)和客觀方法的夢(mèng)想。它讓更多的社會(huì)空間可被量化。不過事實(shí)上,在我們看來,大數(shù)據(jù)方法仍舊是主觀的。
科學(xué)家們?cè)跊Q定研究設(shè)計(jì)時(shí),他們也在解釋。例如,對(duì)于社交媒體數(shù)據(jù),存在著“數(shù)據(jù)清理”(data cleaning)這一道程序。哪些變量和屬性要被保留?哪些要被刪除?這個(gè)過程內(nèi)在便具有主觀性。
如果單純拒絕解釋,大數(shù)據(jù)還會(huì)讓我們產(chǎn)生幻想性的錯(cuò)覺。例如,大數(shù)據(jù)研究經(jīng)常會(huì)發(fā)現(xiàn)莫名其妙的相關(guān)性。
思考03
數(shù)據(jù)越大,不一定數(shù)據(jù)越好
社會(huì)科學(xué)家一直認(rèn)為,數(shù)據(jù)收集和分析的系統(tǒng)性,保證了他們工作的縝密。不管是問卷調(diào)查還是實(shí)驗(yàn)法,都會(huì)提供給其他研究者評(píng)估研究效度的途徑。
大數(shù)據(jù)并不意味著整體數(shù)據(jù)。如果不考慮到樣本本身的特質(zhì),數(shù)據(jù)的規(guī)模就毫無意義。例如,如果一個(gè)學(xué)者試圖理解Twitter廣播的話題頻率,但Twitter會(huì)自動(dòng)隱藏那些有問題的內(nèi)容(例如色情和垃圾信息),那么,無論我們收集多大的數(shù)據(jù),結(jié)論都是不準(zhǔn)確的。
在社會(huì)科學(xué)的計(jì)算轉(zhuǎn)向過程中,我們更需要認(rèn)識(shí)到“小數(shù)據(jù)”的價(jià)值。在任何數(shù)據(jù)層級(jí)上,都有可能產(chǎn)生研究洞見。某些時(shí)候,哪怕我們聚焦一個(gè)人,都有可能獲得卓越的發(fā)現(xiàn)。
思考04:
剔除語境的大數(shù)據(jù)會(huì)失去意義
在大數(shù)據(jù)研究中,常見的兩種社會(huì)網(wǎng)絡(luò)是“節(jié)點(diǎn)網(wǎng)絡(luò)”和“行為網(wǎng)絡(luò)”,所謂節(jié)點(diǎn)網(wǎng)絡(luò),可以簡(jiǎn)單理解為好友列表。不過,我選擇關(guān)注一個(gè)人,可能有不同的動(dòng)機(jī),比如TA是我的朋友、同事、熟人、明星、朋友的朋友、公眾人物,或者有意思的陌生人。所謂行為網(wǎng)絡(luò),指的是通過技術(shù)抓取到的交流信息。這種交流的種類也很多,例如給一個(gè)人流言、在照片上tag一個(gè)人等等、給一個(gè)人發(fā)私信,等等。
節(jié)點(diǎn)網(wǎng)絡(luò)和行為網(wǎng)絡(luò)對(duì)研究者具有重要的價(jià)值,不過,它們并不能被等同于人際網(wǎng)絡(luò)。忽略具體的交流語境,僅僅通過交流頻率或朋友列表示來測(cè)量關(guān)系強(qiáng)度,本身是有很大問題的。
思考05
可獲得的數(shù)據(jù)并不一定就是道德的
學(xué)者不得不面對(duì)一個(gè)問題:在社交媒體上,所謂的“公開”(public)數(shù)據(jù),究竟該如何使用?如何處理其中的研究倫理問題?一部分人已經(jīng)意識(shí)到問題的嚴(yán)重性,并呼吁平臺(tái)對(duì)用戶隱私進(jìn)行更好的保護(hù)。
對(duì)于大數(shù)據(jù)而言,其中的倫理意涵仍舊十分模糊。一個(gè)人在社交媒體上的廣播應(yīng)該被納入到研究數(shù)據(jù)之中嗎?萬一TA的廣播以一種脫離語境的方式被解讀呢?對(duì)此,TA有知情權(quán)嗎?如果TA在研究中遭受到了傷害,誰來負(fù)責(zé)呢?大數(shù)據(jù)研究中的知情同意應(yīng)該如何操作呢?
在大數(shù)據(jù)的研究中,我們還需要關(guān)注真相、控制與權(quán)力問題。研究者擁有工具和渠道,但社交媒體用戶卻沒有。他們的廣播是在高度情景化的背景下生產(chǎn)的,也很可能不愿意自己的信息被用在其他地方。
思考06:
大數(shù)據(jù)的使用限制創(chuàng)造了新的數(shù)字鴻溝
大數(shù)據(jù)的狂熱者們有理由相信,大數(shù)據(jù)提供了一種獲得大規(guī)模數(shù)據(jù)的簡(jiǎn)便方法。不過,我們要詢問的問題是:誰可以擁有這些數(shù)據(jù)?在何種情境下?lián)碛校坑泻蜗拗疲?br />
一些公司完全不提供關(guān)于自己的任何數(shù)據(jù),另一些公司則用這些數(shù)據(jù)賣錢。這就造成了一種不平等:那些有錢的、有合作關(guān)系的研究者,可以生產(chǎn)出完全不同的研究。而不擁有這些資源的研究者,既不能進(jìn)行這些研究,也沒有機(jī)會(huì)去評(píng)估這些研究的方法論主張。
建造起一種基于“誰能讀懂?dāng)?shù)據(jù)”的研究階級(jí)。相應(yīng)的,傳統(tǒng)的社會(huì)科學(xué)研究者的價(jià)值可能會(huì)被低估。我們需要面臨的另一項(xiàng)挑戰(zhàn)是,如何才能培養(yǎng)出這樣的學(xué)生——既通曉社會(huì)理論,又熟練掌握算法和數(shù)據(jù)分析?
大數(shù)據(jù)時(shí)代已經(jīng)來臨。計(jì)算機(jī)科學(xué)家、物理學(xué)家、經(jīng)濟(jì)學(xué)家、數(shù)學(xué)家、社會(huì)學(xué)家……都被沖入大數(shù)據(jù)的海洋之中。社交媒體中的互動(dòng)、健康報(bào)告、電話記錄、政府檔案等數(shù)字痕跡,都成為了學(xué)者們熱衷于追逐的研究素材。不過同時(shí),一個(gè)重要的問題也浮現(xiàn)出來:大數(shù)據(jù)能否幫我們創(chuàng)造更大的公共價(jià)值?亦或者說,它只會(huì)成為窺探隱私和侵入式營(yíng)銷的工具而已?
大數(shù)據(jù)是一種技術(shù)現(xiàn)象,同時(shí)也是文化現(xiàn)象。它迎合了人們“數(shù)據(jù)越大、智識(shí)水平越高”的信念。人們相信,大數(shù)據(jù)攜帶著真理、客觀和準(zhǔn)確的光環(huán),可以生產(chǎn)出我們從未企及的深度思考。另一方面,反烏托邦的觀點(diǎn)則擔(dān)心,大數(shù)據(jù)(big data)會(huì)成為一種新的老大哥(big brother),侵蝕人們的隱私空間、干擾公民行動(dòng)的自由、增強(qiáng)國(guó)家權(quán)力。
如今,已經(jīng)出現(xiàn)了不少對(duì)于大數(shù)據(jù)的研究。不過,我們?nèi)耘f有必要進(jìn)行批判性的思考:何為大數(shù)據(jù)?誰有權(quán)力接近大數(shù)據(jù)?數(shù)據(jù)分析是怎樣進(jìn)行的?目的是什么?在這篇文章中,我們提供了有關(guān)大數(shù)據(jù)研究的六種反思,希望能在不同領(lǐng)域的研究者之間引發(fā)討論。
反思01
大數(shù)據(jù)改變了知識(shí)的定義
大數(shù)據(jù)讓我們以前所未有的廣度和深度來收集數(shù)據(jù),這也在認(rèn)識(shí)論方面產(chǎn)生了深刻影響。也有研究者認(rèn)為,大數(shù)據(jù)的問題恰恰在于,在洪流一般的信息背后,缺少哲學(xué)意義上的管控。
大數(shù)據(jù)有自己的局限性。研究者更可能去關(guān)注那些正在發(fā)生和剛剛發(fā)生的數(shù)據(jù),因?yàn)闅v史數(shù)據(jù)幾乎不可能挖掘到。真正有價(jià)值的問題似乎是:大數(shù)據(jù)如何改變了學(xué)習(xí)的意義,這種新的知識(shí)系統(tǒng)究竟提供了哪些可能性,又具有哪些局限呢?
思考02
大數(shù)據(jù)宣稱的客觀、準(zhǔn)確是具有誤導(dǎo)性的
大數(shù)據(jù)提供給人文學(xué)科一種新機(jī)遇,來實(shí)現(xiàn)量化科學(xué)和客觀方法的夢(mèng)想。它讓更多的社會(huì)空間可被量化。不過事實(shí)上,在我們看來,大數(shù)據(jù)方法仍舊是主觀的。
科學(xué)家們?cè)跊Q定研究設(shè)計(jì)時(shí),他們也在解釋。例如,對(duì)于社交媒體數(shù)據(jù),存在著“數(shù)據(jù)清理”(data cleaning)這一道程序。哪些變量和屬性要被保留?哪些要被刪除?這個(gè)過程內(nèi)在便具有主觀性。
如果單純拒絕解釋,大數(shù)據(jù)還會(huì)讓我們產(chǎn)生幻想性的錯(cuò)覺。例如,大數(shù)據(jù)研究經(jīng)常會(huì)發(fā)現(xiàn)莫名其妙的相關(guān)性。
思考03
數(shù)據(jù)越大,不一定數(shù)據(jù)越好
社會(huì)科學(xué)家一直認(rèn)為,數(shù)據(jù)收集和分析的系統(tǒng)性,保證了他們工作的縝密。不管是問卷調(diào)查還是實(shí)驗(yàn)法,都會(huì)提供給其他研究者評(píng)估研究效度的途徑。
大數(shù)據(jù)并不意味著整體數(shù)據(jù)。如果不考慮到樣本本身的特質(zhì),數(shù)據(jù)的規(guī)模就毫無意義。例如,如果一個(gè)學(xué)者試圖理解Twitter廣播的話題頻率,但Twitter會(huì)自動(dòng)隱藏那些有問題的內(nèi)容(例如色情和垃圾信息),那么,無論我們收集多大的數(shù)據(jù),結(jié)論都是不準(zhǔn)確的。
在社會(huì)科學(xué)的計(jì)算轉(zhuǎn)向過程中,我們更需要認(rèn)識(shí)到“小數(shù)據(jù)”的價(jià)值。在任何數(shù)據(jù)層級(jí)上,都有可能產(chǎn)生研究洞見。某些時(shí)候,哪怕我們聚焦一個(gè)人,都有可能獲得卓越的發(fā)現(xiàn)。
思考04:
剔除語境的大數(shù)據(jù)會(huì)失去意義
在大數(shù)據(jù)研究中,常見的兩種社會(huì)網(wǎng)絡(luò)是“節(jié)點(diǎn)網(wǎng)絡(luò)”和“行為網(wǎng)絡(luò)”,所謂節(jié)點(diǎn)網(wǎng)絡(luò),可以簡(jiǎn)單理解為好友列表。不過,我選擇關(guān)注一個(gè)人,可能有不同的動(dòng)機(jī),比如TA是我的朋友、同事、熟人、明星、朋友的朋友、公眾人物,或者有意思的陌生人。所謂行為網(wǎng)絡(luò),指的是通過技術(shù)抓取到的交流信息。這種交流的種類也很多,例如給一個(gè)人流言、在照片上tag一個(gè)人等等、給一個(gè)人發(fā)私信,等等。
節(jié)點(diǎn)網(wǎng)絡(luò)和行為網(wǎng)絡(luò)對(duì)研究者具有重要的價(jià)值,不過,它們并不能被等同于人際網(wǎng)絡(luò)。忽略具體的交流語境,僅僅通過交流頻率或朋友列表示來測(cè)量關(guān)系強(qiáng)度,本身是有很大問題的。
思考05
可獲得的數(shù)據(jù)并不一定就是道德的
學(xué)者不得不面對(duì)一個(gè)問題:在社交媒體上,所謂的“公開”(public)數(shù)據(jù),究竟該如何使用?如何處理其中的研究倫理問題?一部分人已經(jīng)意識(shí)到問題的嚴(yán)重性,并呼吁平臺(tái)對(duì)用戶隱私進(jìn)行更好的保護(hù)。
對(duì)于大數(shù)據(jù)而言,其中的倫理意涵仍舊十分模糊。一個(gè)人在社交媒體上的廣播應(yīng)該被納入到研究數(shù)據(jù)之中嗎?萬一TA的廣播以一種脫離語境的方式被解讀呢?對(duì)此,TA有知情權(quán)嗎?如果TA在研究中遭受到了傷害,誰來負(fù)責(zé)呢?大數(shù)據(jù)研究中的知情同意應(yīng)該如何操作呢?
在大數(shù)據(jù)的研究中,我們還需要關(guān)注真相、控制與權(quán)力問題。研究者擁有工具和渠道,但社交媒體用戶卻沒有。他們的廣播是在高度情景化的背景下生產(chǎn)的,也很可能不愿意自己的信息被用在其他地方。
思考06:
大數(shù)據(jù)的使用限制創(chuàng)造了新的數(shù)字鴻溝
大數(shù)據(jù)的狂熱者們有理由相信,大數(shù)據(jù)提供了一種獲得大規(guī)模數(shù)據(jù)的簡(jiǎn)便方法。不過,我們要詢問的問題是:誰可以擁有這些數(shù)據(jù)?在何種情境下?lián)碛校坑泻蜗拗疲?br />
一些公司完全不提供關(guān)于自己的任何數(shù)據(jù),另一些公司則用這些數(shù)據(jù)賣錢。這就造成了一種不平等:那些有錢的、有合作關(guān)系的研究者,可以生產(chǎn)出完全不同的研究。而不擁有這些資源的研究者,既不能進(jìn)行這些研究,也沒有機(jī)會(huì)去評(píng)估這些研究的方法論主張。
建造起一種基于“誰能讀懂?dāng)?shù)據(jù)”的研究階級(jí)。相應(yīng)的,傳統(tǒng)的社會(huì)科學(xué)研究者的價(jià)值可能會(huì)被低估。我們需要面臨的另一項(xiàng)挑戰(zhàn)是,如何才能培養(yǎng)出這樣的學(xué)生——既通曉社會(huì)理論,又熟練掌握算法和數(shù)據(jù)分析?