|
生活在我們這個時代的人恐怕大多聽說過算法。打開微信,我們經(jīng)常會看到定向發(fā)送的廣告;在網(wǎng)店買書,后面會有一系列向你推薦的相關(guān)圖書;打開網(wǎng)頁,最顯著位置是推薦給你的閱讀鏈接。這是一個數(shù)據(jù)時代,大數(shù)據(jù)時代,也是算法時代。 《被算法操控的生活》的作者是來自英國、定居瑞典的一位數(shù)學(xué)教授,策劃編輯知道我是數(shù)學(xué)科班出身,而且從事金融科技研究,所以請我?guī)兔纯?。?shù)學(xué)家寫科普書,本身就是個賣點(diǎn),我印象中除了數(shù)學(xué)教材,很少有讀過數(shù)學(xué)教授寫的暢銷書。這本書有很多有趣的例子,有些觀點(diǎn)值得我們思考。 個人數(shù)據(jù)涉及個人隱私,對個人數(shù)據(jù)的分析同樣會暴露個人隱私:消費(fèi)者畫像和廣告定向投放是合法的嗎?我認(rèn)為這取決于個人數(shù)據(jù)分析到底能夠達(dá)到什么效果。這類算法一般是采用主成分分析和回歸分析,這兩種方法本身并不是非常尖端,很多社交網(wǎng)站都在使用,比如臉書、推特等,主要用來對用戶進(jìn)行分類。我們?nèi)粘I暇W(wǎng)的各種活動其實都屬于個人行為數(shù)據(jù),在網(wǎng)站都留下了記錄,如實反映了我們的生活狀態(tài)。比如我們發(fā)布的內(nèi)容、點(diǎn)贊、信息分享等,都與個人行為、觀點(diǎn)、喜好、智商和個性有關(guān)聯(lián)。利用算法和這些累積的海量數(shù)據(jù)(22.190, -0.20, -0.89%),可以從最冷靜、最理性的角度審視每一個人。 我們大腦也會對別人形成看法,但是大腦只能處理最多3個維度,而計算機(jī)依靠算法則可以快速在數(shù)百個維度上對每個人進(jìn)行分類。理論上,人的行為數(shù)據(jù)可以用來追蹤我們的每一個情緒,并在消費(fèi)選擇、人際關(guān)系和工作機(jī)會等方面進(jìn)行預(yù)測,這類數(shù)據(jù)越多,分類越可靠。社交網(wǎng)絡(luò)收集和分析用戶的這些數(shù)據(jù),目前還沒有法律方面的清晰規(guī)定,在倫理層面上是有爭議的。一個大家關(guān)注的案例是劍橋分析公司操縱選舉事件。該公司被指控用網(wǎng)絡(luò)定向營銷和小范圍民意調(diào)查數(shù)據(jù)影響選民。2019年7月,臉書就此事繳納了50億美元罰款,是迄今全球最大規(guī)模的隱私違規(guī)罰款。 各類市場研究和數(shù)據(jù)分析公司和幾十年前研究人員采用的方法并沒有區(qū)別,就是用精心設(shè)計的算法在每個維度計算排序或概率,只是現(xiàn)在使用的數(shù)據(jù)量要大得多,甚至是采用大數(shù)據(jù)。在這種規(guī)模下,人們不得不借助電腦和算法進(jìn)行分析。比如臉書的回歸算法對近2萬人的點(diǎn)贊數(shù)據(jù)進(jìn)行分析,在9次里有8次成功預(yù)測了個人的政治立場,準(zhǔn)確率和可靠性非常高。比如一個喜歡Lady Gaga,星巴克和鄉(xiāng)村音樂的人更有可能是共和黨人。這樣共和黨人為了贏得支持,就應(yīng)該把關(guān)注點(diǎn)放在喝星巴克咖啡的人身上。 收集用戶的社交網(wǎng)絡(luò)數(shù)據(jù),根據(jù)目標(biāo)人群的個性特點(diǎn)定制符合特定受眾觀點(diǎn)和喜好的內(nèi)容進(jìn)行投放,進(jìn)而引導(dǎo)目標(biāo)人群改變行為,如果算法發(fā)展到這個水平,顯然會侵犯到個人權(quán)利范圍。定向投放信息包括廣告,既可能對特定受眾有益,也可能讓對方感到不安全甚至被冒犯。當(dāng)算法利用個人數(shù)據(jù)能夠?qū)€人行為和喜好做出準(zhǔn)確度高達(dá)85%的預(yù)測情況下,個人數(shù)據(jù)的使用是否合理合法就變成了突出問題。我個人認(rèn)為基于搜索算法的這種商業(yè)模式必須先征得個人同意。 數(shù)據(jù)算法對大部分人是“黑箱”,其實目前人工智能發(fā)展的階段也存在同樣問題,比如深度學(xué)習(xí),很可能無意中將人類社會普遍存在的各種歧視問題引入算法之中。算法歧視會使社會差距拉得更大,嚴(yán)重影響社會公平。書中給出很多算法缺陷的例子,以選舉預(yù)測為例,人工進(jìn)行的抽樣調(diào)查要比算法更接近實際結(jié)果。蓋洛普民意調(diào)查美國總統(tǒng)選舉的誤差,從1940年代到2020年前,一直在降低,現(xiàn)在基本在5%以下。而算法所做的預(yù)測的最差情況和黑猩猩扔飛鏢相近,最好也只能達(dá)到60%左右。數(shù)據(jù)算法也有被人鉆空子的時候,比如在圖書銷售方面,利用一些搜索優(yōu)化算法漏洞排在榜單前列的圖書,確實提高了銷量,但是結(jié)果卻可能是讀者反饋評分越來越低。同樣方法可以提高學(xué)術(shù)論文的引用量,將這個指標(biāo)作為考核學(xué)術(shù)成果的唯一標(biāo)準(zhǔn),必然會造成學(xué)術(shù)界的反向激勵和逆淘汰現(xiàn)狀。我們應(yīng)該了解其中可能存在的問題,避免被誤導(dǎo)或操縱。 |
|
|