怎樣做數(shù)據(jù)統(tǒng)計(jì)?如何保證數(shù)據(jù)的有效性時(shí)間:2010-07-17 00:39來(lái)源:tencent 作者:浩峰 圍觀:
487 次
D% *^yi8DGE
在當(dāng)今互聯(lián)網(wǎng)普及的社會(huì)中,幾乎每一個(gè)人都會(huì)和統(tǒng)計(jì)數(shù)字接觸,例如各種經(jīng)濟(jì)數(shù)據(jù)、證券信息、房地產(chǎn)投資可行性報(bào)告、公司財(cái)務(wù)報(bào)告、以及與互聯(lián)網(wǎng)相關(guān)的各種頁(yè)面數(shù)據(jù)點(diǎn)擊量、網(wǎng)頁(yè)流量、用戶量統(tǒng)計(jì)、用戶趨勢(shì)分析報(bào)告等;數(shù)據(jù)分析正在以從未想象過(guò)的方式影響著我們的生活;然而大量的統(tǒng)計(jì)數(shù)據(jù)、統(tǒng)計(jì)資料由于主、客觀的原因被濫用,很難起到描述事實(shí)、傳遞信息的作用,相反,往往還對(duì)讀者形成誤導(dǎo),與此同時(shí)帶來(lái)的問(wèn)題是越來(lái)越多的人員會(huì)通過(guò)數(shù)據(jù)造假來(lái)蒙蔽對(duì)數(shù)據(jù)知識(shí)不是特別了解的人員,從而達(dá)到他們背后的目的;所以當(dāng)我們?cè)诿鎸?duì)這些真假難分的數(shù)據(jù)時(shí),我們又該如何去鑒別? Y% *^xie
% *^shiYN 誰(shuí)說(shuō)的? % *^shiYN
經(jīng)常會(huì)遇到利用數(shù)據(jù)圖表進(jìn)行問(wèn)題說(shuō)明的情況,這時(shí)我們往往會(huì)關(guān)注于這些數(shù)據(jù)到底是什么意思而忽略這些數(shù)據(jù)的來(lái)源和它的時(shí)效性。當(dāng)遇到數(shù)據(jù)的來(lái)源是某權(quán)威人士、權(quán)威機(jī)構(gòu)時(shí),這些話往往是為了掩蓋真實(shí)的資料來(lái)源。有些數(shù)據(jù)圖表雖然確實(shí)引用了權(quán)威的數(shù)據(jù),但是很有可能的是別有用心的只截取了其中的一部分?jǐn)?shù)據(jù),雖然數(shù)據(jù)是權(quán)威可信的,但結(jié)論卻是自己加的,以偏概全的結(jié)果是得到與原來(lái)數(shù)據(jù)完全相反的結(jié)論。另外當(dāng)在問(wèn)數(shù)據(jù)來(lái)源時(shí),一定要補(bǔ)上問(wèn)一句這是什么時(shí)候的數(shù)據(jù)了;數(shù)據(jù)是非常具有時(shí)效性的,如果用之前的數(shù)據(jù)來(lái)解釋當(dāng)前的現(xiàn)象,也會(huì)造成錯(cuò)誤的結(jié)論。 % *^shiYN
比如下面這兩個(gè)圖表是前后相隔半年針對(duì)圖片軟件使用情況所做的調(diào)查,可以看到變化很大;假如我們也要做一款全新的圖片軟件,參考這兩張不同時(shí)間的調(diào)查圖表可能會(huì)導(dǎo)致產(chǎn)品定位的截然不同。 D% *^yi8DGE
所以當(dāng)我們?cè)诳吹揭粋€(gè)統(tǒng)計(jì)圖表的時(shí)候,首先要想這個(gè)圖表是從哪里來(lái)的,是什么時(shí)候的圖表,我們應(yīng)該問(wèn)一句:“誰(shuí)說(shuō)的?”接著我們應(yīng)該接著我們還應(yīng)追加第二個(gè)問(wèn)題:他是如何知道的? Y% *^xie
% *^shiYN
他是如何知道的? % *^shiYN 主要是看這些數(shù)據(jù)是怎么得到的,也就是調(diào)查的樣本是否足夠大,樣本是否有偏,調(diào)查的人群是否涵蓋了所有的用戶。 D% *^yi8DGE
下面是兩張針對(duì)播放器用戶所做的亮點(diǎn)功能調(diào)查,一個(gè)是樣本量100的結(jié)果,一個(gè)是樣本量2000的結(jié)果,在樣本量不一樣時(shí)結(jié)果差異會(huì)很大。 % *^shiYN
D% *^yi8DGE
在互聯(lián)網(wǎng)產(chǎn)品設(shè)計(jì)中,還有一個(gè)比較常見(jiàn)的問(wèn)題是,當(dāng)遇到一個(gè)設(shè)計(jì)或者一個(gè)功能不確定時(shí),往往會(huì)直接詢問(wèn)周?chē)碌慕ㄗh,可這并不能代表整個(gè)用戶,導(dǎo)致結(jié)果的偏差。 D% *^yi8DGE 還有比如在一款新產(chǎn)品發(fā)布時(shí),經(jīng)常會(huì)做產(chǎn)品的可用性測(cè)試,得到的結(jié)論是一半的用戶在某個(gè)功能的操作上存在問(wèn)題,也許會(huì)覺(jué)得問(wèn)題挺嚴(yán)重,實(shí)際可能是50%背后一共測(cè)試了兩個(gè)用戶,其中有一個(gè)用戶遇到了問(wèn)題。 D% *^yi8DGE
Y% *^xie
是否遺漏了什么? 互聯(lián)網(wǎng)的一些事 也就是看對(duì)結(jié)論有影響的因素是否都列舉出來(lái)。比如說(shuō),調(diào)查表明公司的員工平均月薪是2萬(wàn),調(diào)查涵蓋了公司所有員工,外界一看,哇,該公司的員工工資好高啊,其實(shí)背后的原始數(shù)據(jù)沒(méi)有紕漏出來(lái),該公司有100個(gè)員工,總經(jīng)理的工資是100萬(wàn),而剩下的員工平均工資是1萬(wàn),一平均,就說(shuō)該公司的平均月薪是2萬(wàn)。 Y% *^xie
比如在做一次競(jìng)品之間的滿意度調(diào)查時(shí)發(fā)現(xiàn)自己產(chǎn)品的滿意度明顯高于競(jìng)爭(zhēng)產(chǎn)品,大家看了都覺(jué)得很開(kāi)心,但是卻忽略了調(diào)查的方法,實(shí)際上該調(diào)查的對(duì)象都是最常使用自己產(chǎn)品的用戶,那結(jié)果肯定是不言而喻。 Y% *^xie 再說(shuō)滿意度的問(wèn)題,如果針對(duì)自己的用戶進(jìn)行了產(chǎn)品的滿意度調(diào)查,結(jié)果是85分(百分制),可能覺(jué)得產(chǎn)品還不錯(cuò),可是缺少了和競(jìng)品的比較,85分到底是怎樣一個(gè)水平,不得而知,實(shí)際情況是競(jìng)品用戶的滿意度都是在90分以上。下面兩張分別是只有自己產(chǎn)品的滿意度和有競(jìng)品滿意度的圖表,效果截然不同。 Y% *^xie
互聯(lián)網(wǎng)的一些事 是否偷換了概念? % *^shiYN
在看統(tǒng)計(jì)資料時(shí),從收集原始資料到得出結(jié)論的整個(gè)過(guò)程,是否存在著概念的偷換。比如在收集數(shù)據(jù)時(shí)問(wèn)題問(wèn)的是可支配收入,下結(jié)論說(shuō)的是收入;問(wèn)題問(wèn)的是使用過(guò)什么產(chǎn)品,結(jié)論說(shuō)是經(jīng)常使用什么產(chǎn)品;實(shí)際調(diào)查只針對(duì)某幾項(xiàng)因素,下結(jié)論時(shí)卻不加定語(yǔ)限制,讓人覺(jué)得是整體的情況描述,就似現(xiàn)在國(guó)內(nèi)大學(xué)排名,不同機(jī)構(gòu)采用不同的指標(biāo)排出不同的結(jié)果,實(shí)際公布時(shí)對(duì)采用的指標(biāo)只字不提,結(jié)果往往誤導(dǎo)和迷惑讀眾。 % *^shiYN
給我印象深刻的是在2008年奧運(yùn)會(huì)結(jié)束后四大門(mén)戶網(wǎng)站都對(duì)外稱自己在奧運(yùn)會(huì)期間的報(bào)道取得了第一,讓網(wǎng)友摸不著頭腦的同時(shí)也讓業(yè)界疑慮叢生。其實(shí)導(dǎo)致這種結(jié)果的第一個(gè)原因是不同公司排名所采用的指標(biāo)不一樣,指標(biāo)分別有“用戶訪問(wèn)量”、“網(wǎng)頁(yè)流量”、“平均每位用戶停留時(shí)間”、“訪問(wèn)速度”、“冠軍訪談數(shù)量”等,這樣四大門(mén)戶都可以對(duì)外聲稱在奧運(yùn)報(bào)道上取得了第一;第二個(gè)原因是引用的數(shù)據(jù)源不一樣,導(dǎo)致數(shù)據(jù)上的差異,甚至不同公司引用同一家調(diào)研公司的數(shù)據(jù)都是不一樣的,摘錄其中一段調(diào)研公司的解釋:“新浪、搜狐用的是我們兩次不同的調(diào)查數(shù)據(jù),這兩次調(diào)查的城市范圍、方法等都不一樣,兩方面數(shù)據(jù)結(jié)果根本沒(méi)有可比性。新浪公布的那個(gè)結(jié)果是我們?cè)趪?guó)內(nèi)128個(gè)城市采取計(jì)算機(jī)輔助電話訪問(wèn)的調(diào)查結(jié)果,而搜狐公布的那份結(jié)果是我們?cè)诒本?、上海、廣州、青島、南京5個(gè)重要城市采取街訪方式的調(diào)查結(jié)果。那5個(gè)最重要的城市和其他128個(gè)城市的網(wǎng)絡(luò)普及率、人對(duì)網(wǎng)絡(luò)的偏好都不一樣,數(shù)據(jù)結(jié)果反映的東西肯定也不同”,普通網(wǎng)民在關(guān)注到“第一”的同時(shí)會(huì)去關(guān)注這些背后的數(shù)據(jù)嗎? Y% *^xie
另外就是同一個(gè)數(shù)據(jù),但是圖表的基準(zhǔn)值、刻度等不一樣,也會(huì)導(dǎo)致圖表表達(dá)出的效果截然不同,比如下面兩個(gè)圖,左邊第一眼給人的感覺(jué)是2名用戶之間的上網(wǎng)時(shí)長(zhǎng)差異不大,而右邊這個(gè)給人的感覺(jué)是差異非常大。 % *^shiYN
% *^shiYN
互聯(lián)網(wǎng)的一些事 這個(gè)資料有意義嗎? D% *^yi8DGE
許多統(tǒng)計(jì)資料在我們一眼就能看出是有誤的。比如前一陣因?yàn)锽T事件,一調(diào)查機(jī)構(gòu)宣稱:在他們隨機(jī)調(diào)查的100位網(wǎng)友中,有87.53%的網(wǎng)友支持封殺BTchina;有時(shí)在對(duì)用戶進(jìn)行分類時(shí),對(duì)于分類結(jié)果,分成的各個(gè)類別的用戶是否都能在現(xiàn)實(shí)中找到對(duì)應(yīng)的人群,或者說(shuō)周?chē)J(rèn)識(shí)的每一個(gè)人是否都能找到屬于自己的類別,這都是一眼能夠看出是否有意義的。 % *^shiYN 最后再舉一個(gè)最常見(jiàn)但也最經(jīng)常被誤導(dǎo)的兩個(gè)例子: D% *^yi8DGE
很多人在學(xué)生時(shí)代肯定都聽(tīng)過(guò)老師有過(guò)這樣的計(jì)算:離某某考試還有1個(gè)月時(shí)間,扣去一天8小時(shí)共10天的睡眠時(shí)間,扣去一天約4小時(shí)共5天的進(jìn)餐活動(dòng)等時(shí)間,再扣掉每周兩天共8天的雙休日,這時(shí)余下的學(xué)習(xí)時(shí)間就只剩7天了,這時(shí)一聽(tīng)都覺(jué)得很緊張,但是感覺(jué)沒(méi)有這么短啊,其實(shí)是我們被老師忽悠了;一個(gè)產(chǎn)品開(kāi)發(fā)項(xiàng)目計(jì)劃本來(lái)總時(shí)長(zhǎng)是1個(gè)月,后來(lái)因?yàn)槟撤N變更,需求規(guī)劃時(shí)間要增加15%,界面設(shè)計(jì)時(shí)間要增加20%,開(kāi)發(fā)的時(shí)間要增加10%,測(cè)試時(shí)間要增加5%,則總時(shí)間要增加50%?實(shí)際總時(shí)間增加肯定不到20%。 互聯(lián)網(wǎng)的一些事 在這個(gè)信息爆炸的時(shí)代,統(tǒng)計(jì)本是一個(gè)通過(guò)數(shù)據(jù)揭露本質(zhì)的有力工具,但遺憾的是,統(tǒng)計(jì)未必能夠揭示真實(shí),有時(shí)候還可能成為假象的幫兇。當(dāng)我們面對(duì)生活中形形色色的統(tǒng)計(jì)數(shù)據(jù)時(shí),還要多保持一些理智和清醒,并要有所保留地看待問(wèn)題。因?yàn)?#8220;如果一個(gè)人以種種肯定的立論開(kāi)始,他必將終止于各種懷疑;但如果他愿意抱著懷疑的態(tài)度開(kāi)始,那么他必將獲得肯定的結(jié)論。” Y% *^xie
文章來(lái)自 騰訊CDC博客 http://cdc.tencent.com ,轉(zhuǎn)載時(shí)請(qǐng)注明出處。 本文鏈接:http://www.yixieshi.com/ucd/3212.html |
|
|