小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

爬取 100 萬條 StackOverflow 問答后,我得出的結(jié)論

 鷹兔牛熊眼 2019-01-14

爬蟲的具體操作流程是,打開 StackOverflow 主頁,在 questions 頁面下選擇按 vote 排序,爬取前 20000 頁,每頁將問題數(shù)量設(shè)置為 50,共 100 萬條,實際上用數(shù)據(jù)庫去重后只有 999654 條問答信息。


他分別對votes、answers、views進行了分析,咱們來看一下他的分析結(jié)果吧。


一、votes 分析


降序排列了 votes 數(shù),生成折線圖



2k 后的問題的 votes 數(shù)基本上就已經(jīng)在 400 以下了,接著后面的就基本上是貼地飛行了。


votes 數(shù)最多 : Why is it faster to process a sorted array than an unsorted array?


votes 數(shù)的連續(xù)分布情況:



可見最多的還是集中在 1-2K 之間,從 6k 開始基本上就斷層了


descriptioncount
votes >= 5001630
votes >= 4002325
votes >= 3003782
votes >= 2007062
votes >= 10019781


如果以 100 為分界線的話,會得到這樣的一個餅圖。


大于 100 的連 %2 都不到。


再來看看底層的數(shù)據(jù)。


descriptioncount
1 <= votes=""><=>211804
6 <= votes=""><=>430935
11 <= votes=""><=>136647
16 <= votes=""><=>64541
votes <=>843927


可見 votes 小于 20 的,數(shù)量高達 84m。看看總體的比例吧。




二、answer 分析


降序排列了 answers 數(shù),生成折線圖。



很明顯 3k 之后的 answers 數(shù)基本上就小于 20 了。


answers 數(shù)最多: What is the best comment in source code you have ever encountered? 


answer數(shù)的連續(xù)分布情況。



150 后也就斷層了,實際上能達到這樣的回答數(shù)極少。


具體數(shù)據(jù)。


descriptioncount
answers >= 5218059
answers >= 1034500
answers >= 203808
answers >= 30968


大于 30 的確實少的可憐,看看總體情況。



三、views 分析


降序排列了 views 數(shù),生成折線圖。



最高達到了 4.5m,100000 以后的基本上就不足 28000 了。


views 數(shù)最多: How to undo last commit(s) in Git?


views 數(shù)的連續(xù)分布情況。



具體數(shù)據(jù)。


descriptioncount
views >= 5000486466
views >= 10000315576
views >= 20000171873
views >= 5000059363
views >= 10000022224
views >= 2000007030


大部分問答的 views 數(shù)還是集中在 20000 以內(nèi)。還是得看看總體分布。




四、綜合分析


再看看 votes,views,answers 三者的散點圖對應(yīng)情況。


votes - views



votes - answers




views - answers



views-answers散點圖


總的來說,這三者對應(yīng)關(guān)系類似于一個金字塔。三個圖基本上都是左下角靠近原點的區(qū)域被填滿,也就是說絕對大部分的問題的 votes,answers 和 views 都是屬于最下層的。高質(zhì)量活躍的問題是處于金字塔頂端的。三者的最高數(shù)好像也沒特別明顯的對應(yīng)關(guān)系,且三者的最高數(shù)都不是同一個問題。


根據(jù)所有問題的 tags 提取出總量前 200 的關(guān)鍵詞(前 50 條如下),java 排在第 2 名。


('c#', 94614),('java', 93244),('javascript', 76722),('android', 69321),('python', 62502),('c++', 58173),('php', 42596),('ios', 37773),('jquery', 37405),('.net', 36180),('html', 28536),('css', 26174),('c', 24699),('objective-c', 23253),('iphone', 22171),('ruby-on-rails', 20143),('sql', 19171),('asp.net', 18060),('mysql', 17559),('ruby', 16397),('r', 15670),('git', 13139),('linux', 13080),('asp.net-mvc', 12857),('angularjs', 12606),('sql-server', 12473),('node.js', 12212),('django', 11576),('arrays', 11006),('algorithm', 10959),('wpf', 10631),('performance', 10619),('xcode', 10613),('string', 10426),('windows', 10132),('eclipse', 10117),('scala', 9942),('regex', 9685),('multithreading', 9601),('json', 9266),('swift', 8950),('c++11', 8939),('haskell', 8823),('osx', 8159),('visual-studio', 8140),('html5', 7627),('database', 7567),('xml', 7478),('spring', 7464),('unit-testing', 7253),('bash', 6825)


這樣看好像不太直觀,所以就把它根據(jù)詞頻生成了詞云。



傳送門地址:https://github.com/chenjiandongx/stackoverflow-spider


作者:chenjiandongx

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多