共現(xiàn)分析目前需要解決的問題以及主觀上的經(jīng)驗||| 共現(xiàn)分析越來越引起大家的興趣,很多信息專業(yè)以外的研究人員也想利用這種方法分析自己學(xué)科領(lǐng)域的研究現(xiàn)狀或者熱點。因此,不斷有人跟我探討這個方法的具體使用問題,說實話,這個方法還在不斷的完善之中,應(yīng)用中有很多具體的問題還沒有解決。所以,感覺應(yīng)該把這個方法的一些弱點,或者說需要進(jìn)一步完善的地方列舉出來,同時也提出自己目前的解決方法,希望有更多的同道能一起探索解決的方法。按照共現(xiàn)聚類分析的順序,列舉存在的問題如下:
1. 分析樣本數(shù)目的問題:就是用于分析的樣本大小的確定,實際上是檢索論文數(shù)目多寡的問題。根據(jù)我的經(jīng)驗,理想的境界是應(yīng)該包括該領(lǐng)域或主題的所有論文,對于比較大的主題,我一般用軟件進(jìn)行隨機(jī)抽樣,對于一些比較小的主題,論文數(shù)應(yīng)該不少于500篇。道理很明顯,文獻(xiàn)太少了,共現(xiàn)的偶然性就大,得出的結(jié)論就不可信,我們不能對著不可信的結(jié)果信口開河。當(dāng)然,這和你分析的對象是以篇為單位(如論文、引文)、還是一篇文章有多個共現(xiàn)的項目(作者、被引作者主題詞有關(guān)系。一般我愿意以3000-5000篇作為分析的樣本。
2. 高頻閾值的確定問題:一般是用出現(xiàn)或者被引用頻次高于某個閾值的項目作為下一步分析(共現(xiàn)矩陣和聚類分析)的對象,如高頻主題詞,高被引論文、高產(chǎn)作者、高被引作者、高被引期刊等等。閾值的選取還是一個樣本量的問題,樣本太大,最后得到的聚類結(jié)果會很龐雜,對各個類別的主題就不好分析和抽取,如果樣本太小,得到的主題結(jié)構(gòu)過于泛泛,沒有新鮮的內(nèi)容,比如有人曾經(jīng)告訴我,分析出來肺結(jié)核病研究的熱點是肺結(jié)核的診斷,肺結(jié)核的治療。沒有更細(xì)致的信息得到的結(jié)果就沒有什么意義了。對這個問題國內(nèi)外也有過研究,主要是檢驗起來比較麻煩。習(xí)慣性地有人愿意套用布拉德福定律的方法,用百分比來確定閾值,但是受到主題范圍和發(fā)展程度等因素的影響,這個方法確定的高頻詞不是那么穩(wěn)定,有的時候高頻詞很多至幾百個,有的時候又很少,似乎應(yīng)該有一個全面的調(diào)查。還有就是有人用HIT 曲線試圖解決這個問題,這似乎也是一個思路。再有就是拿最后的聚類分析結(jié)果的質(zhì)量好壞來評價閾值選取的方法。目前,我個人比較喜歡30-40左右的高頻詞或者高被引論文來分析。
3. 聚類分析方法的問題:從大的方面來說,有凝聚的方法和拆分的方法,比如在SPSS軟件中可以用系統(tǒng)聚類方法,也可以用K-means快速聚類方法,我們一般使用比較簡單直觀的系統(tǒng)聚類方法,因為我們比較注重共現(xiàn)主題詞之間的語義關(guān)系分析,所以愿意知道凝聚過程的先后順序。但是,最近看到文章說,有人專門進(jìn)行過研究,說是快速聚類的效果要優(yōu)于系統(tǒng)聚類。這個有待于深入調(diào)查。另一方面,從具體的細(xì)節(jié)來說,還有相似系數(shù)的選擇問題,很多國外的研究似乎用皮爾遜相關(guān)系數(shù),而我們多年來一直用Ochiia相似系數(shù),因為我們最開始是同被引聚類分析,從原理上看,我們認(rèn)為這個系數(shù)是最合理的,就是兩篇被引論文同被引次數(shù)做分子,兩篇論文各自被引的總次數(shù)的乘積做分母,不用考慮沒有引用這兩個論文的其他論文,這些論文數(shù)量是相當(dāng)?shù)佚嫶?。還有的是類與類聚合時候采用的方法:最大距離法,最小距離法,平均距離法重心法等等。一般我們是根據(jù)主題范圍的大小確定這些方法的選擇,比較細(xì)小專深的題目,我們采用最大距離法,把這些主題或者論文的類別盡量拉大距離,劃分清楚;對于比較大和分散的主題,我們用最小距離法讓各個類別之間盡量聚集到一起。
4. 聚類結(jié)果的解釋問題:我們目前是通過人工閱讀發(fā)現(xiàn)聚類項目之間的語義關(guān)系,這有很大的主觀性,受到分析人員的專業(yè)水平和綜合抽象能力的影響。國內(nèi)外有一些對類別的主題進(jìn)行識別的研究,有人提出主題詞的粘滯度,有人從文章中抽取句子代替論文然后組成這個類的標(biāo)簽,有人提出用HITS算法,涉及到文本分類問題,又受到分類合理性檢驗問題的困擾,結(jié)果都不是令人滿意,竊以為這又是一個比較有前景的研究方向。
總之,所依賴的主要原理一個是共現(xiàn),一個是聚類分析。由于聚類分析本身就是一個無監(jiān)督的方法,多數(shù)情況下要靠經(jīng)驗積累才能找到比較好的聚類途經(jīng)和聚類結(jié)果的解釋。上面列舉的只是實踐中遇到的主要問題,具體實踐中恐怕還有遇到很多問題
|
|
|