小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

文獻(xiàn)共現(xiàn)分析入門 - zilu85的博文 - 科學(xué)網(wǎng)

 whuhujiming 2011-05-05

文獻(xiàn)共現(xiàn)分析入門

已有 1895 次閱讀 2010-2-3 08:46 |個人分類:生物醫(yī)學(xué)文獻(xiàn)計量學(xué)|系統(tǒng)分類:論文交流|關(guān)鍵詞:共現(xiàn),聚類分析,書目數(shù)據(jù)

1. 分類號、主題詞與關(guān)鍵詞
在信息管理領(lǐng)域中,對文獻(xiàn)內(nèi)容的標(biāo)識主要采用分類語言和主題語言。
分類語言,也稱分類法,是用分類號來表達(dá)主題概念,這些分類號來自于事先編制好的分類表,而分類表則是依據(jù)知識原有的體系結(jié)構(gòu)將主題概念組織排列成為類目體系(如圖書館里采用的《中國圖書館圖書分類法》),比如將醫(yī)學(xué)知識分為醫(yī)學(xué)總論、預(yù)防醫(yī)學(xué)、中醫(yī)學(xué)、基礎(chǔ)醫(yī)學(xué)和臨床醫(yī)學(xué)等幾個大類別,臨床醫(yī)學(xué)有進(jìn)一步分為內(nèi)科、外科、婦科、兒科等更細(xì)的類目,如同一棵大樹,將醫(yī)學(xué)知識逐級分支、細(xì)化。信息管理人員在處理文獻(xiàn)時,首先分析文獻(xiàn)的主要內(nèi)容,然后在分類表中找到對應(yīng)的類目后賦予其相應(yīng)的分類號。圖書館的讀者在查詢相應(yīng)類別的圖書或者文章的時候就可以沿著知識分類的體系找到對應(yīng)的類目,由此找到相關(guān)主題的文獻(xiàn)。
主題語言是一種用比較規(guī)范了的文字直接表達(dá)主題概念的標(biāo)引語言。主題語言可以進(jìn)一步分為標(biāo)題詞、單元詞、主題詞、關(guān)鍵詞等,其中最常見的是主題詞和關(guān)鍵詞。主題詞就是一些以概念為基礎(chǔ)的、經(jīng)過規(guī)范化的詞和詞組,而關(guān)鍵詞則是從文獻(xiàn)的題目、正文或摘要中抽出的能表征文獻(xiàn)主題內(nèi)容的具有實質(zhì)意義的詞語。二者最大的區(qū)別就是主題詞是規(guī)范化的,一個概念只能對應(yīng)與一個主題詞,一個主題詞只能對應(yīng)一個概念;而關(guān)鍵詞則是來自于作者的自然語言,在不同的文獻(xiàn)中,一個概念可以有不同的表達(dá)方式(如一種藥物在不同作者的論文中可以用其商品名、化學(xué)名和常用名),有時一個關(guān)鍵詞可能表達(dá)多個概念(如P53可以是基因或者蛋白)。
2.頻次排序分析
對作者、期刊和引文的統(tǒng)計分析,可以幫助我們從一個側(cè)面了解某個研究主題的狀況;而主題詞和關(guān)鍵詞作為文獻(xiàn)數(shù)據(jù)庫中反映論文的主要觀點的標(biāo)識,對其匯總和統(tǒng)計分析,則可以直接反映出研究的結(jié)構(gòu)和趨勢。
對于這些指標(biāo)的分析中,我們比較常用的統(tǒng)計分析技術(shù)就是頻次排序技術(shù)。就是將被統(tǒng)計的對象(如作者、期刊和主題詞)都按照它們出現(xiàn)的頻次從高到低排序,由此發(fā)現(xiàn)其中的規(guī)律。如布拉德福定律就是將期刊按照發(fā)表相關(guān)論文的數(shù)目從高到低排列,洛特卡定律的研究也是把作者按照發(fā)表論文的數(shù)目從高到低排列,由此發(fā)現(xiàn)了集中-離散的規(guī)律。
對于主題詞或者關(guān)鍵詞,也可以采用這種技術(shù)進(jìn)行分析。例如,我們可以從PubMed數(shù)據(jù)庫中檢索到所有有關(guān)胃癌治療的相關(guān)文獻(xiàn)記錄,抽取每篇論文的主題詞,然后進(jìn)行頻次統(tǒng)計(如表10-5)。
這些主題詞是所檢索時間段內(nèi)(本例為2009年 9月13日檢索的最近5年的胃癌治療文獻(xiàn))出現(xiàn)頻次最多的主題詞,如胃腫瘤的手術(shù)治療、胃腫瘤的藥物治療、聯(lián)合化療方案的應(yīng)用、胃切除的方法、胃腫瘤的病理等,這些都是當(dāng)前胃癌研究人員最為關(guān)注的主題,因此也是近一階段研究的熱點。
表1 胃癌/治療高頻主題詞列表(部分)
序號
關(guān)鍵字段
出現(xiàn)頻次
百分比%
累計百分比%
1
Stomach Neoplasms / surgery
1440
9.7813
9.7813
2
Stomach Neoplasms / drug therapy
1324
8.9933
18.7746
3
Antineoplastic Combined Chemotherapy Protocols / therapeutic use
651
4.4220
23.1966
4
Gastrectomy / methods
366
2.4861
25.6827
5
Stomach Neoplasms / pathology
354
2.4046
28.0872
6
Stomach Neoplasms / therapy
328
2.2280
30.3152
7
Adenocarcinoma / drug therapy
321
2.1804
32.4956
8
Adenocarcinoma / surgery
289
1.9630
34.4586
9
Gastrectomy
214
1.4536
35.9122
3.共現(xiàn)分析
通過對高頻主題詞的詞頻統(tǒng)計分析,我們可以了解到目前某一專題領(lǐng)域里研究的熱點。但是,僅僅對這些主題詞按照出現(xiàn)頻次由高到低的排列還不能表現(xiàn)出這些高頻主題詞之間的聯(lián)系,因此我們可以采用共現(xiàn)分析的技術(shù)來進(jìn)一步挖掘這些主題詞之間的聯(lián)系。主題詞的共現(xiàn)分析是根據(jù)主題詞在同一篇論文中共同出現(xiàn)的次數(shù)來表示主題詞之間的聯(lián)系。一般認(rèn)為,如果兩個主題詞頻繁在同一篇論文中同時出現(xiàn),往往表明這兩個主題詞之間具有比較密切的聯(lián)系。這就是共現(xiàn)分析的理論基礎(chǔ)。
在MEDLINE數(shù)據(jù)庫中存儲的每一條紀(jì)錄都被標(biāo)引10個左右的主題詞以及相應(yīng)的副主題詞,盡管在同一篇文章中出現(xiàn)的主題詞之間沒有明確的關(guān)系,但是我們還是可以通過分析這些主題詞出現(xiàn)的具體情形(如檢查每個主題詞的副主題詞)而推理出這些主題詞之間的關(guān)系。例如,如果MEDLINE數(shù)據(jù)庫的一篇文獻(xiàn)記錄中有x疾病的病因和Y藥的副作用這兩個主題詞,人們自然會想到“Y藥引起了x病”。通過查看原文就可以驗證疾病和藥物之間這種關(guān)系的有效性。因此,我們可以認(rèn)為這些關(guān)系具有語義學(xué)上的意義。
對于代表研究熱點的高頻主題詞統(tǒng)計它們共現(xiàn)次數(shù)后,可以形成一個高頻主題詞的共現(xiàn)矩陣。如表2。其中的行和列的數(shù)字代表主題詞,與表1中的主題詞序號對應(yīng),如1代表的是Stomach Neoplasms/surgery;矩陣中對角線的數(shù)字代表該主題詞出現(xiàn)的總次數(shù),非對角線上的數(shù)字表示的是兩個主題詞共同出現(xiàn)的次數(shù),如1號與2號主題詞共同在60篇論文中出現(xiàn),1號與3號主題詞共同在38篇文獻(xiàn)中出現(xiàn)。這些數(shù)據(jù)經(jīng)過適當(dāng)?shù)挠嬎愫筠D(zhuǎn)換為相關(guān)系數(shù),成為相關(guān)矩陣后,就可以顯示出高頻主題詞之間的親疏程度,為進(jìn)一步分析做好了準(zhǔn)備。
表2 主題詞共現(xiàn)矩陣(局部)
 
1
2
3
4
5
6
7
8
9
1
1440
60
38
351
178
6
13
289
150
2
60
1324
616
13
141
0
320
12
53
3
38
616
651
10
89
27
193
11
42
4
351
13
10
366
29
4
3
64
0
5
178
141
89
29
354
31
13
38
26
6
6
0
27
4
31
328
0
2
12
7
13
320
193
3
13
0
321
12
20
8
289
12
11
64
38
2
12
289
38
9
150
53
42
0
26
12
20
38
214
     4.      聚類分析
獲得了相似矩陣之后,我們可以將其輸入到統(tǒng)計分析軟件(如SAS,SPSS等),選擇相應(yīng)的模塊進(jìn)行聚類分析(cluster analysis)。
我們經(jīng)常說:“物以類聚,人以群分”,聚類分析是一種重要的人類行為。它是指將物理或抽象對象的集合分組,使其成為由類似的對象組成的多個類的分析過程。從數(shù)據(jù)的角度講,聚類是通過計算分類對象在各個屬性上的相似程度,將對象分類到不同的類或者簇的過程,使得同一個類中的對象有很大的相似性,不同類間的對象有很大的相異性。聚類與分類的不同在于聚類所要求劃分的類預(yù)先是未知的。
以使用SPSS進(jìn)行聚類分析為例,可以選擇Analysis-Classify-Hierarchical過程,經(jīng)過設(shè)置相應(yīng)的參數(shù)后,對胃癌治療的高頻主題詞共現(xiàn)矩陣進(jìn)行分析,最后獲得該研究領(lǐng)域高頻主題詞的共現(xiàn)聚類分析樹圖(如圖1)。
首先對聚類樹圖的結(jié)構(gòu)進(jìn)行分析。聚類樹圖中的最左邊的一列標(biāo)號(Label)和數(shù)字(Num)代表著高頻主題詞,由于采用的是系統(tǒng)聚類法的凝聚聚類算法,因此,最初每一個主題詞都是單獨的一個類,通過計算每一對主題詞之間的相似性,首先是2號和3號主題詞聚集成為一個類,然后它們又合7號主題詞合成為一個類。圖中最上方的帶有數(shù)字的標(biāo)尺表示分類對象之間的距離。隨著被分類的對象(主題詞)之間的聚類越來越大,距離最終所有的主題詞都成為一個類,我們可以根據(jù)需要在不同的距離水平上分割整個聚類樹圖,通過樹圖的結(jié)構(gòu)我們可以看到,所有的主題詞大致可以分為三個部分:由2、3、7號詞組成的一個類別(A),由1、4、8、5、9號主題詞組成的一個類別(B),和由6號詞單獨組成的一個類別(C)。
對各個類別主題詞之間語義關(guān)系的分析。基于凝聚聚類算法的原理,對聚類分析結(jié)果的語義分析也采用了“自下而上”的步驟。即首先獲取各個小類的含義,然后把各個小類的含義組合成為大類的含義。具體而言,就是首先從每個小類中關(guān)系最近的兩個主題詞著手,分析二者之間的語義關(guān)系,獲得該類的“種子”概念,在“種子”概念的基礎(chǔ)上,根據(jù)同類別中其他主題詞與該“種子”的距離,逐次加入主題詞,豐富該類別的內(nèi)容,一般而言,距離比較遠(yuǎn)的主題詞往往是該核心的相關(guān)因素,如具體的應(yīng)用或者影響因素。本例中,對于3個高頻主題詞的類別中的主題詞進(jìn)行具體的語義分析,可以發(fā)現(xiàn):
在A類中,“Stomach Neoplasms/drug therapy,胃腫瘤/藥物治療”(2)與 “Antineoplastic Combined Chemotherapy Protocols/therapeutic use,抗腫瘤聯(lián)合化療方案/治療應(yīng)用”(3)組合在一起表明的是對胃腫瘤采用聯(lián)合化療,加上“Adenocarcinoma/drug therapy,腺癌/藥物治療”(7)表明這一類主要是關(guān)于胃腺癌的聯(lián)合化療的主題。
 
圖1 胃癌治療高頻主題詞聚類分析結(jié)果(部分)
 
在B類中,“Stomach Neoplasms/surgery,胃腫瘤/手術(shù)(1)與“Gastrectomy / methods,胃切除/方法”(4)表明是關(guān)于胃腫瘤外科手術(shù)切除治療的主題,同樣,“Adenocarcinoma/surgery,腺癌/手術(shù)”(8)也是說明主要是針對胃腺癌的手術(shù)切除治療,“Stomach Neoplasms/pathology,胃腫瘤/病理”則是說明這種療法會受到不同的病理類型的影響。這一類別最邊緣的主題詞“Gastrectomy,胃切除”(9)沒有副主題詞,則是表示對胃切除的概述,是對上述主題的強(qiáng)化,由于與其他主題詞距離比較大,也可以忽略不計。
C類則是單獨一個單詞,“Stomach Neoplasms/therapy,胃腫瘤/治療”(6)則表示的是對各種治療方法的概述性研究主題。
綜上,我們可以總結(jié)出目前胃癌治療研究的主要方向有三個:(1)胃癌胃腺癌的聯(lián)合化療,(2)胃腺癌的手術(shù)切除治療(包括病理因素的影響),(3)胃腫瘤各種治療方法。
通過對特定領(lǐng)域或者學(xué)科的高頻主題詞的共現(xiàn)聚類分析,我們就可以客觀地反映出當(dāng)前該領(lǐng)域研究的熱點。其他表現(xiàn)文獻(xiàn)內(nèi)容的標(biāo)識(如關(guān)鍵詞、分類號)等,也可以用于此類分析。此外,一些表現(xiàn)文獻(xiàn)外部特征的標(biāo)識,如作者、引文等等,也可以進(jìn)行共現(xiàn)分析,如作者的合著分析、引文的同被引分析、作者的同被引分析,這些都可以為展示某一學(xué)科領(lǐng)域里科學(xué)研究獲得的結(jié)構(gòu)和特點提供手段。這些分析的方法都是基于共現(xiàn)的聚類分析,其原理都是大同小異的。


    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多