| 關(guān)鍵詞:Gephi 專利數(shù)據(jù) 網(wǎng)絡(luò)可視化 今天繼續(xù)WIPO開源專利分析項目的編譯系列。近兩期相關(guān)文章中,公號系統(tǒng)地介紹了專利分析的八種工具(開源分析方法 | 專利分析工具上、下),其中在網(wǎng)絡(luò)關(guān)系可視化(Network Visualisation)中特別提到了“Gephi”這一開源工具,今天就為大家?guī)?span>用Gephi繪制專利網(wǎng)絡(luò)關(guān)系的作法詳解。 注:本文編譯自WIPO開源專利分析項目中的“Patent Network Visualisation with Gephi”一文,有刪減,并根據(jù)最新版Gephi 0.9.1進行了適應(yīng)性修改,更像是小編的閱讀兼實際操作筆記。 Gephi介紹及安裝 Gephi與網(wǎng)絡(luò)關(guān)系 Gephi是一款非常好用的網(wǎng)絡(luò)關(guān)系繪制軟件,應(yīng)用范圍十分廣泛,凡是可以抽象為節(jié)點(node)和邊(edge)的關(guān)系數(shù)據(jù),大都可以用Gephi來繪制。比如Facebook上的社交網(wǎng)絡(luò)、鼠腦中的神經(jīng)網(wǎng)絡(luò)、美國各州間的交通網(wǎng)絡(luò)等。 Gephi繪制的設(shè)計師博客主題聚類分析圖 Facebook朋友關(guān)系分析 Gephi的安裝 Gephi最新版本為0.9.1,下載(https:///users/download/)后雙擊并按照提示步驟安裝即可,第一次打開時會提示安裝Java(http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html)。 一切安裝完畢后,Gephi的打開界面: 為便于將Excel格式的數(shù)據(jù)直接導(dǎo)入Gephi中,還需要安裝一個將Excel或CSV格式數(shù)據(jù)轉(zhuǎn)換成Gephi可用數(shù)據(jù)的插件,安裝步驟如下: 點擊“工具”——“插件” 彈出如下窗口,點擊“可用插件”,選擇“Convert Excel and csv files to networks” 點擊“安裝”后彈出如下窗口,按步驟提示一步步安裝即可。 數(shù)據(jù)導(dǎo)入及圖形初繪 原文作者非常貼心地提供了數(shù)據(jù)樣例——一組涉及“合成生物學(xué)”主題的專利數(shù)據(jù),包括576個首次專利申請和與之相關(guān)的2882個同族專利,并對數(shù)據(jù)進行了清洗(數(shù)據(jù)樣例下載地址:https://github.com/poldham/opensource-patent-analytics/blob/master/2_datasets/synbio_patents/synbio_inventors.xlsx?raw=true)。 輸入數(shù)據(jù)文件 點擊“文件”——“import” 彈出如下窗口: 
 點擊“下一步”,彈出如下窗口: 
 點擊“select file”,選擇剛才下載的數(shù)據(jù)文件 
 選擇輸入內(nèi)容項 繼續(xù)點擊“下一步”后,彈出如下窗口。本次可視化旨在分析申請人(受讓人)的共現(xiàn)關(guān)系,因此兩端的節(jié)點均選擇“patent_assignees_cleaned” 
 選好后點擊下一步,彈出如下窗口,Gephi會詢問該數(shù)據(jù)列中有沒有包含子字段,如果有,子字段以什么為分界? 
 觀察原始數(shù)據(jù)可以發(fā)現(xiàn),“patent_assignees_cleaned”這一字段中包含多個申請人的子字段,并以分號分隔。 
 因此在上面的選項中,我們選擇“semicolon”(即分號),然后點擊“下一步”,彈出如下窗口,Gephi繼續(xù)詢問:如果想生成動態(tài)網(wǎng)絡(luò)的話,選擇哪個字段作為時間字段? 
 我們選擇“priority_date_earliest” 
 點擊“下一步”后,彈出如下窗口,Gephi會給出三個選項,我們勾選1和3。1表示要在“patent_assignees_cleaned”之間形成連接關(guān)系,是必選項;3表示去除節(jié)點連接到自身的自循環(huán)環(huán)路,通常也應(yīng)勾選。 
 點擊“下一步”,彈出提示窗口: 
 點擊“完成”,彈出“輸入報告”窗口,提示一切正常,并告知共有363個節(jié)點,176條邊,圖形為無向網(wǎng)絡(luò)圖。 
 點擊“確定”后,得到如下初始圖形: 
 刪除無效節(jié)點 由于“patent_assignees_cleaned”字段中存在“NA”的無效數(shù)據(jù),應(yīng)當將其去除。點擊上方的“數(shù)據(jù)資料”,點擊“frequency”排序,發(fā)現(xiàn)NA的頻率高達74次,選中NA,右鍵后點擊“刪除”并確定。 
 再返回“概覽”界面: 
 統(tǒng)計分析、參數(shù)設(shè)置及布局配置 統(tǒng)計分析 Gephi為整個網(wǎng)絡(luò)布局提供了一系列統(tǒng)計分析,包括平均度、平均加權(quán)度、網(wǎng)絡(luò)直徑、圖密度、平均聚類系數(shù)等。這些統(tǒng)計數(shù)據(jù)項與節(jié)點和邊等參數(shù)的設(shè)置密切相關(guān),例如節(jié)點的大小和顏色等可以按照節(jié)點出現(xiàn)頻率進行排序,根據(jù)模塊化進行聚類分區(qū)等。 “統(tǒng)計”區(qū)域位于界面右側(cè),依次點擊“運行”,可以得到平均度等統(tǒng)計數(shù)據(jù),其中最重要的統(tǒng)計數(shù)據(jù)有兩個: 1. 網(wǎng)絡(luò)直徑:計算給定節(jié)點與網(wǎng)絡(luò)中相距最遠的節(jié)點之間的距離。 2. 模塊化:對節(jié)點間的連接(即“邊”)進行計算并基于連接強度對節(jié)點進行聚類分區(qū)。 
 參數(shù)設(shè)置 Gephi提供了豐富的參數(shù)設(shè)置,可以對節(jié)點和邊的顏色、大小、標簽顏色、標簽尺寸等進行調(diào)節(jié)。 比如首先可以設(shè)置節(jié)點的顏色:依次選中“節(jié)點”——“調(diào)色板圖標”——“數(shù)值設(shè)置”——“frequency(即按照節(jié)點出現(xiàn)頻率配置顏色)”,即可得到彩色的節(jié)點。 
 接下來還可以配置節(jié)點的大小:依次選中“節(jié)點”——“節(jié)點大小圖標”——“數(shù)值設(shè)置”——“加權(quán)度”,即可得到大小合適的節(jié)點。 
 布局配置 進行參數(shù)設(shè)置后的專利申請人關(guān)系圖仍然擠作一團,沒有明顯的空間感。接下來需要對節(jié)點和邊的空間布局進行配置,Gephi提供了很多節(jié)點的布局算法,包括Force Atlas、Fruchterman-Reingold、Yifan Hu等,其中Fruchterman-Reingold算法(簡稱FR算法)是最經(jīng)典的算法之一,我們點擊FR算法: 
 點擊“運行”,并設(shè)置合適的“區(qū)”、“重力”、“速度”后,得到下圖: 
 觀察上圖,有一些節(jié)點仍處于交疊狀態(tài),此時可以運行輔助布局工具“Noverlap”,與上圖相比,紅線框出的區(qū)域,交疊的節(jié)點打開成為更加清晰的空間布局。 
 背景、邊及標簽設(shè)置 在界面下方的工具欄中,我們可以對圖形的背景、邊的顏色和尺寸以及標簽的屬性進行設(shè)置。 
 在“Labels(標簽)”的設(shè)置中,我們可以選擇字體的樣式、大小和顏色,還可以將標簽字體大小設(shè)置為固定、按比例排列或隨節(jié)點尺寸變化,將標簽顏色設(shè)置為單一或隨目標變化等。 
 如果覺得上面的標簽太多太亂,還可以勾選“隱藏未選中”,點擊左上方的“矩形選擇”,按住Ctrl鍵,選擇希望顯示標簽的節(jié)點即可,如下圖所示: 
 輸出圖形 點擊左下方的小相機按鈕,可以截屏輸出圖形,在配置中還可對分辨率和抗鋸齒等進行設(shè)定。 
 輸出圖形如下: 
 Gephi的功能十分強大,今天僅僅是介紹了一些入門性能,上圖也還有很多可設(shè)置和優(yōu)化的空間,后續(xù)小編還將和大家一起深入學(xué)習(xí),也歡迎真愛粉提出更多好的想法。 
 | 
|  |