| 編者按 今天,我們已跨入“大數據”時代,數據的價值蘊含在“數”里行間,讓數據說話,將成為人們的“習慣”做法。上??茖W院和上海產業(yè)技術研究院基于自主開發(fā)的“科技發(fā)展動態(tài)分析平臺”,聚焦制造、信息、能源和健康四大領域,應用大數據技術在互聯網上收集相關數據信息,對產業(yè)技術發(fā)展動態(tài)進行跟蹤和分析。 一、 研究工作概述 1、基本思路 基于平臺“熱詞分析”功能,以一千五百多萬條輿情數據為基礎,通過數據挖掘與分析,及時發(fā)現捕捉熱點,對領域技術變化發(fā)展做出研判。熱詞分析就是對輿情數據源進行分詞,精準的分詞是熱詞分析的基礎;通過關鍵詞提取、詞關聯計算,再綜合考慮信息的轉發(fā)量、瀏覽量和評論量等各種因素得到領域技術熱詞列表,來研判領域技術發(fā)展態(tài)勢。 2、 健康領域范圍界定 由五個一級關鍵詞界定涉及范圍,它們分別是:健康醫(yī)療、 數字健康、基因檢測、生物醫(yī)學和轉化醫(yī)學等。 二、數據信息匯總 1、熱詞列表 統(tǒng)計數據的時間點為五個(2017年1月1日、2017年7月1日、2018年1月1日、2018年7月1日和2019年1月1日),總時間跨度為二年。在此設定:人們的關注點與熱詞排序對應,熱詞排序越高、則人們關注度也越高。本表匯總了TOP2000的熱詞,作為研究分析基礎數據。 2、領域技術發(fā)展態(tài)勢 對于領域發(fā)展態(tài)勢描述,需要由相應時間點上的關鍵詞來標注,在此以特定領域熱詞為關鍵詞。為定量反映領域技術發(fā)展態(tài)勢,以上述列表為依據,逐個分析有效熱詞(刪除無關詞),以2017年1月1日為基準點,標注出相應排序變化;各TOP-X榜單反映領域大小不同覆蓋面,因而可選取不同權重值來表述。此案例分析圍繞TOP20領域熱詞列表展開。 3、 領域內若干關注點 熱詞列表內涵豐富信息,類別種類繁多、無效數據不少,作為數據清洗方法,根據分析研究者需要,對TOP300領域熱詞列表進行取舍梳理,匯總得如下若干關注點列表。 三、 結果分析與情況說明 1、結果分析 我國健康領域技術發(fā)展態(tài)勢 基于Top20領域熱詞列表,根據前面提出算法原則,設定不同權重值,計算得到我國健康領域技術發(fā)展態(tài)勢圖:2017-2018年間前六位熱詞排序不變,總體發(fā)展態(tài)勢呈現平穩(wěn)變化。 領域內若干關注點 基于若干關注點列表,具有代表性的關注點呈現三種情景:上升、持平和下降。值得重視是排序上升的關注點:醫(yī)學工程、材料、體檢、視頻、耳聾和干細胞等,特別是疫苗的排序上升最大;在城市關注點方面,北京、南京等排序上升,其中香港的排序上升最大,而上海、成都等排序則下降。 2、情況說明 基準點:上海科學院/上海產業(yè)技術研究院“科技發(fā)展動態(tài)分析平臺”是2016年初投入試運行,較為完整采集互聯網數據信息從2016年下半年起。所以,本項研究工作以2016年底為基準時點。 本研究局限性:就數據來源而言,本研究僅僅是社會輿情的分析,是眾多分析維度中的一種。結合其他專業(yè)數據源,可構成綜合型技術分析指數,也是我們今后努力的方向。 (責任編輯:沈躍棟) 作者簡介 | 
|  | 
來自: Tomsp360lib > 《醫(yī)學》