| 原文《數(shù)字政府智慧政務(wù)大數(shù)據(jù)治理體系頂層設(shè)、應(yīng)用體系可研方案》WORD格式。 政務(wù)大數(shù)據(jù)治理體系頂層設(shè)計政務(wù)大數(shù)據(jù)治理體系核心概念目的政務(wù)大數(shù)據(jù)治理的目的包括改善決策支持、降低數(shù)據(jù)風(fēng)險、提升數(shù)據(jù)價值、推進(jìn)數(shù)據(jù)有效流通、推動數(shù)據(jù)共享開放政務(wù)大數(shù)據(jù)治理數(shù)據(jù)體系  圖 13 政務(wù)大數(shù)據(jù)治理數(shù)據(jù)體系 政務(wù)大數(shù)據(jù)治理數(shù)據(jù)體系包含從數(shù)據(jù)來源、數(shù)據(jù)生命周期和數(shù)據(jù)等級三個維度。數(shù)據(jù)來源是對數(shù)據(jù)治理對象的范圍界定,主要包括政府部門數(shù)據(jù)以及行業(yè)、互聯(lián)網(wǎng)和物聯(lián)網(wǎng)中與政務(wù)相關(guān)的數(shù)據(jù)。數(shù)據(jù)生命周期是指政務(wù)大數(shù)據(jù)治理體系中數(shù)據(jù)所處不同階段的劃分,包含原始庫、資源庫、主題庫、知識庫和業(yè)務(wù)庫五個階段。數(shù)據(jù)等級是指根據(jù)數(shù)據(jù)內(nèi)容對數(shù)據(jù)密級的劃分,可分為非密數(shù)據(jù)、秘密數(shù)據(jù)和機(jī)密數(shù)據(jù)三大類和對應(yīng)的七小類。 政務(wù)大數(shù)據(jù)治理安全體系 圖 14 政務(wù)大數(shù)據(jù)治理安全體系 政務(wù)大數(shù)據(jù)治理安全體系由安全規(guī)范標(biāo)準(zhǔn)、安全技術(shù)保障體系、安全運維保障體系、安全管理保障體系組成,規(guī)范標(biāo)準(zhǔn)用以指導(dǎo)整個安全體系的構(gòu)建。具體來講,安全運行保障體系保障數(shù)據(jù)治理平臺建設(shè)開發(fā)、運維過程中的安全,安全技術(shù)保障體系從技術(shù)的維度對政府?dāng)?shù)據(jù)治理平臺進(jìn)行全方位的安全防護(hù),安全管理保障體系從制度、人員和機(jī)構(gòu)設(shè)置的角度來對信息系統(tǒng)進(jìn)行保障。 政務(wù)大數(shù)據(jù)治理標(biāo)準(zhǔn)體系政務(wù)大數(shù)據(jù)治理標(biāo)準(zhǔn)體系的建設(shè)對于推動政府信息資源整合、體制機(jī)制的建立、制度標(biāo)準(zhǔn)規(guī)范的制定乃至于保障數(shù)據(jù)治理體系的穩(wěn)定運行,都有著不可或缺的指導(dǎo)意義,也是推進(jìn)政府?dāng)?shù)據(jù)治理工程的基礎(chǔ)性和保障性工作。標(biāo)準(zhǔn)規(guī)范建設(shè)包括制定數(shù)據(jù)接口類標(biāo)準(zhǔn)、元數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)交換流程規(guī)范、信息管理類標(biāo)準(zhǔn)、信息安全規(guī)范。  圖 15 政務(wù)大數(shù)據(jù)治理標(biāo)準(zhǔn)體系 政務(wù)大數(shù)據(jù)采集平臺總體架構(gòu)政務(wù)數(shù)據(jù)采集平臺總體架構(gòu)如圖 16所示,數(shù)據(jù)采集平臺包含可視化ETL系統(tǒng)、可視化網(wǎng)頁數(shù)據(jù)采集系統(tǒng)、任務(wù)調(diào)度中心三部分組成。針對不同數(shù)據(jù)源類型,使用數(shù)據(jù)庫接入的方式接入可視化ETL系統(tǒng)或使用URL訪問的方式接入可視化網(wǎng)頁數(shù)據(jù)采集系統(tǒng)。通過便捷的可視化配置操作,生成ETL配置項及網(wǎng)頁數(shù)據(jù)獲取腳本。建立任務(wù)調(diào)度中心,用于解析、調(diào)度、運行ETL、網(wǎng)頁數(shù)據(jù)采集腳本,同時對采集任務(wù)進(jìn)行監(jiān)控,可視化調(diào)度任務(wù)、數(shù)據(jù)獲取統(tǒng)計,最終將采集數(shù)據(jù)裝載到對應(yīng)的數(shù)據(jù)存儲載體。  圖 16 政務(wù)大數(shù)據(jù)采集平臺總體架構(gòu) 功能架構(gòu)政務(wù)大數(shù)據(jù)采集平臺融合可視化ETL系統(tǒng)、可視化網(wǎng)頁數(shù)據(jù)采集系統(tǒng)以及采集調(diào)度系統(tǒng),均采用前后端分離思想。可視化ETL系統(tǒng)主要負(fù)責(zé)ETL配置參數(shù)庫獲取以及持久化工作,為后續(xù)的ETL調(diào)度任務(wù)奠定參數(shù)基礎(chǔ),如元數(shù)據(jù)信息配置:源數(shù)據(jù)、目標(biāo)數(shù)據(jù)庫以及可以用于抽取的表、字段、轉(zhuǎn)換規(guī)則、清洗規(guī)則、抽取規(guī)則等信息以及相關(guān)函數(shù)的定義等等;可視化網(wǎng)頁數(shù)據(jù)采集系統(tǒng)主要功能是提供前端的交互式網(wǎng)頁信息標(biāo)注,后端解析標(biāo)注并生成網(wǎng)頁數(shù)據(jù)采集腳本,為采集調(diào)度系統(tǒng)中網(wǎng)頁數(shù)據(jù)采集調(diào)度模塊提供任務(wù)函數(shù);采集調(diào)度系統(tǒng)實現(xiàn)ETL與網(wǎng)頁數(shù)據(jù)采集任務(wù)的調(diào)度管理,如數(shù)據(jù)的抽取、清洗、加載、存儲、爬取等核心功能以及數(shù)據(jù)監(jiān)控展示等功能。 政務(wù)大數(shù)據(jù)接入平臺總體架構(gòu)政務(wù)大數(shù)據(jù)接入平臺總體架構(gòu)自底向上依次為數(shù)據(jù)層、支撐層、接入適配層、交互層。除此之外還包括標(biāo)準(zhǔn)規(guī)范、安全保障兩個理論支撐體系。 交互層:主要為用戶和管理者提供政務(wù)大數(shù)據(jù)接入可視化交互頁面。 接入適配層:支持主流數(shù)據(jù)庫數(shù)據(jù)協(xié)議,采集非結(jié)構(gòu)化文件和處理特定業(yè)務(wù)協(xié)議數(shù)據(jù),并能編程定制特殊通信數(shù)據(jù)接入?yún)f(xié)議。 支撐層:為政務(wù)大數(shù)據(jù)接入運營提供高質(zhì)量的服務(wù)環(huán)境,具體包括支撐軟件、硬件環(huán)境層面。 數(shù)據(jù)層:數(shù)據(jù)層主要為政務(wù)大數(shù)據(jù)采集平臺以及各委辦局提供的各類結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)。 功能架構(gòu)政務(wù)大數(shù)據(jù)接入平臺功能架構(gòu)主要包括應(yīng)用層、接入適配層、通道層、存儲適配層。 應(yīng)用層:主要包括業(yè)務(wù)應(yīng)用開發(fā)接口、FTP Server、開放文件接口、業(yè)務(wù)接口改造、開放數(shù)據(jù)庫直連、安全管理、組件管理、日志管理等。 接入適配層:支持主流數(shù)據(jù)庫數(shù)據(jù)協(xié)議,采集非結(jié)構(gòu)化文件和處理特定業(yè)務(wù)協(xié)議數(shù)據(jù),并能編程定制特殊通信數(shù)據(jù)接入?yún)f(xié)議。適配的協(xié)議包括MySql、Oracle、FTP、HBASE等。 通道層:MQ作為消息傳輸中間件產(chǎn)品,具有獨特的安全機(jī)制、簡便快速的編程風(fēng)格、卓越不凡的穩(wěn)定性、可擴(kuò)展性和跨平臺性。對消息的傳輸,做到不丟失、不復(fù)傳。 存儲適配層:對所存儲的結(jié)構(gòu)化、NoSQL數(shù)據(jù)提供高可靠的、安全的數(shù)據(jù)提取和訪問服務(wù)。 技術(shù)架構(gòu)政務(wù)大數(shù)據(jù)接入平臺采用Web服務(wù)模式,技術(shù)架構(gòu)包括交互層、服務(wù)層、平臺層和數(shù)據(jù)層。 政務(wù)大數(shù)據(jù)接入平臺技術(shù)架構(gòu) 交互層:為用戶和管理者提供可視化交互頁面。政務(wù)大數(shù)據(jù)接入平臺采用前后端分離的架構(gòu),前端采用React框架,該框架是一個構(gòu)建數(shù)據(jù)驅(qū)動的 Web 界面的漸進(jìn)式框架。 服務(wù)層:是接收交互層和數(shù)據(jù)請求的統(tǒng)一處理模塊。API網(wǎng)關(guān)是微服務(wù)架構(gòu)標(biāo)準(zhǔn)化服務(wù)的模式,實現(xiàn)對政務(wù)大數(shù)據(jù)接入平臺系統(tǒng)眾多服務(wù)接口管控,對訪問服務(wù)的身份認(rèn)證、防報文重放、防數(shù)據(jù)篡改、業(yè)務(wù)鑒權(quán)、響應(yīng)數(shù)據(jù)脫敏、流量與并發(fā)控制。由于政務(wù)大數(shù)據(jù)接入平臺在提供服務(wù)時,可能會出現(xiàn)請求時間較長的情況,因此引入消息隊列機(jī)制來控制高并發(fā)的請求。 平臺層:政務(wù)大數(shù)據(jù)接入平臺后臺服務(wù)基于SpringBoot微服務(wù)架構(gòu),采用Mybatis進(jìn)行數(shù)據(jù)持久化。授權(quán)證書服務(wù)是基于JWT的密鑰管理和簽名驗證模塊。后臺服務(wù)基于SpringCloud實現(xiàn)微服務(wù)管理。基于ETL的數(shù)據(jù)抽取和轉(zhuǎn)換工具支撐平臺的所有數(shù)據(jù)和數(shù)據(jù)集操作功能。平臺的數(shù)據(jù)庫進(jìn)程、服務(wù)進(jìn)程都是基于Docker進(jìn)行容器化。 數(shù)據(jù)層:數(shù)據(jù)層主要為采集平臺以及各委辦局提供的各類結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)。 政務(wù)大數(shù)據(jù)融合平臺總體架構(gòu)如圖 28所示為政務(wù)大數(shù)據(jù)融合平臺總體架構(gòu)圖,通過全面梳理政務(wù)大數(shù)據(jù)業(yè)務(wù)場景,構(gòu)建通用域數(shù)據(jù)模型、公共域數(shù)據(jù)模型、結(jié)構(gòu)域數(shù)據(jù)模型和領(lǐng)域數(shù)據(jù)模型,針對采集匯聚的多源異構(gòu)政務(wù)數(shù)據(jù),采用數(shù)據(jù)融合算法,形成政務(wù)大數(shù)據(jù)融合數(shù)據(jù)庫,如基礎(chǔ)庫、主題庫和業(yè)務(wù)庫,支撐政務(wù)大數(shù)據(jù)融合分析應(yīng)用。 數(shù)據(jù)采集接入平臺為數(shù)據(jù)融合提供多源異構(gòu)數(shù)據(jù)接入,包括結(jié)構(gòu)化數(shù)據(jù)庫表以及非結(jié)構(gòu)化文本、圖像、語音和視頻數(shù)據(jù)等。針對政務(wù)大數(shù)據(jù)業(yè)務(wù)邏輯,構(gòu)建形成政務(wù)數(shù)據(jù)模型標(biāo)準(zhǔn),采用加權(quán)平均、高斯濾波、D-S證據(jù)理論、邏輯模糊理論、貝葉斯估計等算法實現(xiàn)結(jié)構(gòu)化數(shù)據(jù)的融合分析,以及典型相關(guān)分析(CCA)、核相關(guān)分析(KCCA)、非負(fù)矩陣分解和基于深度學(xué)習(xí)的跨媒體關(guān)聯(lián)等方法實現(xiàn)非結(jié)構(gòu)化的關(guān)聯(lián)融合。政務(wù)大數(shù)據(jù)融合平臺通過數(shù)據(jù)模型與融合算法兩大核心模塊,構(gòu)建輸出融合政務(wù)數(shù)據(jù)庫,包括基礎(chǔ)庫、主題庫和業(yè)務(wù)庫。 功能架構(gòu)政務(wù)大數(shù)據(jù)融合平臺系統(tǒng)包括數(shù)據(jù)模型、融合算法和融合數(shù)據(jù)庫三個核心模塊,如圖 29所示,數(shù)據(jù)模型包括通用域數(shù)據(jù)模型、結(jié)構(gòu)域數(shù)據(jù)模型、公共域數(shù)據(jù)模型和領(lǐng)域數(shù)據(jù)模型;融合算法模塊包括結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)融合挖掘分析基本算法;融合數(shù)據(jù)庫提供了政務(wù)應(yīng)用所需的基礎(chǔ)庫、主題庫和業(yè)務(wù)庫。 (1)數(shù)據(jù)模型 核心數(shù)據(jù)模型由三部分組成:通用域數(shù)據(jù)模型、公共域數(shù)據(jù)模型和結(jié)構(gòu)域數(shù)據(jù)模型。通用域數(shù)據(jù)模型定義的是在所有領(lǐng)域內(nèi)具有普遍意義,并在語義上具有高度一致性和穩(wěn)定性的數(shù)據(jù)類型,如時間與日期、地址、組織機(jī)構(gòu)、活動與事件、人員和物體等等;公共域數(shù)據(jù)模型定義的是在多數(shù)領(lǐng)域中使用比較廣泛,并得到一致認(rèn)同的數(shù)據(jù)類型;結(jié)構(gòu)域數(shù)據(jù)模型是所有其他域數(shù)據(jù)模型定義的基礎(chǔ),它是對XML模式語言中的基本數(shù)據(jù)類型的擴(kuò)充,增加了元數(shù)據(jù)定義等內(nèi)容。 業(yè)務(wù)領(lǐng)域數(shù)據(jù)模型定義的是特定領(lǐng)域的數(shù)據(jù)類型,由各業(yè)務(wù)領(lǐng)域根據(jù)自身業(yè)務(wù)信息交換需求,在核心數(shù)據(jù)模型的基礎(chǔ)上進(jìn)行繼承和擴(kuò)展而形成的,如精準(zhǔn)扶貧數(shù)據(jù)模型、生態(tài)數(shù)據(jù)模型、應(yīng)急管理數(shù)據(jù)模型等。 (2)融合算法 結(jié)構(gòu)化數(shù)據(jù)融合算法: 加權(quán)平均法是最簡單、最直觀方法數(shù)據(jù)級融合方法,該方法將多源數(shù)據(jù)進(jìn)行加權(quán)平均,結(jié)果作為融合值,該方法是一種直接對數(shù)據(jù)源進(jìn)行操作的方法。卡爾曼濾波算法主要用于融合低層次實時動態(tài)多源時序數(shù)據(jù)。貝葉斯估計是在最大似然概率上做進(jìn)一步拓展,不直接估計參數(shù)的值,而是允許參數(shù)服從一定概率分布。D-S理論是對貝葉斯推理方法推廣,主要是利用概率論中貝葉斯條件概率來進(jìn)行的,需要知道先驗概率。適用于:信息融合、專家系統(tǒng)、情報分析、法律案件分析、多屬性決策分析。 非結(jié)構(gòu)化數(shù)據(jù)融合算法: 典型相關(guān)分析法(CCA)是跨媒體數(shù)據(jù)關(guān)聯(lián)分析的典型方法,它在計算生物學(xué)、金融分析和信息檢索等領(lǐng)域有著廣泛的應(yīng)用。基于任務(wù)的共享子空間學(xué)習(xí)方法同時學(xué)習(xí)多個相關(guān)的任務(wù),通過提取不同任務(wù)中不同模態(tài)間的共享子空間,以提高各個任務(wù)的總體泛化性能?;谏疃葘W(xué)習(xí)的跨媒體數(shù)據(jù)融合方法是當(dāng)前的主流方法,通過深度網(wǎng)絡(luò)的非線性建模能力來分析不同媒體類型數(shù)據(jù)間的復(fù)雜關(guān)聯(lián)關(guān)系。這類方法的特征表達(dá)能力強(qiáng),可以抽取出高層的語義信息,能夠解決復(fù)雜的非線性問題。 (3)融合數(shù)據(jù)庫 融合數(shù)據(jù)庫包括基礎(chǔ)庫、主題庫和業(yè)務(wù)庫?;A(chǔ)庫是包括人口、法人、電子證照、地理空間與宏觀經(jīng)濟(jì)等基礎(chǔ)數(shù)據(jù)庫;主題數(shù)據(jù)庫是面向業(yè)務(wù)主題的數(shù)據(jù)組織存儲,包括政務(wù)事項庫、信用庫等;業(yè)務(wù)庫包括城市態(tài)勢庫、安全業(yè)務(wù)庫、交通業(yè)務(wù)庫。 人口基礎(chǔ)信息庫是指圍繞自然人形成的有關(guān)基礎(chǔ)信息、婚姻信息、醫(yī)療健康信息、社保保險信息、駕駛?cè)诵畔⒌臄?shù)據(jù)集合。人口基礎(chǔ)信息庫是經(jīng)濟(jì)社會發(fā)展中支撐各部門應(yīng)用系統(tǒng)的重要基礎(chǔ),對勞動就業(yè)、稅收征管、個人信用、社會保障、人口普查、計劃生育、打擊犯罪等信息系統(tǒng)的建設(shè)具有非常重要的意義。 法人基礎(chǔ)信息庫是標(biāo)識法人不可缺少的基本元素,是使用最頻繁、最基礎(chǔ)、最重要的信息,主要包括法人基礎(chǔ)信息數(shù)據(jù)、主要人員信息、自然人出資信息、法人擴(kuò)展信息數(shù)據(jù)、非自然人出資信息。 電子證照基礎(chǔ)信息庫的建設(shè)有利于通過電子證照共享平臺,將電子證照與電子批文等應(yīng)用到行政審批流程中。企業(yè)、民眾在申報行政審批事項無需提供前置證照的紙質(zhì)材料,而由受理部門窗口通過電子證照共享平臺查驗。 宏觀經(jīng)濟(jì)是反映經(jīng)濟(jì)狀態(tài)的主要數(shù)據(jù),對指導(dǎo)經(jīng)濟(jì)政策、調(diào)節(jié)經(jīng)濟(jì)指標(biāo)有著至關(guān)重要的作用。宏觀經(jīng)濟(jì)從宏觀上理解社會經(jīng)濟(jì)活動的總體情況,依賴于各統(tǒng)計部門的統(tǒng)計數(shù)據(jù)。宏觀經(jīng)濟(jì)基礎(chǔ)信息庫需要根據(jù)宏觀經(jīng)濟(jì)關(guān)注的重點,設(shè)計了接口良好的數(shù)據(jù)模型,方便統(tǒng)計部門快速上報數(shù)據(jù)。宏觀經(jīng)濟(jì)基礎(chǔ)信息庫包括了經(jīng)濟(jì)發(fā)展、社會就業(yè)、公共事業(yè)、科技創(chuàng)新、可持續(xù)發(fā)展、重大投資項目。 自然資源和地理空間基礎(chǔ)信息庫項目是“十五”期間國家電子政務(wù)重點建設(shè)的四個基礎(chǔ)信息庫之一。自然資源和地理空間基礎(chǔ)信息庫是我國規(guī)模宏大的地理空間信息資源建設(shè)項目,是我國國家地理空間信息基礎(chǔ)設(shè)施的重要組成部分,其建設(shè)對于加強(qiáng)和完善我國高層地理空間信息基礎(chǔ)設(shè)施具有重要的作用。 技術(shù)架構(gòu)政務(wù)大數(shù)據(jù)融合平臺技術(shù)架構(gòu)主要由數(shù)據(jù)模型、融合算法與融合數(shù)據(jù)庫部分構(gòu)成。 數(shù)據(jù)模型:利用數(shù)據(jù)采集接入平臺獲取的數(shù)據(jù),通過PowerDesigner,Open ModelSphere等數(shù)據(jù)建模工具,構(gòu)建政務(wù)應(yīng)用業(yè)務(wù)數(shù)據(jù)模型,用于支撐數(shù)據(jù)融合。 融合算法:基于已構(gòu)建的政務(wù)數(shù)據(jù)模型和多源異構(gòu)政務(wù)數(shù)據(jù),利用Tesorflow、Guetzli等算法工具實現(xiàn)加權(quán)平均、高斯濾波、非矩陣分解、貝葉斯估計等數(shù)據(jù)融合算法,實現(xiàn)結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的融合關(guān)聯(lián)。 融合數(shù)據(jù)庫:基于政務(wù)數(shù)據(jù)模型和融合算法,形成融合政務(wù)數(shù)據(jù)集,同時對融合數(shù)據(jù)集進(jìn)行分類別、分主題、分業(yè)務(wù)的歸類存儲。融合數(shù)據(jù)庫包括基礎(chǔ)庫、主題庫與業(yè)務(wù)庫,根據(jù)不同數(shù)據(jù)類型、數(shù)據(jù)格式,采用MongoDB、Oracle、MySql等數(shù)據(jù)庫進(jìn)行存儲,為政務(wù)大數(shù)據(jù)資源管理平臺提供數(shù)據(jù)資源支持。  圖 30政務(wù)大數(shù)據(jù)融合平臺技術(shù)架構(gòu) 政務(wù)大數(shù)據(jù)資源管理平臺總體架構(gòu)政務(wù)大數(shù)據(jù)資源管理平臺以數(shù)據(jù)為核心,主要提供數(shù)據(jù)資源從分析、治理、應(yīng)用到運維管理等不同階段的能力??傮w架構(gòu)設(shè)計如圖 38圖 38所示。 交互層:為用戶和管理者提供政務(wù)大數(shù)據(jù)資源管理平臺可視化交互頁面。 功能層:包括元數(shù)據(jù)管理、數(shù)據(jù)資源分析、數(shù)據(jù)資源治理和數(shù)據(jù)資源運維等服務(wù)。 支撐層:為數(shù)據(jù)資源化運營提供高質(zhì)量的服務(wù)環(huán)境,包括支撐軟件、硬件環(huán)境。 數(shù)據(jù)資源層:數(shù)據(jù)層主要為政務(wù)大數(shù)據(jù)接入平臺提供的各委辦局的結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)。 功能架構(gòu)政務(wù)大數(shù)據(jù)資源管理平臺主要包括元數(shù)據(jù)管理、數(shù)據(jù)資源分析、數(shù)據(jù)資源治理、數(shù)據(jù)資源運維等功能,功能架構(gòu)設(shè)計如圖 39所示。 元數(shù)據(jù)管理:為數(shù)據(jù)資源管理的重要基礎(chǔ),其通過人工采集方式或從已有信息系統(tǒng)中提取方式,完成用戶所關(guān)注的各類元數(shù)據(jù)的獲取,提供元數(shù)據(jù)變更、統(tǒng)計、自身質(zhì)量稽查、使用情況分析、版本和生命周期管理等基本功能。同時提供血緣分析、影響分析、實體關(guān)聯(lián)分析、指標(biāo)一致性分析等元數(shù)據(jù)分析功能。 數(shù)據(jù)資源分析:提供資源成本評估分析,主要包括資源盤點和資源成本評估兩大類功能。其中,資源盤點實現(xiàn)標(biāo)簽類別管理,支撐資源標(biāo)簽和業(yè)務(wù)分類、數(shù)據(jù)分類關(guān)聯(lián)等功能,最終生成全局的數(shù)據(jù)資源概覽和資源地圖;數(shù)據(jù)資源成本評估通過評估分析模型,提供數(shù)據(jù)資源構(gòu)成分析、資源活性分析和分布情況分析功能,持續(xù)沉淀核心數(shù)據(jù)資源。 數(shù)據(jù)資源治理:為數(shù)據(jù)化運營提供高質(zhì)量的數(shù)據(jù)環(huán)境,具體包括數(shù)據(jù)標(biāo)準(zhǔn)管理、數(shù)據(jù)模型管理、數(shù)據(jù)質(zhì)量管理三大功能。其中,數(shù)據(jù)標(biāo)準(zhǔn)管理實現(xiàn)數(shù)據(jù)資源格式、命名的準(zhǔn)確性和口徑一致性,提供數(shù)據(jù)標(biāo)準(zhǔn)維護(hù)與發(fā)布管理功能,支持?jǐn)?shù)據(jù)標(biāo)準(zhǔn)與數(shù)據(jù)間的關(guān)系維護(hù),具體包括數(shù)據(jù)架構(gòu)規(guī)劃、數(shù)據(jù)標(biāo)準(zhǔn)化和指標(biāo)標(biāo)準(zhǔn)化等功能;數(shù)據(jù)建模管理提供數(shù)據(jù)模型管理、比對、分析、展示等功能,具體包括數(shù)據(jù)模型基線管理、模型變更評審、模型稽核等功能;數(shù)據(jù)質(zhì)量管理提供自動化、智能化質(zhì)量核查工具,能夠?qū)崿F(xiàn)從數(shù)據(jù)分析到現(xiàn)狀分析、問題診斷、優(yōu)化、處理管理優(yōu)化,一直到效果反饋全過程質(zhì)量管理,形成質(zhì)量治理閉環(huán)。 數(shù)據(jù)資源運維:數(shù)據(jù)資源應(yīng)用具體包括資源生命周期管理、資源安全管理和資源評估應(yīng)用等功能。其中,資源生命周期管理實現(xiàn)數(shù)據(jù)從產(chǎn)生、應(yīng)用、歸檔到銷毀的整個生命周期全過程自動化管理,具體包括資源發(fā)布變更管理、數(shù)據(jù)全鏈管理和資源下線等功能;資源安全管理保證數(shù)據(jù)資源使用和交換共享過程中的安全,對數(shù)據(jù)和信息進(jìn)行適當(dāng)?shù)恼J(rèn)證、授權(quán)、訪問和審計,具體包括安全策略管理、數(shù)據(jù)脫敏、數(shù)據(jù)安全審計等功能;資源評估應(yīng)用實現(xiàn)全鏈路的數(shù)據(jù)資源監(jiān)管和價值追蹤,具體包括資源使用評估、資源價值評估和敏感數(shù)據(jù)評估等功能。 技術(shù)架構(gòu)政務(wù)大數(shù)據(jù)資源管理平臺采用Web服務(wù)模式對外提供數(shù)據(jù)服務(wù),技術(shù)架構(gòu)包括交互層、服務(wù)層、技術(shù)組件層、數(shù)據(jù)持久層和數(shù)據(jù)存儲層。 交互層:為用戶和管理者提供可視化交互頁面。政務(wù)大數(shù)據(jù)資源管理平臺采用前后端分離的架構(gòu),前端采用React框架,該框架是一個構(gòu)建數(shù)據(jù)驅(qū)動的 web 界面的漸進(jìn)式框架。 服務(wù)層:是接收交互層和數(shù)據(jù)請求的統(tǒng)一處理模塊。API網(wǎng)關(guān)是微服務(wù)架構(gòu)標(biāo)準(zhǔn)化服務(wù)的模式,實現(xiàn)對政務(wù)大數(shù)據(jù)接入平臺系統(tǒng)眾多服務(wù)接口管控,對訪問服務(wù)的身份認(rèn)證、防報文重放、防數(shù)據(jù)篡改、業(yè)務(wù)鑒權(quán)、響應(yīng)數(shù)據(jù)脫敏、流量與并發(fā)控制。由于政務(wù)大數(shù)據(jù)接入平臺在提供服務(wù)時,可能會出現(xiàn)請求時間較長的情況,因此引入消息隊列機(jī)制來控制高并發(fā)的請求。 支撐層:政務(wù)大數(shù)據(jù)資源管理平臺后臺服務(wù)基于SpringBoot微服務(wù)架構(gòu),采用Mybatis進(jìn)行數(shù)據(jù)持久化。授權(quán)證書服務(wù)是基于JWT的密鑰管理和簽名驗證模塊。后臺服務(wù)基于SpringCloud實現(xiàn)微服務(wù)管理?;贓TL的數(shù)據(jù)抽取和轉(zhuǎn)換工具支撐平臺的所有數(shù)據(jù)和數(shù)據(jù)集操作功能。平臺的數(shù)據(jù)庫進(jìn)程、服務(wù)進(jìn)程都是基于Docker進(jìn)行容器化。 數(shù)據(jù)持久層: 采用Hibernate、iBatis和JDBC相結(jié)合的方式,對于量不大且結(jié)構(gòu)比較嚴(yán)謹(jǐn)?shù)臄?shù)據(jù),Hibernate、iBatis是一種比較實用的存取方案。對于量大且性能要求高的批量元數(shù)據(jù)存取,由于Hibernate、iBatis性能上無法保障, 因此,采用JDBC直接讀寫方式。另外,針對文件類數(shù)據(jù)提供單獨的文件訪問組件。 數(shù)據(jù)存儲: 主要是對平臺資源模型、元數(shù)據(jù)、采集配置數(shù)據(jù)、及平臺支撐數(shù)據(jù)的存儲。 政務(wù)大數(shù)據(jù)應(yīng)用體系政務(wù)大數(shù)據(jù)共享交換平臺總體架構(gòu) 圖 42 政務(wù)大數(shù)據(jù)共享交換平臺總體架構(gòu) 政務(wù)大數(shù)據(jù)共享交換平臺遵循面向服務(wù)體系結(jié)構(gòu)(SOA)進(jìn)行框架設(shè)計,基于國家標(biāo)準(zhǔn)電子政務(wù)模型,結(jié)合政務(wù)大數(shù)據(jù)應(yīng)用體系實際需求,綜合考慮存量、條線業(yè)務(wù)對接等問題,實現(xiàn)數(shù)據(jù)實時快速傳輸、交換、編目、管理等要點,依據(jù)國家相關(guān)數(shù)據(jù)共享交換政策法規(guī)與數(shù)據(jù)標(biāo)準(zhǔn),進(jìn)行總體設(shè)計。 功能架構(gòu) 圖 43 政務(wù)大數(shù)據(jù)共享交換平臺功能架構(gòu) 政務(wù)大數(shù)據(jù)共享交換平臺系統(tǒng)由以下三個部分組成: 政務(wù)公用數(shù)據(jù)資源庫:政務(wù)公用數(shù)據(jù)資源庫主要由元數(shù)據(jù)庫、基礎(chǔ)庫、主題庫構(gòu)成。元數(shù)據(jù)庫主要包含數(shù)據(jù)庫定義、標(biāo)準(zhǔn)規(guī)范、數(shù)據(jù)處理過程定義等基礎(chǔ)配置信息,為基礎(chǔ)庫和主題庫提供數(shù)據(jù)標(biāo)準(zhǔn)化支撐服務(wù)?;A(chǔ)庫主要用于存放國家標(biāo)準(zhǔn)及各地方標(biāo)準(zhǔn)制定的自然人、法人、地理信息、宏觀經(jīng)濟(jì)等數(shù)據(jù)信息。主題庫主要針對特定領(lǐng)域、特定行業(yè)進(jìn)行業(yè)務(wù)分析,通過動態(tài)數(shù)據(jù)抽取,完成數(shù)據(jù)從基礎(chǔ)庫到主題庫的重組工作,將數(shù)據(jù)根據(jù)各個主體進(jìn)行分類存儲。 數(shù)據(jù)共享交換系統(tǒng):數(shù)據(jù)共享交換系統(tǒng)是數(shù)據(jù)共享交換平臺的核心組件,將數(shù)據(jù)經(jīng)過數(shù)據(jù)管理后形成的數(shù)據(jù)資源庫,通過數(shù)據(jù)目錄查詢數(shù)據(jù),利用Web Service接口、前置庫接口等技術(shù)手段,實現(xiàn)數(shù)據(jù)的實時共享交換。從而保證數(shù)據(jù)共享交換的完整性、時效性、準(zhǔn)確性和可用性。 共享交換平臺門戶:共享交換平臺門戶是基于以上三個部分,面向用戶提供數(shù)據(jù)共享交換API服務(wù)與相關(guān)數(shù)據(jù)可視化統(tǒng)計服務(wù)的網(wǎng)絡(luò)平臺,用戶可通過該門戶查詢數(shù)據(jù)、申請獲取API,從而實現(xiàn)數(shù)據(jù)的共享交換。 技術(shù)架構(gòu) 圖 44 政務(wù)大數(shù)據(jù)共享交換平臺技術(shù)架構(gòu) 政務(wù)大數(shù)據(jù)共享交換平臺是基于SOA(面向服務(wù)體系)搭建體系框架,利用ESB(服務(wù)總線技術(shù))、前置庫交換技術(shù)等,采用松散耦合的方式構(gòu)建政務(wù)大數(shù)據(jù)共享交換平臺。在數(shù)據(jù)的傳輸與轉(zhuǎn)換過程中,提供集中統(tǒng)一的控制和管理。 (1)數(shù)據(jù)層:主要用于數(shù)據(jù)存儲、數(shù)據(jù)備份與數(shù)據(jù)安全保障,為數(shù)據(jù)共享交換提供數(shù)據(jù)基礎(chǔ)。 (2)連接層:提供豐富的數(shù)據(jù)連接器、適配器,根據(jù)一定的數(shù)據(jù)抽取策略,對需要共享交換的數(shù)據(jù)進(jìn)行數(shù)據(jù)抽取,為數(shù)據(jù)傳輸做準(zhǔn)備。 (3)傳輸層:將連接層抽取的數(shù)據(jù),發(fā)布在信息總線上,在所有系統(tǒng)之間傳輸路由和消息,實現(xiàn)數(shù)據(jù)上傳和下達(dá)。 (4)轉(zhuǎn)換層:將通過信息總線傳輸?shù)臄?shù)據(jù),進(jìn)行數(shù)據(jù)獲取、數(shù)據(jù)處理,對異構(gòu)數(shù)據(jù)進(jìn)行轉(zhuǎn)換、有效性檢驗和分析,并利用數(shù)據(jù)資源編目對數(shù)據(jù)進(jìn)行數(shù)據(jù)的分類分級,完成數(shù)據(jù)的轉(zhuǎn)換。 (5)應(yīng)用層:將轉(zhuǎn)換完成的數(shù)據(jù),通過API接口進(jìn)行共享開放,供用戶進(jìn)行調(diào)用獲取數(shù)據(jù)集。 (6)監(jiān)控管理層:針對數(shù)據(jù)共享交換技術(shù)流程體系,進(jìn)行統(tǒng)一管理、調(diào)度、安全保障、維護(hù)和控制。 關(guān)鍵技術(shù)(1)分布式異構(gòu)數(shù)據(jù)組織與管理技術(shù) 為實現(xiàn)大數(shù)據(jù)的共享與開放,滿足廣域網(wǎng)環(huán)境下海量、多源、異構(gòu)數(shù)據(jù)的快速發(fā)現(xiàn)、準(zhǔn)確定位的需求,開展針對分布式異構(gòu)數(shù)據(jù)的虛擬化組織、統(tǒng)一化管理等方面的技術(shù)研究,重點突破基于數(shù)據(jù)語義特征的元數(shù)據(jù)自動抽取、分布式數(shù)據(jù)資源虛擬化組織、分布式數(shù)據(jù)資源聯(lián)合檢索、基于元數(shù)據(jù)的無中心資源目錄同步等關(guān)鍵技術(shù),制定多維數(shù)據(jù)分級分類標(biāo)準(zhǔn),支持海量分布式數(shù)據(jù)的快速定位,迅速地發(fā)現(xiàn)與需求匹配的數(shù)據(jù)資源,建立具有明確層次結(jié)構(gòu)的數(shù)據(jù)體系、全局資源視圖、數(shù)據(jù)資源目錄體系,明確政府部門向社會公開數(shù)據(jù)的內(nèi)容、格式和途徑,形成政府部門和事業(yè)單位等公共機(jī)構(gòu)數(shù)據(jù)資源開放清單,為數(shù)據(jù)共享與開放提供技術(shù)支撐。 (2)面向跨域共享交換的數(shù)據(jù)服務(wù)技術(shù) 面向數(shù)據(jù)提供方和使用方之間跨地域、跨部門、跨系統(tǒng)的數(shù)據(jù)共享交換需求,開展面向服務(wù)的跨域共享、數(shù)據(jù)開放、訪問控制等領(lǐng)域研究,重點突破分布式數(shù)據(jù)服務(wù)注冊發(fā)布、數(shù)據(jù)目錄同步、數(shù)據(jù)服務(wù)接口自動構(gòu)建、基于細(xì)粒度訪問控制的數(shù)據(jù)服務(wù)訪問、基于發(fā)布訂閱機(jī)制的數(shù)據(jù)智能分發(fā)推送等關(guān)鍵技術(shù),制定面向服務(wù)的數(shù)據(jù)共享規(guī)則、數(shù)據(jù)開放規(guī)則和相關(guān)的接口規(guī)范,提供數(shù)據(jù)訪問接口調(diào)用、訂閱分發(fā)、內(nèi)容主動推送、按需下載等數(shù)據(jù)服務(wù),解耦數(shù)據(jù)供需關(guān)系,實現(xiàn)全局?jǐn)?shù)據(jù)資源的發(fā)布和授權(quán)訪問。 (4)微服務(wù)技術(shù) 微服務(wù)作為一種新興的軟件架構(gòu),把一個大型的單個應(yīng)用程序和服務(wù)拆分為數(shù)十個微服務(wù),系統(tǒng)中的各個微服務(wù)可被獨立部署,各個微服務(wù)之間是松耦合的。每個微服務(wù)僅關(guān)注于完成一件任務(wù)并能很好地完成該任務(wù)。 在政務(wù)大數(shù)據(jù)共享交換應(yīng)用場景中,以微服務(wù)技術(shù)為支撐的數(shù)據(jù)服務(wù)體系,通過微服務(wù)總線技術(shù)模式,實現(xiàn)數(shù)據(jù)共享交換服務(wù)。滿足調(diào)度中心對數(shù)據(jù)調(diào)度過程的可控、可溯,對經(jīng)由微服務(wù)總線的所有數(shù)據(jù)接口、數(shù)據(jù)流進(jìn)行全程監(jiān)控,并能夠?qū)φw流程進(jìn)行審計。 技術(shù)路線 圖 45 數(shù)據(jù)共享交換平臺技術(shù)路線 政務(wù)大數(shù)據(jù)共享交換平臺搭建任務(wù)主要分為三個階段。第一階段為多源異構(gòu)數(shù)據(jù)組織管理技術(shù)的研究工作與工程實現(xiàn),將多源異構(gòu)數(shù)據(jù)進(jìn)行組織管理,并利用數(shù)據(jù)編目進(jìn)行數(shù)據(jù)分類分級,實現(xiàn)跨層級、跨領(lǐng)域、跨地區(qū)數(shù)據(jù)的整合管理。第二階段為跨域交換共享服務(wù)技術(shù)研究與實現(xiàn),該階段將政務(wù)大數(shù)據(jù)資源庫中數(shù)據(jù)根據(jù)需求進(jìn)行數(shù)據(jù)抽取,并研究利用共享交換的前置交換、交換橋接等技術(shù)方式,對數(shù)據(jù)跨域共享交換進(jìn)行分配與調(diào)度,構(gòu)建相關(guān)API接口,為平臺最終建設(shè)做好技術(shù)支撐工作。第三階段為平臺搭建與功能集成階段,該階段將政務(wù)大數(shù)據(jù)資源庫中數(shù)據(jù)進(jìn)行數(shù)據(jù)分類分級、目錄管理,利用共享交換技術(shù),設(shè)計高性能實時數(shù)據(jù)傳輸API接口與相關(guān)應(yīng)用體系,搭建政務(wù)大數(shù)據(jù)共享交換平臺。 政務(wù)大數(shù)據(jù)開放平臺總體架構(gòu) 圖 46 數(shù)據(jù)開放平臺總體架構(gòu) 政務(wù)大數(shù)據(jù)開放平臺的搭建是為了能夠?qū)⒄?wù)數(shù)據(jù)經(jīng)過脫敏脫密后,面向公眾進(jìn)行數(shù)據(jù)開放,公眾可通過調(diào)用平臺設(shè)計提供的API接口服務(wù)獲取政務(wù)大數(shù)據(jù)公開數(shù)據(jù)集,也可下載已使用本平臺API接口的應(yīng)用,同時本平臺鼓勵開發(fā)者進(jìn)行數(shù)據(jù)API接口申請與調(diào)用,更大限度的提高政務(wù)大數(shù)據(jù)的利用效率,并開發(fā)數(shù)據(jù)背后的潛在價值。 該平臺遵循SOA模式進(jìn)行框架設(shè)計,結(jié)合實際設(shè)計需求,綜合考慮實時數(shù)據(jù)傳輸效率、數(shù)據(jù)傳輸容量、高性能API設(shè)計等問題,基于脫敏脫密后獲得的政務(wù)大數(shù)據(jù)開放資源庫,構(gòu)建政務(wù)大數(shù)據(jù)開放平臺,最終面向用戶提供政務(wù)大數(shù)據(jù)開放平臺門戶,主要包含數(shù)據(jù)接口服務(wù)、應(yīng)用市場服務(wù)和開發(fā)者服務(wù)等。 功能架構(gòu) 圖 47 數(shù)據(jù)開放平臺功能架構(gòu) 政務(wù)大數(shù)據(jù)開放平臺主要依據(jù)互聯(lián)網(wǎng)架構(gòu)體系與政府?dāng)?shù)據(jù)開放五級技術(shù)成熟度模型進(jìn)行平臺構(gòu)建。其系統(tǒng)主要分為以下六個方面: (1)數(shù)據(jù)信息采集階段:在該階段針對政務(wù)大數(shù)據(jù)進(jìn)行實時或非實時數(shù)據(jù)采集,并利用ETL技術(shù)進(jìn)行數(shù)據(jù)采集處理。 (2)數(shù)據(jù)信息處理階段:在該階段針對采集后的數(shù)據(jù),基于元數(shù)據(jù)庫中數(shù)據(jù)策略與指標(biāo),進(jìn)行統(tǒng)計、分析,并針對于政務(wù)大數(shù)據(jù)進(jìn)行數(shù)據(jù)的脫敏、脫密,將處理后的數(shù)據(jù)進(jìn)行數(shù)據(jù)同步,存儲于政務(wù)大數(shù)據(jù)開放資源庫中。 (3)數(shù)據(jù)應(yīng)用設(shè)計階段:是根據(jù)實際平臺設(shè)計需求,結(jié)合已獲取數(shù)據(jù),利用URI定位等技術(shù),進(jìn)行數(shù)據(jù)深層次分析,獲得數(shù)據(jù)間關(guān)系,同時設(shè)計高性能API接口,用以支撐上層應(yīng)用。 (4)數(shù)據(jù)信息開放應(yīng)用階段:該階段主要利用下層提供的技術(shù)支持,將平臺所需功能集成于web平臺,通過Web Service模式,使用戶可以在該門戶平臺通過調(diào)用API等方式,靈活利用公開政務(wù)數(shù)據(jù),高效率深度挖掘數(shù)據(jù)的深層價值。 (5)數(shù)據(jù)生態(tài)構(gòu)建階段:該階段是基于政務(wù)大數(shù)據(jù)開放平臺,綜合跨層級、跨地區(qū)、跨領(lǐng)域數(shù)據(jù),搭建大數(shù)據(jù)開放生態(tài)體系。 (6)數(shù)據(jù)信息服務(wù)階段:該階段貫穿整個系統(tǒng)流程,為政務(wù)數(shù)據(jù)開放提供服務(wù)支持,流量監(jiān)控,安全保障等系統(tǒng),全方位監(jiān)督數(shù)據(jù)的開放流程,并保障數(shù)據(jù)的安全可靠性。 技術(shù)架構(gòu) 圖 48 數(shù)據(jù)開放平臺技術(shù)架構(gòu) 政務(wù)大數(shù)據(jù)開放平臺技術(shù)架構(gòu)參考互聯(lián)網(wǎng)架構(gòu)進(jìn)行設(shè)計,用以支撐政務(wù)數(shù)據(jù)準(zhǔn)實時開放。 (1)數(shù)據(jù)采集層:通過多種渠道采集政務(wù)大數(shù)據(jù),并對數(shù)據(jù)進(jìn)行脫敏脫密等處理,獲得可供開放的政務(wù)大數(shù)據(jù)資源庫。 (2)數(shù)據(jù)管理層:該層在安全標(biāo)準(zhǔn)管理下,利用統(tǒng)一協(xié)調(diào)調(diào)度平臺,對多源異構(gòu)數(shù)據(jù)進(jìn)行集中管理、集中處理,利用URI等技術(shù)獲得數(shù)據(jù)定位,并對數(shù)據(jù)間關(guān)系進(jìn)行分析整理。 (3)數(shù)據(jù)服務(wù)層:該層利用nodejs等方式對服務(wù)進(jìn)行封裝處理。 (4)數(shù)據(jù)應(yīng)用層:該層通過服務(wù)層,將數(shù)據(jù)管理層數(shù)據(jù)獲取,并進(jìn)行URI定位與數(shù)據(jù)間關(guān)系分析,將各項功能集成于web平臺,讓用戶可以通過該平臺門戶進(jìn)行交互,從而獲取相應(yīng)的數(shù)據(jù)信息或相關(guān)的數(shù)據(jù)應(yīng)用、數(shù)據(jù)分析結(jié)果。 關(guān)鍵技術(shù)(1)非結(jié)構(gòu)化數(shù)據(jù)的智能識別與脫敏技術(shù)研究 1)結(jié)合人工智能和語義分析等方法,實現(xiàn)政務(wù)文本數(shù)據(jù)的敏感數(shù)據(jù)自動識別; 2)研究非結(jié)構(gòu)化的圖像數(shù)據(jù),實現(xiàn)圖像中的敏感數(shù)據(jù)自動識別; 3)研究非結(jié)構(gòu)化的音頻數(shù)據(jù),實現(xiàn)音頻中的敏感數(shù)據(jù)自動識別; 4)研制基于大數(shù)據(jù)分析技術(shù)的靜態(tài)與動態(tài)數(shù)據(jù)脫敏工具,實現(xiàn)政務(wù)數(shù)據(jù)共享交換過程中的敏感數(shù)據(jù)脫敏。 技術(shù)路線 圖 49 數(shù)據(jù)開放平臺技術(shù)路線 政務(wù)大數(shù)據(jù)開放平臺搭建技術(shù)路線分為兩個階段,第一為關(guān)鍵技術(shù)研究與實現(xiàn)階段,針對于多源異構(gòu)政務(wù)數(shù)據(jù),進(jìn)行數(shù)據(jù)清洗與脫敏脫密技術(shù)研究,面對結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)(視頻、音頻等類型數(shù)據(jù)),利用人工智能、語義分析、圖像處理、音頻處理等技術(shù),對數(shù)據(jù)進(jìn)行脫敏脫密,構(gòu)建政務(wù)大數(shù)據(jù)公共資源庫。第二階段為平臺構(gòu)建階段,將數(shù)據(jù)URI定位技術(shù)、數(shù)據(jù)間關(guān)系分析技術(shù)、網(wǎng)站平臺構(gòu)建技術(shù)進(jìn)行結(jié)合,搭建政務(wù)大數(shù)據(jù)開放平臺門戶網(wǎng)站,為用戶提供政務(wù)大數(shù)據(jù)開放API接口與相關(guān)應(yīng)用服務(wù)。 來源網(wǎng)絡(luò),旨在交流學(xué)習(xí),因轉(zhuǎn)載眾多,無法獲知最終出處,如有侵權(quán),聯(lián)系速刪。 更多參考公眾號:優(yōu)享智庫 | 
|  |