小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

一文詳解數(shù)據(jù)治理、數(shù)據(jù)資產相關理論概念

 blackhappy 2023-08-19 發(fā)布于安徽

1. 基礎理論知識

1.1. 數(shù)據(jù)

數(shù)據(jù)(Data),或稱數(shù)據(jù)資源,是指所有能輸入到計算機并被計算機程序處理的符號的介質的總稱,是用于輸入電子計算機進行處理,具有一定意義的數(shù)字、字母、符號和模擬量等的通稱,是組成信息系統(tǒng)的最基本要素。

1.2. 大數(shù)據(jù)

大數(shù)據(jù)(Big Data)指一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉、多樣的數(shù)據(jù)類型和價值密度低四大特征。

大數(shù)據(jù)包括結構化、半結構化和非結構化數(shù)據(jù),非結構化數(shù)據(jù)越來越成為數(shù)據(jù)的主要部分。大數(shù)據(jù)技術的不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進行專業(yè)化處理。換而言之,如果把大數(shù)據(jù)比作一種產業(yè),那么這種產業(yè)實現(xiàn)盈利的關鍵,在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實現(xiàn)數(shù)據(jù)的“增值”。

1.3. 數(shù)據(jù)源

數(shù)據(jù)源(Data Source)是提供某種所需要數(shù)據(jù)的器件或原始媒體。在數(shù)據(jù)源中存儲了所有建立數(shù)據(jù)庫連接的信息。就像通過指定文件名稱可以在文件系統(tǒng)中找到文件一樣,通過提供正確的數(shù)據(jù)源名稱,可以找到相應的數(shù)據(jù)庫連接。

常見的數(shù)據(jù)源類型有:關系數(shù)據(jù)庫、時序數(shù)據(jù)庫、鍵值存儲數(shù)據(jù)庫、列存儲數(shù)據(jù)庫、文檔數(shù)據(jù)庫、圖形數(shù)據(jù)庫、搜索引擎存儲、對象數(shù)據(jù)庫、MPP數(shù)據(jù)庫、大數(shù)據(jù)庫、工具或文件等。

1.4. 數(shù)據(jù)倉庫

數(shù)據(jù)倉庫(Data Warehouse)是為企業(yè)所有級別的決策制定過程,提供所有類型數(shù)據(jù)支持的數(shù)據(jù)集合。一般情況下,它是主要職能是數(shù)據(jù)存儲,為了給組織輸出分析性報告,為支撐決策的目的而創(chuàng)建的。同時,也可以提供指導業(yè)務流程改進,監(jiān)視和管理數(shù)據(jù)接入時間、數(shù)據(jù)成本、數(shù)據(jù)質量。

由于數(shù)據(jù)倉庫是數(shù)據(jù)匯總的數(shù)據(jù)存儲空間,一般情況下,會對數(shù)據(jù)倉庫進行分層,常見分層有貼源層(ODS)、數(shù)據(jù)整合層(EDW)、主題模型層(FDM)、共性計算層/共性加工層(ADM)、應用集市層/數(shù)據(jù)集市層(ADS)。每種分層組合會根據(jù)具體實施情況,完成數(shù)據(jù)倉庫分層設計。下圖是實施常見的分層架構圖。

一文詳解數(shù)據(jù)治理、數(shù)據(jù)資產相關理論概念

圖1 數(shù)據(jù)倉庫分層架構圖

1.5. 數(shù)據(jù)中臺

數(shù)據(jù)中臺是一套可持續(xù)“讓企業(yè)的數(shù)據(jù)用起來”的機制,一種戰(zhàn)略選擇和組織形式,是依據(jù)企業(yè)特有的業(yè)務模式和組織架構,通過有形的產品和實施方法論支撐,構建一套持續(xù)不斷把數(shù)據(jù)變成資產并服務于業(yè)務的機制。數(shù)據(jù)中臺需要具備數(shù)據(jù)匯聚整合、數(shù)據(jù)提純加工、數(shù)據(jù)服務可視化、數(shù)據(jù)價值變現(xiàn)四個核心能力,讓組織的員工、客戶、伙伴能夠方便地應用數(shù)據(jù)。

數(shù)據(jù)中臺是一種概念、理論,并不是一個獨立系統(tǒng)的名稱,它是在數(shù)據(jù)倉庫(數(shù)據(jù)中心)的基礎上引申出來的新的概念。職能定位是所有數(shù)據(jù)的匯聚之所,以及為上層數(shù)據(jù)應用提供支撐的平臺基礎,即數(shù)據(jù)賦能。

若想全面了解數(shù)據(jù)中臺,區(qū)分數(shù)據(jù)倉庫和數(shù)據(jù)中臺的異同,需要從數(shù)據(jù)來源、建設目標、數(shù)據(jù)應用三個層面進行說明。

  • 在數(shù)據(jù)來源層面:

數(shù)據(jù)倉庫的數(shù)據(jù)來源主要是業(yè)務數(shù)據(jù)庫,數(shù)據(jù)格式也是以結構化數(shù)據(jù)為主。

數(shù)據(jù)中臺的數(shù)據(jù)來源期望是全域數(shù)據(jù)包括業(yè)務數(shù)據(jù)、日志數(shù)據(jù)、埋點數(shù)據(jù)、爬蟲數(shù)據(jù)、外部數(shù)據(jù)等。數(shù)據(jù)格式可以是結構化數(shù)據(jù),也可以是非結構化的數(shù)據(jù)。

  • 在建設目標層面:

數(shù)據(jù)倉庫建設主要用來做BI報表,目的性單一,只抽取和清洗該相關分析報表用到基礎數(shù)據(jù)。若新增一張報表,需要從ODS到ADS做一遍數(shù)據(jù)加工。

建立數(shù)據(jù)中臺的目標是為了融合組織的全部數(shù)據(jù),打通數(shù)據(jù)之間的隔閡,消除數(shù)據(jù)標準和口徑不一致的問題。數(shù)據(jù)中臺通常會對來自多方面的的基礎數(shù)據(jù)進行清洗,按照主題域概念建立多個以事物為主的主題域比如用戶主題域,商品主題域,渠道主題域,門店主題域等等。數(shù)據(jù)中臺遵循三個one的概念:One Data, One ID, One Service,基于該理念,數(shù)據(jù)中臺不僅僅是匯聚企業(yè)各種數(shù)據(jù),而且讓這些數(shù)據(jù)遵循相同的標準和口徑,對事物的標識能統(tǒng)一或者相互關聯(lián),并且提供統(tǒng)一的數(shù)據(jù)服務接口,完成數(shù)據(jù)賦能。

  • 在數(shù)據(jù)應用層面:

數(shù)據(jù)倉庫主要是面向BI報表,數(shù)據(jù)應用的建設就是傳統(tǒng)煙囪式建設,每次都從頭再來的開發(fā)方式。

數(shù)據(jù)中臺上的數(shù)據(jù)應用不僅僅只是面向于BI報表,更多面向營銷推薦、用戶畫像、AI決策分析、風險評估、經營分析等。而且這些數(shù)據(jù)應用,基于數(shù)據(jù)中臺已經匯總、沉淀完畢,能快速為相關系統(tǒng)提供數(shù)據(jù),完成快速數(shù)據(jù)開發(fā)工作,同時之前工作成果都能被多個應用共享。

1.6. 數(shù)據(jù)管理

數(shù)據(jù)管理(Data Management)是為實現(xiàn)數(shù)據(jù)和信息資產價值的獲取、控制、保護、交付以及提升,對政策、實踐和項目所做的計劃、執(zhí)行和監(jiān)督。

一般包含以下三層含義:

(1)數(shù)據(jù)管理包含一系列業(yè)務職能,包括政策、計劃、實踐和項目的計劃和執(zhí)行;

(2)數(shù)據(jù)管理包含一套嚴格的管理規(guī)范和過程,用于確保業(yè)務職能得到有效履行;

(3)數(shù)據(jù)管理包含多個由業(yè)務領導和技術專家組成的管理團隊,負責落實管理規(guī)范和過程。

1.7. 數(shù)據(jù)治理

國際數(shù)據(jù)管理協(xié)會(DAMA)給出的定義:數(shù)據(jù)治理是對數(shù)據(jù)資產管理行使權力和控制的活動集合。

《GBT34960.5-2018 信息技術服務 治理 第5部分》給出的定義:數(shù)據(jù)資源及其應用過程中相關管控活動、績效和風險管理的集合。數(shù)據(jù)治理域包括數(shù)據(jù)管理體系和數(shù)據(jù)價值體系。

國際數(shù)據(jù)治理研究所(DGI)給出的定義:數(shù)據(jù)治理是一個通過一系列信息相關的過程來實現(xiàn)決策權和職責分工的系統(tǒng),這些過程按照達成共識的模型來執(zhí)行,該模型描述了誰(Who)能根據(jù)什么信息,在什么時間(When)和情況(Where)下,用什么方法(How),采取什么行動(What)。

另一種解釋:

俠義數(shù)據(jù)治理為了滿足內部風險管理和外部監(jiān)管合規(guī)的需要。通過一系列信息相關的過程來實現(xiàn)決策權和職責分工的系統(tǒng)。

廣義的數(shù)據(jù)治理是對數(shù)據(jù)資產管理行使權力和控制的活動集合(規(guī)劃、監(jiān)控和執(zhí)行),指導其他數(shù)據(jù)管理職能如何執(zhí)行,在高層次上執(zhí)行數(shù)據(jù)管理制度。組織為實現(xiàn)數(shù)據(jù)資產價值最大化所開展的一系列持續(xù)工作過程,明確數(shù)據(jù)相關方的責權、協(xié)調數(shù)據(jù)相關方達成數(shù)據(jù)利益一致、促進數(shù)據(jù)相關方采取聯(lián)合數(shù)據(jù)行動。

最終目標是提升數(shù)據(jù)的價值,數(shù)據(jù)治理非常必要,是企業(yè)實現(xiàn)數(shù)字戰(zhàn)略的基礎,它是一個管理體系,包括組織、制度、流程、工具。

再來一種解釋:

數(shù)據(jù)治理(Data Governance)是指將數(shù)據(jù)作為企業(yè)資產而展開的一系列的具體化工作,是對數(shù)據(jù)的全生命周期管理。

我的理解:

數(shù)據(jù)治理從詞組組成上分數(shù)據(jù)和治理,治理有改革的意思。既然有改革,那么就需要有相關制度、流程、工具完成對數(shù)據(jù)的重新梳理、歸類,以滿足數(shù)據(jù)的使用要求。

數(shù)據(jù)治理的目標是提高數(shù)據(jù)質量(準確性和完整性),保證數(shù)據(jù)的安全性(保密性、完整性及可用性),實現(xiàn)數(shù)據(jù)資源在各組織機構部門的共享;推進信息資源的整合、對接、共享和綜合應用,從而提升企業(yè)管理水平,充分發(fā)揮信息化在經營管理中的作用。

數(shù)據(jù)治理相關制度、流程會引申出數(shù)據(jù)治理咨詢,如《數(shù)據(jù)治理組織架構及人才管理方案》、《數(shù)據(jù)治理實施路徑》、《數(shù)據(jù)應用場景實施路徑》、《元數(shù)據(jù)管理辦法及流程》、《數(shù)據(jù)標準管理辦法及流程》、《數(shù)據(jù)質量問題分析及整改方案》、《未來N年數(shù)據(jù)治理發(fā)展規(guī)劃》等;數(shù)據(jù)治理工具會引申出相關管理系統(tǒng),如元數(shù)據(jù)管理系統(tǒng)、數(shù)據(jù)安全系統(tǒng)、數(shù)據(jù)標準系統(tǒng)、數(shù)據(jù)質量系統(tǒng)等,一般偏向基于數(shù)據(jù)治理咨詢成果完成當期數(shù)據(jù)治理實施與落地。

1.8. 數(shù)據(jù)資產

數(shù)據(jù)資產(Data Asset)是指由企業(yè)擁有或者控制的,能夠為企業(yè)帶來未來經濟利益的,以物理或電子的方式記錄的數(shù)據(jù)資源,如文件資料、電子數(shù)據(jù)等。在企業(yè)中,并非所有的數(shù)據(jù)都構成數(shù)據(jù)資產,數(shù)據(jù)資產是能夠為企業(yè)產生價值的數(shù)據(jù)資源。

《GBT34960.5-2018 信息技術服務 治理 第5部分》給出的定義:組織擁有和控制的、能夠產生效益的數(shù)據(jù)資源。

2. 數(shù)據(jù)治理相關理論知識

2.1. 數(shù)據(jù)模型

數(shù)據(jù)模型(Data Model),經常簡稱為模型,是現(xiàn)實世界數(shù)據(jù)特征的抽象,用于描述一組數(shù)據(jù)的概念和定義。數(shù)據(jù)模型從抽象層次上描述了數(shù)據(jù)的靜態(tài)特征、動態(tài)行為和約束條件。數(shù)據(jù)模型所描述的內容有三部分:數(shù)據(jù)結構、數(shù)據(jù)操作(其中ER圖數(shù)據(jù)模型中無數(shù)據(jù)操作)和數(shù)據(jù)約束,形成數(shù)據(jù)結構的基本藍圖,也是企業(yè)數(shù)據(jù)資產的戰(zhàn)略地圖。數(shù)據(jù)模型按不同的應用層次分成主題域數(shù)據(jù)模型、概念數(shù)據(jù)模型、邏輯數(shù)據(jù)模型、物理數(shù)據(jù)模型四種類型。

主題域數(shù)據(jù)模型:簡稱主題域模型,是最高視角的規(guī)劃藍圖,是在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類,并進行分析利用的抽象。一般情況下主題域模型按業(yè)務、系統(tǒng)、部門等劃分。

概念數(shù)據(jù)模型:簡稱概念模型,是一種面向用戶、面向客觀世界的模型,主要用來描述現(xiàn)實世界的概念化結構,與具體的數(shù)據(jù)庫管理系統(tǒng)(DBMS,Database Management System)無關,一般只有實體集,聯(lián)系集的分析結構。

邏輯數(shù)據(jù)模型:簡稱邏輯模型,是一種以概念模型為基礎,根據(jù)業(yè)務條線、業(yè)務事項、業(yè)務流程、業(yè)務場景的需要,設計的面向業(yè)務實現(xiàn)的數(shù)據(jù)模型,一般包括具體的功能和處理信息。邏輯模型是面向DBMS的模型,用于指導在不同的DBMS系統(tǒng)中實現(xiàn)。邏輯數(shù)據(jù)模型常見形式有網(wǎng)狀數(shù)據(jù)模型、層次數(shù)據(jù)模型等。

物理數(shù)據(jù)模型:簡稱物理模型,是一種面向計算機物理表示的模型,描述了數(shù)據(jù)在儲存介質上的組織結構。物理模型的設計應基于邏輯模型的成果,以保證實現(xiàn)業(yè)務需求。它不但與具體的DBMS有關,而且還與操作系統(tǒng)和硬件有關,因此,在設計模型時需要考慮系統(tǒng)性能的相關要求。

2.2. 元模型&元數(shù)據(jù)

元模型(Meta Model)是關于模型的模型,是描述某一模型的規(guī)范,具體來說就是組成模型的元素和元素之間的關系。元模型是相對與模型的概念,離開了模型元模型就沒有了意義。

元數(shù)據(jù)(Metadata),又稱中介數(shù)據(jù)、中繼數(shù)據(jù),為描述數(shù)據(jù)的數(shù)據(jù)(data about data),主要是描述數(shù)據(jù)屬性(property)的信息,用來支持如指示存儲位置、歷史數(shù)據(jù)、資源查找、文件記錄等功能。元數(shù)據(jù)是關于數(shù)據(jù)的組織、數(shù)據(jù)域及其關系的信息,簡言之,元數(shù)據(jù)就是關于數(shù)據(jù)的數(shù)據(jù)。元數(shù)據(jù)按用途不同分為技術元數(shù)據(jù)、業(yè)務元數(shù)據(jù)、操作元數(shù)據(jù)、管理元數(shù)據(jù)。

數(shù)據(jù)模型、元模型、元數(shù)據(jù)之間的關系:模型是數(shù)據(jù)特征的抽象,是組建元模型的理論基礎。元模型是元數(shù)據(jù)的模型,是存儲元數(shù)據(jù)的數(shù)據(jù)模型,由于元數(shù)據(jù)的多樣性,因此不同類型及子類對應的元模型也不盡相同,需要根據(jù)具體的元數(shù)據(jù)進行設計。

  • 技術元數(shù)據(jù)

技術元數(shù)據(jù)(Technical Metadata):描述數(shù)據(jù)系統(tǒng)中技術領域相關概念、關系和規(guī)則的數(shù)據(jù);包括數(shù)據(jù)平臺內對象和數(shù)據(jù)結構的定義、源數(shù)據(jù)到目的數(shù)據(jù)的映射、數(shù)據(jù)轉換的描述等。

技術元數(shù)據(jù)如果細分,還可以分為結構性技術元數(shù)據(jù)和關聯(lián)性技術元數(shù)據(jù)。

結構性技術元數(shù)據(jù):結構性技術元數(shù)據(jù)提供了在信息技術的基礎架構中對數(shù)據(jù)的說明,如數(shù)據(jù)的存放位置、數(shù)據(jù)的存儲類型、數(shù)據(jù)的血緣關系等。

關聯(lián)性技術元數(shù)據(jù):描述了數(shù)據(jù)之間的關聯(lián)和數(shù)據(jù)在信息技術環(huán)境之中的流轉情況。技術元數(shù)據(jù)的范圍主要包括:技術規(guī)則(計算/統(tǒng)計/轉換/匯總)、數(shù)據(jù)質量規(guī)則技術描述、字段、衍生字段、事實/維度、統(tǒng)計指標、表/視圖/文件/接口、報表/多維分析、數(shù)據(jù)庫/視圖組/文件組/接口組、源代碼/程序、系統(tǒng)、軟件、硬件等。

在實踐中,技術元數(shù)據(jù)的采集的內容會根據(jù)不同數(shù)據(jù)庫做具體內容的調整,如關系數(shù)據(jù)庫常見的表、字段、存儲過程、函數(shù)、視圖,鍵值存儲數(shù)據(jù)庫就沒有視圖、存儲過程這種概念。

  • 業(yè)務元數(shù)據(jù)

描述數(shù)據(jù)系統(tǒng)中業(yè)務領域相關概念、關系和規(guī)則的數(shù)據(jù);包括業(yè)務術語、信息分類、指標、統(tǒng)計口徑等。從另一個維度來說,業(yè)務元數(shù)據(jù)是數(shù)據(jù)倉庫環(huán)境的關鍵元數(shù)據(jù),是用戶訪問時了解業(yè)務數(shù)據(jù)的途徑,內容來源包括多個方面:用例建模(Case Modeling)工具、控制數(shù)據(jù)庫、數(shù)據(jù)庫目錄和數(shù)據(jù)抽?。D換/加載的工具。

在實踐中,常見的數(shù)據(jù)指標、數(shù)據(jù)元素(數(shù)據(jù)元)、數(shù)據(jù)標簽、報表表頭等都屬于業(yè)務元數(shù)據(jù)。

  • 操作元數(shù)據(jù)

與元數(shù)據(jù)管理相關的組織、崗位、職責、流程,以及系統(tǒng)日常運行產生的操作數(shù)據(jù)。操作元數(shù)據(jù)管理的內容主要包括:與元數(shù)據(jù)管理相關的組織、崗位、職責、流程、項目、版本,以及系統(tǒng)生產運行中的操作記錄,如運行記錄、應用程序、運行作業(yè)。

簡單理解,操作元數(shù)據(jù)是描述數(shù)據(jù)處理過程的數(shù)據(jù)。

在實踐中,一般操作元數(shù)據(jù)主要存儲的數(shù)據(jù)是:數(shù)據(jù)ETL信息、數(shù)據(jù)加工處理策略數(shù)據(jù)信息、數(shù)據(jù)處理調度信息、數(shù)據(jù)處理異常信息等。

  • 管理元數(shù)據(jù)

描述了數(shù)據(jù)的管理屬性,包括管理部門、管理責任人等,通過明確管理屬性,有利于數(shù)據(jù)管理責任到部門和個人,是數(shù)據(jù)安全管理的基礎。常見的管理元數(shù)據(jù)包括:數(shù)據(jù)所有者、數(shù)據(jù)質量定責、數(shù)據(jù)安全等級等。

簡單理解,管理元數(shù)據(jù)是描述數(shù)據(jù)管理歸屬的數(shù)據(jù)。

在實踐中,一般管理元數(shù)據(jù)主要存儲的數(shù)據(jù)是:數(shù)據(jù)歸屬信息(業(yè)務歸屬、系統(tǒng)歸屬、運維歸屬、數(shù)據(jù)權限歸屬)、各個數(shù)據(jù)庫里面創(chuàng)建的用戶訪問庫\表\視圖\存儲過程等的權限信息(含數(shù)據(jù)安全信息)等。

2.3. 數(shù)據(jù)標準

數(shù)據(jù)標準(Data Standards)是指保障數(shù)據(jù)的內外部使用和交換的一致性和準確性的規(guī)范性約束。在數(shù)字化過程中,數(shù)據(jù)是業(yè)務活動在信息系統(tǒng)中的真實反映。由于業(yè)務對象在信息系統(tǒng)中以數(shù)據(jù)的形式存在,數(shù)據(jù)標準相關管理活動均需以業(yè)務為基礎,并以標準的形式規(guī)范業(yè)務對象在各信息系統(tǒng)中的統(tǒng)一定義和應用,以提升企業(yè)在業(yè)務協(xié)同、監(jiān)管合規(guī)、數(shù)據(jù)共享開放、數(shù)據(jù)分析應用等各方面的能力。

數(shù)據(jù)標準是一個從業(yè)務、技術、管理三方面達成一致的規(guī)范化體系,同時也是是建立一套符合自身實際,涵蓋定義、操作、應用多層次數(shù)據(jù)的標準化體系。它包括基礎類標準和指標類標準。

  • 基礎類數(shù)據(jù)標準

基礎類數(shù)據(jù)標準是為了統(tǒng)一組織所有業(yè)務活動相關數(shù)據(jù)的一致性和準確性,解決業(yè)務間數(shù)據(jù)一致性和數(shù)據(jù)整合,按照數(shù)據(jù)標準管理過程制定的數(shù)據(jù)標準。

基礎類數(shù)據(jù)標準主要的內容,包括數(shù)據(jù)元、代碼集、數(shù)據(jù)集、編碼規(guī)則。

數(shù)據(jù)元( Data Element),也稱為數(shù)據(jù)元素,是用一組屬性描述其定義、標識、表示和允許值的數(shù)據(jù)單元,在一定語境下,通常用于構建一個語義正確、獨立且無歧義的特定概念語義的信息單元。數(shù)據(jù)元可以理解為數(shù)據(jù)的基本單元,將若干具有相關性的數(shù)據(jù)元按一定的次序組成一個整體結構即為數(shù)據(jù)模型。對應的是數(shù)據(jù)元標準。

代碼集是用于說明信息基本數(shù)據(jù)集中數(shù)據(jù)元素的分類編碼。代碼基于某一個代碼集的分類編碼下的可排序數(shù)據(jù)集合,一般情況下代碼是無序的對象集合,包含唯一值CODE,和對應的值VALUE。為了擴展性,體現(xiàn)樹狀代碼模式,還會有父類CODE。由于代碼一詞在業(yè)務人員理解中會產生開發(fā)代碼的概念,有時候會將代碼集改成編碼集,對應的是編碼標準。

  • 指標類數(shù)據(jù)標準

指標類數(shù)據(jù)標準一般分為基礎指標標準和計算指標(又稱組合指標)?;A指標具有特定業(yè)務和經濟含義,且僅能通過基礎類數(shù)據(jù)加工獲得,計算指標通常由兩個以上基礎指標計算得出。

2.4. 數(shù)據(jù)質量

數(shù)據(jù)質量(Data Quality)是保證數(shù)據(jù)應用效果的基礎,是描述數(shù)據(jù)價值含量的指標。

衡量數(shù)據(jù)質量的指標體系有很多,典型的指標有:完整性(數(shù)據(jù)是否缺失)、規(guī)范性(數(shù)據(jù)是否按照要求的規(guī)則存儲)、一致性(數(shù)據(jù)的值是否存在信息含義上的沖突)、準確性(數(shù)據(jù)是否錯誤)、唯一性(數(shù)據(jù)是否是重復的)、時效性(數(shù)據(jù)是否按照時間的要求進行上傳)。

通常從技術方面、業(yè)務方面、管理方面尋找數(shù)據(jù)質量問題。

  • 技術方面

在技術方面,一般從數(shù)據(jù)庫表設計、數(shù)據(jù)生產、數(shù)據(jù)采集、數(shù)據(jù)傳輸、數(shù)據(jù)裝載、數(shù)據(jù)存儲整個數(shù)據(jù)生命周期的各個環(huán)點尋找數(shù)據(jù)質量問題。

數(shù)據(jù)庫表設計環(huán)節(jié):在業(yè)務系統(tǒng)建設時對表結構、字段約束、數(shù)據(jù)校驗規(guī)則的設計不合理,造成數(shù)據(jù)錄入無校驗或校驗不當,引起數(shù)據(jù)重復、不準確、不完整等。

數(shù)據(jù)生產環(huán)節(jié):指業(yè)務系統(tǒng)產生生產數(shù)據(jù),在業(yè)務系統(tǒng)中未控制數(shù)據(jù)寫入權限、對數(shù)據(jù)收集頁面未做數(shù)據(jù)校驗、對數(shù)據(jù)重復提交未做限制、數(shù)據(jù)之間的邏輯未做控制等引發(fā)數(shù)據(jù)重復、不準確、不一致等。各個業(yè)務系統(tǒng)通用或者依賴數(shù)據(jù)未做統(tǒng)一的管理,各業(yè)務系統(tǒng)各自為政,煙囪式建設系統(tǒng),導致系統(tǒng)之間的數(shù)據(jù)不一致。

數(shù)據(jù)采集環(huán)節(jié):數(shù)據(jù)通過API、DB Link等方式獲取數(shù)據(jù),在采集點、采集頻率、采集內容、映射關系、采集參數(shù)和流程設置的不合理,導致數(shù)據(jù)采集效率低下、采集失敗、數(shù)據(jù)丟失、數(shù)據(jù)映射與轉換失敗等問題。

數(shù)據(jù)傳輸環(huán)節(jié):網(wǎng)絡不可控、數(shù)據(jù)傳輸過程中未加密,造成數(shù)據(jù)傳輸環(huán)節(jié)數(shù)據(jù)被篡改、丟失引發(fā)的數(shù)據(jù)質量問題。

數(shù)據(jù)加工環(huán)節(jié):指通過ETL、數(shù)據(jù)開發(fā)等方式,在編制數(shù)據(jù)清洗規(guī)則、數(shù)據(jù)轉換規(guī)則、數(shù)據(jù)裝載規(guī)則時,未做合理的限制、驗證等方式,造成數(shù)據(jù)重復、映射錯誤等問題。

數(shù)據(jù)存儲環(huán)節(jié):數(shù)據(jù)存儲區(qū)設置不合理、人為在數(shù)據(jù)存儲上調整數(shù)據(jù),引發(fā)數(shù)據(jù)丟失、無效、失真、重復等問題。

  • 業(yè)務方面

在業(yè)務方面,由于需求不清晰、需求頻繁變更、數(shù)據(jù)輸入格式不規(guī)范、數(shù)據(jù)造假造成數(shù)據(jù)質量問題。

需求不清晰:業(yè)務規(guī)則、業(yè)務流程、業(yè)務采集信息項不清晰,影響設計環(huán)節(jié)構建的數(shù)據(jù)模型不合理,進而引發(fā)數(shù)據(jù)生產環(huán)節(jié)數(shù)據(jù)質量問題。

需求頻繁變更:一般也是由于需求不清晰導致需求變更頻繁,影響數(shù)據(jù)在技術層面所有環(huán)節(jié),在頻繁變更的情況下,稍有疏忽或者設計不合理或者數(shù)據(jù)遷移邏輯錯誤,導致數(shù)據(jù)質量問題頻繁發(fā)生,且不好治理。

數(shù)據(jù)輸入格式不規(guī)范:一般主要針對大范圍內容數(shù)據(jù)的輸入場景,由于輸入內容的大小寫、全半角、特殊字符未留心注意,造成數(shù)據(jù)失真、數(shù)據(jù)丟失等問題。

數(shù)據(jù)造假:操作人員為了提高或降低考核指標,亦或是快速完成相關數(shù)據(jù)收集工作,對一些數(shù)據(jù)在錄入時進行了處理,使得數(shù)據(jù)真實性無法滿足質量要求。

  • 管理方面

在管理方面,主要是對數(shù)據(jù)質量認知薄弱,沒有或者未履行數(shù)據(jù)質量制度,數(shù)據(jù)認責、數(shù)據(jù)考核機制匱乏,導致數(shù)據(jù)管理方面缺失引發(fā)的數(shù)據(jù)質量問題。

數(shù)據(jù)質量認知:沒有認識到數(shù)據(jù)質量的重要性,關注系統(tǒng)建設缺少對數(shù)據(jù)生產的關注,認為系統(tǒng)是萬能的,數(shù)據(jù)質量差些也沒關系。

數(shù)據(jù)質量制度:數(shù)據(jù)質量問題從輸入、發(fā)現(xiàn)、指派、處理、優(yōu)化沒有一個統(tǒng)一的流程和制度支撐,造成數(shù)據(jù)生產時數(shù)據(jù)不規(guī)范、數(shù)據(jù)丟失、數(shù)據(jù)沖突等問題,接下來的數(shù)據(jù)發(fā)現(xiàn)、指標、處理、優(yōu)化也沒有控制和管理,出現(xiàn)數(shù)據(jù)問題也沒有相應的數(shù)據(jù)認責、考核機制做到行為約束,導致整個數(shù)據(jù)質量問題沒有形成閉環(huán)。

影響數(shù)據(jù)質量也可以從客觀因素和主觀因素分析。在數(shù)據(jù)各環(huán)節(jié)流轉中,由于系統(tǒng)異常和流程設置不當?shù)瓤陀^因素,引起的數(shù)據(jù)質量問題。在數(shù)據(jù)各環(huán)節(jié)處理中,由于人員數(shù)據(jù)意識低和管理缺陷等主觀因素,造成操作不當而引起的數(shù)據(jù)質量問題。

2.5. 數(shù)據(jù)交換

數(shù)據(jù)交換(Data Switching)在基于數(shù)據(jù)中臺、數(shù)據(jù)倉庫、數(shù)據(jù)治理場景下,不是指基于多個數(shù)據(jù)終端設備(DTE)之間,為任意兩個終端設備建立數(shù)據(jù)通信臨時互連通路的過程;而是指將分散建設的若干應用信息系統(tǒng)中的數(shù)據(jù)進行整合,使若干個應用子系統(tǒng)進行信息/數(shù)據(jù)的傳輸及共享,提高信息資源的利用率,成為進行信息化建設的基本目標,保證分布異構系統(tǒng)之間互聯(lián)互通。

簡單理解,當前的數(shù)據(jù)交換主要將應用系統(tǒng)產生的數(shù)據(jù),通過數(shù)據(jù)卸數(shù)、數(shù)據(jù)裝數(shù)完成異構數(shù)據(jù)庫(源)之間的互聯(lián)互通。常見的數(shù)據(jù)交換模式有庫到庫、庫到文件、文件到庫、文件到文件。

2.6. 數(shù)據(jù)服務

數(shù)據(jù)服務(Data Service)是將全企業(yè)級的數(shù)據(jù)提供服務能力,通過服務化包裝,以服務接口的方式對業(yè)務系統(tǒng)提供數(shù)據(jù)。

數(shù)據(jù)服務除了將原來散布各處的數(shù)據(jù)服務整合,實現(xiàn)數(shù)據(jù)服務的統(tǒng)一對接及出口,也可以支持基于數(shù)據(jù)服務配置數(shù)據(jù)API,通過統(tǒng)一接入統(tǒng)一管理的方式,實現(xiàn)全企業(yè)級數(shù)據(jù)服務的發(fā)布、申請、對接調用、鑒權、監(jiān)控、限流管控,從而實現(xiàn)數(shù)據(jù)服務的統(tǒng)一管控。

數(shù)據(jù)服務是從系統(tǒng)應用層面為數(shù)據(jù)使用方提供安全、統(tǒng)一的數(shù)據(jù)。

2.7. 數(shù)據(jù)生命周期

任何事物都具有一定的生命周期,數(shù)據(jù)也不例外。數(shù)據(jù)生命周期(Data Life Cycle)是從數(shù)據(jù)的產生、加工、使用乃至消亡,基于有一個科學的管理辦法,將極少或者不再使用的數(shù)據(jù)從系統(tǒng)中剝離出來,并通過核實的存儲設備進行保留,不僅能夠提高系統(tǒng)的運行效率,更好的服務客戶,還能大幅度減少因為數(shù)據(jù)長期保存帶來的儲存成本。

數(shù)據(jù)生命周期一般包含在線階段、歸檔階段(有時還會進一步劃分為在線歸檔階段和離線歸檔階段)、銷毀階段三大階段,管理內容包括建立合理的數(shù)據(jù)類別,針對不同類別的數(shù)據(jù)制定各個階段的保留時間、存儲介質、清理規(guī)則和方式、注意事項等。

2.8. 數(shù)據(jù)開發(fā)

數(shù)據(jù)開發(fā)(Data Development)指圍繞數(shù)據(jù)全生命周期打造全流程統(tǒng)一標準化的工具能力,對數(shù)據(jù)模型設計、數(shù)據(jù)加工處理程序開發(fā)、測試、上線等進行統(tǒng)一管理的活動。一般情況下,數(shù)據(jù)開發(fā)包含離線開發(fā)和實時開發(fā)。

離線開發(fā),又叫做離線數(shù)據(jù)開發(fā),指通過編制數(shù)據(jù)加工表達式處理昨天或者更久前的數(shù)據(jù),時間單位通常是天、小時。

實時開發(fā),又叫做實時數(shù)據(jù)開發(fā),處理即時收到數(shù)據(jù),時效主要取決于傳輸和存儲速度,時間單位通常是秒、毫秒。

2.9. 數(shù)據(jù)安全

數(shù)據(jù)安全(Data Security)為數(shù)據(jù)處理系統(tǒng)建立和采用的技術和管理的安全保護,保護計算機硬件、軟件和數(shù)據(jù)不因偶然和惡意的原因遭到破壞、更改和泄露。由此計算機網(wǎng)絡安全可以理解為:通過采用各種技術和管理措施,使網(wǎng)絡系統(tǒng)正常運行,從而確保網(wǎng)絡數(shù)據(jù)的可用性、完整性和保密性。

數(shù)據(jù)分類目錄,又稱數(shù)據(jù)目錄,指根據(jù)組織數(shù)據(jù)的屬性或特征,將其按照一定的原則和方法進行區(qū)分和歸類,并建立起一定的分類體系和排列順序,以便更好地管理和使用組織數(shù)據(jù)的過程。

數(shù)據(jù)目錄是數(shù)據(jù)保護工作中的一個關鍵部分,是建立統(tǒng)一、準確、完善的數(shù)據(jù)架構的基礎,是實現(xiàn)集中化、專業(yè)化、標準化數(shù)據(jù)管理的基礎,也是數(shù)據(jù)資產盤點重要的依賴數(shù)據(jù)。

一文詳解數(shù)據(jù)治理、數(shù)據(jù)資產相關理論概念

圖2 數(shù)據(jù)分類(示例)

數(shù)據(jù)分級,又稱敏感等級,是指在數(shù)據(jù)分類的基礎上,采用規(guī)范、明確的方法區(qū)分數(shù)據(jù)的重要性和敏感度差異,按照一定的分級原則對其進行定級,從而為組織數(shù)據(jù)的開放和共享安全策略制定提供支撐的過程。

一文詳解數(shù)據(jù)治理、數(shù)據(jù)資產相關理論概念

圖 3 基于《金融數(shù)據(jù)安全分級指南》梳理數(shù)據(jù)等級(示例)

?靜態(tài)脫敏,是將數(shù)據(jù)抽取進行脫敏處理后,下發(fā)至測試庫,脫敏后的數(shù)據(jù)與生產環(huán)境隔離,滿足業(yè)務需要的同時保障生產數(shù)據(jù)庫的安全。靜態(tài)脫敏是不可逆的動作,可以概括為數(shù)據(jù)的“搬移并仿真替換”。

動態(tài)脫敏,是基于脫敏規(guī)則,對敏感數(shù)據(jù)的查詢和調用結果進行實時脫敏,確保返回數(shù)據(jù)可用性和安全性。動態(tài)脫敏可以概括為“邊脫敏,邊使用”。

3. 數(shù)據(jù)資產相關理論知識

3.1. 業(yè)務數(shù)據(jù)

業(yè)務數(shù)據(jù)(Business Data)是業(yè)務處理過程中或事物處理所產生的數(shù)據(jù),也稱交易數(shù)據(jù)。業(yè)務數(shù)據(jù)生成主要有三種情況:一、業(yè)務交易過程中產生的數(shù)據(jù),例如:計劃單、銷售單、生產單、采購單等,這部分數(shù)據(jù)多數(shù)人為產生;二、系統(tǒng)產生的數(shù)據(jù),包括,硬件運行狀況、軟件運行狀況、資源消耗狀況、應用使用狀況、接口調用狀況、服務健康狀況等;三、自動化設備所產生的數(shù)據(jù),IOT物聯(lián)網(wǎng)的各類設備運行數(shù)據(jù)、生產采集數(shù)據(jù)等等。不論來源何處,這里數(shù)據(jù)有一個共同的特點就是時效性強、響應高、數(shù)據(jù)量大。

3.2. 主數(shù)據(jù)

主數(shù)據(jù)(Master Data)是指用來描述企業(yè)核心業(yè)務實體的數(shù)據(jù),是企業(yè)核心業(yè)務對象、交易業(yè)務的執(zhí)行主體。是在整個價值鏈上被重復、共享應用于多個業(yè)務流程的、跨越各個業(yè)務部門和系統(tǒng)的、高價值的基礎數(shù)據(jù),是各業(yè)務應用和各系統(tǒng)之間進行數(shù)據(jù)交互的基礎。從業(yè)務角度,主數(shù)據(jù)是相對“固定”的,變化緩慢。主數(shù)據(jù)是企業(yè)信息系統(tǒng)的神經中樞,是業(yè)務運行和決策分析的基礎。例如客戶、企業(yè)組織機構和員工、產品、渠道、科目等。

3.3. 數(shù)據(jù)價值

數(shù)據(jù)價值(Data Value)是對數(shù)據(jù)內在價值的度量,可以從數(shù)據(jù)成本和數(shù)據(jù)應用價值兩方面來開展。數(shù)據(jù)成本一般包括采集、存儲和計算的費用(人工費用、IT設備等直接費用和間接費用等)和運維費用(業(yè)務操作費、技術操作費等)。數(shù)據(jù)應用價值主要從數(shù)據(jù)的分類、使用頻次、使用對象、使用效果和共享流通等方面計量。

3.4.資產目錄

數(shù)據(jù)資產目錄(Data Asset Catalog),簡稱資產目錄,是指對數(shù)據(jù)中有價值、可用于分析和應用的數(shù)據(jù)進行提煉形成的目錄體系。編制數(shù)據(jù)資產目錄主要是建立業(yè)務場景和數(shù)據(jù)資源的關聯(lián)關系,降低理解系統(tǒng)數(shù)據(jù)的門檻。

4. 相關關系

4.1. 數(shù)據(jù)管理&數(shù)據(jù)治理&數(shù)據(jù)資產的關系

數(shù)據(jù)管理包含數(shù)據(jù)治理,“治理是整體數(shù)據(jù)管理的一部分”這個概念目前已經得到了業(yè)界的廣泛認同。數(shù)據(jù)管理包含多個不同的領域,其中一個最顯著的領域就是數(shù)據(jù)治理。數(shù)據(jù)資產是在數(shù)據(jù)治理的基礎上,核心是如何實現(xiàn)數(shù)據(jù)價值,體現(xiàn)數(shù)據(jù)價值,完成數(shù)據(jù)賦能。數(shù)據(jù)管理、數(shù)據(jù)治理、數(shù)據(jù)資產管理三者關系如圖所示。

一文詳解數(shù)據(jù)治理、數(shù)據(jù)資產相關理論概念

?圖 4 數(shù)據(jù)管理、數(shù)據(jù)治理、數(shù)據(jù)資產管理三者關系

4.2.數(shù)據(jù)治理框架

GB/T34960《信息技術服務治理》第5部分提到,數(shù)據(jù)治理框架包含頂層設計、數(shù)據(jù)治理環(huán)境、數(shù)據(jù)治理域和數(shù)據(jù)治理過程四大部分。

一文詳解數(shù)據(jù)治理、數(shù)據(jù)資產相關理論概念

圖 5 數(shù)據(jù)治理框架

??頂層設計包含數(shù)據(jù)相關的戰(zhàn)略規(guī)劃、組織構建和架構設計,是數(shù)據(jù)治理實施的基礎。數(shù)據(jù)治理環(huán)境包含內外部環(huán)境及促成因素,是數(shù)據(jù)治理實施的保障。數(shù)據(jù)治理域包含數(shù)據(jù)管理體系和數(shù)據(jù)價值體系,是數(shù)據(jù)治理實施的對象。數(shù)據(jù)治理過程包含統(tǒng)籌和規(guī)劃、構建和運行、監(jiān)控和評價以及改進和優(yōu)化,是數(shù)據(jù)治理實施的方法。

在數(shù)據(jù)治理域中,數(shù)據(jù)管理體系主要組織應圍繞數(shù)據(jù)標準、數(shù)據(jù)質量、數(shù)據(jù)安全、元數(shù)據(jù)管理和數(shù)據(jù)生存周期等,開展數(shù)據(jù)管理體系的治理,至少包括:a) 評估數(shù)據(jù)管理的現(xiàn)狀和能力,分析和評估數(shù)據(jù)管理的成熟度;b) 指導數(shù)據(jù)管理體系治理方案的實施,滿足數(shù)據(jù)戰(zhàn)略和管理要求;c) 監(jiān)督數(shù)據(jù)管理的績效和符合性,并持續(xù)改進和優(yōu)化。

數(shù)據(jù)價值體系主要組織應圍繞數(shù)據(jù)流通、數(shù)據(jù)服務和數(shù)據(jù)洞察等,開展數(shù)據(jù)資產運營和應用的治理,至少包括:a) 評估數(shù)據(jù)資產的運營和應用能力,支撐數(shù)據(jù)價值轉化和實現(xiàn);b) 指導數(shù)據(jù)價值體系治理方案的實施,滿足數(shù)據(jù)資產的運營和應用要求;c) 監(jiān)督數(shù)據(jù)價值實現(xiàn)的績效和符合性,并持續(xù)改進和優(yōu)化。

4.3.數(shù)據(jù)治理&數(shù)據(jù)資產&數(shù)據(jù)的關系

從數(shù)據(jù)層面來看,數(shù)據(jù)體系包括治理、管理和應用三個部分。治理是負責解決人與人、人與數(shù)據(jù)之間的事,管理負責各個職能領域,應用則是數(shù)據(jù)價值的實現(xiàn)。根據(jù)這三個維度,數(shù)據(jù)治理重點在治理,一般包含數(shù)據(jù)治理咨詢和數(shù)據(jù)治理實施,是數(shù)據(jù)在治理與管理的結合;數(shù)據(jù)資產偏重的是資產,一般重點體現(xiàn)數(shù)據(jù)的價值和數(shù)據(jù)的應用,基于數(shù)據(jù)資產盤點及價值分析,展示數(shù)據(jù)資產的價值和提供數(shù)據(jù)應用。

或者說,數(shù)據(jù)治理是在高層次上執(zhí)行數(shù)據(jù)管理制度,對數(shù)據(jù)行使權力和控制的活動集合(規(guī)劃、監(jiān)控和執(zhí)行),數(shù)據(jù)資產重點是發(fā)現(xiàn)數(shù)據(jù)價值,通過提供數(shù)據(jù)應用的能力助力企業(yè)發(fā)展、提升企業(yè)運營能力。

數(shù)據(jù)是企業(yè)信息化的原料,數(shù)據(jù)治理是企業(yè)信息化的基石,數(shù)據(jù)資產基于數(shù)據(jù)治理的數(shù)據(jù),挖掘數(shù)據(jù)價值,通過數(shù)據(jù)運營、數(shù)據(jù)分析的手段,為企業(yè)賦能,助力企業(yè)信息化的騰飛。

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多