摘要開放數據集的數據質量存在不確定性,這對其可能產生的價值構成威脅?,F有的數據質量管理方法通?;诮M織內部的數據集,具有已知的元數據和數據語義的相關領域知識,然而用戶對開發(fā)數據不熟悉且缺乏元數據。本研究報告的目的是概述處理開放數據集的數據質量所面臨的挑戰(zhàn),并為未來的研究制定計劃,以解決這一風險,從開放數據投資中獲取價值。 1. 引言開放數據是政府、組織、研究人員等免費提供的數據,可以沒有版權限制地供任何人使用。過去數年間公開數據集的增加和數據市場的出現為政府、企業(yè)和企業(yè)家提供了前所未有的機會,他們可以利用數據的力量獲得經濟、社會和科學收益。數據驅動型創(chuàng)新可以通過開放數據實現經濟和社會收益。 雖然開放數據競賽已經在初創(chuàng)企業(yè)和應用程序方面取得了一些成功,但也有一些證據表明開放數據集的價值仍然未被完全開發(fā), 這主要是因為使用數據前缺乏對數據質量特征的了解。此外,元數據和數據集的潛在數據質量是有缺陷的。比如,許多開放數據集的數據有重復、不一致和缺失的情況,并且通常缺少易于訪問的模式描述。案例有MusicBranz.org開放數據集,它由324個無模式CSV文件組成,數據量為35.1GB。由對開放數據集的分析表明開放數據中存在許多此類問題。比如,在公共交通數據中,公交車站名稱的數據一致性較低,這嚴重影響需要分組或搜索車站名稱的數據的使用,例如時間表和交通監(jiān)控。類似地,如圖1所示,美國槍支犯罪者數據庫中可以找出若干個數據質量問題。 數據集的價值一定是與數據的潛在質量有關的,但它們在概念上是不同的。例如,一份完整準確的亞洲所有國家名單可能沒有太大價值。然而,來自公共交通工具的不完整和嘈雜的GPS數據可能對交通工程師和城市規(guī)劃者有很高的感知價值。在處理如此龐大和未知的數據集時,用戶可能會經歷很長的查詢處理時間,并在此過程中意識到獲得的結果質量很差。或者,用戶可能沒有意識到數據質量不夠,從而影響根據查詢結果做出的任何后續(xù)決策。 盡管存在這些問題,越來越多的人傾向于將大量的外部和內部數據收集到所謂的數據池中,這些數據池通常被稱為企業(yè)數據管理平臺,用于存儲、組織和分析來自多個不同來源(包括開放數據源)的數據。盡管人們對大數據現象的興趣越來越高,但多年的信息系統(tǒng)使用研究經驗表明,“更多使用更好”的假設顯然不正確。隨著開放數據集和數據源數量以指數級的速度持續(xù)增長,這給數據消費者留下大量未經探索、不熟悉的數據集,他們可能會也可能不會產生有價值的見解。因此,各組織開始面臨“暗數據”綜合癥,很大一部分信息資產未得到充分利用。如果沒有科學可靠的知識能夠有效地評估數據的基本質量特征,組織和政府將積累大量低價值的數據、落入分析陷阱,投資ROI值(投資回報率)低的數據風險很大。 在本文中,我們首先概述了數據質量評估的最新進展,強調了應用這些技術評估開放數據空間中具有典型特征的數據集的質量所面臨的挑戰(zhàn),并思考這些挑戰(zhàn)如何破壞從開放數據使用中產生價值的能力,提出未來研究的計劃,以便對開放數據的“使用質量”動態(tài)進行必要的了解。 2. 數據質量評估研究人員和從業(yè)者已經對數據質量進行了廣泛的研究。數據質量維度如準確性、完整性、一致性,是數據質量定義和測量的基本概念。在大多數(如果不是全部的)數據質量管理項目中,評估數據集的質量是一項基本任務。數據質量通常根據特定的要求進行評估。過去20年的數據質量研究都是基于這一適用性的基本原則。因此現有的數據質量管理方法自然是自上而下的,其中,數據質量要求是根據充分理解的使用要求以自上而下的方式確定的,并使用良好的數據治理實踐加以實施。 Batini等人(2009)對現有的數據質量評估和需求識別方法進行了全面分析,認為這些方法通常包括三個核心方面:數據和過程分析,數據質量需求分析,數據質量分析。數據和流程分析包括檢查數據模式、進行訪談和與數據用戶會面,以完全了解數據、相關約束和規(guī)則,以及創(chuàng)建或使用數據的流程。數據質量需求分析通常包括對數據用戶和管理員的調查,以確定質量問題,旨在確定關鍵數據集、定義數據質量度量和設置質量目標。數據集探索、評估和分析一般根據定義好的數據質量度量進行,然后數據質量分析與這些活動相關。 對數據質量評估和需求識別的顯著貢獻有如下這些:Lee.Strong、Kahn和Wang提出了一種由PSP/IQ模型(信息質量的產品和服務性能模型)、信息質量評估(IQA)方法和信息質量(IQ)差距分析技術三個部分組成的數據質量評估和改進方法,通過用戶調查對信息質量進行評估。同樣,Naumann和Rolker提出了一種基于IQ分數來源的新的IQ標準分類,即對用戶、數據源和評估信息的查詢過程的感知。評估方法中,個人用戶的體驗和他們對某些標準的理解都是主觀的。例如,“可解釋性”和“簡要表達”標準都是“用戶抽樣”的評估方法。然而在某些應用的上下文中,簡要表達受到行業(yè)規(guī)則的約束,因此數據的可解釋性程度取決于單個用戶的感知。 很明顯,這些方法中的大多數(如果不是全部)都遵循以用戶為中心、自上而下的方法,在這些方法中,探索數據之前要先從用戶那里獲得需求。這種方法涵蓋了很多方面,但一定要與特定公司的組織設置和數據治理環(huán)境綁定在一起,使它們對外部不熟悉的數據集的評估無效。在當前的數據環(huán)境中,用戶面臨著新的、未開發(fā)的、潛在的大型數據集,這些數據集可以說具有相關性和對業(yè)務的感知價值。在這種情況下,應用自上而下的方法是不可行的。用戶需要獲得探索性功能的授權,這將允許他們調查數據集的質量,并自然而然地調查其使用的影響?,F有的兩個領域考慮了自下而上的數據質量評估方法——數據探查和數據剖析。 過去十多年間有很多關于數據探查的研究用統(tǒng)計方法揭露了數據的事實。通過這些事實來制定質量標準,進而評估質量,再通過數據清理提高數據質量。Dasu和Johnson(2003)提供了一份當時數據勘探統(tǒng)計方法的綜合清單,盡管他們強調了將這些方法用于數據質量問題檢測的可能性,但對任意數據集探索方法或指南仍然很缺乏。 數據剖析是數據探查的一個相關概念,它具有重要的商業(yè)工具市場。Gartner(Friedman,2013)估計,到2012年底,該市場的收入達到9.6億美元。大約50%的市場由幾家大型的成熟供應商主導,如IBM、Informatica、Pitney Bowes、SAP和SAS。剩下的50%被分配給了大量的供應商,包括Microsoft、Oracle、Talend、Ataccama、Human Inference和Experian QAS等等。這些剖析工具集中關注很多功能,包括數據的分布統(tǒng)計分析、冗余檢查、故障檢測、功能依賴性分析、列相關性分析、有效性檢查等。這些工具通常不附帶如何將剖析報告用于確定可操作的數據質量要求的指南。 雖然根據特定維度,比如數據質量剖析(Abedjan, Golab, & Naumann, 2015)、統(tǒng)計方法(Dasu & Johnson, 2003)以及通過發(fā)現數據依賴性約束 (Fan & Geerts, 2012)來評估數據質量來進行數據質量測量的研究已經有了一些成果,但這些解決方案僅針對特定的維度(如一致性或新鮮度),只根據一個維度不足以準確完整地描述跨越大量維度的整個數據的質量(Jayawardene et al., 2013)。此外,這些解決方案通常以數據分布(Dasu&Johnson,2003年)、閾值(Song&Chen,2011年)和概率(K_hler,Link,&Zhou,2015年)等與某些元數據的可用性相關假設為基礎,這些假設可能不適用于開放數據集。 3. The need for change以前有很多成功的評估并有效地將數據用于商業(yè)結果的方法,開放式數據的創(chuàng)建、訪問和使用的特定設置會使許多方法不可用。然而,“垃圾進,垃圾出”這句古老的格言仍然存在重大的風險,對有效使用開放數據實現創(chuàng)新和提高生產力方面有負面影響或令人望而卻步的延遲。我們認為,要實現信息社會開放數據的價值主張,就必須把注意力集中在三個關鍵的研究領域。 3.1. Shared understanding of data quality dimensions 最近有幾項研究分析了選定開放數據集的數據質量,盡管數據質量維度和指標不同 (Rekatsinas, Dong, Getoor, & Srivastava, 2015),他們指出了與上文所寫類似的問題。評估數據質量之前,其在上下文中的使用在很大程度上是未知的,需要有用通用的方式聲明要評估的數據質量維度的能力。盡管數據質量維度的概念是非?;A的,但有證據表明,在幾十年的數據質量研究中,基本定義已經有了很多重疊和矛盾,從而對在通用級別上對數據質量維度進行推理產生障礙。Jayawardene et al. (2013) 已經將來自學術界、從業(yè)者和產業(yè)界的大量定義整合到了一個由廣泛的使用案例和示例庫(來源于學術界和產業(yè)界文獻)支持的33種數據質量模式(Sadiq, Jayawardene, &Indulska, 2015) 的庫中,并對其完整性和應用性進行了驗證。盡管綜合的數據質量維度對過去20年的數據質量研究和實踐進行了統(tǒng)一,但在數據提供者和消費者組成的龐大而多樣的群體中發(fā)展共同理解仍然是一項重要的工作。對如何定義數據質量以及如何使用數據質量進行推理缺乏共同理解,會妨礙協同處理開放數據社區(qū)內零碎和孤立的行為的數據質量的工作。此外,我們初步的研究工作表明,人們對各種國際開放數據門戶數據集中數據質量問題的規(guī)模和影響缺乏了解。因此,我們認為在努力解決問題之前需要進行一項全球研究,使用一致的比較基準,以探索問題的嚴重程度。 3.2對質量感知的支持 使用開放數據相關的最大風險之一是對數據的固有質量缺乏認識。人們使用開放數據的目的經常與搜集數據時的計劃不一樣,因此一個數據集對實現某一個目的來說質量可能是足夠好的,但它不一定適合完成另一個目的。開放數據的消費者通常不是生產者,因此沒有明確的數據清理策略,而這通常會導致錯誤的數據處理和轉換方式 (Arocena et al., 2016)。因此,開放數據的消費者可能會投入大量精力,想從數據中產生有價值的結果,但最后只能得到不充分的結果,或者他們甚至可能沒有意識到數據本身的質量很差,并且依據錯誤的結果做出判斷。我們認為,迫切需要一些探索性的工具和方法讓用戶了解在其期望的用途方面數據的缺點。已經有一些質量感知的查詢系統(tǒng) (Yeganeh et al., 2014)、探索和可視化方法 (Ehsan, Sharaf, & Chrysanthis, 2016)和理解數據和模式屬性(Kruse, Papenbrock, Harmouch, & Naumann, 2016)的方法被開發(fā)出來了。然而,在向用戶提供足夠的質量感知支持之前,技術和經驗研究人員仍面臨許多公開的挑戰(zhàn)。 3.3加強“質量-使用”關系 數據質量、使用意圖和數據的有效使用之間的關系在學術文獻中還未被探索。我們認為,有必要進行理論開發(fā)和經驗測試,以確定影響開放數據使用有效性的環(huán)境和因素,進而從開放數據中獲得價值。探索這些因素的研究將為實際的開放數據項目提供有價值的指導。雖然最近的一些工作涉及信息系統(tǒng)環(huán)境中的有效使用(Burton Jones & Grange, 2012),但它們的重點是系統(tǒng)而不是數據的有效使用。這些系統(tǒng)還包含組織所知的數據,而不是開放(不熟悉)的數據,因此,目前關于信息系統(tǒng)環(huán)境有效使用的理論無法解釋開放數據的有效使用。 4結論在本文中,出于缺乏理解、甚至沒有能力理解可用開放數據潛在的質量,我們對其數量提出了質疑,我們概述了三個需要研究和開發(fā)的領域,以進一步構建有效使用開放數據的知識體系。這些挑戰(zhàn)需要跨研究社區(qū)的信息系統(tǒng)、計算機科學、統(tǒng)計學、社會科學和商業(yè),以及管理開放數據的機構等等跨學科團隊的支持。 致謝此文由南京大學軟件學院18級碩士嚴格翻譯轉述。 參考文獻Abedjan, Z., Golab, L., & Naumann, F. (2015). Profiling relational data: A survey. The VLDB Journal The International Journal on Very Large Data Bases, 24(4), 557–581. Abiteboul, S., Dong, L., Etzioni, O., Srivastava, D., Weikum, G., Stoyanovich, J., et al.(2015). The elephant in the room: Getting value from Big Data. Proceedings of the 18th international workshop on web and databases. Arocena, P. C., Glavic, B., Mecca, G., Miller, R. J., Papotti, P., & Santoro, D. (2016). Benchmarking data curation systems. IEEE Data Engineering Bulletin, 39(2), 47–62, 2016. Batini, C., Cappiello, C., Francalanci, C., & Maurino, A. (2009). Methodologies for data quality assessment and improvement. ACM Computing Surveys (CSUR), 41(3), 16. Belkin, R., & Patil, D. J. (2016). Everything we wish we’d known about building data products (Accessed 16 February). http:///review/everything-we-wish-wed-known-about- building-data-products/ Burton-Jones, A., & Grange, C. (2012). From use to effective use: A representation theory perspective. Information Systems Research, 24(3), 632–658. Curry, M. (2010). The value density of information.. September 14, (Accessed 16 February 2016). https://mikecurr55./2010/09/14/the-value-density-of-information/ DATA.GOV. (2015). Gun offenders. December 17. http://catalog./dataset/gun-offenders Dasu, T., & Johnson, T. (2003). . Exploratory data mining and data cleaning (Vol. 479)John Wiley & Sons. Duus, R., & Cooray, M. (2016). The future will be built on open data – Here’s why..February 6, (Accessed February 16). http:///the-future-will-be-built-on-open-data-heres- why-52785 Ehsan, H., Sharaf, M. A., & Chrysanthis, P. K. (2016). MuVE: Efficient multi-objective view recommendation for visual data exploration. ICDE. Elbaz, G. (2012). Data markets: The emerging data economy.. September 30, (Accessed 16 February). http:///2012/09/30/data-markets-the-emerging-data-economy/English, L. P. (2009). Information quality applied: Best practices for improving Business information processes and systems. Wiley Publishing. Fan, W., & Geerts, F. (2012). Foundations of data quality management. Synthesis Lectures on Data Management, 4(5), 1–217. Friedman, T. (2013). Magic quadrant for data quality tools. Gartner Group. ISO. (2011). ISO/TS 8000-1 Data quality part 1: Overview. ISO. Jayawardene, V., Sadiq, S., & Indulska, M. (2013). The curse of dimensionality in data quality. ACIS 2013: 24th Australasian conference on information systems. Johnston, H. R., & Carrico, S. R. (1988). Developing capabilities to use information strategically. MIS Quarterly, 37–48. Juran, J. M., Gryna, F. M., & Bingham, R. S., Jr. (1974). Quality control handbook, 1974. McGraw-Hill Book Company. Chapters 9:22. K?hler, H., Link, S., & Zhou, X. (2015). Possible and certain sql keys. Proceedings of the VLDB Endowment, 8(11), 1118–1129. Kruse, S., Papenbrock, T., Harmouch, H., & Naumann, F. (2016). Data anamnesis: Admitting raw data into an organization. Bulletin of the Technical Committee on Data Engineering, IEEE Computing Society, 39(June (2)). Lee, Y. W., Strong, D. M., Kahn, B. K., & Wang, R. Y. (2002). AIMQ: A methodology for information quality assessment. Information & Management, 40(2), 133. Loshin, D. (2001). Enterprise knowledge management: The data quality approach. San Francisco, Calif and London: Morgan Kaufmann and Brace Harcourt. McGilvray, D. (2008). Executing data quality projects: Ten steps to quality data and trusted information TM. Elsevier. Naumann, F., & Rolker, C. (2000). Assessment methods for information quality criteria. O’Reilly, C. A. (1982). Variations in decision makers’ use of information sources: The impact of quality and accessibility of information. Academy of Management Journal, 25(4), 756–771. (2014) . Deciding with data. Australia: PricewaterhouseCoopers. September. https://www.pwc. com.au/consulting/assets/publications/data-drive-innovation-sep14.pdf Queensland Government.(2016). Queensland Government data.. Last accessed on 25th October 2016. https://data./case-studies Redman, T. C., & Blanton, A. (1997). Data quality for the information age. Artech House Inc. Rekatsinas, T., Dong, X. L., Getoor, L., & Srivastava, D. (2015). Finding quality in quantity: The challenge of discovering valuable sources for integration. CIDR. Sadiq, S., Yeganeh, N. K., & Indulska, M. (2011). 20 years of data quality research: themes, trends and synergies. Proceedings of the twenty-second Australasian database conference-volume 115. Sadiq, S., Jayawardene, V., & Indulska, M. (2015). Data quality patterns. (Accessed 16 February 2016). http://dke./DataQualityPatterns/ Sadiq, S. (2013). Handbook of data quality. Springer. Seddon, P. B. (1997). A respecification and extension of the DeLone and McLean model of IS success. Information Systems Research, 8(3), 240–253. Silver, N. (2012). The signal and the noise: Why so many predictions fail-but some don’t. Penguin. Song,S., & Chen, L. (2011). Differential dependencies: Reasoning and discovery. ACM Transactions on Database Systems (TODS), 36(3), 16. Stamford, Conn. (2014). Gartner says beware of the data lake fallacy.. July 28. http://www./newsroom/id/2809117 Tittel, E. (2014). The dangers of dark data and how to minimize your exposure..September 24, (Accessed 16 February, 2016). http://www./article/2686755/data-analytics/the-dangers-of- dark-data-and-how-to-minimize-your-exposure.html Yeganeh, N. K., Sadiq, S., & Sharaf, M. A. (2014). A framework for data quality aware query systems. Information Systems, 46, 24–44. Zhang, R., Jayawardene, V., Indulska, M., Sadiq, S., & Zhou, X. (2014). A data driven approach for discovering data quality requirements. In ICIS 2014: 35th international conference on information systems. |
|
|
來自: blackhappy > 《我的圖書館》