數(shù)據(jù)倉庫技術(shù)解決的問題 
    隨著90年代后期Internet 的興起與飛速發(fā)展,我們進入了一個新的時代,大量的信息和數(shù)據(jù),迎面而來,用科學的方法去整理數(shù)據(jù),從而從不同視角對企業(yè)經(jīng)營各方面信息的精確分析、準確判斷,比以往更為迫切,實施商業(yè)行為的有效性也比以往更受關(guān)注。 
    數(shù)據(jù)倉庫技術(shù)是基于信息系統(tǒng)業(yè)務(wù)發(fā)展的需要,基于數(shù)據(jù)庫系統(tǒng)技術(shù)發(fā)展而來,并逐步獨立的一系列新的應(yīng)用技術(shù)。使用這些技術(shù)建設(shè)的信息系統(tǒng)我們稱為數(shù)據(jù)倉庫系統(tǒng)。隨著數(shù)據(jù)倉庫技術(shù)應(yīng)用的不斷深入,近幾年數(shù)據(jù)倉庫技術(shù)得到長足的發(fā)展。典型的數(shù)據(jù)倉庫系統(tǒng),比如:經(jīng)營分析系統(tǒng),決策支持系統(tǒng)等等。也隨著數(shù)據(jù)倉庫系統(tǒng)帶來的良好效果,各行各業(yè)的單位,已經(jīng)能很好的接受“整合數(shù)據(jù),從數(shù)據(jù)中找知識,運用數(shù)據(jù)知識、用數(shù)據(jù)說話”等新的關(guān)系到改良生產(chǎn)活動各環(huán)節(jié)、提高生產(chǎn)效率、發(fā)展生產(chǎn)力的理念。 
    數(shù)據(jù)倉庫技術(shù)就是基于數(shù)學及統(tǒng)計學嚴謹邏輯思維的并達成“科學的判斷、有效的行為”的一個工具。數(shù)據(jù)倉庫技術(shù)也是一種達成“數(shù)據(jù)整合、知識管理”的有效手段。 數(shù)據(jù)倉庫是面向主題的、集成的、與時間相關(guān)的、不可修改的數(shù)據(jù)集合。這是數(shù)據(jù)倉庫技術(shù)特征的定位。
數(shù)據(jù)倉庫主流支撐技術(shù) 
    數(shù)據(jù)倉庫系列技術(shù),主要支撐技術(shù)有以下一些: 
數(shù)據(jù)庫技術(shù)、ETL技術(shù)、OLAP技術(shù)、元數(shù)據(jù)管理技術(shù)、前臺展現(xiàn)技術(shù)、報表技術(shù)、挖掘技術(shù)、仿真優(yōu)化技術(shù)。 這些支撐技術(shù)結(jié)合各行業(yè)業(yè)務(wù)后,可以生產(chǎn)各式各樣的應(yīng)用。當然這些技術(shù)中,重點突出了在數(shù)據(jù)倉庫方面的特征,而忽略了計算機技術(shù)的一些特征。比如:OLAP技術(shù),那么就需要計算機存儲技術(shù)、壓縮技術(shù)、分區(qū)技術(shù)、加解密技術(shù)、圖形化技術(shù)等等,這里就不再單獨列示。 
    數(shù)據(jù)庫技術(shù)是支撐數(shù)據(jù)倉庫技術(shù)的最基礎(chǔ)技術(shù)。有關(guān)系數(shù)據(jù)庫、層次數(shù)據(jù)庫、網(wǎng)絡(luò)數(shù)據(jù)庫等類型,目前呈現(xiàn)比較好的發(fā)展態(tài)勢的對象關(guān)系數(shù)據(jù)庫也是一種類型。最典型的是關(guān)系數(shù)據(jù)庫的應(yīng)用。在數(shù)據(jù)倉庫實踐中,關(guān)系數(shù)據(jù)庫是實質(zhì)的數(shù)據(jù)庫存儲工具,但針對不同的數(shù)據(jù)倉庫方案,有的關(guān)系數(shù)據(jù)庫是還提供了有關(guān)的數(shù)據(jù)倉庫元素的查詢函數(shù)或組件,在支撐數(shù)據(jù)倉庫數(shù)據(jù)存儲的基礎(chǔ)上,還能支撐數(shù)據(jù)倉庫的數(shù)據(jù)探查,比如:Teradata,但是,大部分數(shù)據(jù)庫,以及在大部分數(shù)據(jù)倉庫建設(shè)方案中,只是利用數(shù)據(jù)庫作為數(shù)據(jù)存儲的工具。這樣,實質(zhì)上數(shù)據(jù)倉庫與數(shù)據(jù)庫在技術(shù)表現(xiàn)看起來可能是一樣的,但是,在系統(tǒng)存儲模型上卻有著本質(zhì)的區(qū)別。數(shù)據(jù)庫技術(shù)在存儲模型建設(shè)方面強調(diào)數(shù)據(jù)模型的規(guī)范性和高效存儲能力(少冗余),比如:關(guān)系模式符合第三范式。但是,數(shù)據(jù)倉庫技術(shù)在存儲模型建設(shè)方面強調(diào)數(shù)據(jù)查詢的方便性和快速響應(yīng)能力。那么,在數(shù)據(jù)倉庫技術(shù)存儲模型方面,基于數(shù)據(jù)庫技術(shù)而發(fā)展的關(guān)系模式的理念已經(jīng)被顛覆,取而代之是各種各樣的數(shù)據(jù)倉庫數(shù)據(jù)模型。如:星型模型,雪花模型等等。數(shù)據(jù)庫表也將原來的關(guān)系模式改稱為了事實表和維表,將原來數(shù)據(jù)庫技術(shù)中并不關(guān)心的屬性域及之間的關(guān)系,也分別取了自己的業(yè)務(wù)名稱,如:維度,量度,層次,粒度等。 
星形結(jié)構(gòu)數(shù)據(jù)模型: 
雪花結(jié)構(gòu)數(shù)據(jù)模型: 
兩者區(qū)別:星型架構(gòu)中,每個維度都有一個由一些部分組成的主鍵,該主鍵連接到事實數(shù)據(jù)表中由多個部分組成的主鍵的一個部分。在雪花模型中,一個或多個維表分解成多個表,每個表都有連接到主維度表而不是事實數(shù)據(jù)表的相關(guān)性維度表。
 
    ETL技術(shù)是支撐數(shù)據(jù)倉庫系統(tǒng)正常運轉(zhuǎn)的基本技術(shù)。因為數(shù)據(jù)倉庫系統(tǒng)是集成的、與時間相關(guān)的數(shù)據(jù)集合。隨著時間的推移,各種新數(shù)據(jù)的進入,舊數(shù)據(jù)的轉(zhuǎn)移等等工作,倉庫建設(shè)前后,都沒有間斷過。要實現(xiàn)這些數(shù)據(jù)的自動更新運轉(zhuǎn),以及新業(yè)務(wù)數(shù)據(jù)、舊格式新的不同代碼的數(shù)據(jù)進行較好的適應(yīng)性自動更新運轉(zhuǎn),ETL技術(shù)是必不可少的技術(shù)之一。ETL是Extraction、Transformation、Loading數(shù)據(jù)抽取、轉(zhuǎn)換、裝載系統(tǒng),該系統(tǒng)整合不同的數(shù)據(jù)源過來的數(shù)據(jù),并對數(shù)據(jù)進行初步的規(guī)格化整理,清洗除雜。 
    OLAP技術(shù)聯(lián)機分析處理(OLAP)的概念最早是由關(guān)系數(shù)據(jù)庫之父E.F.Codd于1993年提出的。當時,Codd認為聯(lián)機事務(wù)處理(OLTP)已不能滿足終端用戶對數(shù)據(jù)庫查詢分析的需要,SQL對大數(shù)據(jù)庫進行的簡單查詢也不能滿足用戶分析的需求。用戶的決策分析需要對關(guān)系數(shù)據(jù)庫進行大量計算才能得到結(jié)果,而查詢的結(jié)果并不能滿足決策者提出的需求。因此Codd提出了多維數(shù)據(jù)庫和多維分析的概念,即OLAP。Codd提出OLAP的12條準則來描述OLAP系統(tǒng)?;贑odd的12條準則,各個軟件開發(fā)廠家見仁見智,其中一個流派,認為可以沿用關(guān)系型數(shù)據(jù)庫來存儲多維數(shù)據(jù),于是,基于稀疏矩陣表示方法的星型結(jié)構(gòu)(star schema)就出現(xiàn)了。后來又演化出雪花結(jié)構(gòu)。為了與多維數(shù)據(jù)庫相區(qū)別,則把基于關(guān)系型數(shù)據(jù)庫的OLAP稱為Relational OLAP,簡稱ROLAP。代表產(chǎn)品有Informix Metacube、Microsoft SQL Server OLAP Services。Arbor Software嚴格遵照Codd的定義,自行建立了多維數(shù)據(jù)庫,來存放聯(lián)機分析系統(tǒng)數(shù)據(jù),開創(chuàng)了多維數(shù)據(jù)存儲的先河,后來的很多家公司紛紛采用多維數(shù)據(jù)存儲。被人們稱為Muiltdimension OLAP,簡稱MOLAP,代表產(chǎn)品有Hyperion(原Arbor Software) Essbase、Showcase Strategy等。相對于Server OLAP而言。部分分析工具廠家建議把部分數(shù)據(jù)下載到本地,為用戶提供本地的多維分析。代表產(chǎn)品有Brio Designer,Business Object。這樣也形成了另一種OLAP俗稱Client OLAP。縱觀整個OLAP以及BI的發(fā)展歷史,從OLTP統(tǒng)計功能到特定模型查詢開發(fā)到ROLAPàMOLAP和Client OLAP,這樣一個產(chǎn)品的不斷創(chuàng)新發(fā)展過程中,使OLAP技術(shù)不斷成熟和得到市場的認可,也為BI應(yīng)用提供了很好的技術(shù)保障,使得與傳統(tǒng)的OLTP系統(tǒng)在市場中平分秋色。 
基于Codd的12條準則具體是: 
準則1 OLAP模型必須提供多維概念視圖; 
準則2 透明性準則; 
準則3 存取能力推測; 
準則4 穩(wěn)定的報表能力; 
準則5 客戶/服務(wù)器體系結(jié)構(gòu); 
準則6 維的等同性準則; 
準則7 動態(tài)的稀疏矩陣處理準則; 
準則8 多用戶支持能力準則; 
準則9 非受限的跨維操作; 
準則10 直觀的數(shù)據(jù)操縱; 
準則11 靈活的報表生成; 
準則12 不受限的維與聚集層次。 
    元數(shù)據(jù)管理技術(shù):所謂元數(shù)據(jù)meta data是關(guān)于數(shù)據(jù)的數(shù)據(jù),指在數(shù)據(jù)倉庫建設(shè)過程中所產(chǎn)生的有關(guān)數(shù)據(jù)源定義,目標定義,轉(zhuǎn)換規(guī)則等相關(guān)的關(guān)鍵數(shù)據(jù)。同時元數(shù)據(jù)還包含關(guān)于數(shù)據(jù)含義的商業(yè)信息,所有這些信息都應(yīng)當妥善保存,并很好地管理。為數(shù)據(jù)倉庫的發(fā)展和使用提供方便。元數(shù)管理中,能有效的優(yōu)化數(shù)據(jù)倉庫中的各種數(shù)據(jù)模型,乃至可以通過元數(shù)據(jù)管理實現(xiàn)一個各種數(shù)據(jù)倉庫數(shù)據(jù)模型的生產(chǎn)平臺。高效的建立數(shù)據(jù)模型,并同時高效的管理對無感情數(shù)據(jù)的描述數(shù)據(jù),數(shù)據(jù)一致,描述一致,理解一致,使模型能不斷改進和繼承。 
    前臺展現(xiàn)技術(shù):主要是具有對集成的數(shù)據(jù)模型(比如:倉庫模型、多維CUBE等)具有數(shù)據(jù)探查、檢索、靈活的圖表、甚至影像多媒體的展現(xiàn)技術(shù)。前臺展現(xiàn)技術(shù)主要的技術(shù)目的是將沒有感情的、枯燥的結(jié)構(gòu)化數(shù)據(jù),用友好的方式、靈活的方式、可定義的方式展現(xiàn)出來,使不懂數(shù)據(jù)結(jié)構(gòu)的人一眼就可以理解其中數(shù)據(jù)的含義和業(yè)務(wù)表現(xiàn)。目前已經(jīng)進行很好實踐該技術(shù)的產(chǎn)品,主流主要有:Cognos Powerplay,Bo,Brio等等。 
    報表技術(shù):該技術(shù)主要是將集成的數(shù)據(jù)模型(比如:倉庫模型、多維CUBE等)里的數(shù)據(jù),按照復雜的格式、指定行列統(tǒng)計項形成的特殊的報表。一般簡單的報表可以使用前臺展現(xiàn)技術(shù)實現(xiàn),而復雜的報表則需要報表技術(shù)來滿足要求。報表技術(shù)中,可以靈活的制定各種報表模版庫和指標庫,根據(jù)每個區(qū)塊或單元格的需要引用指標,實現(xiàn)一系列復雜的符合要求的報表結(jié)果。目前主要的主流產(chǎn)品有:Cognos Report.net,Brio, Crystal Reports, Oracle Reports等等。 
    挖掘技術(shù):該技術(shù)能實現(xiàn)找出數(shù)據(jù)庫中隱藏的信息,用模型來擬合數(shù)據(jù),探索型數(shù)據(jù)分析(Exploratory data analysis),數(shù)據(jù)驅(qū)動型的發(fā)現(xiàn)(Data driven discovery),演繹型學習(Deductive learning)功能。運用一種或多種算法,對海量數(shù)據(jù)進行探索,試圖發(fā)現(xiàn)未知的模式或關(guān)系,最終做出預(yù)測或總結(jié)規(guī)律。使用挖掘技術(shù)建立的數(shù)據(jù)模型我們稱為挖掘模型。挖掘模型的精度是挖掘模型的生命。影響模型的精度的原因主要有以下一些方面的重要因素: 
(1)建模數(shù)據(jù)的數(shù)據(jù)質(zhì)量以及應(yīng)用模型的數(shù)據(jù)質(zhì)量; 
(2)對不同數(shù)據(jù)的業(yè)務(wù)理解,并能有效的寬定預(yù)選模型變量因素; 
(3)模型的正確的模式使用和挖掘算法使用; 
(4)模型的正確參數(shù)使用和技巧使用。 
目前主流的挖掘工具主要有:Data Miner for Java,DB2 Intelligent Miner,Analysis Services(Miner Engine),SAS Enterprise Miner,Clementine等等。 
    仿真優(yōu)化技術(shù):仿真優(yōu)化技術(shù)是利用一系列參數(shù)化的條件來模擬現(xiàn)實復雜環(huán)境中的人和物,根據(jù)各活動實體的內(nèi)在復雜關(guān)系的相互作用,在試驗室中就可以預(yù)知未來的一種技術(shù)方法。仿真技術(shù)是對現(xiàn)實場景的模擬,然后,利用模擬的模型,推演未來。影響仿真推演,取得最優(yōu)化方案的主要因素有:對現(xiàn)實環(huán)境中各種因素及影響權(quán)重的充分考慮并得到技術(shù)表示;對各種因素之間復雜聯(lián)系充分定義;數(shù)據(jù)充分且質(zhì)量可靠;仿真及優(yōu)化算法及參數(shù)運用得當。目前市面主要有的產(chǎn)品有:SIMUL 8,Matlab等等。