|
什么是商業(yè)智能 BI:Business Intelegence,商業(yè)智能,基于數(shù)據(jù)倉庫,經(jīng)過數(shù)據(jù)挖掘后,得到了商業(yè)價值的過程。例如利用數(shù)據(jù)預(yù)測用戶購物行為屬性商業(yè)智能什么是數(shù)據(jù)倉庫 DW:Data Warehouse,數(shù)據(jù)倉庫,數(shù)據(jù)庫的升級概念,一般量更龐大,將多個數(shù)據(jù)來源的數(shù)據(jù)進(jìn)行匯總、整理而來 什么是數(shù)據(jù)挖掘 DM:Data Mining,數(shù)據(jù)挖掘 數(shù)據(jù)挖掘流程:Knowledge Discovery in Database,也叫數(shù)據(jù)庫中的知識發(fā)現(xiàn),簡稱KDD KDD流程:輸入數(shù)據(jù)->數(shù)據(jù)預(yù)處理->數(shù)據(jù)挖掘->后處理->信息
1. 數(shù)據(jù)挖掘的核心
2. 數(shù)據(jù)挖掘的基本流程
數(shù)據(jù)挖掘的數(shù)學(xué)基礎(chǔ)
數(shù)據(jù)挖掘的十大算法 1. 分類
2. 聚類
3. 關(guān)聯(lián)分析 Apriori:挖掘關(guān)聯(lián)規(guī)則的算法,通過挖掘頻繁項集揭示物品之間的關(guān)聯(lián)關(guān)系 4. 連接分析 PageRank:起源于論文影響力的計算方式,如果一篇文論被引入的次數(shù)越多,就代表這篇論文的影響力越強,Google將其用于計算網(wǎng)頁權(quán)重 什么是數(shù)據(jù)可視化 數(shù)據(jù)可視化主要是借助于圖形化手段,清晰有效地傳達(dá)與溝通信息,讓我們直觀了解數(shù)據(jù)分析的結(jié)果 數(shù)據(jù)可視化工具: 1. python庫 Matplotlib Seaborn Bokeh、Plotly、Pyecharts、Mapbox 和 Geoplotlib等 2. 商業(yè)智能軟件 Tableau PowerBI 3. 可視化大屏 大屏作為一種視覺效果強、科技感強的技術(shù),被企業(yè)老板所青睞,可以很好地展示公司的數(shù)據(jù)化能力 4. 前端可視化組件 可視化組件都是基于 Web 渲染的技術(shù)的 Web 渲染技術(shù):Canvas(位圖)、SVG (失量圖)和 WebGL(3D繪圖) 什么是用戶畫像 簡單的說,用戶畫像就是標(biāo)簽的匯總,用戶畫像是現(xiàn)實世界中的用戶的數(shù)學(xué)建模,將海量數(shù)據(jù)進(jìn)行標(biāo)簽化,來復(fù)以更精準(zhǔn)的用戶畫像,用戶標(biāo)簽?zāi)墚a(chǎn)生的業(yè)務(wù)價值
1. 用戶標(biāo)簽4個緯度
2. 數(shù)據(jù)處理的3個階段
什么是埋點 在需要的位置采集相應(yīng)的信息,進(jìn)行上報。比如用戶信息、設(shè)備信息、操作行為數(shù)據(jù),埋點一般是在需要統(tǒng)計數(shù)據(jù)的地方植入統(tǒng)計代碼。 數(shù)據(jù)采集都有哪些方式
什么是數(shù)據(jù)清洗 數(shù)據(jù)清洗是去除重復(fù)數(shù)據(jù)、干擾數(shù)據(jù)及填充缺失值。 數(shù)據(jù)清洗的4個關(guān)鍵點(完全合一):
什么是數(shù)據(jù)集成 數(shù)據(jù)集成是將多個數(shù)據(jù)源合并存放在一個數(shù)據(jù)存儲中(如數(shù)據(jù)倉庫) 大數(shù)據(jù)項目中80%的工作都和數(shù)據(jù)集成有關(guān)。
1. 數(shù)據(jù)集成的兩種架構(gòu)
2. ETL和ELT的區(qū)別 ETL和ELT主要是先清洗數(shù)據(jù)還是先入庫的區(qū)別。ETL一般使用主流框架用程序在提取的時候就將數(shù)據(jù)進(jìn)行清洗,ELT則是將數(shù)據(jù)存到數(shù)據(jù)倉庫,再用sql進(jìn)行數(shù)據(jù)清洗。 未來使用ELT作為數(shù)據(jù)集成架構(gòu)的會越來越多,有以下好處:
什么是數(shù)據(jù)變換 數(shù)據(jù)變換是數(shù)據(jù)準(zhǔn)備的重要環(huán)節(jié),通過數(shù)據(jù)平滑、數(shù)據(jù)聚集、數(shù)據(jù)概化和規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。 1. 數(shù)據(jù)平滑 去除數(shù)據(jù)中的噪聲,將連續(xù)數(shù)據(jù)離散化 2. 數(shù)據(jù)聚集 對數(shù)據(jù)進(jìn)行匯總,例如Sum、Max、Mean等 3. 數(shù)據(jù)概化 將數(shù)據(jù)由較低的概念抽象成較高的概念,如北上廣深圳概化為中國。 4. 數(shù)據(jù)規(guī)范化 合屬性數(shù)據(jù)按比例縮放,將原來的數(shù)值映射到新的特定區(qū)域中。
5. 屬性構(gòu)造 構(gòu)造出新的屬性并添加到屬性集中。 什么是方差、標(biāo)準(zhǔn)差
作者:雪山飛豬 |
|
|