搜索

QQ空間 QQ好友新浪微博微信

數(shù)據(jù)分析新手必看：這些概念一定要記??！

F2967527 2020-04-11

展開全文

什么是商業(yè)智能

BI：Business Intelegence，商業(yè)智能，基于數(shù)據(jù)倉庫，經(jīng)過數(shù)據(jù)挖掘后，得到了商業(yè)價值的過程。例如利用數(shù)據(jù)預(yù)測用戶購物行為屬性商業(yè)智能

什么是數(shù)據(jù)倉庫

DW：Data Warehouse，數(shù)據(jù)倉庫，數(shù)據(jù)庫的升級概念，一般量更龐大，將多個數(shù)據(jù)來源的數(shù)據(jù)進(jìn)行匯總、整理而來

什么是數(shù)據(jù)挖掘

DM：Data Mining，數(shù)據(jù)挖掘

數(shù)據(jù)挖掘流程：Knowledge Discovery in Database，也叫數(shù)據(jù)庫中的知識發(fā)現(xiàn)，簡稱KDD

KDD流程：輸入數(shù)據(jù)->數(shù)據(jù)預(yù)處理->數(shù)據(jù)挖掘->后處理->信息

數(shù)據(jù)清洗：去除重復(fù)數(shù)據(jù)、干擾數(shù)據(jù)及填充缺失值
數(shù)據(jù)集成：將多個數(shù)據(jù)源中的數(shù)據(jù)存放在一個統(tǒng)一的數(shù)據(jù)存儲中
數(shù)據(jù)變換：將數(shù)據(jù)轉(zhuǎn)換成適合數(shù)據(jù)挖掘的形式，比如將數(shù)值東籬一個特定的0~1的區(qū)間

1. 數(shù)據(jù)挖掘的核心

分類：通過訓(xùn)練集得到一個分類模型，然后用這個模型可以對其他數(shù)據(jù)進(jìn)行分類分類是已知了類別，然后看樣本屬于哪個分類
聚類：將數(shù)據(jù)自動聚類成幾個類別，聚類是不知道有哪些類別，按照樣本的屬性來進(jìn)行聚類
預(yù)測：通過當(dāng)前和歷史數(shù)據(jù)預(yù)測未來趨勢，可以更好地幫助我們識別機遇和風(fēng)險
關(guān)聯(lián)分析：發(fā)現(xiàn)數(shù)據(jù)中的關(guān)聯(lián)規(guī)則，被廣泛應(yīng)用于購物、事務(wù)數(shù)據(jù)分析中

2. 數(shù)據(jù)挖掘的基本流程

商業(yè)理解：從商業(yè)的角度理解項目需求
數(shù)據(jù)理解：嘗試收集部分?jǐn)?shù)據(jù)，對數(shù)據(jù)進(jìn)行探索
數(shù)據(jù)準(zhǔn)備：開始收集數(shù)據(jù)，并進(jìn)行清洗、集成等操作
模型建立：選擇和應(yīng)用數(shù)據(jù)挖掘模型，并進(jìn)行優(yōu)化，以便得到更好的分類結(jié)果
模型評估：對模型進(jìn)行評價，確認(rèn)模型是否實現(xiàn)了預(yù)定的商業(yè)目標(biāo)
上線發(fā)布：把挖掘的知識轉(zhuǎn)換成用戶的使用形式

數(shù)據(jù)挖掘的數(shù)學(xué)基礎(chǔ)

概率論與數(shù)據(jù)統(tǒng)計
線性代數(shù)
圖論
最優(yōu)化方法

數(shù)據(jù)挖掘的十大算法

1. 分類

C4.5：十大算法之首，決策樹算法，特點包括：1.構(gòu)造過程中剪枝 2.處理連續(xù)屬性；3.處理不完整的數(shù)據(jù)
樸素貝葉斯：基于概率論原理，計算未知物體出現(xiàn)的條件下，各個類別出現(xiàn)的概率，取概率最大的分類
SVM：超平面的分類模型
KNN：每個樣本的分類都可以用其最接近的K個鄰居的分類代表
Adaboost：構(gòu)建分類器的提升算法，可以讓多個弱的分類器組成一個強的分類器
CART：決策樹算法，分類樹 + 回歸樹

2. 聚類

K-Means：將物體分成K類，計算新點跟K個中心點的距離，哪個距離近，則新點歸為哪一類
EM：最大期望算法，求參數(shù)的最大似然估計的一種方法

3. 關(guān)聯(lián)分析

Apriori：挖掘關(guān)聯(lián)規(guī)則的算法，通過挖掘頻繁項集揭示物品之間的關(guān)聯(lián)關(guān)系

4. 連接分析

PageRank：起源于論文影響力的計算方式，如果一篇文論被引入的次數(shù)越多，就代表這篇論文的影響力越強，Google將其用于計算網(wǎng)頁權(quán)重

什么是數(shù)據(jù)可視化

數(shù)據(jù)可視化主要是借助于圖形化手段,清晰有效地傳達(dá)與溝通信息，讓我們直觀了解數(shù)據(jù)分析的結(jié)果

數(shù)據(jù)可視化工具：

1. python庫

Matplotlib

Seaborn

Bokeh、Plotly、Pyecharts、Mapbox 和 Geoplotlib等

2. 商業(yè)智能軟件

Tableau

PowerBI

3. 可視化大屏

大屏作為一種視覺效果強、科技感強的技術(shù)，被企業(yè)老板所青睞，可以很好地展示公司的數(shù)據(jù)化能力

4. 前端可視化組件

可視化組件都是基于 Web 渲染的技術(shù)的

Web 渲染技術(shù)：Canvas（位圖）、SVG （失量圖）和 WebGL（3D繪圖）

什么是用戶畫像

簡單的說，用戶畫像就是標(biāo)簽的匯總，用戶畫像是現(xiàn)實世界中的用戶的數(shù)學(xué)建模，將海量數(shù)據(jù)進(jìn)行標(biāo)簽化，來復(fù)以更精準(zhǔn)的用戶畫像，用戶標(biāo)簽?zāi)墚a(chǎn)生的業(yè)務(wù)價值

在獲客上，找到優(yōu)勢的宣傳渠道，通過個性化的宣傳手段吸引有潛在需求的用戶
在粘客上，提升用戶的單價和消費頻次
在留客上，降低流失率，顧客流失率降低 5%，公司利潤提升 25% ~ 85%

1. 用戶標(biāo)簽4個緯度

基礎(chǔ)信息：性別、年齡、地域、收入、學(xué)歷、職業(yè)等
消費信息：消費習(xí)慣、購買意向、是否對促銷敏感
行為分析：時間段、頻次、時長、訪問路徑
內(nèi)容分析：瀏覽的內(nèi)容、停留時長、瀏覽次數(shù)，內(nèi)容類型，如金融、娛樂、教育、體育、時尚、科技等

2. 數(shù)據(jù)處理的3個階段

業(yè)務(wù)層：獲客預(yù)測、個性化推薦、用戶流失率、GMV趨勢預(yù)測
算法層：用戶興趣、用戶活躍度、產(chǎn)品購買偏好、用戶關(guān)聯(lián)關(guān)系、用戶滿意度、渠道使用偏好、支付使用偏好、優(yōu)惠券偏好
數(shù)據(jù)層：用戶屬性、投訴次數(shù)、產(chǎn)品購買次數(shù)、渠道使用頻率、優(yōu)惠券使用、訪問時長、支付渠道使用、瀏覽內(nèi)容頻次

什么是埋點

在需要的位置采集相應(yīng)的信息，進(jìn)行上報。比如用戶信息、設(shè)備信息、操作行為數(shù)據(jù)，埋點一般是在需要統(tǒng)計數(shù)據(jù)的地方植入統(tǒng)計代碼。

數(shù)據(jù)采集都有哪些方式

開源數(shù)據(jù)源
爬蟲抓取
日志采集
傳感器

什么是數(shù)據(jù)清洗

數(shù)據(jù)清洗是去除重復(fù)數(shù)據(jù)、干擾數(shù)據(jù)及填充缺失值。

數(shù)據(jù)清洗的4個關(guān)鍵點（完全合一）：

完整性：單條數(shù)據(jù)是否存在空值，統(tǒng)計的字段是否完善
全面性：觀察某一列的全部數(shù)值，判斷列是否有問題，比如：數(shù)據(jù)定義、單位標(biāo)識、數(shù)值本身。例如有的單位是克，有的是千克或磅
合法性：數(shù)據(jù)的類型、內(nèi)容、大小的合法性。例如存在非ASCII字符，性別未知，年齡超過150歲等。
唯一性：數(shù)據(jù)是否存在重復(fù)記錄。因為數(shù)據(jù)通常來自不同渠道的匯總，重復(fù)的情況是常見的，行和列數(shù)據(jù)都需要是唯一的

什么是數(shù)據(jù)集成

數(shù)據(jù)集成是將多個數(shù)據(jù)源合并存放在一個數(shù)據(jù)存儲中（如數(shù)據(jù)倉庫）大數(shù)據(jù)項目中80%的工作都和數(shù)據(jù)集成有關(guān)。

Extract / 提取：從datasource/txt/csv/Excel/等原始數(shù)據(jù)源中 Extract數(shù)據(jù)
Transform / 轉(zhuǎn)換：將數(shù)據(jù)預(yù)處理，字段補全、類型檢查、去除重復(fù)數(shù)據(jù)等，根據(jù)預(yù)定的條件將數(shù)據(jù)統(tǒng)一起來
Load / 裝載：將轉(zhuǎn)換完的數(shù)據(jù)存到數(shù)據(jù)倉庫中

1. 數(shù)據(jù)集成的兩種架構(gòu)

ELT 過程為數(shù)據(jù)提取(Extract)——轉(zhuǎn)換(Transform)——加載(Load)，在數(shù)據(jù)源抽取后首先進(jìn)行轉(zhuǎn)換，然后將轉(zhuǎn)換的結(jié)果寫入目的地。
ETL 過程為數(shù)據(jù)提取(Extract)——加載(Load)——轉(zhuǎn)換(Transform)，在數(shù)據(jù)抽取后將結(jié)果先寫入目的地，然后利用數(shù)據(jù)庫的聚合分析能力或者外部框架，如Spark來完成轉(zhuǎn)換的步驟。

2. ETL和ELT的區(qū)別

ETL和ELT主要是先清洗數(shù)據(jù)還是先入庫的區(qū)別。ETL一般使用主流框架用程序在提取的時候就將數(shù)據(jù)進(jìn)行清洗，ELT則是將數(shù)據(jù)存到數(shù)據(jù)倉庫，再用sql進(jìn)行數(shù)據(jù)清洗。

未來使用ELT作為數(shù)據(jù)集成架構(gòu)的會越來越多，有以下好處：

使用 ELT 方法，在提取完成之后，數(shù)據(jù)加載會立即開始。一方面更省時，另一方面 ELT 允許 BI 分析人員無限制地訪問整個原始數(shù)據(jù)，為分析師提供了更大的靈活性，使之能更好地支持業(yè)務(wù)。

在 ELT 架構(gòu)中，數(shù)據(jù)變換這個過程根據(jù)后續(xù)使用的情況，需要在 SQL 中進(jìn)行，而不是在加載階段進(jìn)行。這樣做的好處是你可以從數(shù)據(jù)源中提取數(shù)據(jù)，經(jīng)過少量預(yù)處理后進(jìn)行加載。這樣的架構(gòu)更簡單，使分析人員更好地了解原始數(shù)據(jù)的變換過程。

什么是數(shù)據(jù)變換

數(shù)據(jù)變換是數(shù)據(jù)準(zhǔn)備的重要環(huán)節(jié)，通過數(shù)據(jù)平滑、數(shù)據(jù)聚集、數(shù)據(jù)概化和規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。

1. 數(shù)據(jù)平滑

去除數(shù)據(jù)中的噪聲，將連續(xù)數(shù)據(jù)離散化

2. 數(shù)據(jù)聚集

對數(shù)據(jù)進(jìn)行匯總，例如Sum、Max、Mean等

3. 數(shù)據(jù)概化

將數(shù)據(jù)由較低的概念抽象成較高的概念，如北上廣深圳概化為中國。

4. 數(shù)據(jù)規(guī)范化

合屬性數(shù)據(jù)按比例縮放，將原來的數(shù)值映射到新的特定區(qū)域中。

min-max規(guī)范化：將原始數(shù)據(jù)變化到[0, 1]的空間中，公式為：新數(shù)值=(原數(shù)值-極小值) / (極大值-極小值)，對應(yīng)的有SciKit-Learn的preprocessing.MinMaxScaler函數(shù)

z-score規(guī)范化：可以用相同的標(biāo)準(zhǔn)比較不同規(guī)格的成績。公式為：新數(shù)值=(原數(shù)值-均值) / 標(biāo)準(zhǔn)差。對應(yīng)的有SciKit-Learn的preprocessing.scale函數(shù),求出每行每列的值減去了平均值，再除以方差的結(jié)果，使得數(shù)值都符合均值為0，方差為1的正態(tài)分布

小數(shù)定標(biāo)規(guī)范：通過移動小數(shù)點的位置來進(jìn)行規(guī)范化

5. 屬性構(gòu)造

構(gòu)造出新的屬性并添加到屬性集中。

什么是方差、標(biāo)準(zhǔn)差

方差和標(biāo)準(zhǔn)差是測算離散趨勢最重要、最常用的指標(biāo)
標(biāo)準(zhǔn)差是方差的平方根
一個較大的標(biāo)準(zhǔn)差，代表大部分?jǐn)?shù)值和其平均值之間差異較大；一個較小的標(biāo)準(zhǔn)差，代表這些數(shù)值較接近平均值。
由于方差是數(shù)據(jù)的平方，與檢測值本身相差太大，人們難以直觀的衡量，所以常用方差開根號換算回來這就是我們要說的標(biāo)準(zhǔn)差。