小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

數(shù)據(jù)分析新手必看:這些概念一定要記??!

 F2967527 2020-04-11

什么是商業(yè)智能

BI:Business Intelegence,商業(yè)智能,基于數(shù)據(jù)倉庫,經(jīng)過數(shù)據(jù)挖掘后,得到了商業(yè)價值的過程。例如利用數(shù)據(jù)預(yù)測用戶購物行為屬性商業(yè)智能

什么是數(shù)據(jù)倉庫

DW:Data Warehouse,數(shù)據(jù)倉庫,數(shù)據(jù)庫的升級概念,一般量更龐大,將多個數(shù)據(jù)來源的數(shù)據(jù)進(jìn)行匯總、整理而來


什么是數(shù)據(jù)挖掘

DM:Data Mining,數(shù)據(jù)挖掘

數(shù)據(jù)挖掘流程:Knowledge Discovery in Database,也叫數(shù)據(jù)庫中的知識發(fā)現(xiàn),簡稱KDD

KDD流程:輸入數(shù)據(jù)->數(shù)據(jù)預(yù)處理->數(shù)據(jù)挖掘->后處理->信息

  • 數(shù)據(jù)清洗:去除重復(fù)數(shù)據(jù)、干擾數(shù)據(jù)及填充缺失值

  • 數(shù)據(jù)集成:將多個數(shù)據(jù)源中的數(shù)據(jù)存放在一個統(tǒng)一的數(shù)據(jù)存儲中

  • 數(shù)據(jù)變換:將數(shù)據(jù)轉(zhuǎn)換成適合數(shù)據(jù)挖掘的形式,比如將數(shù)值東籬一個特定的0~1的區(qū)間

1. 數(shù)據(jù)挖掘的核心

  • 分類:通過訓(xùn)練集得到一個分類模型,然后用這個模型可以對其他數(shù)據(jù)進(jìn)行分類 分類是已知了類別,然后看樣本屬于哪個分類

  • 聚類:將數(shù)據(jù)自動聚類成幾個類別, 聚類是不知道有哪些類別,按照 樣本的屬性來進(jìn)行聚類

  • 預(yù)測:通過當(dāng)前和歷史數(shù)據(jù)預(yù)測未來趨勢,可以更好地幫助我們識別機遇和風(fēng)險

  • 關(guān)聯(lián)分析:發(fā)現(xiàn)數(shù)據(jù)中的關(guān)聯(lián)規(guī)則,被廣泛應(yīng)用于購物、事務(wù)數(shù)據(jù)分析中

2. 數(shù)據(jù)挖掘的基本流程

  • 商業(yè)理解:從商業(yè)的角度理解項目需求

  • 數(shù)據(jù)理解:嘗試收集部分?jǐn)?shù)據(jù),對數(shù)據(jù)進(jìn)行探索

  • 數(shù)據(jù)準(zhǔn)備:開始收集數(shù)據(jù),并進(jìn)行清洗、集成等操作

  • 模型建立:選擇和應(yīng)用數(shù)據(jù)挖掘模型,并進(jìn)行優(yōu)化,以便得到更好的分類結(jié)果

  • 模型評估:對模型進(jìn)行評價,確認(rèn)模型是否實現(xiàn)了預(yù)定的商業(yè)目標(biāo)

  • 上線發(fā)布:把挖掘的知識轉(zhuǎn)換成用戶的使用形式

數(shù)據(jù)挖掘的數(shù)學(xué)基礎(chǔ)

  • 概率論與數(shù)據(jù)統(tǒng)計

  • 線性代數(shù)

  • 圖論

  • 最優(yōu)化方法

數(shù)據(jù)挖掘的十大算法

1. 分類

  • C4.5十大算法之首,決策樹算法,特點包括:1.構(gòu)造過程中剪枝 2.處理連續(xù)屬性;3.處理不完整的數(shù)據(jù)

  • 樸素貝葉斯:基于概率論原理,計算未知物體出現(xiàn)的條件下,各個類別出現(xiàn)的概率,取概率最大的分類

  • SVM:超平面的分類模型

  • KNN:每個樣本的分類都可以用其最接近的K個鄰居的分類代表

  • Adaboost:構(gòu)建分類器的提升算法,可以讓多個弱的分類器組成一個強的分類器

  • CART:決策樹算法,分類樹 + 回歸樹

2. 聚類

  • K-Means:將物體分成K類,計算新點跟K個中心點的距離,哪個距離近,則新點歸為哪一類

  • EM:最大期望算法,求參數(shù)的最大似然估計的一種方法

3. 關(guān)聯(lián)分析

Apriori:挖掘關(guān)聯(lián)規(guī)則的算法,通過挖掘頻繁項集揭示物品之間的關(guān)聯(lián)關(guān)系 

4. 連接分析

PageRank:起源于論文影響力的計算方式,如果一篇文論被引入的次數(shù)越多,就代表這篇論文的影響力越強,Google將其用于計算網(wǎng)頁權(quán)重

什么是數(shù)據(jù)可視化

數(shù)據(jù)可視化主要是借助于圖形化手段,清晰有效地傳達(dá)與溝通信息,讓我們直觀了解數(shù)據(jù)分析的結(jié)果

數(shù)據(jù)可視化工具:

1. python庫

Matplotlib

Seaborn

Bokeh、Plotly、Pyecharts、Mapbox 和 Geoplotlib等

2. 商業(yè)智能軟件

Tableau

PowerBI

3. 可視化大屏

大屏作為一種視覺效果強、科技感強的技術(shù),被企業(yè)老板所青睞,可以很好地展示公司的數(shù)據(jù)化能力

4. 前端可視化組件

可視化組件都是基于 Web 渲染的技術(shù)的

Web 渲染技術(shù):Canvas(位圖)、SVG (失量圖)和 WebGL(3D繪圖)

什么是用戶畫像

簡單的說,用戶畫像就是標(biāo)簽的匯總,用戶畫像是現(xiàn)實世界中的用戶的數(shù)學(xué)建模,將海量數(shù)據(jù)進(jìn)行標(biāo)簽化,來復(fù)以更精準(zhǔn)的用戶畫像,用戶標(biāo)簽?zāi)墚a(chǎn)生的業(yè)務(wù)價值

  • 在獲客上,找到優(yōu)勢的宣傳渠道,通過個性化的宣傳手段吸引有潛在需求的用戶

  • 在粘客上,提升用戶的單價和消費頻次

  • 在留客上,降低流失率,顧客流失率降低 5%,公司利潤提升 25% ~ 85%

1. 用戶標(biāo)簽4個緯度

  • 基礎(chǔ)信息:性別、年齡、地域、收入、學(xué)歷、職業(yè)等

  • 消費信息:消費習(xí)慣、購買意向、是否對促銷敏感

  • 行為分析:時間段、頻次、時長、訪問路徑

  • 內(nèi)容分析:瀏覽的內(nèi)容、停留時長、瀏覽次數(shù),內(nèi)容類型,如金融、娛樂、教育、體育、時尚、科技等

2. 數(shù)據(jù)處理的3個階段

  • 業(yè)務(wù)層:獲客預(yù)測、個性化推薦、用戶流失率、GMV趨勢預(yù)測

  • 算法層:用戶興趣、用戶活躍度、產(chǎn)品購買偏好、用戶關(guān)聯(lián)關(guān)系、用戶滿意度、渠道使用偏好、支付使用偏好、優(yōu)惠券偏好

  • 數(shù)據(jù)層:用戶屬性、投訴次數(shù)、產(chǎn)品購買次數(shù)、渠道使用頻率、優(yōu)惠券使用、訪問時長、支付渠道使用、瀏覽內(nèi)容頻次

什么是埋點

在需要的位置采集相應(yīng)的信息,進(jìn)行上報。比如用戶信息、設(shè)備信息、操作行為數(shù)據(jù),埋點一般是在需要統(tǒng)計數(shù)據(jù)的地方植入統(tǒng)計代碼。 

數(shù)據(jù)采集都有哪些方式

  • 開源數(shù)據(jù)源

  • 爬蟲抓取

  • 日志采集

  • 傳感器

什么是數(shù)據(jù)清洗

數(shù)據(jù)清洗是去除重復(fù)數(shù)據(jù)、干擾數(shù)據(jù)及填充缺失值。

數(shù)據(jù)清洗的4個關(guān)鍵點(完全合一):

  • 完整性:單條數(shù)據(jù)是否存在空值,統(tǒng)計的字段是否完善

  • 全面性:觀察某一列的全部數(shù)值,判斷列是否有問題,比如:數(shù)據(jù)定義、單位標(biāo)識、數(shù)值本身。例如有的單位是克,有的是千克或磅

  • 合法性:數(shù)據(jù)的類型、內(nèi)容、大小的合法性。例如存在非ASCII字符,性別未知,年齡超過150歲等。

  • 唯一性:數(shù)據(jù)是否存在重復(fù)記錄。因為數(shù)據(jù)通常來自不同渠道的匯總,重復(fù)的情況是常見的,行和列數(shù)據(jù)都需要是唯一的

什么是數(shù)據(jù)集成

數(shù)據(jù)集成是將多個數(shù)據(jù)源合并存放在一個數(shù)據(jù)存儲中(如數(shù)據(jù)倉庫) 大數(shù)據(jù)項目中80%的工作都和數(shù)據(jù)集成有關(guān)。

  • Extract / 提取 :從datasource/txt/csv/Excel/等原始數(shù)據(jù)源中 Extract數(shù)據(jù)

  • Transform / 轉(zhuǎn)換 :將數(shù)據(jù)預(yù)處理,字段補全、類型檢查、去除重復(fù)數(shù)據(jù)等,根據(jù)預(yù)定的條件將數(shù)據(jù)統(tǒng)一起來

  • Load / 裝載 :將轉(zhuǎn)換完的數(shù)據(jù)存到數(shù)據(jù)倉庫中

1. 數(shù)據(jù)集成的兩種架構(gòu)

  • ELT 過程為數(shù)據(jù)提取(Extract)——轉(zhuǎn)換(Transform)——加載(Load),在數(shù)據(jù)源抽取后首先進(jìn)行轉(zhuǎn)換,然后將轉(zhuǎn)換的結(jié)果寫入目的地。

  • ETL 過程為數(shù)據(jù)提取(Extract)——加載(Load)——轉(zhuǎn)換(Transform),在數(shù)據(jù)抽取后將結(jié)果先寫入目的地,然后利用數(shù)據(jù)庫的聚合分析能力或者外部框架,如Spark來完成轉(zhuǎn)換的步驟。

2. ETL和ELT的區(qū)別

ETL和ELT主要是先清洗數(shù)據(jù)還是先入庫的區(qū)別。ETL一般使用主流框架用程序在提取的時候就將數(shù)據(jù)進(jìn)行清洗,ELT則是將數(shù)據(jù)存到數(shù)據(jù)倉庫,再用sql進(jìn)行數(shù)據(jù)清洗。

未來使用ELT作為數(shù)據(jù)集成架構(gòu)的會越來越多,有以下好處:

  • 使用 ELT 方法,在提取完成之后,數(shù)據(jù)加載會立即開始。一方面更省時,另一方面 ELT 允許 BI 分析人員無限制地訪問整個原始數(shù)據(jù),為分析師提供了更大的靈活性,使之能更好地支持業(yè)務(wù)。

  • 在 ELT 架構(gòu)中,數(shù)據(jù)變換這個過程根據(jù)后續(xù)使用的情況,需要在 SQL 中進(jìn)行,而不是在加載階段進(jìn)行。這樣做的好處是你可以從數(shù)據(jù)源中提取數(shù)據(jù),經(jīng)過少量預(yù)處理后進(jìn)行加載。這樣的架構(gòu)更簡單,使分析人員更好地了解原始數(shù)據(jù)的變換過程。

什么是數(shù)據(jù)變換

數(shù)據(jù)變換是數(shù)據(jù)準(zhǔn)備的重要環(huán)節(jié),通過數(shù)據(jù)平滑、數(shù)據(jù)聚集、數(shù)據(jù)概化和規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。

1. 數(shù)據(jù)平滑

去除數(shù)據(jù)中的噪聲,將連續(xù)數(shù)據(jù)離散化

2. 數(shù)據(jù)聚集

對數(shù)據(jù)進(jìn)行匯總,例如Sum、Max、Mean等

3. 數(shù)據(jù)概化

將數(shù)據(jù)由較低的概念抽象成較高的概念,如北上廣深圳概化為中國。

4. 數(shù)據(jù)規(guī)范化

合屬性數(shù)據(jù)按比例縮放,將原來的數(shù)值映射到新的特定區(qū)域中。

  • min-max規(guī)范化:將原始數(shù)據(jù)變化到[0, 1]的空間中,公式為:新數(shù)值=(原數(shù)值-極小值) / (極大值-極小值),對應(yīng)的有SciKit-Learn的preprocessing.MinMaxScaler函數(shù)

  • z-score規(guī)范化:可以用相同的標(biāo)準(zhǔn)比較不同規(guī)格的成績。公式為:新數(shù)值=(原數(shù)值-均值) / 標(biāo)準(zhǔn)差。對應(yīng)的有SciKit-Learn的preprocessing.scale函數(shù),求出每行每列的值減去了平均值,再除以方差的結(jié)果,使得數(shù)值都符合均值為0,方差為1的正態(tài)分布

  • 小數(shù)定標(biāo)規(guī)范:通過移動小數(shù)點的位置來進(jìn)行規(guī)范化

5. 屬性構(gòu)造

構(gòu)造出新的屬性并添加到屬性集中。

什么是方差、標(biāo)準(zhǔn)差

  • 方差和標(biāo)準(zhǔn)差是測算離散趨勢最重要、最常用的指標(biāo)

  • 標(biāo)準(zhǔn)差是方差的平方根

  • 一個較大的標(biāo)準(zhǔn)差,代表大部分?jǐn)?shù)值和其平均值之間差異較大;一個較小的標(biāo)準(zhǔn)差,代表這些數(shù)值較接近平均值。

  • 由于方差是數(shù)據(jù)的平方,與檢測值本身相差太大,人們難以直觀的衡量,所以常用方差開根號換算回來這就是我們要說的標(biāo)準(zhǔn)差。

End.

作者:雪山飛豬

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多