揭秘人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的神秘面紗

萬(wàn)皇之皇 2019-05-10

展開(kāi)全文

1 題記

AI、機(jī)器學(xué)習(xí)、監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、分類、決策樹(shù)、聚類、深度學(xué)習(xí)和算法。深度學(xué)習(xí)、機(jī)器學(xué)習(xí)，人工智能——這些時(shí)下流行語(yǔ)代表著對(duì)未來(lái)技術(shù)的分析。

在這篇文章中，我們將通過(guò)現(xiàn)實(shí)世界中成熟的例子來(lái)解釋什么是機(jī)器學(xué)習(xí)和深度學(xué)習(xí)。這樣做并不是讓你成為數(shù)據(jù)科學(xué)家，而是讓你能夠更清楚的理解你可以用機(jī)器學(xué)習(xí)做些什么。開(kāi)發(fā)人員越來(lái)越容易的使用機(jī)器學(xué)習(xí)，在互聯(lián)網(wǎng)時(shí)代，公司產(chǎn)生的每一條信息都有增值的潛力。

2 什么是人工智能？

在整個(gè)人工智能的歷史長(zhǎng)河中，它一直在不斷的被重定義。AI是一個(gè)總稱（這個(gè)想法始于50年代）；機(jī)器學(xué)習(xí)是AI的一個(gè)子集，深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的子集。

在1985年，當(dāng)我作為學(xué)生在國(guó)家安全局實(shí)習(xí)的時(shí)候，人工智能也是一個(gè)非常熱門的話題。在美國(guó)國(guó)家安全局，我甚至在AI上觀看了關(guān)于專家系統(tǒng)的MIT視頻課程。專家系統(tǒng)在規(guī)則引擎的指引下獲取專家的知識(shí)。規(guī)則引擎在金融、醫(yī)療保健等行業(yè)中廣泛使用，最近多用于事件處理，但是當(dāng)數(shù)據(jù)發(fā)生變化時(shí)，規(guī)則可能變得難以更新和維護(hù)。機(jī)器學(xué)習(xí)的優(yōu)點(diǎn)在于，它是從數(shù)據(jù)中學(xué)習(xí)，并且可以提供數(shù)據(jù)驅(qū)動(dòng)的概率預(yù)測(cè)。

根據(jù)Ted Dunning的說(shuō)法，最好使用精確的術(shù)語(yǔ)如機(jī)器學(xué)習(xí)或深度學(xué)習(xí)，而不是術(shù)語(yǔ)“AI”，因?yàn)樵谖覀儼咽虑樽龊弥?，我們稱它為AI；之后，我們總是稱之為其他。AI最好作為下一個(gè)邊界詞。

分析在過(guò)去十年中的變化情況如何？

根據(jù)HBR的Thomas Davenport的說(shuō)法，分析技術(shù)在過(guò)去十年中發(fā)生巨大的變化，通過(guò)商用服務(wù)器，流分析和改進(jìn)的機(jī)器學(xué)習(xí)技術(shù)實(shí)現(xiàn)更強(qiáng)大更便宜的分布式計(jì)算，使公司能夠存儲(chǔ)和分析更多不同類型的數(shù)據(jù)。

傳統(tǒng)上，數(shù)據(jù)存儲(chǔ)在RAID系統(tǒng)中，發(fā)送到多核服務(wù)器進(jìn)行處理，然后再發(fā)送回存儲(chǔ)器，這樣導(dǎo)致數(shù)據(jù)傳輸瓶頸，并且價(jià)格昂貴。通過(guò)MapR-XD和MapR-DB等文件和表存儲(chǔ)，數(shù)據(jù)分布在集群中，而MapReduce、Pig和Hive等Hadoop技術(shù)將計(jì)算任務(wù)發(fā)送到數(shù)據(jù)所在的位置。

像Apache Spark這樣的技術(shù)通過(guò)迭代算法加速分布式數(shù)據(jù)的并行處理，迭代算法通過(guò)內(nèi)存緩存數(shù)據(jù)，并使用輕量級(jí)的線程。

MapR Event Streams是一種用于大規(guī)模流式傳輸事件數(shù)據(jù)的新型分布式消息傳遞系統(tǒng)，它與流式處理（如：Apache Spark流式傳輸或Apache Flink）相結(jié)合，可加快與機(jī)器學(xué)習(xí)模型并行處理實(shí)時(shí)事件的速度。

圖像處理單元（GPU）加快了多核處理器的并行處理。GPU具有大規(guī)模并行架構(gòu)，由數(shù)千個(gè)更小、更高效的內(nèi)核組成，設(shè)計(jì)用于同時(shí)處理多個(gè)任務(wù)，而CPU由幾個(gè)針對(duì)順序串行處理優(yōu)化的內(nèi)核組成。就潛在性能而言，從Cray-1到今天擁有大量GPU的集群的發(fā)展，大約是地球史上速度最快的計(jì)算機(jī)的一百萬(wàn)倍，成本只是其中的非常小的一部分。

3 什么是機(jī)器學(xué)習(xí)？

機(jī)器學(xué)習(xí)使用算法查找數(shù)據(jù)中的模式，然后使用識(shí)別這些模式的模型對(duì)新數(shù)據(jù)進(jìn)行預(yù)測(cè)。

通常，機(jī)器學(xué)習(xí)分解為以下類型：監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)以及半監(jiān)督學(xué)習(xí)。監(jiān)督學(xué)習(xí)算法使用標(biāo)記數(shù)據(jù)，無(wú)監(jiān)督學(xué)習(xí)算法是在未標(biāo)記數(shù)據(jù)中找到模式。半監(jiān)督學(xué)習(xí)使用有標(biāo)記和無(wú)標(biāo)記數(shù)據(jù)的混合。強(qiáng)化學(xué)習(xí)訓(xùn)練算法基于反饋?zhàn)畲蠡?jiǎng)勵(lì)。

4 監(jiān)督學(xué)習(xí)

監(jiān)督算法使用有標(biāo)記的數(shù)據(jù)，其中輸入和目標(biāo)結(jié)果或標(biāo)簽都提供給算法。

監(jiān)督學(xué)習(xí)也被稱作預(yù)測(cè)建?；蝾A(yù)測(cè)分析，因?yàn)槟銟?gòu)建了一個(gè)能夠進(jìn)行預(yù)測(cè)的模型。預(yù)測(cè)建模的一些示例有分類和回歸。分類基于已知項(xiàng)目的標(biāo)記示例（例如，已知是欺詐的交易）來(lái)識(shí)別項(xiàng)目屬于哪個(gè)類別（例如，交易是否為欺詐）。邏輯回歸預(yù)測(cè)概率 - 例如，欺詐的概率。線性回歸預(yù)測(cè)數(shù)值——例如，欺詐數(shù)量。

分類的一些示例包括：

信用卡欺詐檢測(cè)（欺詐，非欺詐）
信用卡申請(qǐng)（信譽(yù)良好，信用不良）
電子郵件垃圾郵件檢測(cè)（垃圾郵件，非垃圾郵件）
文本情緒分析（開(kāi)心，不開(kāi)心）
預(yù)測(cè)患者風(fēng)險(xiǎn)（高風(fēng)險(xiǎn)患者，低風(fēng)險(xiǎn)患者）
將腫瘤分類為惡性或非惡性

邏輯回歸（或其他算法）的一些示例包括：

鑒于歷史汽車保險(xiǎn)欺詐性索賠和索賠的特征，如索賠人的年齡，索賠金額和事故的嚴(yán)重程度，預(yù)測(cè)欺詐的可能性。
根據(jù)患者特征，預(yù)測(cè)充血性心力衰竭的可能性。

線性回歸的一些例子包括：

鑒于歷史汽車保險(xiǎn)欺詐性索賠和索賠的特征，如索賠人的年齡，索賠金額和事故的嚴(yán)重程度，預(yù)測(cè)欺詐金額。
鑒于歷史房地產(chǎn)銷售價(jià)格和房屋特征（即平方英尺，臥室數(shù)量，位置），預(yù)測(cè)房屋的價(jià)格。
根據(jù)歷史街區(qū)犯罪統(tǒng)計(jì)數(shù)據(jù)，預(yù)測(cè)犯罪率。

下面顯示了其他有監(jiān)督和無(wú)監(jiān)督的學(xué)習(xí)算法，我們不會(huì)對(duì)此進(jìn)行討論，但我們將更詳細(xì)地查看每個(gè)算法的一個(gè)示例。

分類示例：借記卡詐騙

分類采用具有已知標(biāo)簽和預(yù)定特征的一組數(shù)據(jù)，并學(xué)習(xí)如何基于該信息標(biāo)記新記錄。功能是你提出的“如果”問(wèn)題，標(biāo)簽是這些問(wèn)題的答案。

我們來(lái)看一下借記卡詐騙的例子。

我們想要預(yù)測(cè)什么？

借記卡交易是否為欺詐。
欺詐是標(biāo)簽（真或假）。

您可以使用哪些“如果”問(wèn)題或?qū)傩赃M(jìn)行預(yù)測(cè)？

今天花費(fèi)的金額是否大于歷史平均值嗎？
今天在多個(gè)國(guó)家都有交易嗎？
今天的交易數(shù)量是否大于歷史平均值？
今天新商家類型的數(shù)量是否與過(guò)去三個(gè)月相比較高？
今天是否有來(lái)自具有風(fēng)險(xiǎn)類別代碼的商家的多次購(gòu)買？
與歷史上使用PIN相比，今天是否有不尋常的簽名活動(dòng)？
與過(guò)去三個(gè)月相比，是否有新的州購(gòu)買？
與過(guò)去三個(gè)月相比，今天是否有外國(guó)購(gòu)買？

要構(gòu)建分類器模型，您需要提取最有助于分類的感興趣的特征。

5 決策樹(shù)

決策樹(shù)創(chuàng)建一個(gè)模型，根據(jù)多個(gè)輸入特征預(yù)測(cè)類或標(biāo)簽。決策樹(shù)的工作原理是評(píng)估包含每個(gè)節(jié)點(diǎn)的特征的問(wèn)題，并根據(jù)答案選擇到下一個(gè)節(jié)點(diǎn)的分支。下面顯示了用于預(yù)測(cè)借記卡欺詐的可能決策樹(shù)。特征問(wèn)題是節(jié)點(diǎn)，答案“是”或“否”是樹(shù)節(jié)點(diǎn)到子節(jié)點(diǎn)的分支。（請(qǐng)注意，真正的樹(shù)會(huì)有更多節(jié)點(diǎn)。）

Q1：24小時(shí)內(nèi)的花費(fèi)是否大于平均水平？

Q2：今天有風(fēng)險(xiǎn)的商家有多次購(gòu)買？

是欺詐= 90％
不欺詐= 50％

決策樹(shù)很受歡迎，因?yàn)樗鼈円子诳梢暬徒忉?。通過(guò)將算法與集合相結(jié)合的方法，可以提高模型的準(zhǔn)確性。集合示例是隨機(jī)森林，形成了決策樹(shù)的多個(gè)隨機(jī)子集。

6 無(wú)監(jiān)督學(xué)習(xí)

無(wú)監(jiān)督學(xué)習(xí)（有時(shí)也稱為描述性分析）沒(méi)有提前提供標(biāo)記數(shù)據(jù)。這些算法發(fā)現(xiàn)輸入數(shù)據(jù)中的相似性或規(guī)律性。無(wú)監(jiān)督學(xué)習(xí)的一個(gè)例子是根據(jù)購(gòu)買數(shù)據(jù)對(duì)類似客戶進(jìn)行分組。

7 聚類

在聚類中，算法通過(guò)分析輸入示例之間的相似性將輸入分類。一些聚類的示例包括：

搜索結(jié)果分組
對(duì)類似客戶進(jìn)行分組
對(duì)類似患者進(jìn)行分組
文本分類
網(wǎng)絡(luò)安全異常檢測(cè)（發(fā)現(xiàn)非相似的東西，來(lái)自群集的異常值）

K-means算法將觀測(cè)值分組為K個(gè)集群，其中每個(gè)觀測(cè)值屬于具有距其集群中心最近平均值的集群。

聚類的一個(gè)例子是希望對(duì)其客戶進(jìn)行細(xì)分以便更好地定制產(chǎn)品和產(chǎn)品的公司?？蛻艨梢园慈丝诮y(tǒng)計(jì)和購(gòu)買歷史等功能進(jìn)行分組。無(wú)監(jiān)督學(xué)習(xí)的聚類通常與監(jiān)督學(xué)習(xí)相結(jié)合，以獲得更有價(jià)值的結(jié)果。例如，在該banking customer 360的用例中，首先根據(jù)調(diào)查的答案對(duì)客戶進(jìn)行分段。對(duì)客戶組進(jìn)行分析并標(biāo)記客戶角色。然后，這些標(biāo)簽通過(guò)客戶ID與賬戶類型和購(gòu)買等功能相關(guān)聯(lián)。最后，有監(jiān)督的機(jī)器學(xué)習(xí)應(yīng)用于標(biāo)記的客戶并進(jìn)行測(cè)試，允許將調(diào)查客戶角色與他們的銀行行為聯(lián)系起來(lái)并提供見(jiàn)解。

8 深度學(xué)習(xí)

深度學(xué)習(xí)是多層神經(jīng)網(wǎng)絡(luò)的名稱，多層神經(jīng)網(wǎng)絡(luò)是由輸入和輸出之間的幾個(gè)節(jié)點(diǎn)“隱藏層”組成的網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)有很多變種，你可以在這個(gè)神經(jīng)網(wǎng)絡(luò)備忘單上學(xué)到更多。改進(jìn)的算法，GPU和大規(guī)模并行處理（MPP）已經(jīng)產(chǎn)生了具有數(shù)千層的網(wǎng)絡(luò)。每個(gè)節(jié)點(diǎn)獲取輸入數(shù)據(jù)和權(quán)重，并將置信度分?jǐn)?shù)輸出到下一層中的節(jié)點(diǎn)，直到到達(dá)輸出層，其中計(jì)算得分的誤差。在一個(gè)稱為梯度下降的過(guò)程中進(jìn)行反向傳播，錯(cuò)誤再次通過(guò)網(wǎng)絡(luò)發(fā)回，并調(diào)整權(quán)重，改善模型。該過(guò)程重復(fù)數(shù)千次，根據(jù)其產(chǎn)生的誤差調(diào)整模型的權(quán)重，直到不再減少誤差為止。

在此過(guò)程中，層學(xué)習(xí)模型的最佳特征，其優(yōu)點(diǎn)是不需要預(yù)先確定特征。但是，這樣做的缺點(diǎn)是模型的決策無(wú)法解釋。因?yàn)榻忉寷Q策很重要，研究人員正在開(kāi)發(fā)新方法來(lái)理解深度學(xué)習(xí)的黑盒子。

深度學(xué)習(xí)算法有不同的變體，可以與MapR的分布式深度學(xué)習(xí)快速入門解決方案一起使用，以構(gòu)建數(shù)據(jù)驅(qū)動(dòng)的應(yīng)用程序，如下所示：

用于改進(jìn)傳統(tǒng)算法的深度神經(jīng)網(wǎng)絡(luò)

財(cái)務(wù)：通過(guò)識(shí)別更復(fù)雜的模式來(lái)增強(qiáng)欺詐檢測(cè)
制造：基于更深的異常檢測(cè)，增強(qiáng)缺陷識(shí)別

用于圖像的卷積神經(jīng)網(wǎng)絡(luò)

零售：用于衡量流量的視頻的店內(nèi)活動(dòng)分析
衛(wèi)星圖像：標(biāo)記地形和分類對(duì)象
汽車：識(shí)別道路和障礙物
醫(yī)療保?。篨射線，掃描等的診斷機(jī)會(huì)
保險(xiǎn)：根據(jù)照片估算索賠嚴(yán)重程度

用于測(cè)序數(shù)據(jù)的遞歸神經(jīng)網(wǎng)絡(luò)

客戶滿意度：將語(yǔ)音數(shù)據(jù)轉(zhuǎn)錄為文本以進(jìn)行NLP分析
社交媒體：社交和產(chǎn)品論壇帖子的實(shí)時(shí)翻譯
照片字幕：搜索圖像檔案以獲得新的見(jiàn)解
財(cái)務(wù)：通過(guò)時(shí)間序列分析（也是增強(qiáng)的推薦系統(tǒng)）預(yù)測(cè)行為

9 總結(jié)

這些互聯(lián)網(wǎng)原生企業(yè)的共同特征是：對(duì)新技術(shù)的充分應(yīng)用：

競(jìng)爭(zhēng)對(duì)手以一種完全不同的業(yè)務(wù)模式闖入行業(yè)，你發(fā)現(xiàn)自己完全沒(méi)有招架之力！不管是個(gè)人，還是所在行業(yè)，都應(yīng)該積極擁抱人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等新技術(shù)的到來(lái)！

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：萬(wàn)皇之皇 > 《IT互聯(lián)》

舉報(bào)/認(rèn)領(lǐng)