|
AI、機(jī)器學(xué)習(xí)、監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、分類、決策樹(shù)、聚類、深度學(xué)習(xí)和算法。深度學(xué)習(xí)、機(jī)器學(xué)習(xí),人工智能——這些時(shí)下流行語(yǔ)代表著對(duì)未來(lái)技術(shù)的分析。 在這篇文章中,我們將通過(guò)現(xiàn)實(shí)世界中成熟的例子來(lái)解釋什么是機(jī)器學(xué)習(xí)和深度學(xué)習(xí)。這樣做并不是讓你成為數(shù)據(jù)科學(xué)家,而是讓你能夠更清楚的理解你可以用機(jī)器學(xué)習(xí)做些什么。開(kāi)發(fā)人員越來(lái)越容易的使用機(jī)器學(xué)習(xí),在互聯(lián)網(wǎng)時(shí)代,公司產(chǎn)生的每一條信息都有增值的潛力。 在整個(gè)人工智能的歷史長(zhǎng)河中,它一直在不斷的被重定義。AI是一個(gè)總稱(這個(gè)想法始于50年代);機(jī)器學(xué)習(xí)是AI的一個(gè)子集,深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的子集。 在1985年,當(dāng)我作為學(xué)生在國(guó)家安全局實(shí)習(xí)的時(shí)候,人工智能也是一個(gè)非常熱門的話題。在美國(guó)國(guó)家安全局,我甚至在AI上觀看了關(guān)于專家系統(tǒng)的MIT視頻課程。專家系統(tǒng)在規(guī)則引擎的指引下獲取專家的知識(shí)。規(guī)則引擎在金融、醫(yī)療保健等行業(yè)中廣泛使用,最近多用于事件處理,但是當(dāng)數(shù)據(jù)發(fā)生變化時(shí),規(guī)則可能變得難以更新和維護(hù)。機(jī)器學(xué)習(xí)的優(yōu)點(diǎn)在于,它是從數(shù)據(jù)中學(xué)習(xí),并且可以提供數(shù)據(jù)驅(qū)動(dòng)的概率預(yù)測(cè)。 根據(jù)Ted Dunning的說(shuō)法,最好使用精確的術(shù)語(yǔ)如機(jī)器學(xué)習(xí)或深度學(xué)習(xí),而不是術(shù)語(yǔ)“AI”,因?yàn)樵谖覀儼咽虑樽龊弥?,我們稱它為AI;之后,我們總是稱之為其他。AI最好作為下一個(gè)邊界詞。 分析在過(guò)去十年中的變化情況如何? 根據(jù)HBR的Thomas Davenport的說(shuō)法,分析技術(shù)在過(guò)去十年中發(fā)生巨大的變化,通過(guò)商用服務(wù)器,流分析和改進(jìn)的機(jī)器學(xué)習(xí)技術(shù)實(shí)現(xiàn)更強(qiáng)大更便宜的分布式計(jì)算,使公司能夠存儲(chǔ)和分析更多不同類型的數(shù)據(jù)。 傳統(tǒng)上,數(shù)據(jù)存儲(chǔ)在RAID系統(tǒng)中,發(fā)送到多核服務(wù)器進(jìn)行處理,然后再發(fā)送回存儲(chǔ)器,這樣導(dǎo)致數(shù)據(jù)傳輸瓶頸,并且價(jià)格昂貴。通過(guò)MapR-XD和MapR-DB等文件和表存儲(chǔ),數(shù)據(jù)分布在集群中,而MapReduce、Pig和Hive等Hadoop技術(shù)將計(jì)算任務(wù)發(fā)送到數(shù)據(jù)所在的位置。 像Apache Spark這樣的技術(shù)通過(guò)迭代算法加速分布式數(shù)據(jù)的并行處理,迭代算法通過(guò)內(nèi)存緩存數(shù)據(jù),并使用輕量級(jí)的線程。 MapR Event Streams是一種用于大規(guī)模流式傳輸事件數(shù)據(jù)的新型分布式消息傳遞系統(tǒng),它與流式處理(如:Apache Spark流式傳輸或Apache Flink)相結(jié)合,可加快與機(jī)器學(xué)習(xí)模型并行處理實(shí)時(shí)事件的速度。 圖像處理單元(GPU)加快了多核處理器的并行處理。GPU具有大規(guī)模并行架構(gòu),由數(shù)千個(gè)更小、更高效的內(nèi)核組成,設(shè)計(jì)用于同時(shí)處理多個(gè)任務(wù),而CPU由幾個(gè)針對(duì)順序串行處理優(yōu)化的內(nèi)核組成。就潛在性能而言,從Cray-1到今天擁有大量GPU的集群的發(fā)展,大約是地球史上速度最快的計(jì)算機(jī)的一百萬(wàn)倍,成本只是其中的非常小的一部分。 機(jī)器學(xué)習(xí)使用算法查找數(shù)據(jù)中的模式,然后使用識(shí)別這些模式的模型對(duì)新數(shù)據(jù)進(jìn)行預(yù)測(cè)。 通常,機(jī)器學(xué)習(xí)分解為以下類型:監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)以及半監(jiān)督學(xué)習(xí)。監(jiān)督學(xué)習(xí)算法使用標(biāo)記數(shù)據(jù),無(wú)監(jiān)督學(xué)習(xí)算法是在未標(biāo)記數(shù)據(jù)中找到模式。半監(jiān)督學(xué)習(xí)使用有標(biāo)記和無(wú)標(biāo)記數(shù)據(jù)的混合。強(qiáng)化學(xué)習(xí)訓(xùn)練算法基于反饋?zhàn)畲蠡?jiǎng)勵(lì)。
監(jiān)督算法使用有標(biāo)記的數(shù)據(jù),其中輸入和目標(biāo)結(jié)果或標(biāo)簽都提供給算法。
監(jiān)督學(xué)習(xí)也被稱作預(yù)測(cè)建?;蝾A(yù)測(cè)分析,因?yàn)槟銟?gòu)建了一個(gè)能夠進(jìn)行預(yù)測(cè)的模型。預(yù)測(cè)建模的一些示例有分類和回歸。分類基于已知項(xiàng)目的標(biāo)記示例(例如,已知是欺詐的交易)來(lái)識(shí)別項(xiàng)目屬于哪個(gè)類別(例如,交易是否為欺詐)。邏輯回歸預(yù)測(cè)概率 - 例如,欺詐的概率。線性回歸預(yù)測(cè)數(shù)值——例如,欺詐數(shù)量。
分類的一些示例包括:
邏輯回歸(或其他算法)的一些示例包括:
線性回歸的一些例子包括:
下面顯示了其他有監(jiān)督和無(wú)監(jiān)督的學(xué)習(xí)算法,我們不會(huì)對(duì)此進(jìn)行討論,但我們將更詳細(xì)地查看每個(gè)算法的一個(gè)示例。
分類示例:借記卡詐騙 分類采用具有已知標(biāo)簽和預(yù)定特征的一組數(shù)據(jù),并學(xué)習(xí)如何基于該信息標(biāo)記新記錄。功能是你提出的“如果”問(wèn)題,標(biāo)簽是這些問(wèn)題的答案。
我們來(lái)看一下借記卡詐騙的例子。
要構(gòu)建分類器模型,您需要提取最有助于分類的感興趣的特征。 決策樹(shù)創(chuàng)建一個(gè)模型,根據(jù)多個(gè)輸入特征預(yù)測(cè)類或標(biāo)簽。決策樹(shù)的工作原理是評(píng)估包含每個(gè)節(jié)點(diǎn)的特征的問(wèn)題,并根據(jù)答案選擇到下一個(gè)節(jié)點(diǎn)的分支。下面顯示了用于預(yù)測(cè)借記卡欺詐的可能決策樹(shù)。特征問(wèn)題是節(jié)點(diǎn),答案“是”或“否”是樹(shù)節(jié)點(diǎn)到子節(jié)點(diǎn)的分支。(請(qǐng)注意,真正的樹(shù)會(huì)有更多節(jié)點(diǎn)。)
決策樹(shù)很受歡迎,因?yàn)樗鼈円子诳梢暬徒忉?。通過(guò)將算法與集合相結(jié)合的方法,可以提高模型的準(zhǔn)確性。集合示例是隨機(jī)森林,形成了決策樹(shù)的多個(gè)隨機(jī)子集。 無(wú)監(jiān)督學(xué)習(xí)(有時(shí)也稱為描述性分析)沒(méi)有提前提供標(biāo)記數(shù)據(jù)。這些算法發(fā)現(xiàn)輸入數(shù)據(jù)中的相似性或規(guī)律性。無(wú)監(jiān)督學(xué)習(xí)的一個(gè)例子是根據(jù)購(gòu)買數(shù)據(jù)對(duì)類似客戶進(jìn)行分組。
在聚類中,算法通過(guò)分析輸入示例之間的相似性將輸入分類。一些聚類的示例包括:
K-means算法將觀測(cè)值分組為K個(gè)集群,其中每個(gè)觀測(cè)值屬于具有距其集群中心最近平均值的集群。
聚類的一個(gè)例子是希望對(duì)其客戶進(jìn)行細(xì)分以便更好地定制產(chǎn)品和產(chǎn)品的公司??蛻艨梢园慈丝诮y(tǒng)計(jì)和購(gòu)買歷史等功能進(jìn)行分組。無(wú)監(jiān)督學(xué)習(xí)的聚類通常與監(jiān)督學(xué)習(xí)相結(jié)合,以獲得更有價(jià)值的結(jié)果。例如,在該banking customer 360的用例中,首先根據(jù)調(diào)查的答案對(duì)客戶進(jìn)行分段。對(duì)客戶組進(jìn)行分析并標(biāo)記客戶角色。然后,這些標(biāo)簽通過(guò)客戶ID與賬戶類型和購(gòu)買等功能相關(guān)聯(lián)。最后,有監(jiān)督的機(jī)器學(xué)習(xí)應(yīng)用于標(biāo)記的客戶并進(jìn)行測(cè)試,允許將調(diào)查客戶角色與他們的銀行行為聯(lián)系起來(lái)并提供見(jiàn)解。
深度學(xué)習(xí)是多層神經(jīng)網(wǎng)絡(luò)的名稱,多層神經(jīng)網(wǎng)絡(luò)是由輸入和輸出之間的幾個(gè)節(jié)點(diǎn)“隱藏層”組成的網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)有很多變種,你可以在這個(gè)神經(jīng)網(wǎng)絡(luò)備忘單上學(xué)到更多。改進(jìn)的算法,GPU和大規(guī)模并行處理(MPP)已經(jīng)產(chǎn)生了具有數(shù)千層的網(wǎng)絡(luò)。每個(gè)節(jié)點(diǎn)獲取輸入數(shù)據(jù)和權(quán)重,并將置信度分?jǐn)?shù)輸出到下一層中的節(jié)點(diǎn),直到到達(dá)輸出層,其中計(jì)算得分的誤差。在一個(gè)稱為梯度下降的過(guò)程中進(jìn)行反向傳播,錯(cuò)誤再次通過(guò)網(wǎng)絡(luò)發(fā)回,并調(diào)整權(quán)重,改善模型。該過(guò)程重復(fù)數(shù)千次,根據(jù)其產(chǎn)生的誤差調(diào)整模型的權(quán)重,直到不再減少誤差為止。
在此過(guò)程中,層學(xué)習(xí)模型的最佳特征,其優(yōu)點(diǎn)是不需要預(yù)先確定特征。但是,這樣做的缺點(diǎn)是模型的決策無(wú)法解釋。因?yàn)榻忉寷Q策很重要,研究人員正在開(kāi)發(fā)新方法來(lái)理解深度學(xué)習(xí)的黑盒子。 深度學(xué)習(xí)算法有不同的變體,可以與MapR的分布式深度學(xué)習(xí)快速入門解決方案一起使用,以構(gòu)建數(shù)據(jù)驅(qū)動(dòng)的應(yīng)用程序,如下所示:
這些互聯(lián)網(wǎng)原生企業(yè)的共同特征是:對(duì)新技術(shù)的充分應(yīng)用:
競(jìng)爭(zhēng)對(duì)手以一種完全不同的業(yè)務(wù)模式闖入行業(yè),你發(fā)現(xiàn)自己完全沒(méi)有招架之力!不管是個(gè)人,還是所在行業(yè),都應(yīng)該積極擁抱人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等新技術(shù)的到來(lái)!
|
|
|
來(lái)自: 萬(wàn)皇之皇 > 《IT互聯(lián)》