| 來自infoworld 機器之心編譯出品 編譯:汪汪,趙云峰 你可能聽說過谷歌和Facebook這樣的公司如何利用機器學習來開車、識別語音和分類圖片。你可能會想,這很酷。但這和你的工作有什么關(guān)系呢?好吧,來看看這些公司如何使用機器學習吧。 一家支付處理公司在幾十億次交易中,實時檢測到了欺詐行為,每月減少損失達100萬美元。一家汽車保險公司用詳細的地理空間數(shù)據(jù),預(yù)測保險索賠的損失,讓他們能夠?qū)O端天氣對生意的影響進行建模。有了車載通信技術(shù)提供的數(shù)據(jù),一家廠商發(fā)現(xiàn)了運營指標的規(guī)律,并用它們來驅(qū)動前瞻性主動維護業(yè)務(wù)。
 這些成功的故事中有兩個相同的主題。首先,每個應(yīng)用都基于大數(shù)據(jù)——極大數(shù)量的、格式不同的快速數(shù)據(jù)。第二,每個案例中,機器學習都揭示出了新的洞察,并驅(qū)動了價值的增長。 機器學習的技術(shù)基礎(chǔ)已有超過50年歷史了,但是直到最近,學術(shù)界之外的人才注意到它的能力。機器學習需要大量的計算能力,但早期的使用者們?nèi)狈Τ杀緞澦愕幕A(chǔ)設(shè)施。 近期,機器學習引起了許多人的興趣,逐漸活躍起來,這歸功于一些正在融合的趨勢。 摩爾定律極大降低了計算成本;大規(guī)模計算能力可用最小的成本獲得。具有獨創(chuàng)性的新算法提升了計算速度。數(shù)據(jù)科學家積累了許多理論和實踐知識,提升了機器學習的效率。
 總的來說,大數(shù)據(jù)帶來的颶風創(chuàng)造了許多無法用傳統(tǒng)統(tǒng)計學方法解決的分析問題。需要是發(fā)明之母。舊的分析方法已經(jīng)不適用于今天的商業(yè)環(huán)境。 機器學習技術(shù) 目前,世界上共有幾百種不同的機器學習算法。最近,僅在分類方面,有一篇論文就測試了超過150個算法。這個概覽覆蓋了數(shù)據(jù)科學家用來驅(qū)動價值的關(guān)鍵技術(shù)。 數(shù)據(jù)科學家將機器學習分為監(jiān)督式學習和非監(jiān)督式學習。監(jiān)督式學習技術(shù)需要結(jié)果的先驗知識。例如,如果我們正在研究一個市場活動的歷史數(shù)據(jù),我們可以根據(jù)市場是否產(chǎn)生預(yù)期的反應(yīng)來對數(shù)據(jù)進行分類,或決定下一步要花多少錢。監(jiān)督式學習技術(shù)為預(yù)測和分類提供了強大的工具。 然而,經(jīng)常會出現(xiàn)的情況是,我們并不知道一個事件「最終」的結(jié)果。例如,在某些欺詐的案例中,只有當事情發(fā)生很久以后,我們才可能知道某次交易是不是欺詐。在這種情況下,與其試圖預(yù)測哪些交易是欺詐,我們不如使用機器學習來識別那些可疑的交易,并做出標記,以備后續(xù)觀察。但我們對某種特定的結(jié)果缺乏先驗知識、但仍希望從數(shù)據(jù)中汲取有用的洞察時,就要用到無監(jiān)督式學習。 使用最廣泛的監(jiān)督式學習技術(shù)包括以下這些: 廣義線性模型(GLM,Generalized linear models):這是線性回歸的一種高級形式,支持不同的概率分布和 聯(lián)系函數(shù),能讓分析師更有效地對數(shù)據(jù)進行建模。GLM用格點搜索進行加強,是經(jīng)典統(tǒng)計學和最先進的機器學習的混血產(chǎn)物。決策樹:這是一種監(jiān)督式學習模型,能夠?qū)W習一組將總體逐步劃分為若干小片段的規(guī)則。這些小片段對目標變量來說是同質(zhì)的。隨機森林:一種流行的集成學習方法,可以訓練許多決策樹,然后將這些決策樹進行平均,做出預(yù)測。這個平均的過程產(chǎn)生了一個更一般的解,過濾掉了數(shù)據(jù)中的隨機噪聲。梯度提升機器(GBM,Gradient boosting machine):這種方法通過訓練一系列決策樹來產(chǎn)生一個預(yù)測模型,在其中,后序決策樹會校正前序決策樹所產(chǎn)生的預(yù)測誤差。深度學習:這種方法能用復雜多層網(wǎng)絡(luò)的形式對數(shù)據(jù)中的高級模式進行建模。由于深度學習是對問題建模來說最一般的方法,因此有潛力解決機器學習中最具有挑戰(zhàn)性的問題。
 無監(jiān)督式學習的關(guān)鍵技術(shù)包括以下這些: 聚類:一種將物體分成小類的技術(shù)。這些類別在許多度量上彼此相似。顧客細分就是聚類的一個實際例子?,F(xiàn)在有許多不同的聚類算法,應(yīng)用最廣泛的是k-均值算法。異常檢測:這是一種識別意外事件或結(jié)果的過程。在安全和防欺詐領(lǐng)域,不可能對每一次交易都進行調(diào)查;我們需要系統(tǒng)對那些最可疑的交易做出標記。我們之前在監(jiān)督式學習部分討論過的深度學習,也可以用來進行異常檢測。維數(shù)縮減:這個過程可以減少納入考慮的變量數(shù)量。隨著企業(yè)和組織獲取的數(shù)據(jù)量越來越多,可能的預(yù)測因子(或特征)迅速增長。想要識別數(shù)據(jù)對某一特定問題提供了什么有價值的信息是一件很重要的工作。主成分分析(PCA)會對一組原始特征進行評估,并將它們減少為彼此獨立的索引。
 在機器學習中,某些技術(shù)總是比其他的技術(shù)表現(xiàn)好,但對某一個特定的問題來說,很難說哪一個技術(shù)是最好的。這樣,大多數(shù)數(shù)據(jù)科學家更喜歡嘗試多種技術(shù),并從中選擇最好的模型。由于這個原因,高性能就顯得非常必要,因為它可以讓數(shù)據(jù)科學家在更少的時間內(nèi)嘗試更多的選項。 機器學習實戰(zhàn) 在工業(yè)和商業(yè)領(lǐng)域,企業(yè)們都在使用機器學習來提升收入和降低成本,因為在許多任務(wù)上它們比人類更加高效。下面就是7個例子,證明機器學習的多功能性和廣泛的適用性。 預(yù)防欺詐:PayPal是在線支付產(chǎn)業(yè)的龍頭老大,每年擁有超過1.5億活躍的電子錢包用戶,支付額超過2000億美元。在這個體量下,即使是小比率的欺詐也會帶來極大的損失。在過去,這家公司在欺詐行為上的損失曾達到每月1000萬美元。為了解決這個問題,PayPal建立了一個由頂尖研究者組成的團隊,他們使用最先進的機器學習技術(shù)構(gòu)建了一個能實時識別欺詐性交易的模型。選擇電子廣告的目標客戶。廣告科技公司Dstillery用機器學習來幫助Verizon和Williams-Sonoma這樣的公司在實時競價平臺上定位電子廣告的目標。Dstillery使用了用戶的瀏覽歷史、訪問、點擊和購買信息,能在每秒內(nèi)做出幾千次預(yù)測,同時處理幾百個廣告活動。這樣,這家公司在廣告定位上的表現(xiàn)極大地超過了人類市場分析人員,優(yōu)化了每美元所帶來的市場影響。內(nèi)容推薦。Comcast公司基于每個交互式電視服務(wù)的顧客的歷史觀看習慣,提供了個性化的實時內(nèi)容推薦。Comcast用機器學習技術(shù)分析了幾十億個歷史記錄,對每一個顧客做出了獨特的品味描述,然后將顧客的品味分成不同的類別。對每一類顧客,Comcast都能實時跟蹤和顯示最流行的內(nèi)容,這樣顧客就能看到目前正在火爆的潮流。最后的結(jié)果就是:更好的推薦系統(tǒng),更高的利用率,更滿意的顧客。建造更好的汽車。捷豹路虎生產(chǎn)的新汽車上裝有60個機載計算機,每天在2萬個參數(shù)上產(chǎn)生1.5GB的數(shù)據(jù)。這家公司的工程師利用機器學習來提取數(shù)據(jù)并理解顧客如何與汽車互動。有了這些真實的使用數(shù)據(jù),設(shè)計師就能預(yù)測零件失效和潛在的安全問題,有助于他們設(shè)計車況更好的汽車。瞄準最好的潛在市場。市場人員用「購買傾向」模型作為工具來決定最好的潛在銷售市場,并提供最好的產(chǎn)品。思科的產(chǎn)品系列很多,從路由器到有線電視盒子,應(yīng)有盡有。它的市場分析團隊在幾小時內(nèi)訓練了6萬個模型,對1.6億個潛在市場進行了打分。他們使用了一系列的技術(shù)(例如決策樹和梯度提升機器),極大提升了模型的精確度。這些模型提升了銷售量,減少了無用的銷售電話,也提升了銷售代表的滿意度。優(yōu)化媒體。NBC環(huán)球公司存儲了幾百TB分配到國際有線電視的媒體文件。對這些在線資源的有效管理對互聯(lián)網(wǎng)客戶的分配支持是非常必要的。這家公司使用了機器學習,基于多參數(shù)的組合來預(yù)測每個項目的未來需求?;谶@樣的預(yù)測,這家公司將預(yù)測需求較低的媒體文件移入低成本的離線存儲。機器學習帶來的預(yù)測比基于單參數(shù)(例如文件年齡)的隨機規(guī)則更加高效。結(jié)果,NBC環(huán)球在保持客戶滿意度的情況下,降低了總體存儲成本。改善醫(yī)療保障服務(wù)。對醫(yī)院來說,病人再次入院是一個嚴重的問題,這不僅會影響病人的健康和福利。如果一家醫(yī)院的再入院率高,將面臨美國聯(lián)邦醫(yī)療保險和私人保險公司的處罰,所以考慮到經(jīng)濟利益,醫(yī)院通常只會允許那些恢復得很好、看起來會保持健康的病人出院。卡羅萊納州醫(yī)療系統(tǒng) (CHS)使用機器學習,對病人的風險進行打分,幫助病例管理員決定某個病人是否應(yīng)該出院。這個系統(tǒng)提升了護士和病例管理員的效率,并根據(jù)風險和病癥的復雜性對病人進行排序。結(jié)果,CHS的再入院率從21%降到了14%。
 機器學習的軟件要求 適合機器學習的軟件隨處可見,機構(gòu)在開發(fā)功能時有許多選擇,以下是評估機器學習時應(yīng)該考慮的需求: 速度實現(xiàn)價值的時間模型準確性集成簡便靈活部署可用性可視化
 讓我們分別來看一看: 速度。時間就是金錢,運算快速的軟件能夠使你高薪雇用的數(shù)據(jù)科學更具生產(chǎn)力。實踐中的數(shù)據(jù)科學往往需要不斷實驗和迭代,一個項目可能數(shù)百次測試,運算速度上的微小改善可能就會顯著的提升效率??紤]到每天的數(shù)據(jù)量,高性能的機器學習軟件必須在分布式平臺上運行,這樣你就可以就工作量分散在多臺服務(wù)器上。實現(xiàn)價值的時間。執(zhí)行期的表現(xiàn)只是「實現(xiàn)價值的時間」中的一部分。公司生意的度量標準應(yīng)該是整個項目的完成時間,從數(shù)據(jù)獲取到部署完成。在現(xiàn)實情況下,這意味著你的機器學習軟件應(yīng)該將Hadoop和云格式整合起來,并且應(yīng)該輸出的預(yù)測模型的代碼能夠被部署在公司的任何其他地方。模型準確性。準確性關(guān)系重大,尤其是設(shè)計到高風險行業(yè)。例如交易中的欺詐監(jiān)測,在準確性上提高一點就能每年節(jié)省數(shù)百萬美元。你的機器學習軟件應(yīng)該給予數(shù)據(jù)科學家充分授權(quán),讓他們可以使用公司的所有數(shù)據(jù),而不是只讓他們處理某些樣本。集成簡便。你的機器學習軟件應(yīng)該與你生產(chǎn)過程中復雜的大數(shù)據(jù)軟件共存。理想化的機器學習軟件應(yīng)該是運行在日常硬件上,而不需要專門的高性能計算設(shè)備,也不需要GPU芯片等外加設(shè)備。靈活部署。你的機器學習軟件應(yīng)該在一定范圍內(nèi)提供多種部署選擇,包括Hadoop上的主機托管或者獨立的計算機集群。如果云服務(wù)是公司架構(gòu)中的一部分,務(wù)必要尋找那些能夠運行在多種云平臺的軟件,包括AWS、微軟Azure和谷歌云平臺。可用性。數(shù)據(jù)科學家會使用不同的軟件工作來進行工作,包括R、Python、Scala等分析語言。你的機器學習平臺應(yīng)該可以非常簡便的將這些工具集成起來。另外,精心設(shè)計的機器學習算法應(yīng)該包含以下幾種省時功能:1)處理缺失數(shù)據(jù)的能力;2)轉(zhuǎn)化分類數(shù)據(jù)的能力;3)管理復雜性的規(guī)則化技術(shù);4)適用于測試及學習自動化的網(wǎng)格搜索能力;5)自動化的交叉驗證。可視化。成功的預(yù)測模型需要數(shù)據(jù)科學家和商業(yè)用戶進行合作,因此,你的機器學習軟件應(yīng)該為你的商業(yè)用戶提供相應(yīng)的工具,便于他們對預(yù)測模型的特性和各類特征進行可視化評估。
 許多開發(fā)者相信,機器學習將變得像搜索引擎一樣無處不在和使用簡便。在搜索引擎方面,谷歌、雅虎等公司向普通用戶釋放了Web的力量,讓他們能在浩如煙秒的網(wǎng)頁中找到自己想要的信息。同樣的,機器學習也能幫助各種各樣的企業(yè)利用現(xiàn)代化的數(shù)據(jù)集獲取有價值的洞察。目前,我們還未做到這一點。要達到理想的未來,還需要更多的投入——不僅來自機器學習開發(fā)者,還來自那些數(shù)據(jù)量和分析需求早已超出傳統(tǒng)方法處理范疇的商業(yè)用戶。 本文由機器之心原創(chuàng)編譯,轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)。 ------------------------------------------------ 加入機器之心(全職記者/實習生):hr@almosthuman.cn 投稿或?qū)で髨蟮溃篹ditor@almosthuman.cn 廣告&商務(wù)合作:bd@almosthuman.cn ↓↓↓點擊「閱讀原文」查看機器之心網(wǎng)站,獲取更多精彩內(nèi)容。 |