小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

比谷歌AutoML快110倍,全流程自動機器學習平臺應該是這樣的

 李端有 2019-12-23

機器之心原創(chuàng)

作者:思

Scala 替換 Python、GPU 加速數(shù)據(jù)科學模型、新建 AutoML 庫,一個超越 Google AutoML 的自動建模系統(tǒng)該怎么設計?自動數(shù)據(jù)清理、自動特征工程、自動建模與評估,剛入行的人也能玩轉的 AutoML 平臺該怎樣搞定真實業(yè)務?本文滿足你對極速建模的一切幻想。

比谷歌AutoML快110倍,全流程自動機器學習平臺應該是這樣的


昨日,機器之心聯(lián)合 MoBagel(行動貝果) 舉行了 AutoML 線下技術分享會,我們很榮幸邀請到兩位來自硅谷的技術大咖,MoBagel 鐘哲民與郭安哲,他們向我們介紹了全流程 AutoML 技術到底是什么,它能干什么,能做哪些極致優(yōu)化。

在短短的半天中,可能并來不及探討最深層次的技術問題,但分享會能告訴我們在 ML 的發(fā)展路徑中,到底 AutoML 的哪些研究方向是令人振奮的、哪些工程技術是必不可少的、哪些應用領域是非常有前景的。

比谷歌AutoML快110倍,全流程自動機器學習平臺應該是這樣的

線下分享會同時還舉行了實戰(zhàn)工作坊,數(shù)十位成功報名的體驗者將現(xiàn)場嘗試用 Decanter AI 快速做一個強力的機器學習模型。

極速與準確,超越 Google AutoML

MoBagel 在一些 Kaggle 挑戰(zhàn)賽上公平對比了 Google AutoML 系統(tǒng),包括回歸分析、聚類分析與時間序列分析等等。簡單而言,Google AutoML 與 Decanter AI 會使用相同的數(shù)據(jù)源,并且在數(shù)據(jù)都不進行手動處理的情況下,觀察兩個系統(tǒng)的運行結果與時間。

「在準確度上,Decanter AI 在多個業(yè)務場景平均要高 10+百分點」,MoBagel CEO 鐘哲民 表示準確度并不是最為顯著的方面,訓練速度會有較大的差異。他說:「在相同輸入數(shù)據(jù)下,Decanter AI 的訓練速度是該系統(tǒng)的 110 倍左右。

比谷歌AutoML快110倍,全流程自動機器學習平臺應該是這樣的

Decanter AI 與 Google AutoML 的效果對比,其中 R-Squared 為模型的確定系數(shù),它越接近 1,模型對預測值的解釋能力就越強。CPU-Hour 為模型的效率,擬合同樣的數(shù)據(jù),CPU-Hour 越低,系統(tǒng)的效率就越高。

根據(jù) Google 官方數(shù)據(jù),其 AutoML 系統(tǒng)背后的服務器池達到了 2208 塊 CPU,但測試結果仍然比 Decanter AI 慢了 110 倍。對于機器學習模型來說,能越早看到結果,就能更早判斷數(shù)據(jù)的好壞,從而加速模型迭代過程。

既然在效果和效率上能做到超越 Google AutoML 的性能,那么下面我們可以具體看看全流程 AutoML 以及 Decanter AI 到底有哪些令人驚艷的特性。

現(xiàn)場分享,從設計思路到體驗

在一個多小時的分享中,我們能了解到全流程 AutoML 系統(tǒng)的設計思路及主要機制,也能了解到遺傳算法在 AutoML 中的應用。MoBagel CEO 鐘哲民說:「我發(fā)現(xiàn)大部分 AI 進展都以研究為導向,這些很厲害的算法都非常有優(yōu)勢,也非常復雜。但當它們具有這樣的特性時,要把科研算法應用在正確的業(yè)務場景就會變的很困難。因此,我們做的自動機器學習技術希望幫助更快速與準確地完成 AI 應用?!?/p>

這是 Decanter AI 初衷之一,也是 AutoML 技術的目標。從最開始基于開源框架做一系列的整合與優(yōu)化,重點關注自動化的模型搭建,到現(xiàn)在 Decanter AI 采用 Scala 語言重構整個系統(tǒng),完善全流程的自動機器學習系統(tǒng),MoBagel 在加速模型成熟為產品這個方向已經(jīng)做出了很多工作。

比谷歌AutoML快110倍,全流程自動機器學習平臺應該是這樣的

MoBagel CEO 鐘哲民:讓機器學習普及到每一張辦公桌。

鐘哲民在分享會上首次介紹了全流程 AutoML 系統(tǒng)的設計思路與歷程,他表示最開始團隊也是采用 Python 等開源工具與算法構建整個系統(tǒng),當初的想法是集成更多好用的開源工具,讓它們變得更簡單與自動化,這是第一代產品。

后來與軟銀等公司合作的時候,鐘哲民發(fā)現(xiàn)當前系統(tǒng)要應用到商業(yè),會遇到一個瓶頸,系統(tǒng)需要更快速、穩(wěn)定和準確。為此,MoBagel 開始使用 Scala 語言開發(fā)自己的 AutoML 套件,并最終將整個系統(tǒng)都用 Scala 改寫了一遍。當這些改進與優(yōu)化累積到一定程度后,MoBagel 就形成了自己完整的一套 AutoML 庫,現(xiàn)在也正在嘗試開放它。

就是這樣一條優(yōu)化路徑,鐘哲民說:「目前 Decanter AI 應用于銷售預測、 精準營銷、人事表現(xiàn)預測等領域皆有許多企業(yè)實時在生產環(huán)境使用中,不論是有沒有數(shù)據(jù)科學背景,用戶都能靠自己的能力落地,AI 的應用不再是無法掌控的黑盒子」

當然,在設計 Decanter AI 的過程中,也是有理論和工程兩方面的考量?!冈诠こ谭矫?,我們希望最快地訓練一個模型,而在理論方面,我們希望只用最少的嘗試找到一個足夠好的模型?!梗琈oBagel ML 總監(jiān)郭安哲說。在工程上,除了前面采用 Scala 語言,郭安哲表示大規(guī)模并行訓練、多模型聯(lián)合搜索、多線程數(shù)據(jù)運算等都需要考慮。

比谷歌AutoML快110倍,全流程自動機器學習平臺應該是這樣的

MoBagel ML 總監(jiān)郭安哲:使用演化算法解決貝葉斯問題,突破異質性超參數(shù)空間的限制性。

郭安哲后面重點介紹了 Actor 理論,它以比較正規(guī)的方式討論了并行化。該理論主要提出了四種方法:第一是資源不要共享;第二是非同步信息;第三個是 location indepentent;第四是適當?shù)母綦x的機制。雖然它本身不是為自動機器學習設計的,但它對 AutoML 的系統(tǒng)設計非常重要。

在分享會的最后,味全的營業(yè)與財務主管李征也介紹了她的使用經(jīng)驗。「因為市場需求變化很快,且產品保質期不到一個月,味全面臨著產銷協(xié)調問題,過多生產造成庫存水位高以致資源浪費,過少生產意味著缺貨?!?,李征說,「我們拿了一年的數(shù)據(jù)來訓練,并期待通過 Decanter AI 精進產銷問題。我發(fā)現(xiàn)隨著特征數(shù)量的增加(影響變數(shù)的重要特征),預測準確率逐步提升達 90% 以上,對產銷協(xié)調非常有幫助。」

李征表示,她本來是機械工程背景,但是也能快速地上手建模平臺。所以,這就是全流程自動建模的優(yōu)勢,用戶不需要統(tǒng)計或機器學習知識就能快速建模真實數(shù)據(jù)。「Decanter AI 真的能讓人人都能成為數(shù)據(jù)科學家?!?/p>

Decanter AI 全流程自動建模

對于標準的數(shù)據(jù)科學處理流程來說,從預處理到建模,再到調參,中間涉及的處理過程非常繁雜。我們要小心翼翼地處理數(shù)據(jù),從而構建干凈的樣本;我們需要仔細選擇模型算法,從而獲得不錯的基本效果;同時,我們也要依據(jù)經(jīng)驗調調參,從而找到能接受的超參組合。所有這些,都要求數(shù)據(jù)科學家手動完成。

比谷歌AutoML快110倍,全流程自動機器學習平臺應該是這樣的

但是全流程的 AutoML 不一樣,給定數(shù)據(jù),我們坐等訓練結果就行了。中間從數(shù)據(jù)清理到模型評估都可以自動完成,數(shù)據(jù)科學家可以著重在分析與決策,不用手動建立數(shù)十個實驗來驗證一個簡單的假設。

MoBagel CEO 鐘哲民稱:「全流程 AutoML 本身不需要編程,全部通過可視化界面完成,Decanter AI 在底層會自動完成這一切。傳統(tǒng)的方法論要經(jīng)歷 3 個月的過程,而現(xiàn)在只要 3 天,數(shù)據(jù)科學家就可以交出以往花 3 個月才能取得的成果?!?/p>

比谷歌AutoML快110倍,全流程自動機器學習平臺應該是這樣的


如上圖所示,全流程 AutoML 主要分為四個模塊。首先對于自動數(shù)據(jù)清理,Decanter AI 會完成一些數(shù)值填補、異常值查找或者數(shù)值的自動化統(tǒng)計處理。這些都是數(shù)據(jù)科學非常麻煩的地方,以往我們必須先理解數(shù)據(jù)然后才一點點提升數(shù)據(jù)狀況?,F(xiàn)在,交給自動數(shù)據(jù)預處理就好了,Decanter AI 會從統(tǒng)計和機器學習兩個角度自動填補和處理異常值。

其次對于自動特征工程,Decanter AI 會自動選擇重要的特征,并創(chuàng)建一些新的特征。不同的模型對于他的輸入分布有不同的假設,例如深度學習對于其特征有線性假設,所以再處理類別型特征時,和 Tree-Based 模型就會不同。Decanter AI 可以針對數(shù)據(jù)集的特性,與不同模型自動建構合適的統(tǒng)計特征,如 One hot encoding/Label encoding,也會隨機進行一些搜尋,自動產生新的特征,例如使用時間相關特征,或者組合特征。

現(xiàn)在輸入數(shù)據(jù)已經(jīng)確定了,第三步就需要自動建模數(shù)據(jù)了。這一部分承擔了最為核心的運算,也是研究最多的領域。Decanter AI 能自動組合包含回歸、聚類、分類、時間序列等共 60 多類機器學習算法,并使用交叉驗證(Cross-validation),hold-out 以找到模型最合適的超參數(shù)建模方法。

「除了常規(guī)的自動建模,初版模型會不斷迭代而疊加不同的模型——Ensemble-stacking Model。例如淺層模型擅長某方面,深度模型擅長另一方面,那么我們會找到最好的權重疊加這兩種模型。」鐘哲民說。

確定模型與超參的選擇策略,再加上合適的損失函數(shù),模型以及模型效果就會一輪輪迭代,直到評估出一個最優(yōu)結果,自動化的建模與評估就差不多完成了。 目前很多 AutoML 系統(tǒng)都比較關注最后的自動建模,但前面的數(shù)據(jù)預處理與特征工程卻是手動建模最麻煩的過程,忽略兩者會帶來不夠友好的用戶體驗。因此只有全流程 AutoML,才能讓絕大部分用戶從采集數(shù)據(jù)到部署模型都不會「卡殼」。 當然,這四大自動化流程的背后還有很多底層支持。鐘哲民表示,在 Decanter AI 全自動流程的背后,怎樣自動分散計算資源、怎樣設計分布式系統(tǒng)、怎樣完成 GPU 加速、怎樣配置訓練預選都是需要考慮的,這些工程方面的穩(wěn)定流暢是我們從超過 100 個海內外項目不斷累積的成果。

Decanter AI 亮點新特性

Decanter AI 的目標在于構建快速、簡單、準確、可解釋的自動機器學習平臺,它有很多引人注目的新特性。比如說首個自動化的 AutoML 時序建模及交叉驗證方案、采用 Scala 代替 Python 作為底層語言及分布式計算、實現(xiàn) 100 倍率以上的算力加速、在處理海量數(shù)據(jù)的穩(wěn)定度遠勝于 Python 集群、采用伯克利團隊參與共同研發(fā)的 AutoML Library 及自動數(shù)據(jù)清理、自動特征工程等數(shù)據(jù)分析模塊。 這里主要介紹 Decanter AI 的時序建模、Scala 語言與 AutoML 庫,其它更多的新特性可以查閱平臺官網(wǎng) mobagel.com。

新穎的自動時序建模

對于數(shù)據(jù)分析領域,大部分開源算法很少針對時間序列數(shù)據(jù),即使支持時序建模,其在可用性或穩(wěn)定性上也都會存在一些問題。這很大一部分原因在于時序數(shù)據(jù),尤其是業(yè)務上的時序數(shù)據(jù)還需要很多處理過程,直接用 ARIMA 這樣的統(tǒng)計方法建模效果并不好。

針對這些問題,鐘哲民表示:「我們會結合統(tǒng)計算法與機器學習算法,并加上時序數(shù)據(jù)該有的一些特性,從而優(yōu)化自動數(shù)據(jù)建模過程。除此之外,針對前面的數(shù)據(jù)預處理過程、特征工程,Decanter AI 也會自動構建合適的時序特征?!?/p>

比谷歌AutoML快110倍,全流程自動機器學習平臺應該是這樣的

時序建模示意圖。

注意,我們可不能小看了前面的時間序自動預處理和特征工程,目前對于時序特征的開源及商用軟件選擇并不多,包括 Google AutoML 工具也沒有時序預測分析。鐘哲民舉了個例子介紹什么是時序特征,假設我們要完成紙巾回購預測,即如果當前購買了一次紙巾,那么需要預測下一次購買紙巾的時間是什么。

這里非常重要的是模型需要考慮之前數(shù)據(jù)的區(qū)段,到底是三個星期前能知道下次購買時間,還是三個月、三年,以及下次回購的時間區(qū)段以及頻次(日期時間特征、lag 特征、window 特征、趨勢特征等等)。要確定這樣的時序跨度通常都需要人工手動確認,但 Decanter AI 的自動特征工程能自動切分合適的時間區(qū)間,從而準確地預測后續(xù)行為。

Scala 的強悍模型訓練速度

機器學習算法絕大多數(shù)模型都是用 Python 編寫,一般開發(fā)者采用 NumPy 與 Scikit-Learn 這樣的工具包完成整個模型的搭建。以這種方式做原型及內部項目是沒問題的,但要用于對外公開的業(yè)務中常常遇到穩(wěn)定度、可靠度、可用性的問題,還需要更多的工程優(yōu)化及經(jīng)驗累積。

如果是全流程 AutoML,那么我們肯定希望做出來的模型能直接用于實際業(yè)務。換而言之,AutoML 系統(tǒng)應該將這些工程優(yōu)化都隱藏到底層。通過采用 Scala 語言,Decanter AI 相比以 R 或 Python 語言為主的系統(tǒng),在模型訓練速度上能有 10~100 倍以上的提升,并且在大數(shù)據(jù)計算中更加穩(wěn)定。

比谷歌AutoML快110倍,全流程自動機器學習平臺應該是這樣的

「在 15 年的時候,我們第一版系統(tǒng)是基于 Python 完成的,當時遇到的問題在于,當數(shù)據(jù)體量非常大時,Python 的處理速度非常慢且不穩(wěn)定,時常報錯。」,鐘哲民接著說,「因此我們用 Scala 重寫了整個系統(tǒng),并在算法層面、并行計算等架構層面做了非常多的優(yōu)化,因此 Decanter AI 才有現(xiàn)在這么快的速度?!?/p>

當然 Python 也有很多開源的底層庫,但鐘哲民表示,這些開源算法會出現(xiàn)不穩(wěn)定的情況,出錯后要花大量的時間修正數(shù)據(jù)或開源庫的問題。因此在做實際業(yè)務時,Decanter AI 的整個架構都用 Scala 改寫,并獲得更強的穩(wěn)定性和數(shù)據(jù)場景的兼容性。總的來說,因為開源庫維護成本高的特性比較適合用于內部一次性項目而非產長期生生產環(huán)境,Decanter AI 的 AutoML 庫重點關注在追求穩(wěn)定、準確、快速 這三大目標,對于實際商業(yè)場景上更加適用,畢竟沒有企業(yè)用戶想要為了新的 AI 應用每天陷入加班除錯的窘境。

AutoML 庫

之前從 Python 轉向 Scala 主要是架構層面的嘗試,最近 MoBagel 從更細的角度優(yōu)化 Scala,并開放了基于 Scala 的 AutoML 庫。該軟件庫在使用上是開放的,用戶都能申請調用 API。

鐘哲民說:「我們發(fā)現(xiàn)越來越多的用戶使用 Decanter AI 做系統(tǒng)上的串接,例如串接到 ERP 系統(tǒng)或 CRM 系統(tǒng)等等。所以,如果我們以庫的方式提供一系列 API,那么整個流程的對接會更流暢一些,應用也更加快速?!勾送?,值得注意的是,在發(fā)布新版的 AutoML 庫之后,Decanter AI 的訓練速度可以快一倍,準確率也顯著提升。

比谷歌AutoML快110倍,全流程自動機器學習平臺應該是這樣的

總的來說,因為開源庫擴展性不夠好,Decanter AI 的 AutoML 庫重點關注在追求穩(wěn)定、準確、快速的實際商業(yè)場景需求上更為適合。

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多