ZRobot 喬楊：如何證明你是你？

昵稱52221680 2019-07-18

展開全文

內(nèi)容來源：2019年7月12日-7月14日，2019第四屆全球人工智能與機(jī)器人峰會(huì)（CCF-GAIR 2019）于深圳正式召開。ZRobot CEO喬楊在AI+金融專場(chǎng)發(fā)表了《數(shù)字科技驅(qū)動(dòng)的信貸反欺詐技術(shù)》的主題演講。筆記俠經(jīng)講者審閱，授權(quán)發(fā)布。
封面設(shè)計(jì) & 責(zé)編 | 智勇
第 3878 篇深度好文：4598 字 | 12 分鐘閱讀

活動(dòng)筆記·數(shù)字科技

本文優(yōu)質(zhì)度：★★★★★+ 口感：松花露

筆記君說：

數(shù)字科技時(shí)代，貸款越來越方便，直接用個(gè)人的信用就可以貸款，但總有一些人會(huì)用信用漏洞來騙貸、來欺詐，那么，我們應(yīng)該如何預(yù)防欺詐性事件呢？

接下來，和筆記君一起走進(jìn)今天的文章探索答案吧。

以下，盡情享用~

我今天分享的主題是“數(shù)字科技驅(qū)動(dòng)的信貸反欺詐技術(shù)”,關(guān)于AI、數(shù)據(jù)挖掘技術(shù)、模型算法在這個(gè)領(lǐng)域的應(yīng)用和嘗試。

首先介紹一下我們公司。

我們成立于2016年10月，成立之初的目的是利用海量高維的數(shù)據(jù)資源，結(jié)合行業(yè)內(nèi)最先進(jìn)的數(shù)據(jù)挖掘技術(shù)和模型算法，借助京東數(shù)科豐富的實(shí)踐應(yīng)用場(chǎng)景，不斷打磨自身的技術(shù)實(shí)力，同時(shí)賦能合作伙伴，幫助他們提升自身的風(fēng)控實(shí)力和運(yùn)營效率。

目前已經(jīng)和眾多的銀行、保險(xiǎn)、證券、信托、小貸公司、持牌消金以及融資租賃公司等等展開合作，為他們提供了各類的產(chǎn)品支持以及智能風(fēng)控、智能營銷解決方案，合作的機(jī)構(gòu)近300家。

今天講的是，我們?cè)诜雌墼p領(lǐng)域究竟做了哪些嘗試。

一、欺詐性案件背后的真相

大家經(jīng)常會(huì)在媒體上看到一些跟欺詐相關(guān)的令人觸目驚心的新聞報(bào)道，例如醫(yī)美中介欺詐、黑中介騙貸、洗錢套現(xiàn)等等。

隨著中國消費(fèi)信貸及互聯(lián)網(wǎng)化的飛速發(fā)展，信貸產(chǎn)品種類的日益豐富，欺詐的手段也不斷在更新進(jìn)化。欺詐分子是一群高智商且勤奮努力的人群，加上欺詐防范手段的滯后性，使得欺詐案件層出不窮，可謂道高一尺，魔高一丈。

從早期的傳統(tǒng)欺詐手段，已經(jīng)逐步進(jìn)化為更加先進(jìn)更難察覺的新型欺詐手段，比如早期的利誘員工到如今的潛入機(jī)構(gòu)，本人申請(qǐng)到資信包裝等等。

欺詐領(lǐng)域經(jīng)常存在一種“道高一尺，魔高一丈”的情況，要怎么做才能實(shí)現(xiàn)“魔高一尺，道高一丈”，真正實(shí)現(xiàn)欺詐的有效防范？

風(fēng)控從業(yè)者都知道，在信貸風(fēng)險(xiǎn)領(lǐng)域，我們最關(guān)注的是信用風(fēng)險(xiǎn)和欺詐風(fēng)險(xiǎn)。

信用風(fēng)險(xiǎn)非常好理解，最多的是從還款能力和意愿這兩個(gè)大維度去判斷。但是在欺詐風(fēng)險(xiǎn)領(lǐng)域，更多關(guān)注的是一方、二方、三方和多方混合欺詐，這就使得欺詐風(fēng)險(xiǎn)在判斷上更加復(fù)雜，難度更加大。

由于中國移動(dòng)互聯(lián)網(wǎng)的發(fā)展，比歐美一些國家更加快速、更加發(fā)達(dá)，使得欺詐手段層出不窮，也使得我們?cè)谶@個(gè)領(lǐng)域反欺詐的技術(shù)相對(duì)滯后。在美國，欺詐損失比例不到20%，而在中國為50%甚至更高。

所以在中國，整體信貸環(huán)境更加惡劣，防范欺詐風(fēng)險(xiǎn)的重要性更高。在建模方式上，我們通常是以已知的欺詐案件庫進(jìn)行定義，再進(jìn)行反欺詐模型的搭建，本身就很難進(jìn)行有效的提前預(yù)警。

舉個(gè)例子，當(dāng)時(shí)我在美國做反欺詐的時(shí)候，有一個(gè)客戶在拉斯維加斯的線下BestBuy（百思買）門店買了一部液晶電視，買完之后到周圍的麥當(dāng)勞Drive-Through買了一個(gè)漢堡。

我們的交易反欺詐模型是實(shí)時(shí)在線上跑的，用戶每做一筆刷卡，系統(tǒng)都在計(jì)算是否可以通過。這個(gè)用戶平時(shí)是經(jīng)常在線上消費(fèi)的，很少有在線下大額消費(fèi)的行為，所以這筆交易被定義為高度欺詐嫌疑的交易。使得這個(gè)用戶在買麥當(dāng)勞漢堡的時(shí)候，他的交易就被拒絕了。

這個(gè)用戶打電話進(jìn)行投訴，他說：“如果你懷疑我是一個(gè)欺詐分子，為什么不在我買電視的時(shí)候把我的交易拒絕？而是在我購買2塊錢漢堡的時(shí)候拒絕？”——這就說明我們的模型是存在一定滯后性的。

二、如何預(yù)防欺詐

對(duì)于不同的欺詐類型，我們需要從三個(gè)維度進(jìn)行考慮：了解客戶、了解員工以及了解對(duì)手。

▲ 長按圖片，分享給需要的人

但欺詐風(fēng)險(xiǎn)的防范必須了解所有交易參與對(duì)象，不然就會(huì)有疏漏，比如我們只去了解員工和對(duì)手，就會(huì)遺漏第一方欺詐的風(fēng)險(xiǎn)；只了解客戶和員工，就會(huì)給黑產(chǎn)、團(tuán)伙欺詐等第三方欺詐以機(jī)會(huì)。

右邊不同的顏色是對(duì)應(yīng)不同欺詐類型的防范措施，比如建立完善的內(nèi)控合規(guī)制度可以有效防范員工內(nèi)部欺詐。

但黑產(chǎn)識(shí)別是反欺詐領(lǐng)域最為關(guān)鍵的環(huán)節(jié)，在這個(gè)環(huán)節(jié)ZRobot進(jìn)行了大量的嘗試和探索，我們認(rèn)為通過生物識(shí)別技術(shù)、點(diǎn)面結(jié)合的復(fù)雜網(wǎng)絡(luò)+機(jī)器學(xué)習(xí)技術(shù)（我們稱之為“漫網(wǎng)技術(shù)”）以及欺詐模型識(shí)別，尤其是我們提出的“斑馬”擴(kuò)散技術(shù)是三方欺詐的最為有效的防范手段。

具體是什么原因呢？

首先，反欺詐的核心是證明交易對(duì)手是客戶本人，這是第一步，也是最關(guān)鍵的一步。

▲ 長按圖片，分享給需要的人

中國移動(dòng)互聯(lián)網(wǎng)的高度發(fā)展，給了很多金融機(jī)構(gòu)在前端非常有效的工具，用來和用戶交互，同時(shí)抓取有效的數(shù)據(jù)節(jié)點(diǎn)。

比如說現(xiàn)在非常成熟的移動(dòng)APP，前端可以抓取的用戶標(biāo)簽已經(jīng)多達(dá)200多個(gè)。在此基礎(chǔ)上做一些特征的延伸，是非常有想象空間的。通過輕量級(jí)的前端SDK生物探針部署，捕捉用戶多維度的生物行為并在云端進(jìn)行實(shí)時(shí)計(jì)算判斷，同時(shí)結(jié)合傳統(tǒng)的人臉、指紋及聲紋識(shí)別，就可以在保障客戶體驗(yàn)的同時(shí)達(dá)到欺詐風(fēng)險(xiǎn)防范的目的。

這樣的方式具備的優(yōu)勢(shì)非常明顯，比如無需硬件支持，驗(yàn)證過程無感知，無需用戶主動(dòng)配合，可進(jìn)行連續(xù)判斷，同時(shí)可實(shí)現(xiàn)實(shí)時(shí)風(fēng)險(xiǎn)決策。

隨著欺詐手段的不斷升級(jí)，欺詐的團(tuán)伙化特征也日益明顯，欺詐的上下游產(chǎn)業(yè)鏈也越來越龐大，越來越成熟。僅僅通過對(duì)個(gè)人的欺詐風(fēng)險(xiǎn)判斷不能防范團(tuán)伙作案帶來的影響和損失。

我們提出的漫網(wǎng)技術(shù)有效的解決了這個(gè)問題：類似谷歌提出的Graph Learning（圖形學(xué)習(xí)）, 對(duì)用戶全方位的關(guān)聯(lián)關(guān)系進(jìn)行識(shí)別包括設(shè)備關(guān)聯(lián)，通信關(guān)聯(lián)等等，構(gòu)建用戶的關(guān)系網(wǎng)絡(luò)圖譜，通過無監(jiān)督算法將無差別用戶劃分為不同群組，同時(shí)針對(duì)關(guān)聯(lián)關(guān)系強(qiáng)弱進(jìn)行判斷設(shè)定權(quán)重。漫網(wǎng)的優(yōu)點(diǎn)非常明顯，在反欺詐領(lǐng)域已經(jīng)取得了顯著的效果。

反欺詐中建模的流程和關(guān)注點(diǎn)，與傳統(tǒng)信用模型相比，欺詐模型構(gòu)建存在很大的挑戰(zhàn)：

基于業(yè)務(wù)知識(shí)及豐富的案件識(shí)別能力判斷哪些交易定性為欺詐交易。有了穩(wěn)定的案件庫和欺詐數(shù)據(jù)標(biāo)簽之后，用作目標(biāo)定義。特征工程設(shè)計(jì)的數(shù)據(jù)量及運(yùn)算量大，近實(shí)時(shí)的數(shù)據(jù)挖掘包括瀏覽數(shù)據(jù)、網(wǎng)絡(luò)行為挖掘、網(wǎng)絡(luò)借貸、同一時(shí)間內(nèi)的設(shè)備環(huán)境特征等等。

由于欺詐手段方法更具多樣性，而信用風(fēng)險(xiǎn)主要來自還款能力和還款意愿，比較具象，所以設(shè)計(jì)多特征多子模型的融合，同時(shí)模型的更新迭代必須跟得上欺詐環(huán)境的變化，所以模型部署也要考慮到這個(gè)問題，比如高頻定期的模型效果監(jiān)控，如何建立自適應(yīng)模型等等。

三、我們做了哪些嘗試和探索呢？

在這個(gè)領(lǐng)域我們做了哪些嘗試和探索呢？

在電商領(lǐng)域，用戶會(huì)在頁面留下大量觸點(diǎn)，比如點(diǎn)擊瀏覽不同層次頁面，但幾乎所有深層次頁面都會(huì)到SKU（庫存進(jìn)出計(jì)量的單位）或單品頁面，所以我們提出了item2vector概念，類似文本挖掘領(lǐng)域的text2vector或word2vector，將文本分類為向量矩陣，比如高頻低頻文本，然后進(jìn)行情感分析、語義分析等等。

所以我們是將電商領(lǐng)域的item抽出，把用戶瀏覽路徑轉(zhuǎn)換為向量形式，就可以用向量來描述一個(gè)用戶在一個(gè)瀏覽session（會(huì)話控制）當(dāng)中對(duì)哪些品類或單品產(chǎn)生瀏覽記錄。

由于瀏覽是有時(shí)間順序的，所以我們將整個(gè)頁面瀏覽時(shí)間順序和向量放入卷積神經(jīng)網(wǎng)絡(luò)模型中加工訓(xùn)練特征，通過RNN（遞歸神經(jīng)網(wǎng)絡(luò)）方式我們提煉了大量原本通過人類業(yè)務(wù)經(jīng)驗(yàn)或其他構(gòu)建特征方法所不能提煉的特征。這些特征做為機(jī)器學(xué)習(xí)模型訓(xùn)練特征可大幅提升模型效果。

這是我們對(duì)于深度學(xué)習(xí)方面的突破，有了這一理論基礎(chǔ)，以及我們對(duì)于整個(gè)用戶畫像標(biāo)簽的深度挖掘能力，就可以把自身積累的經(jīng)驗(yàn)對(duì)外進(jìn)行賦能。

另外，我們聊一下RNN（循環(huán)神經(jīng)網(wǎng)絡(luò)）和LSTM（長短期記憶網(wǎng)絡(luò)）的概念。

RNN的輸入維度為樣本數(shù)量, 時(shí)間序列數(shù)，每個(gè)時(shí)間序列點(diǎn)的維度數(shù)量，輸出維度可根據(jù)不同的應(yīng)用場(chǎng)景在1個(gè)或多個(gè)序列時(shí)間點(diǎn)輸出不同維度的結(jié)果；如圖所示從X0至XT共T+1個(gè)時(shí)間點(diǎn)，每個(gè)時(shí)間點(diǎn)的維度可以為一個(gè)多維的向量。

但在序列長度很長時(shí)，RNN會(huì)存在梯度消失和長期記憶被掩蓋等問題，LSTM在每一個(gè)單元里面加入了門的機(jī)制，用于決定上一個(gè)單元信息和本單元新輸入的信息多大程度的輸入到本單元，以及多大程度地輸出到下一個(gè)單元，有效解決了以上問題，同時(shí)能有效過濾無用特征。

具體是怎么應(yīng)用呢？舉個(gè)例子：

下方左圖是基于地理位置軌跡的數(shù)據(jù)樣例，主要包含不同設(shè)備在不同時(shí)點(diǎn)駐留的位置經(jīng)緯度、位置類型、駐留分類等。經(jīng)過一系列數(shù)據(jù)清洗和特征加工得到完備的特征集合。

然后經(jīng)過序列截?cái)?、padding、特征標(biāo)準(zhǔn)化、reshape等流程進(jìn)入LSTM模型。左下角是我們使用到的一個(gè)LSTM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)樣例，經(jīng)過LSTM LAYER（含一個(gè)MASK LAYER)，最終經(jīng)過2個(gè)dense layer得到輸出結(jié)果。

通過這樣的建模方式在訓(xùn)練集上到底取得了什么效果？

基于上述數(shù)據(jù)和模型，最終我們?cè)跍y(cè)試集上評(píng)估效果，單基于如上地理位置駐留數(shù)據(jù)，經(jīng)過清洗、加工和建模，最終在我們的風(fēng)險(xiǎn)模型中KS能達(dá)到0.23，KS圖和按照預(yù)測(cè)出來的分?jǐn)?shù)等分10組在測(cè)試集上的lift值如下圖所示，效果是非常明顯的。

金融領(lǐng)域的特征工程和建模方法經(jīng)歷了傳統(tǒng)的邏輯回歸，基于大量統(tǒng)計(jì)特征的機(jī)器學(xué)習(xí)方法也正在不斷融入在自然語言處理、語音、圖像等領(lǐng)域應(yīng)用較廣的深度學(xué)習(xí)模型，剛剛展示的基于地理位置軌跡數(shù)據(jù)的LSTM模型是在金融領(lǐng)域的一次成功的應(yīng)用。

大家可以質(zhì)疑這只是一個(gè)理論的測(cè)試集上的模型結(jié)果，那么實(shí)際應(yīng)用中到底有沒有好的表現(xiàn)呢？

在我們內(nèi)部的實(shí)際數(shù)據(jù)上，剛才這個(gè)建模方式用到實(shí)際的風(fēng)險(xiǎn)中，用打出來的欺詐評(píng)分，把識(shí)別的人群進(jìn)行了分組，欺詐評(píng)分最高的組可識(shí)別出來的欺詐人群的欺詐率已經(jīng)接近了平均比例的4倍。而最低的一組只有平均比例的0.05，所以接受前20%就可以把欺詐率降低一半，這就是實(shí)際運(yùn)用的效果。

中國有一句古話叫做“近朱者赤，近墨者黑”，我們通常用的關(guān)聯(lián)關(guān)系都是在黑的領(lǐng)域進(jìn)行擴(kuò)散，在已知的欺詐群體或者是用戶至上進(jìn)行關(guān)聯(lián)關(guān)系的擴(kuò)散，把周圍的高危的群落識(shí)別出來，同樣的概念可以適用到白的這批用戶上。

所以我們提出的概念是不僅要關(guān)注黑，更要服務(wù)好白，因?yàn)橐阎男庞枚群芨?，非常?yōu)質(zhì)的客戶，跟他們的關(guān)系非常緊密的這群人，極大概率上也是一批非常優(yōu)質(zhì)的客戶，或者是你的潛在優(yōu)質(zhì)客戶。

把這個(gè)概念應(yīng)用到額外授信、精準(zhǔn)營銷領(lǐng)域，也可以取得非常好的效果。尤其是現(xiàn)在獲客成本高居不下，這種技術(shù)帶來的前景是非常大的。

剛才我說了欺詐評(píng)分可以有效把高危人群識(shí)別出來，前面提到的斑馬擴(kuò)散技術(shù)，通過網(wǎng)絡(luò)擴(kuò)散的方式，是可以把極端的人群作為有效的補(bǔ)充，更好地識(shí)別高危和低危的人群。

實(shí)際效果如何？通過擴(kuò)散出來的人群前14%，欺詐比例為平均水平的3.3倍，最后的13%只有平均水平的0.3倍，因?yàn)樗麄冞x取的維度不一樣，因此可以結(jié)合我剛才說的建模方式做出的欺詐評(píng)分，可以更加有效的把這批高危和優(yōu)質(zhì)客戶識(shí)別出來。

最后我也希望行業(yè)人士能夠在業(yè)內(nèi)和我們做更多的交流，大家聯(lián)手在整個(gè)金融科技領(lǐng)域做出更多的貢獻(xiàn)，謝謝大家。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

ZRobot 喬楊：如何證明你是你？

ZRobot 喬楊：如何證明你是你？