|
導(dǎo) 讀 2018年3月,公安部科技信息化局以公安基層技術(shù)革新獎(jiǎng)推薦評(píng)選為載體,以公安大數(shù)據(jù)建設(shè)應(yīng)用為主線,組織開展了“智慧公安我先行”全國公安基層技術(shù)革新專項(xiàng)活動(dòng)。新智認(rèn)知自主研發(fā)的產(chǎn)品“自主數(shù)據(jù)建模的可視化工具——數(shù)??臻g”,助力江蘇省淮安市公安局一線民警黃河清成功在此次技術(shù)革新專項(xiàng)中獲獎(jiǎng)。其創(chuàng)新成果《針對(duì)公安民警開展數(shù)據(jù)建模方法的研究和實(shí)踐》,亦被刊載于由公安部第一研究所主辦的專業(yè)雜志《警察技術(shù)》中,現(xiàn)將原文轉(zhuǎn)載如下。 針對(duì)公安民警開展數(shù)據(jù)建模方法的研究和實(shí)踐 黃河清 江蘇省淮安市公安局 摘 要:近年來,隨著物聯(lián)網(wǎng)、大數(shù)據(jù)等技術(shù)的飛速發(fā)展,公安機(jī)關(guān)掌握的數(shù)據(jù)資源越來越豐富,對(duì)于利用數(shù)據(jù)支撐業(yè)務(wù)工作的需求也日趨旺盛。通過搭建可視化建模工具,探索公安民警借助工具理解和操作數(shù)據(jù),對(duì)數(shù)據(jù)開展基于業(yè)務(wù)邏輯的自定義建模方法,解決業(yè)務(wù)專家無法直接開展數(shù)據(jù)建模的難題。 關(guān)鍵詞:數(shù)據(jù)模型 可視化建模 科技創(chuàng)新 引言 在公安業(yè)務(wù)場景中,民警會(huì)從多個(gè)信息系統(tǒng)中查詢數(shù)據(jù),并依據(jù)查詢結(jié)果進(jìn)行綜合分析,做出判斷。傳統(tǒng)的解決方法是建設(shè)一個(gè)通用的全文檢索系統(tǒng),對(duì)整合后的數(shù)據(jù)進(jìn)行綜合展現(xiàn),或是建設(shè)定制化的業(yè)務(wù)信息系統(tǒng),將業(yè)務(wù)邏輯封裝成為應(yīng)用模塊。這兩種方法雖然大大提高了數(shù)據(jù)對(duì)公安工作的支撐作用,但是因?yàn)閭鹘y(tǒng)信息化開發(fā)周期長、架構(gòu)封閉等問題,導(dǎo)致其難以跟上公安工作隨社會(huì)發(fā)展的演進(jìn)速度;同時(shí)因?yàn)樵诖蟛糠珠_發(fā)過程中,公安機(jī)關(guān)僅作為需求提供者,導(dǎo)致很多業(yè)務(wù)模型隨系統(tǒng)生命周期結(jié)束,無法得到有效的沉淀和積累。 本文旨在探索一種面向廣大民警的可視化建模方法,通過放開數(shù)據(jù)操作權(quán)限、賦予可視化建模能力,催生更多警務(wù)應(yīng)用模型。 公安數(shù)據(jù)模型 從海量數(shù)據(jù)中發(fā)現(xiàn)案件線索的蛛絲馬跡,從茫茫人海中找出偵查對(duì)象的關(guān)聯(lián)關(guān)系,在感知網(wǎng)絡(luò)中預(yù)測未來的社會(huì)治安態(tài)勢,數(shù)據(jù)對(duì)于公安機(jī)關(guān)來說遠(yuǎn)不只是存儲(chǔ)在物理介質(zhì)之上的二進(jìn)制代碼。隨著警務(wù)云基礎(chǔ)設(shè)施環(huán)境逐步成熟,業(yè)務(wù)信息壁壘逐漸打破,數(shù)據(jù)標(biāo)準(zhǔn)化程度越來越高,警務(wù)數(shù)據(jù)模型也經(jīng)歷著從傳統(tǒng)應(yīng)用中剝離解耦,從面向應(yīng)用到面向業(yè)務(wù)的轉(zhuǎn)變。 業(yè)務(wù)模型 在絕大部分的公安應(yīng)用場景中,業(yè)務(wù)邏輯是支撐數(shù)據(jù)模型的絕對(duì)標(biāo)尺。以接處警為例,民警在到達(dá)現(xiàn)場處置警情之前,都希望能夠獲得充足的信息,以幫助民警對(duì)警情做出準(zhǔn)確的判斷,選擇合適的處置策略,避免發(fā)生人身財(cái)產(chǎn)安全損失或是遭遇投訴。圖1描述了一個(gè)報(bào)警電話分析模型。報(bào)警電話經(jīng)過與號(hào)碼資源比對(duì),核實(shí)出報(bào)警人的真實(shí)身份,關(guān)聯(lián)歷史涉警記錄、身份標(biāo)簽和威脅程度,通過警情內(nèi)容的關(guān)鍵字提取,明確警情類型和級(jí)別,并推送警情處置規(guī)范流程。
圖1 報(bào)警電話分析模型 除法律有明確規(guī)定的以外,在人口管理、案件偵破、巡邏防范等許多業(yè)務(wù)工作中,公安機(jī)關(guān)通過多年的經(jīng)驗(yàn)積累、凝練和總結(jié),形成了大量的實(shí)用技戰(zhàn)法。這些技戰(zhàn)法無一不包含著深刻的業(yè)務(wù)智慧,而業(yè)務(wù)模型正是這種智慧的有效載體,通過程式化的業(yè)務(wù)流程對(duì)多樣化的輸入數(shù)據(jù)進(jìn)行計(jì)算,將業(yè)務(wù)智慧轉(zhuǎn)化為指導(dǎo)性結(jié)果,便于迅捷、精準(zhǔn)開展工作。在筆者的實(shí)踐過程當(dāng)中,即使是面對(duì)同一個(gè)場景,不同的業(yè)務(wù)民警也有可能提出不同的業(yè)務(wù)模型,且難以區(qū)分優(yōu)劣,傳統(tǒng)的應(yīng)用開發(fā)方式需要明確的需求,最后勢必只選其一,且可編輯性較差;但面向業(yè)務(wù)的數(shù)據(jù)建模方法為模型的原創(chuàng)民警提供了更加開放的平臺(tái),組合自由,隨想而就,思想間的碰撞也讓模型得以更加完善。 數(shù)據(jù)治理模型 因?yàn)楣矘I(yè)務(wù)的復(fù)雜性,其數(shù)據(jù)來源種類也較為豐富,直接導(dǎo)致的結(jié)果就是公安數(shù)據(jù)融合與深度挖掘的難度成倍增加。一個(gè)最簡單的例子,因警綜平臺(tái)和全國在逃系統(tǒng)中使用的案件類型字典不同,分析一個(gè)網(wǎng)上在逃人員在本地有哪些同類案件嫌疑人就變得尤為困難。圖2以案件信息數(shù)據(jù)治理為例描述了常用的數(shù)據(jù)治理流程。以協(xié)同辦案系統(tǒng)、警情回訪系統(tǒng)、案件加工系統(tǒng)、現(xiàn)場勘驗(yàn)系統(tǒng)等將相關(guān)案件信息進(jìn)行主題數(shù)據(jù)抽取和整理,建立案件檔案庫,形成案件警務(wù)信息、案件社會(huì)信息、案件文書信息等應(yīng)用專題庫。通過涉案人員、涉案物品、涉案法人等信息建立案件與人員、物品、組織機(jī)構(gòu)等其他公安主題信息之間的關(guān)聯(lián)關(guān)系。
圖2 案件信息數(shù)據(jù)治理 各類多源異構(gòu)數(shù)據(jù)經(jīng)過治理融合,再根據(jù)業(yè)務(wù)場景需要分級(jí)分類進(jìn)行存儲(chǔ),為業(yè)務(wù)工作提供可用性強(qiáng)、關(guān)聯(lián)度高、易于理解的數(shù)據(jù)基礎(chǔ)。 AI算法模型 目前,AI算法模型在公安行業(yè)的成功案例主要還是在人像識(shí)別、車牌識(shí)別等領(lǐng)域,在其他業(yè)務(wù)場景中AI模型應(yīng)用較少。事實(shí)上,使用機(jī)器學(xué)習(xí)算法對(duì)傳統(tǒng)模型進(jìn)行優(yōu)化,都會(huì)促使業(yè)務(wù)模型趨向精準(zhǔn),算法選型和使用關(guān)鍵還是對(duì)機(jī)器學(xué)習(xí)算法本質(zhì)的認(rèn)識(shí),通過數(shù)學(xué)方法尋找梯度提升的方向,找出符合客觀實(shí)際的最優(yōu)解。例如情報(bào)的積分模型,通過事件觸發(fā)積分的加減,可以表達(dá)為 ![]() 其中共有N類事件,每類事件產(chǎn)生的積分為wi,事件頻次為xi,傳統(tǒng)方法是以經(jīng)驗(yàn)設(shè)定各事件產(chǎn)生的積分wi,而如果以經(jīng)驗(yàn)值作為初始值,設(shè)定一定量樣本的標(biāo)簽值,用線性回歸求解或是通過梯度提升方法,都可以讓模型的效率得到提升。 深度學(xué)習(xí)方法的出現(xiàn),使得非線性的關(guān)系也可以被學(xué)習(xí),削減甚至避免了繁瑣的特征工程。還是以積分模型為例,按照一般的思維習(xí)慣,事件發(fā)生觸發(fā)積分的增加,同樣的,一段時(shí)間沒有任何事件,代表態(tài)勢趨向平穩(wěn),積分應(yīng)該衰減。一元線性回歸無法很好的表達(dá)出隨時(shí)間衰減的概念,使用長短期記憶網(wǎng)絡(luò)重新設(shè)計(jì)模型,讓模型對(duì)時(shí)間較近的事件更為敏感,則更加符合業(yè)務(wù)的實(shí)際場景。 整體架構(gòu) 圖3描述了大數(shù)據(jù)建模的整體架構(gòu)。數(shù)據(jù)運(yùn)維管理人員通過建立數(shù)據(jù)匯聚機(jī)制,將生產(chǎn)數(shù)據(jù)向數(shù)據(jù)中心倉庫匯聚,清洗標(biāo)準(zhǔn)化后形成數(shù)據(jù)資源目錄,通過面向廣大民警提供高自由度、可視化地?cái)?shù)據(jù)建模工具,將民警創(chuàng)作的數(shù)據(jù)模型進(jìn)行統(tǒng)一管理,并最終以數(shù)據(jù)服務(wù)、定向推送、大屏展示等形式進(jìn)行結(jié)果的展現(xiàn)和應(yīng)用。
圖3 大數(shù)據(jù)建模整體架構(gòu) 資源適配層 依托淮安市局已有的公安網(wǎng)和警務(wù)云計(jì)算平臺(tái),大數(shù)據(jù)可視化分析挖掘平臺(tái)不再建設(shè)獨(dú)立的數(shù)據(jù)中心,而是通過適配器與市局已建的警務(wù)云計(jì)算平臺(tái)進(jìn)行無縫對(duì)接,完成數(shù)據(jù)的讀寫,充分利用警務(wù)云資源,避免出現(xiàn)數(shù)據(jù)中心重復(fù)性建設(shè)的問題。適配器包含中間件服務(wù)、環(huán)境調(diào)試、HDFS接口開發(fā)、SPARK sql接口開發(fā)、Kerberos接口開發(fā)、元數(shù)據(jù)接口開發(fā)等組件。
圖4 與警務(wù)云平臺(tái)適配架構(gòu)圖 數(shù)據(jù)流圖 大數(shù)據(jù)可視化分析挖掘平臺(tái)以spark sql形式使用警務(wù)云數(shù)據(jù),將分析完的結(jié)果數(shù)據(jù)存儲(chǔ)在警務(wù)云大數(shù)據(jù)平臺(tái)中。
圖5 數(shù)據(jù)流向圖 可視化建模分析組件 可視化建模分析組件是為民警提供一個(gè)數(shù)據(jù)比對(duì)分析的可視化工具。民警可以根據(jù)自己的思路,注入到可視化建模分析組件中,根據(jù)經(jīng)驗(yàn)形成一個(gè)成熟的數(shù)據(jù)研判模型,并利用相關(guān)線索作為條件,形成比對(duì)任務(wù),最終達(dá)到縮小目標(biāo)范圍,輔助民警完成數(shù)據(jù)研判排查的目的。 可視化建模分析組件能實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的建模分析與數(shù)據(jù)間的深度挖掘。使用者可以根據(jù)自己的業(yè)務(wù)需要結(jié)合大數(shù)據(jù)綜合分析研判工具中提供的強(qiáng)大功能,靈活配置分析模型。支持一鍵運(yùn)行分析模型生成比對(duì)任務(wù),最終結(jié)果通過可視化的邏輯結(jié)構(gòu)展示出來。 采用互聯(lián)網(wǎng)思維大數(shù)據(jù)技術(shù),通過可操作的可視化、流程化、組合方式建立比對(duì)模型,可以實(shí)現(xiàn)數(shù)據(jù)資源的過濾查詢、條件碰撞、交集比對(duì)、頻次分析、數(shù)據(jù)合并、分類統(tǒng)計(jì)、條件過濾等操作。 可視化模型開發(fā)引擎具有以下特點(diǎn): (1)模型設(shè)計(jì)多樣化。支持通過基礎(chǔ)計(jì)算組件的自由組合,按照各類統(tǒng)計(jì)分析和技戰(zhàn)法等實(shí)際需求,搭建關(guān)聯(lián)模型、分類模型、聚類模型、預(yù)測模型。 (2)建模應(yīng)用流程化。實(shí)現(xiàn)了從模型設(shè)計(jì)、任務(wù)定制,到應(yīng)用發(fā)布、共享評(píng)價(jià)的完整的建模應(yīng)用流程。 (3)建模過程可視化。以非技術(shù)專業(yè)民警可以理解的業(yè)務(wù)語言對(duì)所有基礎(chǔ)算法進(jìn)行封裝,通過結(jié)果集可視化展示、模型可視化布局、算法可視化調(diào)用,實(shí)現(xiàn)建模過程零代碼,降低民警建模學(xué)習(xí)成本。 1. 自定義建模工具 自定義建模工具的核心功能由結(jié)果集操作組件、自定義條件過濾組件、關(guān)聯(lián)碰撞分析組件、分組統(tǒng)計(jì)分析組件、高級(jí)分組統(tǒng)計(jì)分析組件、偏差分析等組件構(gòu)成。其中關(guān)聯(lián)碰撞分析中包括對(duì)數(shù)據(jù)集的交集分析、合并結(jié)果集分析、差集分析、自連接分析;自定義條件過濾中包括對(duì)結(jié)果集的二次過濾,函數(shù)有等于、小于、大于、區(qū)間、模糊查詢、精確包含、精確不包含、模糊包含、模糊不包含、自定義正則表達(dá)式、字符串截取等函數(shù)庫。豐富并可擴(kuò)展的使用手段讓分析數(shù)據(jù)變得簡單易操作。 2. 結(jié)果集操作組件 添加分析結(jié)果集支持各類業(yè)務(wù)數(shù)據(jù),包括excel、csv、oracle、mysql等格式的數(shù)據(jù)銜接。 3. 比對(duì)過濾分析組件 比對(duì)過濾分析主要的使用場景在于數(shù)據(jù)集的二次查詢過濾,里面涵蓋強(qiáng)大的函數(shù)庫操作,使用者可按照條件規(guī)則使用平臺(tái)預(yù)設(shè)函數(shù)完成復(fù)雜的查詢過濾操作,無論易用性還是實(shí)用性都很直觀。 4. 關(guān)聯(lián)碰撞分析組件 關(guān)聯(lián)碰撞分析支持兩個(gè)結(jié)果集的交集、并集、差集、自連接等操作算法,可自定義比對(duì)條件列、自定義結(jié)果集的顯示列信息。通過靈活的配置達(dá)到使用者的要求。 5. 高級(jí)分組統(tǒng)計(jì)組件 對(duì)結(jié)果集進(jìn)行分組統(tǒng)計(jì),并且可在此使用比對(duì)過濾中的函數(shù)庫,自定義分組字段、排序字段、分組聚合字段,自定義列與列的計(jì)算算法及每組顯示前N條數(shù)據(jù)。高級(jí)分組和普通分組的區(qū)別在于,高級(jí)分組會(huì)把符合分組字段的結(jié)果依次展示出來,選擇分組字段進(jìn)行分組。 6. 偏差分析組件 兩個(gè)結(jié)果集可以做偏差分析,可自定義偏差分析的字段、條件、結(jié)果集列,支持取正偏差、負(fù)偏差、絕對(duì)值偏差。偏差分析組件支持兩數(shù)據(jù)源關(guān)聯(lián)比對(duì)同時(shí),做時(shí)間或者數(shù)值類偏差計(jì)算(正、負(fù)、絕對(duì)值)。 7. 數(shù)據(jù)清洗組件 可對(duì)當(dāng)前模板表/結(jié)果集的數(shù)據(jù)進(jìn)行自定義清洗,清洗邏輯以流程化圖形展現(xiàn),清洗結(jié)果作為新列合并到模板表/結(jié)果集中。 8. 自定義建模流程 自定義模型開發(fā)引擎具有整套的流程化程序,具有從構(gòu)建模型、搭建模型任務(wù)、模型發(fā)布到模型評(píng)價(jià)的一套完整流程。功能包括模型創(chuàng)建管理和任務(wù)的維護(hù)管理。定義完的模型,可以一鍵發(fā)布到模型庫管理中。在模型庫管理中支持對(duì)模型評(píng)分評(píng)價(jià)。 9. 可視化模型創(chuàng)建 自定義建模工具提供面向非技術(shù)類業(yè)務(wù)民警的可視化自定義數(shù)據(jù)應(yīng)用建模能力,民警可以自主應(yīng)用授權(quán)范圍的數(shù)據(jù),通過使用可視化建模工具實(shí)現(xiàn)建模滿足所需的業(yè)務(wù)數(shù)據(jù)加工、分析需求。 10. 模型資源目錄 模型資源目錄用于管理數(shù)據(jù)關(guān)聯(lián)可視化建模工具和關(guān)系網(wǎng)絡(luò)可視化建模工具構(gòu)建的數(shù)據(jù)模型,可對(duì)模型進(jìn)行分類管理,并可對(duì)模型對(duì)個(gè)人和群組中進(jìn)行授權(quán)分享。 11. 模型調(diào)度監(jiān)控 模型調(diào)度監(jiān)控用于運(yùn)行數(shù)據(jù)關(guān)聯(lián)可視化建模工具和關(guān)系網(wǎng)絡(luò)可視化建模工具構(gòu)建的數(shù)據(jù)模型,并可配置模型運(yùn)行條件(時(shí)間、頻次等)。當(dāng)有源數(shù)據(jù)更新時(shí),觸發(fā)模型運(yùn)行,實(shí)時(shí)同步運(yùn)行所有相關(guān)模型。模型執(zhí)行全程可控,及時(shí)清晰的展示模型執(zhí)行進(jìn)度和錯(cuò)誤預(yù)警,模型執(zhí)行后,可查看每個(gè)節(jié)點(diǎn)的結(jié)果集和執(zhí)行日志。 自主建模案例 為深入開展五項(xiàng)基礎(chǔ)管控攻堅(jiān)工作,及時(shí)發(fā)現(xiàn)排除風(fēng)險(xiǎn)隱患,淮安市局大數(shù)據(jù)管理支隊(duì)借助智慧城市建設(shè)有利契機(jī),深入開展社會(huì)面信息整合挖掘,以大數(shù)據(jù)為支撐,通過數(shù)據(jù)建模主動(dòng)發(fā)現(xiàn)外地流入人員,有力提升了我市出租房屋和流動(dòng)人口管理工作。 1. 實(shí)有人口數(shù)據(jù)歸集 將水電氣繳費(fèi)信息、購房信息、社保信息、市民卡信息、衛(wèi)計(jì)委信息、移動(dòng)實(shí)名制登記信息等與居民生活相關(guān)數(shù)據(jù)整合,通過身份有效性檢驗(yàn)、無效數(shù)據(jù)篩除、時(shí)間格式對(duì)標(biāo)等方式,刻畫出以居民身份證為主鍵的我市所有居民的生活信息歸集。
圖6 實(shí)有人口數(shù)據(jù)歸集 2. 失控流動(dòng)人口挖掘 通過與常住人口、居住證信息比對(duì),發(fā)現(xiàn)近期仍有活動(dòng)記錄但沒有被公安機(jī)關(guān)掌握的外地人,經(jīng)比對(duì)共發(fā)現(xiàn)約100萬條流動(dòng)人口線索,指向12萬名外地人口。
圖7 失控流動(dòng)人口挖掘 3. 生活信息關(guān)聯(lián)修正 為了便于民警核查,通過號(hào)碼資源庫、地址庫、單位庫對(duì)上述流動(dòng)人員的住址、單位和電話進(jìn)行補(bǔ)正,并劃分到所轄警務(wù)責(zé)任區(qū),推送給社區(qū)民警開展上門走訪核查工作。 通過隨機(jī)抽選2014名流動(dòng)人口線索,在清江浦區(qū)開展實(shí)地查證,共核查其中1870人,及時(shí)發(fā)現(xiàn)排除風(fēng)險(xiǎn)隱患12個(gè),數(shù)據(jù)準(zhǔn)確率達(dá)到92.850%。
圖8 生活信息關(guān)聯(lián)修正 應(yīng)用成效 2016年,淮安市局建設(shè)了面向廣大民警開展自主數(shù)據(jù)建模的可視化建模工具——數(shù)??臻g,共匯聚整合公安內(nèi)外數(shù)據(jù)資源500余類?;窗彩芯滞ㄟ^系統(tǒng)培訓(xùn)、選拔考試,從情報(bào)、治安、刑偵等業(yè)務(wù)條線和基層單位民警中遴選了50名情報(bào)分析師,專門開展數(shù)據(jù)建模工作。在執(zhí)法辦案、人員管控、巡邏防范、交通管理、指揮調(diào)度、社區(qū)警務(wù)、服務(wù)民生等方面,搭建了流動(dòng)人口挖掘分析、人員身份背景核查、嫌疑人員關(guān)系挖掘等123個(gè)數(shù)據(jù)模型。 在精確打擊方面,通過模型自動(dòng)將在逃人員與感知網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行計(jì)算,并根據(jù)民警管轄權(quán)限和實(shí)時(shí)位置將結(jié)果直接推送到一線民警手機(jī)終端,抓獲多名在逃人員和犯罪嫌疑人,改變了傳統(tǒng)的民警要在多個(gè)平臺(tái)進(jìn)行預(yù)警布控和值守平臺(tái)再發(fā)布預(yù)警指令的方式,大大提高了處置的效率。 在社會(huì)管理方面,通過智能模型計(jì)算,從海量數(shù)據(jù)中發(fā)現(xiàn)疑似未登記的外地居住人口,并推算出相關(guān)身份信息,劃分到責(zé)任區(qū),改變了以往民警掃樓登記的工作方式,引導(dǎo)民警有針對(duì)性地開展上門核查工作,極大的減少了警力資源的浪費(fèi)。 在服務(wù)民生方面,采取政府?dāng)?shù)據(jù)集中向公安網(wǎng)匯聚,在公安網(wǎng)內(nèi)進(jìn)行模型計(jì)算再輸出結(jié)果的方式,為陽光扶貧、社??ǜ鼡Q、政府一張網(wǎng)工程等多項(xiàng)重點(diǎn)工作提供數(shù)據(jù)服務(wù),免去了群眾辦事需要來回開證明的尷尬。 淮安市局不斷探索公安民警自主建模之路,讓廣大民警從數(shù)據(jù)模型的應(yīng)用者變成了數(shù)據(jù)模型的創(chuàng)作者,在實(shí)戰(zhàn)工作中取得了良好的成效。 參考文獻(xiàn): [1] 李真子,袁安心.基于可視化的建模技術(shù)研究[J].計(jì)算機(jī)工程, 2001(01):180-181+190. [2] 盧懷農(nóng). 嫌疑人物品信息智能采集方法研究[J].警察技術(shù), 2016(4):83-86. 聲明:本文來自一體化指揮調(diào)度國家工程實(shí)驗(yàn)室,版權(quán)歸作者所有。文章內(nèi)容僅代表作者獨(dú)立觀點(diǎn),不代表安全內(nèi)參立場,轉(zhuǎn)載目的在于傳遞更多信息。如有侵權(quán),請(qǐng)聯(lián)系 anquanneican@163.com。 |
|
|