|
【搜狐IT消息】 7月4日消息,2012年中國計(jì)算機(jī)網(wǎng)絡(luò)安全年會(huì)在西安舉行,阿里巴巴云計(jì)算有限公司資深安全專家吳瀚清發(fā)表了題為“關(guān)于網(wǎng)站離線數(shù)據(jù)安全分析漫談”的演講。 阿里巴巴云計(jì)算有限公司資深安全專家吳瀚清 以下為演講實(shí)錄: 我今天給大家做了一個(gè)演講是關(guān)于網(wǎng)站離線數(shù)據(jù)安全分析漫談,其實(shí)這個(gè)東西是我在阿里巴巴大概有三年了,一直想做的一件事情。這件事情3年下來經(jīng)歷了非常多的看客,中間也夭折了幾次,但是我也堅(jiān)持做下來。接下來我給大家講一講這件實(shí)是什么事,我是怎么做的。 首先介紹一下我自己,我叫吳瀚清,我在阿里七年了。寫字了一本書叫《白帽子講web安全》,在6月份,最大的網(wǎng)站,他的446萬個(gè)的用戶的密碼泄露,被人公布在網(wǎng)上,至今他沒有公布他被黑掉,他發(fā)現(xiàn)這一件事以后,第一個(gè)反映是他要去查漏洞,怎么查?同時(shí)還有一項(xiàng)研究表明,63%的人并不知他曾經(jīng)被人黑過。我們?nèi)绻麕瓦^這過這些站廠,讓他們知道如何被黑掉。所以我們?nèi)绻麖恼麄€(gè)公司安全角度分析看,數(shù)據(jù)分析這一塊是非常重要的,在發(fā)現(xiàn)問題這個(gè)環(huán)節(jié),這個(gè)模型是一個(gè)比較經(jīng)典的模型,怎么去解決安全問題,發(fā)現(xiàn)問題,然后去修復(fù)問題,解決辦法解決。那么在數(shù)據(jù)分析這一塊,在發(fā)現(xiàn)問題這個(gè)環(huán)節(jié),有一些開源項(xiàng)目在這個(gè)事情,用的最多的是大家手動(dòng)的分析grep,還有一些規(guī)則集。還有PHp-ids等等,這些問題都能給我們提供幫助,但是都有問題,因?yàn)樗墙o單個(gè)網(wǎng)站用的,網(wǎng)站的信息量不大。 我在做這件事情的時(shí)候,有時(shí)候問題,有掃描了還需要分析日志嗎?我們應(yīng)該把安全問題修復(fù)掉,那么分析日志干什么,當(dāng)然這是理想狀態(tài)下。當(dāng)然需要,分析日志可以發(fā)現(xiàn)攻擊,我們可以看一下掃描可以發(fā)現(xiàn)什么,時(shí)間、地方、起因,掃描只能提供三個(gè),但是分析日志可以發(fā)現(xiàn)6個(gè),時(shí)間、地方、人物、起因、經(jīng)過、結(jié)果,可以發(fā)現(xiàn)誰干的,它的IP是什么,你光說漏洞還是沒用,他要知道他進(jìn)來之后干了什么。這些東西可能是需要分析日志。計(jì)算損失很重要的,現(xiàn)在在很多都被忽視了,所以說分析日志可以提供比掃描更多的漏洞,我們可以在上面查很多有價(jià)值的東西。為什么不適用IPS/IDS/WAF,這個(gè)也是很重要的,離線的分析數(shù)據(jù)很復(fù)雜,我們今天看到的,離線數(shù)據(jù)分析可以處理更多的數(shù)據(jù)量,因?yàn)樗臅r(shí)效性要求并不高,同時(shí)他是并聯(lián)、異步的。這就使得這個(gè)產(chǎn)品可以成為IPS和WAF的一個(gè)重要補(bǔ)充。下來就是滿足更復(fù)雜的需求,這是場(chǎng)景1,統(tǒng)計(jì)某XS蠕蟲感染的參數(shù),第二個(gè)場(chǎng)景是現(xiàn)在阿里巴巴已經(jīng)用了很多年的,把網(wǎng)站的所有請(qǐng)求根據(jù)URL去重,提供給掃描器進(jìn)行掃描。所以在阿里做了一件非常取巧的事情,就是把網(wǎng)站所有的請(qǐng)求提出來,然后去重,然后讓掃描器直接去掃描,也可以。這里有兩個(gè)場(chǎng)景,但是我們還可以想到更多的場(chǎng)景。我們?cè)陔x線分析里面可以做到多次分析,比如說我可以根據(jù)頻率去做請(qǐng)求,這個(gè)來源到底是什么樣的,多數(shù)的來源是什么?少數(shù)的來源是什么?像這種多次請(qǐng)求有關(guān)系的,就需要通過離線系統(tǒng)來做分析,所以說分析以后就有更復(fù)雜的分析需求。 那么遇到的最大挑戰(zhàn)什么?就是大數(shù)據(jù),數(shù)據(jù)量大了以后原來看來不是很大的問題的時(shí)候都會(huì)成為很大的問題。所以在未來,可能會(huì)采用新的技術(shù),比如說專門開發(fā)了一套傳輸日志的技術(shù),這樣的技術(shù)我們未來可能會(huì)用,因?yàn)榻裉煲呀?jīng)進(jìn)入到這個(gè)時(shí)代,大數(shù)據(jù)的存儲(chǔ)是hds,大數(shù)據(jù)的計(jì)算是map-reduce,實(shí)時(shí)性的提高是hbase,在這樣一個(gè)環(huán)境里面,性能并不是一個(gè)瓶頸。這點(diǎn)和以前的分析是有很大的區(qū)別。那么未來還要考慮到實(shí)時(shí)性的提高,現(xiàn)在其實(shí)已經(jīng)可以做到,未來可以做到更快,如果要提高實(shí)時(shí)性的話,會(huì)考慮hbase,所以我們面對(duì)的最大問題是大數(shù)據(jù)?,F(xiàn)有流程,這個(gè)架構(gòu)符號(hào),先是日志收集,然后經(jīng)過ETL,進(jìn)行規(guī)則分析,最后是結(jié)果輸出,其實(shí)也可以看到這樣的一個(gè)倉庫,把日志收集,經(jīng)過ETL,進(jìn)行規(guī)則分析,然后進(jìn)行結(jié)果的輸出。前面講了大數(shù)據(jù)以后,在阿里今天的數(shù)據(jù)請(qǐng)求是每天十多億,基本上半個(gè)小時(shí)分析完,但是仍有有提高的空間。所以說他的處理的能力還是有非常大的提高空間的,我們可以申請(qǐng)更多的資源,讓它變得更快,滿足更多的需求。所以說處理也不是非常強(qiáng)的,仍然有提高的空間,因?yàn)榘⒗锸亲鰳I(yè)務(wù),會(huì)有很多網(wǎng)站,把這些網(wǎng)站集中起來,我們一起做這個(gè)業(yè)務(wù),會(huì)有很多的數(shù)據(jù)價(jià)值,在未來數(shù)據(jù)是很重要的。我們到底要分析什么?分析什么呢?在一開始我想的非常理想,我提出了一個(gè)假設(shè),就是互聯(lián)網(wǎng)網(wǎng)站的請(qǐng)求,正常的請(qǐng)求都是有規(guī)律的,但是異常攻擊的請(qǐng)求是有明顯區(qū)別于正常請(qǐng)求的,如果我們把正常的區(qū)分出來,那么異常的就出來的。比如URL,可能大部分URL都是來自比較固定的來源,那么少數(shù)的就不是異常,結(jié)果這個(gè)結(jié)果就是產(chǎn)生了過多的噪音,你會(huì)看到每天會(huì)和這些噪音做戰(zhàn)斗,結(jié)果產(chǎn)生了過高的人力成本,最后成果并不是特別大。到第二年,又做了一個(gè),我們就檢測(cè)一些供給類型,注冊(cè)、文件包含這些,跨站,如果在請(qǐng)求里面,出現(xiàn)了Alibaba的需求vs小網(wǎng)站的需求,結(jié)果第二年還是失敗的,這個(gè)時(shí)候檢測(cè)出意義其實(shí)并不是特別大,也可以看到很多請(qǐng)求,但是發(fā)給安全主管,會(huì)發(fā)現(xiàn)他拿這個(gè)東西不知道干什么,后來這個(gè)結(jié)果就造到了置疑。在阿里的網(wǎng)站,像文件包括這種,所以說到第三,我想到阿里的需求和其他的網(wǎng)站不一樣的。所以第二次嘗試是失敗的,到第三年,為中小網(wǎng)站提供服務(wù),檢測(cè)什么東西,每一個(gè)漏洞新出來,比如說我們新出現(xiàn)一個(gè)漏洞,這些信息涉及到一個(gè)漏洞庫和知識(shí)庫的一個(gè)過程。到今天我又開始檢測(cè)具體的漏洞,每一個(gè)漏洞在網(wǎng)絡(luò)里面的實(shí)際攻擊情況到底是怎么樣的,到今天也算是做出來一些眉目了。其實(shí)一塊是做這個(gè)還是很好的,從實(shí)驗(yàn)室做到產(chǎn)品是有一定距離的。做到這里還沒做完,漏洞,供給,供給成功,當(dāng)我再次給老板看的時(shí)候,老板說沒用,這個(gè)價(jià)值其實(shí)意義并不是特別大,好了,把它做死,我們能夠檢測(cè)到攻擊,這些東西都是造成誤報(bào)的主要來源,有用嗎?用處不大。所以說這是一個(gè)非常關(guān)鍵的一個(gè)需求,所以在供給驗(yàn)證滯后,我們的流程加兩步,就變化了規(guī)則分析再到供給驗(yàn)證,再到結(jié)果分析。阿里已經(jīng)做了四五年,規(guī)則分析之后,把這些信息再進(jìn)去確認(rèn)一遍。這個(gè)是照的一張截圖,可以看到中間的,這兩分鐘處理了很多的數(shù)據(jù)。所以說整個(gè)大數(shù)據(jù),隨著業(yè)務(wù)的增長這個(gè)數(shù)據(jù)量可能會(huì)更多的增長。在這個(gè)過程中,我們還做了web檢測(cè),這是一個(gè)月內(nèi)的一個(gè)趨勢(shì)圖,在這個(gè)里面,每年都能發(fā)現(xiàn),所以說今天的互聯(lián)網(wǎng)安全形勢(shì)是非常不樂觀的,其實(shí)我一開始在公司來說,也是一個(gè)意外,因?yàn)橐矝]想到會(huì)分析出來這么多,所以做安全的時(shí)候并不能僅僅憑想象。今天可以說能夠檢測(cè)到90%以上,甚至95%以上,有很多黑客寫的有加密的,所以說今天我們檢測(cè)這么多,實(shí)際上是非常了不起的成績,很有意思是90%以上是為了DDOS,而且發(fā)現(xiàn)多數(shù)webshell是ddos、掛暗鏈,掛馬。這集中行為都和地區(qū)無關(guān),所以說現(xiàn)在的黑站,只需要把網(wǎng)站拿下來以后,他就可以完成他需要干的事情,左邊的這個(gè)是一個(gè)服務(wù)商分析,主要是webshell的一個(gè)服務(wù)商,在webshll請(qǐng)求量的趨勢(shì),0.0026%為了webshell請(qǐng)求,因?yàn)閐dos能夠知道,就相當(dāng)于一種加速網(wǎng)絡(luò),去下達(dá)指令的時(shí)候,不會(huì)產(chǎn)生一條新的請(qǐng)求,這其實(shí)也是一個(gè)問題。 此外對(duì)攻擊檢測(cè),也這是日?qǐng)?bào)的一部分,可以看到有漏洞編號(hào)、漏洞描述,還有提取攻擊總數(shù),被攻擊網(wǎng)站總數(shù),被成功攻擊網(wǎng)站數(shù),所以一定要把這一方面做透,否則也沒有什么意義。每當(dāng)有新漏洞公布時(shí),DEDS CM5.7 SQLI(ssvid+60089),SHopex,當(dāng)然我們做的這種離線分析,我們用于統(tǒng)計(jì),因?yàn)槲覀儼咐粋€(gè)安全數(shù)據(jù)倉庫,這是我們做的一份主要是手機(jī)方面病毒的統(tǒng)計(jì),其實(shí)這里面可以看到一些很有意思的,iphone和ipad請(qǐng)求是差不多的,安卓可能會(huì)與iphene差不多,但是加了ipad之后就不行了。這些統(tǒng)計(jì)實(shí)際上也可以做為很有意思的統(tǒng)計(jì),比如說在未來可以公布一個(gè)表,可以統(tǒng)計(jì)出來有多少系統(tǒng)的網(wǎng)站用戶被黑掉了,這些東西是非常重要的,可以直接看到這個(gè)網(wǎng)站到底安不安全。這個(gè)其實(shí)更多提供的是漏洞分析,這些漏洞其實(shí)有多少網(wǎng)站因?yàn)檫@個(gè)漏洞被黑掉,所以說這個(gè)漏洞是需要數(shù)據(jù)分析來找出來的。所以在未來這樣的一套系統(tǒng),可能會(huì)為占提供數(shù)據(jù)安全分析的服務(wù),同時(shí)也希望稱為互聯(lián)網(wǎng)安全的風(fēng)向標(biāo)。這就是我今天大家分享的一個(gè)主題,關(guān)于網(wǎng)站離線數(shù)據(jù)安全分析,謝謝大家。 (根據(jù)專家現(xiàn)場(chǎng)演講整理) |
|
|