|
現(xiàn)在上網(wǎng)沖浪,當(dāng)你完成注冊登錄或者做一些操作的時候,隨之而來的會是各式各樣的驗證碼。 雖然我們不怵任何驗證,但總有被驗證碼氣的抓耳撓腮的時候。 尤其是早先的字符驗證碼,不經(jīng)意間就會被那些隨機出現(xiàn)的字符秀一波智商。 有祝你早日離職的: 有直接說你是 loser,甚至考研報名時直接彈出倆字「別考」的: 還有小米這種更直接的: 沒錯,和最開始那種英文、數(shù)字組合而成的字符驗證碼不同,巧合下的中文驗證碼是直接騎臉輸出。 不過這些年驗證碼的形式也一直在變化,像選圖、答題這樣需要你交互的驗證碼也會時不時的冒頭出現(xiàn)。 有讓你做閱讀理解的: 有讓你看抽象畫的: 還有這種更過分的: 所以我每次想到驗證碼,總會想起當(dāng)年那個吐槽 12306 的奶糖哥,那句「我又沒有吃到嘴里頭,我 tm 知道哪個是奶糖」的吐槽歷歷在目。 不過這個能浪費我們數(shù)秒的驗證碼,雖然看著總是槽點滿滿,但它絕不是多余的,甚至說過去的驗證碼一度成為了互聯(lián)網(wǎng)的保護神。 沒有夸張,在網(wǎng)友們和沙雕驗證碼斗爭的背后,藏著一場更大的人機對抗賽。 過去 你能想象 20 多年前,那個不存在的驗證碼的互聯(lián)網(wǎng)有多荒蠻嗎? 雖然那時的網(wǎng)絡(luò)和發(fā)達掛不上鉤,但論壇、門戶網(wǎng)站的出現(xiàn)讓這個年輕的互聯(lián)網(wǎng)處處散發(fā)著生機。 在當(dāng)時可沒有現(xiàn)在的微信、QQ,大家交流向來用的都是郵箱,不少網(wǎng)絡(luò)服務(wù)商都提供有免費郵箱注冊的服務(wù)。 所以就有一批盲生發(fā)現(xiàn)了華點,編寫腳本注冊了大量的郵箱,然后用來實現(xiàn)垃圾郵件轟炸和網(wǎng)絡(luò)詐騙,與現(xiàn)在的某些黑產(chǎn)比起來也不遑多讓。 所以那時的互聯(lián)網(wǎng),被腳本大軍的信息騷擾弄的是烏煙瘴氣,服務(wù)商們更是啞巴吃黃連,有口難說。 咋整,自己解決不了就請能解決問題的大神唄。 于是他們聯(lián)系了卡內(nèi)基梅隆大學(xué)的計算機科學(xué)系,正在上學(xué)的天才少年路易斯提了個方案: 既然解決不了五花八門的腳本,為啥不讓用戶自己來自證身份,加一個只有人類才能做到的事情不就解決了。 什么事只有人類才能做到?路易斯想到的是讀圖,然后字符驗證碼應(yīng)運而生。 在千禧年上下,還是學(xué)生的路易斯提出了驗證碼這一概念,然后命名為「CAPTCHA」,其中的字母 T 代表著圖靈測試。 但誰也沒想到,這個小小的驗證碼竟然真的保護起了尚且稚嫩的互聯(lián)網(wǎng),后面又會給我們帶來這么多歡樂。 發(fā)展 早期的驗證碼是一眼就能看出來的字母和數(shù)字,對于身為人類的我們是一點難度都沒有。 但你有張良計,我有過墻梯,當(dāng)機器識別圖片被腳本大面積使用的時候,過去的字符驗證碼很難再攔截腳本作惡。 為了不讓腳本正確識別,驗證碼被不斷的更新升級,讓驗證碼變長,給背景加上干擾,甚至是扭曲驗證碼。 一來二去之下,被增加難度的可不只有腳本,還有肉眼識別的我們。 為此,驗證碼不再局限于字符,識圖、問答等多種基于圖片的新型驗證碼相繼問世。 可越來越復(fù)雜的驗證碼并沒有解決問題,據(jù)統(tǒng)計網(wǎng)絡(luò)地球村上一天浪費在驗證碼上的時間就有 50 萬個小時。 還記得那個發(fā)明驗證碼的路易斯不,人家這回當(dāng)了盲生,發(fā)現(xiàn)了新的華點。 既然這 50 萬個小時不可避免,何不薅一薅全球網(wǎng)友的羊毛,把這 50 萬個小時二次利用一下。 于是,他提出了新的驗證機制,reCAPTCHA。 薅羊毛 路西斯對于自己的新想法是這么說的:既然人類與機器各有擅長,能不能利用驗證碼系統(tǒng),讓人類和機器共同解決問題呢? 能,當(dāng)然能,反正大家都要用肉眼實打?qū)嵉淖R別一遍文字,為何不把由電腦隨機生成的字符換成已經(jīng)模糊的舊書或手寫稿。
于是,再往后的驗證碼你就能看到很多奇奇怪怪的字體。 當(dāng) reCAPTCHA 被各大網(wǎng)站使用起來后,谷歌盯上了這個項目,發(fā)揮鈔能力把 reCAPTCHA 收購了下來。 按照早先路易斯的思路,reCAPTCHA 被用來識別舊書或手稿,每天能有近 4000 萬個單詞被人為識別出。 可谷歌沒想著就這么放過如此龐大的免費人力資源,從 2012 年起,谷歌的自家應(yīng)用谷歌街景中的一些識別不了的門牌和路牌開始出現(xiàn)在 reCAPTCHA 里。
這一回手掏的操作賦予了驗證碼新的價值,但絲毫沒有解決 50 萬個小時被浪費的現(xiàn)實。 更殘酷的現(xiàn)實,據(jù)當(dāng)時谷歌的統(tǒng)計,人類成功識別復(fù)雜驗證碼的成功率只有 33%。 我不是機器人 直到 2014 年,有了「我不是機器人」的谷歌驗證。
沒有過去那些奇怪難懂的圖片,只需用戶移動鼠標一勾,驗證就通過了。 表面上看起來沒有任何難度,但在背后谷歌做了更多的準備。 在你移動鼠標的過程中,谷歌收集了你數(shù)據(jù),比如移動鼠標的速度、有無重復(fù)點擊、當(dāng)前 IP 地址等等。 不過這些后臺才會做的驗證反饋到了頁面,就變成了點擊,通過。 當(dāng)然谷歌可沒有忘記之前薅全網(wǎng)羊毛的經(jīng)歷,后面也添加了識別圖片的步驟,背地里順手訓(xùn)練了自家 AI 的識圖能力。 是的,有些時候,可能谷歌自己也不清楚自家的驗證碼正解到底是什么。 有這種暗含陷阱的:
最常見的就是這種有關(guān)交通的驗證碼,路標、紅綠燈、自行車、大巴車等等不一而足。 為啥老針對交通,自然是因為在谷歌的 AI 規(guī)劃中,無人駕駛是最先受益的項目。 可以說這個小小的驗證碼,集全網(wǎng)之力,成就了谷歌。 當(dāng)然了,早期也有這種過分的:
有時候點錯了也有可能通過,不是你運氣好,而是人家也不知道答案。 用來牟利的腳本,阻擋腳本的驗證碼,重新利用驗證碼創(chuàng)造新價值的人類,這個轉(zhuǎn)動的圈從未停歇。 醫(yī)學(xué)驗證碼 當(dāng)然,利用驗證碼創(chuàng)造新價值的公司不只有谷歌,騰訊也在做這個事。 今年年初,我記得騰訊和深圳大學(xué)一起搞了個醫(yī)學(xué)驗證碼,用來驗證的是醫(yī)學(xué)影像圖片,背后的目的是提高 AI 標注和診斷的成功率。
不得不說,相比谷歌來說,小企鵝的這個項目更有愛一些。
而且這還是一項公益項目,雖然驗證起來可能會更麻煩了些,但我相信碰到這個驗證碼的人,會停下多花這么幾秒,讓這個驗證碼更精準些。 總結(jié) 關(guān)于驗證碼,這個圍繞著圖靈測試的人機對抗賽的故事還在繼續(xù)。 等哪天人類勝利了,可能早幾年的那種和刷單一樣讓你識別驗證碼的兼職又來了。 又或許哪天機器勝利了,我們就要面對人類如何證明自己是人類的新難題了,真到了那一天,估計機器得學(xué)會降智才能跟上人類的腳步吧。 好了,這一篇到這就結(jié)束了,最后再多吐槽一句,暴雪的驗證碼是真惡心。 ![]() |
|
|
來自: 網(wǎng)羅燈下黑 > 《待分類》