InfoQ專訪頭條搜索：從推薦到搜索，如何構(gòu)建搜索技術(shù)另一種可能

信息熵 2020-05-13

展開全文

今日頭條又將搜索業(yè)務(wù)往前推進(jìn)了一步。4 月 30 日，今日頭條宣布上線“頭條百科”測試版。界面簡潔，除了搜索框外，只有一個 Slogan：來這里，認(rèn)識世界！

這是頭條搜索繼 2019 年 8 月推出頭條搜索網(wǎng)頁版，2020 年 2 月上架頭條搜索 APP 之后的新動作。僅經(jīng)過一年多的發(fā)展，盡管沒有大肆宣傳，頭條搜索也吸引了不少用戶的注意，在用戶體驗(yàn)方面也獲得了用戶的肯定。

關(guān)于頭條搜索的相關(guān)技術(shù)，在外界極少量的資料中，我們看到朱文佳在他的演講中提到：“我們建立了一套業(yè)界獨(dú)有的搜索技術(shù)架構(gòu)，我們從推薦引擎上探索出機(jī)器學(xué)習(xí)的方案，然后把這套技術(shù)架構(gòu)和底層算法遷移到搜索引擎上，發(fā)現(xiàn)效果也很好?！?/p>

實(shí)際上，今日頭條于 2017 年才開始組建搜索技術(shù)團(tuán)隊(duì)，頭條搜索如何在這么短的時間里，做到這種效果？他們的搜索引擎到底與傳統(tǒng)引擎有何不同？頭條搜索是否打造出自己“理想的搜索中臺架構(gòu)”？

為此，InfoQ 獨(dú)家采訪了今日頭條搜索技術(shù)部門，這也是頭條搜索技術(shù)團(tuán)隊(duì)第一次接受外界采訪。

從推薦到搜索

從 2012 年開始，今日頭條開始做推薦引擎。而到了 2016 年，在資訊信息分發(fā)市場上，有 50% 的內(nèi)容分發(fā)是通過算法來完成的。

智能推薦引擎通過算法，綜合用戶特征、文章特征、環(huán)境特征，得出用戶對內(nèi)容感興趣的概率，返回 TopN 的結(jié)果滿足用戶的需求。今日頭條從無到有搭起平臺，隨著大數(shù)據(jù)技術(shù)的發(fā)展，在 2014 年及時引入實(shí)時流架構(gòu)，用戶的行為信息可以被模型快速捕捉并反饋至下一次刷新的推薦效果。從成立開始，這家企業(yè)就開始大量招募擅長機(jī)器學(xué)習(xí)、推薦算法的技術(shù)人才。當(dāng)時互聯(lián)網(wǎng)還正處于招移動端、iOS 技術(shù)人員的階段，有獵頭評價：“很多人認(rèn)為他們瘋掉了”。

實(shí)際上，這些人才為推薦系統(tǒng)底層算法打下了基礎(chǔ)。

隨后，今日頭條在構(gòu)建搜索系統(tǒng)架構(gòu)時，將從推薦引擎上探索出的技術(shù)架構(gòu)和底層算法遷移到搜索引擎上?！鞍l(fā)現(xiàn)效果也很好?！苯袢疹^條 CEO 朱文佳在演講中說。

頭條搜索技術(shù)團(tuán)隊(duì)負(fù)責(zé)人在采訪里表示：“推薦和搜索有一些相通的地方，背后都要有 AI 來理解用戶的需求和內(nèi)容，理解的越清楚，就越能幫助到用戶。像大規(guī)模機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、實(shí)時更新等推薦上成功應(yīng)用的方法，都是建模用戶、內(nèi)容的有效方法。所以將這些技術(shù)應(yīng)用到搜索上，也會取得不錯的效果?！?/p>

實(shí)時更新也是傳統(tǒng)搜索引擎的短板。最近幾年隨著 Storm、Spark streaming、Flink 等框架的成熟，實(shí)時流處理才能成為各公司 AI 平臺的標(biāo)配。

現(xiàn)在實(shí)時架構(gòu)同樣也被引入到頭條搜索的搜索引擎里?！盎谛侣勍扑]時效性的理解和經(jīng)驗(yàn)，我們在搜索上也研發(fā)了全量實(shí)時更新的百億倒排索引架構(gòu)，大幅提升了內(nèi)容的時效性，大事件發(fā)生時，往往最先能在頭條搜索到。”頭條搜索技術(shù)團(tuán)隊(duì)負(fù)責(zé)人表示。

即便如此，推薦與搜索還是存在不少差異。頭條搜索技術(shù)團(tuán)隊(duì)負(fù)責(zé)人在采訪中指出：“搜索要解決好長尾問題，不能過度依賴用戶的行為反饋去理解特定的查詢詞、網(wǎng)頁，而是需要尋找更泛化的方法。為了讓通用技術(shù)發(fā)揮優(yōu)勢，也需要把搜索上特有的問題理解得更加充分，例如怎么做好對多語言的理解，怎么在萬億網(wǎng)頁的檢索系統(tǒng)中權(quán)衡好 Explore/Exploit，怎么在性能要求苛刻的場景中應(yīng)用好復(fù)雜模型等等。另一方面，在推薦上目前不一定那么有效的方法，在搜索上卻有可能大展拳腳，例如強(qiáng)化學(xué)習(xí)、遷移學(xué)習(xí)。整體來看，搜索系統(tǒng)復(fù)雜多樣，對技術(shù)的廣度、深度有非常高的要求，發(fā)揮的空間也更大。”

新技術(shù)應(yīng)用

“很多新技術(shù)還沒有被充分用到搜索引擎里去。”

作為全球最大的搜索引擎公司，Google 也是我們公認(rèn)的大數(shù)據(jù)鼻祖，它存儲著全世界幾乎所有可訪問的網(wǎng)頁，數(shù)目可能超過十萬億規(guī)模。為了將這些文件存儲并使用起來，Google 開發(fā)了 GFS、Bigtable 和 MapReduce 三駕馬車。從此大數(shù)據(jù)得以繁榮發(fā)展，行業(yè)里也產(chǎn)生了數(shù)百萬大數(shù)據(jù)從業(yè)需求。隨著數(shù)據(jù)采集、存儲、計(jì)算能力的提升，進(jìn)一步開啟了“AI 時代”。

搜索引擎的進(jìn)化史，就是人工智能技術(shù)的進(jìn)化史。今天，無論是搜索、還是信息流，所用的技術(shù)完全都是人工智能技術(shù)，包括谷歌在內(nèi)的搜索引擎廠商，都在不斷將人工智能新技術(shù)應(yīng)用到搜索引擎中。

頭條搜索在新技術(shù)應(yīng)用上，也做了很多大膽的嘗試。

例如，BERT 是 2018 年時 Google 在 NLP 上的一個重要突破，2019 年 10 月，Google 宣布將 BERT 算法應(yīng)用到搜索引擎中，搜索結(jié)果得到了 10% 的提升。Google 宣稱這是 Google 搜索引擎過去五年中最大、最正向的變化，而且也許是有史以來最大的變化。

但 Google 并不是第一家將 BERT 應(yīng)用在搜索引擎里的，頭條搜索技術(shù)團(tuán)隊(duì)負(fù)責(zé)人在采訪中提到：“早在 2019 年初，頭條搜索就已經(jīng)將 BERT 在頭條搜索上全流量應(yīng)用，并且獲得了顯著的效果提升。上線得比 Google 更早，依靠的是大家大膽創(chuàng)新和快速迭代?！?/p>

此外，頭條搜索技術(shù)團(tuán)隊(duì)負(fù)責(zé)人也認(rèn)為，AI 技術(shù)能夠更好的對問題進(jìn)行端到端建模，例如網(wǎng)頁內(nèi)容的理解，傳統(tǒng)方法會對這一問題進(jìn)行不斷細(xì)分，基于 HTML 結(jié)構(gòu)等信息，對不同的子任務(wù)應(yīng)用不同的規(guī)則，反復(fù)迭代來提升效果。而利用 AI 技術(shù)，頭條搜索將網(wǎng)頁渲染成圖片，聯(lián)合視覺、文本、HTML 結(jié)構(gòu)等特征，對相似任務(wù)進(jìn)行統(tǒng)一的端到端建模和多任務(wù)學(xué)習(xí)，大幅提高了分類、信息抽取的效果和效率。

頭條搜索技術(shù)團(tuán)隊(duì)負(fù)責(zé)人表示，頭條搜索技術(shù)團(tuán)隊(duì)也在繼續(xù)借助 AI 探索更多的搜索引擎技術(shù)問題，例如多模態(tài)技術(shù)是否可端到端地搜索出更相關(guān)的圖片、小視頻；抓取、索引構(gòu)建系統(tǒng)有沒有可能基于模型重新設(shè)計(jì)；強(qiáng)化學(xué)習(xí)是否能讓搜索排序更加智能并節(jié)約計(jì)算成本等等。

搜索的另一種可能

如果有這么一個可能，就是讓老牌搜索引擎廠商在發(fā)展二十年后重做搜索系統(tǒng)，那么新的搜索系統(tǒng)會有什么不同？

搜索引擎是極其復(fù)雜的大工程，它通常都要將整個系統(tǒng)分解為若干子系統(tǒng)，比如會分解為鏈接發(fā)現(xiàn)、索引篩選、Query 理解、Ranking 等步驟。每一步驟內(nèi)部又會進(jìn)一步分解，這個過程可以無限分解下去，由不同的人和團(tuán)隊(duì)分工解決。但這個過程有個致命缺點(diǎn)，在每一步的分解過程中都會有信息損失，最后聯(lián)合起來導(dǎo)致整個系統(tǒng)不能達(dá)到最優(yōu)狀態(tài)，比如 A 步驟精度 90%、B 步驟精度 90%、對接起來最終系統(tǒng)精度可能只有 80%。

這種精分細(xì)解，是傳統(tǒng)搜索引擎受限于當(dāng)時的技術(shù)手段，為了有效開展工作、更好地提升產(chǎn)品效果采取的技術(shù)決策，這在當(dāng)時是非常正確的。“但精度不足，也限制了傳統(tǒng)搜索引擎進(jìn)一步提升效果。”在談到傳統(tǒng)搜索引擎的缺陷時，頭條搜索技術(shù)團(tuán)隊(duì)負(fù)責(zé)人提到。

現(xiàn)在做搜索引擎，頭條搜索技術(shù)團(tuán)隊(duì)負(fù)責(zé)人告訴 InfoQ，頭條搜索技術(shù)團(tuán)隊(duì)主要有三個優(yōu)勢：

第一，會更大膽地探索 AI 技術(shù)。相對傳統(tǒng)搜索引擎的局限，今日頭條傾向于對系統(tǒng)有限分解，重度使用前沿 AI 技術(shù)進(jìn)行端到端的問題建模，系統(tǒng)性降低效果損失。
第二，沒有歷史的包袱，才有機(jī)會去重新審視一個合理的搜索引擎架構(gòu)應(yīng)該如何設(shè)計(jì)、如何避免走彎路、容納新技術(shù)，并且有足夠高的研發(fā)效率。頭條在短時間就讓搜索效果進(jìn)入第一梯隊(duì)，合理的架構(gòu)發(fā)揮了很大的作用。頭條搜索還組建了專門的工程架構(gòu)團(tuán)隊(duì)，專注于分布式系統(tǒng)、機(jī)器學(xué)習(xí)系統(tǒng)的構(gòu)建和性能優(yōu)化。一些深入到內(nèi)存、SSD、Disk 甚至一些新硬件的優(yōu)化，或一些對倒排索引壓縮、召回等算法的底層優(yōu)化，大幅降低了硬件成本，提升了搜索速度和穩(wěn)定性。
第三，優(yōu)秀的團(tuán)隊(duì)和合理系統(tǒng)設(shè)計(jì)保證了“迭代效率”。頭條搜索技術(shù)團(tuán)隊(duì)的目標(biāo)是建設(shè)一個服務(wù)于全公司的搜索技術(shù)中臺，在對標(biāo)谷歌做一流全網(wǎng)搜索引擎的同時，也全力提升抖音、西瓜等產(chǎn)品的搜索體驗(yàn)。雖然現(xiàn)在頭條搜索技術(shù)團(tuán)隊(duì)人數(shù)不到 200 人，卻聚集了很多 Google、百度、360、Bing 這些老牌搜索公司的核心技術(shù)骨干，同時還有不少今日頭條原推薦、廣告、AI Lab 團(tuán)隊(duì)的核心成員，以及一批非常優(yōu)秀的校招生，他們近 30% 來自于清華北大。為了保證“迭代效率”，頭條搜索目前每周都會對線上進(jìn)行數(shù)十次的優(yōu)化更新，一些從其他搜索引擎公司加入頭條搜索技術(shù)團(tuán)隊(duì)的同學(xué)表示，以前需要半年以上時間上線的項(xiàng)目，在頭條搜索只需要幾周。當(dāng)然，快速的迭代也更容易犯錯，頭條搜索也設(shè)計(jì)了更多的穩(wěn)定性機(jī)制，提前避免出錯并大幅降低錯誤的影響，讓問題可控，也讓團(tuán)隊(duì)敢放開手腳。

我們在招聘

字節(jié)跳動公司搜索部門匯聚了大量行業(yè)頂尖技術(shù)精英，旨在從 0 到 1 打造一個用戶體驗(yàn)更加理想的通用搜索引擎，支持公司所有產(chǎn)品的搜索功能，包括今日頭條、抖音、西瓜、火山、懂車帝等多款備受歡迎的知名 app。在這里你有機(jī)會參與工業(yè)級搜索引擎從無到有的研發(fā)工作，并在此過程中挑戰(zhàn)大規(guī)模分布式存儲和計(jì)算架構(gòu)、NLP、人工智能、ranking 等世界難題，很好地鍛煉自己的工程能力、算法能力、業(yè)務(wù)能力。加入我們，參與并見證一個新產(chǎn)品的成長和成功，和大牛們一起完成最有挑戰(zhàn)性的工作吧！

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：信息熵 > 《網(wǎng)絡(luò)》

舉報/認(rèn)領(lǐng)