小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

內(nèi)容化時(shí)代,SEO如何提升?阿里工程師揭秘新思路

 五毒缺嫖賭 2019-01-16

小嘰導(dǎo)讀:隨著內(nèi)容化時(shí)代的到來(lái),搜索引擎越來(lái)越重視站點(diǎn)頁(yè)面的內(nèi)容承載和豐富度。Alibaba.com作為服務(wù)買家和供應(yīng)商的全球頂尖B類跨境貿(mào)易平臺(tái),在Google不斷提升內(nèi)容化排名的情況下,阿里工程師是如何突破原有SEO優(yōu)化手段,提升電商平臺(tái)的排名的呢?又是如何將人工智能知識(shí)應(yīng)用在摘要內(nèi)容的抽取過(guò)程中?今天,我們一起學(xué)習(xí)探討這一技術(shù),希望對(duì)你有所啟發(fā)。

作者 | 郭棟棟、顧驊、胡熠、王皓

背景

SEO是一種通過(guò)遵循搜索引擎原則,并持續(xù)優(yōu)化網(wǎng)站,以獲取網(wǎng)站在搜索引擎中更高的排名的技術(shù),通過(guò)更高的排名使得網(wǎng)站可以獲取更多流量。SEO的優(yōu)化工作可以從非常多的方面做起,比如TDK的優(yōu)化、內(nèi)外鏈建設(shè)、無(wú)線化等等傳統(tǒng)的優(yōu)化方法,在這些方面alibaba.com的工程師已經(jīng)做了大量的工作。

隨著搜索引擎算法能力的提升,它越來(lái)越關(guān)注搜索用戶的實(shí)際體驗(yàn),真正有內(nèi)容價(jià)值的頁(yè)面越來(lái)越受到青睞,給予的排名也相應(yīng)提高,吸用更多的用戶。下圖1是國(guó)外機(jī)構(gòu)給出的近兩年SEO影響因素的重要性排名,從中可以看到內(nèi)容建設(shè)在SEO的重要性非常高(23%)。

圖1.SEO影響因素排名

我們所做的工作主要是聚焦于網(wǎng)站的內(nèi)容建設(shè)上,本篇文章將會(huì)分享我們把深度強(qiáng)化學(xué)習(xí)應(yīng)用到國(guó)際站SEO(搜索引擎優(yōu)化)的一些工作與嘗試。

在這項(xiàng)內(nèi)容建設(shè)的工作中,我們主要是做了一個(gè)商品摘要信息抽取的任務(wù),去優(yōu)化站內(nèi)SEO Landing List頁(yè)面質(zhì)量。具體來(lái)說(shuō),我們?cè)谒阉鱈anding List頁(yè)上,為每一個(gè)商品添加相應(yīng)的商品描述摘要信息。這樣,一方面增加頁(yè)面文字內(nèi)容,提高了google搜索引擎的SEO排名,為站內(nèi)SEO引入更多流量;再者,通過(guò)對(duì)于商品的描述,吸引用戶停留,提高用戶二跳點(diǎn)擊率,增強(qiáng)頁(yè)面粘性,這樣也進(jìn)一步正向影響SEO排名(如下圖2所示已上線內(nèi)容)。

圖2.效果頁(yè)面(紅色框標(biāo)識(shí)區(qū)域?yàn)槲覀兲砑拥恼獌?nèi)容)

問(wèn)題描述

給定商品和相應(yīng)的商品描述,我們希望從商品描述中抽取出合適的句子作為商品摘要信息。目前在alibaba.com國(guó)際站內(nèi)做這個(gè)任務(wù)主要面臨了兩個(gè)主要挑戰(zhàn):

目前站內(nèi)描述沒(méi)有嚴(yán)格的標(biāo)注數(shù)據(jù),無(wú)法直接指導(dǎo)模型應(yīng)該抽取哪些句子作為商品摘要信息。

站內(nèi)商品描述復(fù)雜多樣,商品描述中還存在著大量的物流、付款、QA等信息,如何從較多的噪聲中抽取出真正描述商品本身的摘要語(yǔ)句也是較大的困難。

算法探索

Textrank模型

我們可以認(rèn)為這是簡(jiǎn)單的摘要抽取,將這個(gè)問(wèn)題定義為一個(gè)無(wú)監(jiān)督任務(wù),用一個(gè)傳統(tǒng)快速的算法模型作為Baseline即:Textrank算法。Textrank算法是一種常見(jiàn)的無(wú)監(jiān)督摘要抽取算法,主要通過(guò)比較商品描述中的各個(gè)句子與其他句子的語(yǔ)義相似度,計(jì)算各個(gè)句子的Textrank值,再基于此排序選擇top-N句作為摘要信息。我們用來(lái)計(jì)算語(yǔ)義相似度的公式為:

在人工review的過(guò)程中,我們發(fā)現(xiàn)Textrank產(chǎn)出的結(jié)果包含了較多的噪聲,其原因主要是站內(nèi)數(shù)據(jù)相對(duì)較雜,很多商家會(huì)把很多商品無(wú)關(guān)的信息加入到商品詳情描述中,比如物流、付款等信息。而Textrank算法是一個(gè)基于語(yǔ)義相似度的無(wú)監(jiān)督算法,這種情況下抽取的句子可能會(huì)產(chǎn)生偏差,比如抽取的句子在描述付款流程而不是真正在描述商品本身。對(duì)于上文所提到的兩個(gè)挑戰(zhàn)(無(wú)監(jiān)督、噪聲多),Textrank算法本身并沒(méi)有辦法去很好的解決。

注意力模型

鑒于上文提到的無(wú)監(jiān)督的挑戰(zhàn),我們提出了一些改進(jìn)策略。首先引入了商品類目標(biāo)簽,把無(wú)監(jiān)督學(xué)習(xí)轉(zhuǎn)化為了弱監(jiān)督學(xué)習(xí),通過(guò)商品類目標(biāo)簽,指導(dǎo)模型抽取類目相關(guān)的語(yǔ)句作為商品摘要抽出,轉(zhuǎn)化為弱監(jiān)督學(xué)習(xí)。越是類目相關(guān),也越有可能是在描述商品本身,相對(duì)也更適合作為商品摘要信息被抽取出來(lái)。基于這個(gè)弱監(jiān)督目標(biāo),我們提出了第一個(gè)改進(jìn)工作——注意力模型。

實(shí)踐中,我們發(fā)現(xiàn)注意力模型非常適合該類任務(wù)。概括來(lái)說(shuō),我們構(gòu)建了一個(gè)基于商品描述的文本分類模型,分類的目標(biāo)就是我們引入的商品類目標(biāo)簽。在商品描述的類目分類中,由于我們引入了注意力機(jī)制,注意力機(jī)制會(huì)為每句話分配一個(gè)注意力權(quán)重,一句話的權(quán)重越高,也就是說(shuō)該句子越類目相關(guān),則更適合作為商品摘要信息被抽出。我們的模型細(xì)節(jié)如圖3所示。

圖3.基于注意力的商品類目分類模型

圖3示例的商品描述中有三句話,分別描述了商品的材質(zhì)、外形以及商家的聯(lián)系方式。首先模型通過(guò)共享參數(shù)的CNN網(wǎng)絡(luò)對(duì)每句話做一個(gè)特征提取。經(jīng)過(guò)特征提取的特征向量Vector1、Vector2和Vector3通過(guò)注意力機(jī)制進(jìn)行結(jié)合。這邊用的注意力機(jī)制參考[1],具體公式如下:

首先每個(gè)特征向量通過(guò)一個(gè)全連接網(wǎng)絡(luò)進(jìn)一步提取特征,并和一個(gè)全局向量U計(jì)算相似度,全局向量U可以理解為多個(gè)類目標(biāo)簽的抽象表示。這里計(jì)算出的相似度α則是各個(gè)句子的注意力分配。之后各個(gè)特征向量根據(jù)權(quán)重α做一個(gè)加權(quán)和,形成最終的商品描述的特征向量D。最后基于D構(gòu)建一個(gè)商品類目分類的全連接層。在模型正確訓(xùn)練的情況下,注意力權(quán)重α?xí)迅蟮臋?quán)重分配給更加類目相關(guān)的句子,比如描述材質(zhì)以及外形的句子,通過(guò)他們可以比較確定該商品是一個(gè)T-shirt。而第三句描述了商家的聯(lián)系方式,在不同類目中,可能都會(huì)有相似的句子,即他們相對(duì)來(lái)說(shuō)類目無(wú)關(guān),所以注意力的權(quán)重一般相對(duì)較低。之后我們根據(jù)注意力分配進(jìn)行排序,根據(jù)排序的結(jié)果,選擇top-N個(gè)作為輸。

案例分析:

在完成了注意力模型后,我們發(fā)現(xiàn)依然存在一些缺點(diǎn)。對(duì)于前文所述的兩個(gè)主要挑戰(zhàn),注意力模型只能解決第一個(gè),即從無(wú)監(jiān)督學(xué)習(xí)轉(zhuǎn)化為一個(gè)弱監(jiān)督學(xué)習(xí)。而對(duì)于第二個(gè)噪聲較多的挑戰(zhàn),目前來(lái)說(shuō)并沒(méi)有得到很好的解決。

圖4.案例1

具體來(lái)說(shuō),有兩種情況注意力模型沒(méi)法很好應(yīng)對(duì),如圖4所示,在Case1中,商品描述的質(zhì)量相對(duì)較高,存在多句的商品摘要信息。這里假設(shè)超參top-N設(shè)置為2,會(huì)舍棄其余優(yōu)質(zhì)的摘要語(yǔ)句。而在Case2中,商品描述內(nèi)容與商品關(guān)系不大,一句合適的摘要信息都沒(méi)有,這種情況下,依然受限于top-N=2的限制,注意力模型依然會(huì)選擇兩句作為摘要,這種情況便引入了較多的噪聲。從兩個(gè)案例中可以看出,受限于超參top-N,注意力模型無(wú)法動(dòng)態(tài)根據(jù)商品描述的質(zhì)量合理選擇相應(yīng)數(shù)量的摘要信息,從而引入大量噪聲。因此,我們進(jìn)一步提出了模型的改進(jìn)方案,即強(qiáng)化學(xué)習(xí)模型。

強(qiáng)化學(xué)習(xí)模型

強(qiáng)化學(xué)習(xí)模型我們采用了Selector-Classifier的模型架構(gòu),參考了[2],其中Selector Network負(fù)責(zé)從商品描述中選取合適的摘要信息作為輸出,而Classifier Network負(fù)責(zé)評(píng)判選取的句子的質(zhì)量,并反饋獎(jiǎng)勵(lì),兩個(gè)神經(jīng)網(wǎng)絡(luò)共同訓(xùn)練。具體模型架構(gòu)如圖5所示。

圖5.強(qiáng)化學(xué)習(xí)模型架構(gòu)

具體來(lái)說(shuō),模型中一共包含了三個(gè)網(wǎng)絡(luò)——Encoder Network, Selector Network以及Classifier Network。

首先是一個(gè)Encoder Network,它的主要作用是特征提取,把原句子經(jīng)過(guò)特征提取,形成特征向量Vec1至Vec4?;谶@四個(gè)特征向量,Selector Network開(kāi)始做選擇操作,Selector Network的輸出單元長(zhǎng)度為1,含義是該句句子被認(rèn)為是類目相關(guān)的概率。

然后,Selector Network在商品描述的所有句子上都完成決策后,被接收的句子送進(jìn)Classifier Network,計(jì)算類目分類時(shí)的交叉熵?fù)p失,并將損失作為reward反饋給Selector Network,幫助他進(jìn)行策略更新。

另外,在某些情況下,Selector Network可能會(huì)對(duì)每句商品描述都做出拒絕操作,該種情況下由于無(wú)法通過(guò)Classifier Network對(duì)策略進(jìn)行reward估計(jì),我們則采用在訓(xùn)練集上的類目分類的平均交叉熵?fù)p失作為reward反饋給Selector Network進(jìn)行更新。

實(shí)驗(yàn)分析

目前我們主要做了兩個(gè)線下實(shí)驗(yàn)去檢驗(yàn)我們模型的性能。

第一個(gè)實(shí)驗(yàn)主要是用摘要抽取模型在原來(lái)包含噪聲的數(shù)據(jù)集上進(jìn)行摘要抽取,將抽取出來(lái)的句子代替原來(lái)的數(shù)據(jù)集,使用同一個(gè)分類網(wǎng)絡(luò)(text-CNN)進(jìn)行類目分類的任務(wù)。在性能評(píng)測(cè)中,我們加入了Textrank算法共同比較。具體的評(píng)測(cè)結(jié)果以及在驗(yàn)證集合上的Loss曲線如下圖6所示:

圖6.實(shí)驗(yàn)結(jié)果1

這里的全量數(shù)據(jù)是指不經(jīng)過(guò)任何信息抽取模型,直接用原來(lái)含有較多噪聲的數(shù)據(jù)進(jìn)行商品類目分類任務(wù)評(píng)測(cè)。從實(shí)驗(yàn)結(jié)果中可以看出,全量數(shù)據(jù)含有非常多的噪聲,直接在其上訓(xùn)練商品類目分類模型的性能較差,accuracy只有約47.5%,而強(qiáng)化學(xué)習(xí)模型性能較好,取得了80%左右的accuracy,說(shuō)明其排除了較多的噪聲。這一點(diǎn)從在驗(yàn)證集合上的Loss曲線也可以看出,全量數(shù)據(jù)由于含有較多的噪聲,擬合相對(duì)較差,而強(qiáng)化學(xué)習(xí)模型則擬合最好。同時(shí)注意力模型的性能略優(yōu)于Textrank模型,提升了約4%。

另外我們做的第二個(gè)實(shí)驗(yàn)是一個(gè)有監(jiān)督的評(píng)測(cè),我們?nèi)斯?biāo)注了1000條數(shù)據(jù),在標(biāo)注數(shù)據(jù)上比較各算法的性能。具體的實(shí)驗(yàn)結(jié)果如下圖7:

圖7.實(shí)驗(yàn)結(jié)果2

這邊可以看到強(qiáng)化學(xué)習(xí)模型的Precision和F1值相較于兩個(gè)baseline(注意力模型和Textrank算法)有較為明顯的提升,而Recall則相對(duì)較低(低于注意力模型0.1)。這里的主要原因是強(qiáng)化學(xué)習(xí)模型目前人工標(biāo)注的數(shù)據(jù)上輸出的句子數(shù)目比注意力模型和Textrank算法要少約30%,在這種情況下,Recall值會(huì)相應(yīng)有所降低,但目前來(lái)看損失的幅度較小,同時(shí)會(huì)獲得Precision上的明顯提升。

另外一點(diǎn)值得注意的是注意力模型在引入了商品類目標(biāo)簽后,在兩個(gè)實(shí)驗(yàn)中性能相對(duì)于無(wú)監(jiān)督的Textrank算法均沒(méi)有特別顯著提升,這邊我們認(rèn)為的原因有兩點(diǎn):

1)top-N的超參設(shè)置限制了兩個(gè)模型的性能,使得兩者性能皆表現(xiàn)不佳,目前我們還沒(méi)有找到合適的方案使得模型根據(jù)商品描述質(zhì)量本身動(dòng)態(tài)選擇參數(shù)top-N。

2)注意力機(jī)制還需要進(jìn)一步優(yōu)化。在注意力機(jī)制上,我們注意到在[1]中類似的注意力機(jī)制主要用于少數(shù)類別分類問(wèn)題,而在我們的業(yè)務(wù)場(chǎng)景中,則是類目量級(jí)遠(yuǎn)大于前者,考慮到全局向量U可能無(wú)法有效編碼所有類目信息。

為此我們?cè)谏唐访枋錾希隽艘粋€(gè)文檔級(jí)別的類目分類測(cè)試,使用了相同的CNN網(wǎng)絡(luò),一個(gè)使用注意力機(jī)制,另外一個(gè)不使用注意力。最終的訓(xùn)練結(jié)果如下圖8:

圖8.注意力機(jī)制評(píng)測(cè)

可以看到目前的注意力機(jī)制并無(wú)法帶來(lái)顯著的性能提升。后續(xù)我們考慮Selective attention機(jī)制可能更加適合于我們當(dāng)前的業(yè)務(wù)場(chǎng)景[3]。

案例分析

基于之前注意力模型無(wú)法處理的兩類案例,我們做了一些案例分析(如圖9)。在Case1中,四句的商品摘要信息質(zhì)量都相對(duì)較高,Attention列的的數(shù)值代表了注意力模型的注意力權(quán)重分配,從中也可以看出四句話的注意力分配相對(duì)較為均勻,但由于top-2的設(shè)置,注意力模型選取了后兩句作為輸出,從而錯(cuò)過(guò)了前兩句。該種情況下,強(qiáng)化學(xué)習(xí)模型則能自適應(yīng)的選擇全部接受的操作。

而在Case2中,四句商品描述的與商品本身相對(duì)無(wú)關(guān),從注意力分配的權(quán)重也可以看出,前三句由于類目不相關(guān),注意力分配的權(quán)重較低,第四句相較前三句質(zhì)量稍高,由于注意力需要Softmax至概率空間,所以第四句給出了極高的權(quán)重,最終選擇了注意力分配靠前的第三、四句。而強(qiáng)化學(xué)習(xí)模型在這種情況下則選擇了全部拒絕的操作,從而有效處理商品描述中不存在商品摘要的情況,進(jìn)而排除掉更多的噪聲。

圖9.案例2

線上效果

線上評(píng)測(cè)一個(gè)月的時(shí)間,如下圖10,縱坐標(biāo)為UV,橫坐標(biāo)為實(shí)驗(yàn)天數(shù),我們從流量引入量側(cè)面來(lái)驗(yàn)證google的SEO對(duì)于這部分頁(yè)面的排名的提升,如藍(lán)線所示,可以看到上線后頁(yè)面能帶來(lái)穩(wěn)定的UV提升。

圖10.線上評(píng)測(cè)結(jié)果

展望

從相關(guān)的實(shí)驗(yàn)以及我們自身的人工review來(lái)看,目前模型已經(jīng)具備不錯(cuò)的除噪能力,其產(chǎn)出的結(jié)果,有了較好的可讀性且包含相對(duì)較少的噪聲。與此同時(shí),該方法或能夠與seq2seq模型結(jié)合,為文本導(dǎo)購(gòu)生成獲取優(yōu)質(zhì)的訓(xùn)練預(yù)料,從而解決英文場(chǎng)景訓(xùn)練語(yǔ)料較少的狀況。

參考文獻(xiàn):

[1] Feng J, Huang M, Zhao L, et al.Reinforcement Learning for Relation Classification from Noisy Data, Proceedingsof AAAI. 2018.

[2] Yang Z, Yang D, Dyer C, et al.Hierarchical attention networks for document classification, Proceedings ofNAACL. 2016

[3] Lin Y, Shen S, Liu Z, et al. Neuralrelation extraction with selective attention over instances, Proceedings ofACL. 2016

「 更多干貨,更多收獲 」

關(guān)注機(jī)器智能

把握未來(lái)可能

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多