小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

用XGB learning to rank

 520jefferson 2021-07-06



作者:時晴

說到learning to rank,大家應該都比較熟悉,但是說到用XGB做learning to rank,很少有人實現(xiàn)過.舉個例子,比方說賽馬,我們可以基于馬的個頭,體重,歷史戰(zhàn)績等信息,建立XGB模型,進行二分類,最后選擇贏的概率最高的馬.這樣做并沒有問題,但是考慮到馬是否能跑贏,和對手緊密相關,不管我選的馬能力如何,只要他能跑贏同場比賽其他馬即可,這就是排序.

圖片

Learning To Rank

圖片

學習排序其實也是有監(jiān)督學習的一部分,和多分類和回歸模型相比,我們并不是要預估一條樣本的概率,而是預估很多個樣本點的順序.排序經(jīng)常被用于搜索引擎,還有一些購物建議.在搜索框里搜任何一條query,top 3展示的一定是最相關的,越往后翻頁相關度越低.

回到XGBoost,有3個目標函數(shù),Point Wise,Pairwise和Listwise,這3種方法都可以用來排序,每個方法都有其優(yōu)缺點.對于pointwise而言,每次僅僅考慮一個樣本,預估的是每一條和query的相關性,基于此進行排序.Pairwise是每次取一對樣本,預估這一對樣本的先后順序,不斷重復預估一對對樣本,從而得到某條query下完整的排序.Listwise同時考慮多個樣本,找到最優(yōu)順序.

Point Wise雖然簡單,但是存在不少問題.比如說賽馬場景,馬的輸贏取決于對手.再比如搜索場景,我們確實可以預估每個query到每個document的點擊率做為排序依據(jù),但是點擊率要考慮rank,例如排的越靠前的document點擊率上占據(jù)優(yōu)勢,這些point-wise模型很難考慮進去.基于此,我們需要做learning to rank的模型.

圖片

建模

圖片

首先要明確的是訓練數(shù)據(jù),訓練數(shù)據(jù)必須包含一列query id,該id下指明哪些樣本要放到一起進行排序.同時特別需要注意的是,在訓練集和測試集進行拆分時,需要按query id進行分割,如果直接隨機拆分,同一個query id下的數(shù)據(jù)就會被分開,這樣會導致模型出問題.我們可以用如下代碼進行拆分.

from sklearn.model_selection import GroupShuffleSplitgss = GroupShuffleSplit(test_size=.40, n_splits=1,                         random_state = 7)                        .split(df, groups=df['query_id'])X_train_inds, X_test_inds = next(gss)
train_data= df.iloc[X_train_inds]X_train = train_data.loc[:, ~train_data.columns.isin(['id','rank'])]y_train = train_data.loc[:, train_data.columns.isin(['rank'])]
# 模型需要輸入按query_id排序后的樣本# 并且需要給定每個query_id下樣本的數(shù)量groups = train_data.groupby('id').size().to_frame('size')['size'].to_numpy()
test_data= df.iloc[X_test_inds]
#We need to keep the id for later predictionsX_test = test_data.loc[:, ~test_data.columns.isin(['rank'])]y_test = test_data.loc[:, test_data.columns.isin(['rank'])]

我們的數(shù)據(jù)格式應該如下所示,如果數(shù)據(jù)長這樣,那么我們上述代碼中的groups就是[3, 4]:

圖片

然后我們就可以建模了,可以用XGBRanker訓練排序模型,在這個場景下,我們無法自定義objective,也無法自定義mertic了.

import xgboost as xgb
model = xgb.XGBRanker( tree_method='gpu_hist', booster='gbtree', objective='rank:pairwise', random_state=42, learning_rate=0.1, colsample_bytree=0.9, eta=0.05, max_depth=6, n_estimators=110, subsample=0.75 )
model.fit(X_train, y_train, group=groups, verbose=True)

訓練完后我們就可以進行預估,因為預估方法并不會輸入groups,所以我們需要做一些特殊處理:

def predict(model, df): return model.predict(df.loc[:, ~df.columns.isin(['id'])])
predictions = (data.groupby('id') .apply(lambda x: predict(model, x)))

這里選擇了'rank:pairwise'作為loss,看官方文檔還有其他rank loss可供嘗試:

圖片

pair wise 方法相比pointwise有優(yōu)勢,可以學習到一些順序。但是pairwise也有缺點:

1.只能給出排序,并不能給出有多好,好多少.比如在搜索場景下,可能一條與query相關的doc都沒,pointwise可以通過卡閾值得到這個信息,但是rank方式就不能區(qū)分.

2.當一個query下有很多doc,會產(chǎn)生大量的pairs。

3.對噪聲的label 非常敏感。

感興趣的趕緊嘗試起來吧!


AINLP
AINLP
一個有趣有AI的自然語言處理公眾號:關注AI、NLP、機器學習、推薦系統(tǒng)、計算廣告等相關技術。公眾號可直接對話雙語聊天機器人,嘗試自動對聯(lián)、作詩機、藏頭詩生成器,調(diào)戲夸夸機器人、彩虹屁生成器,使用中英翻譯,查詢相似詞,測試NLP相關工具包。
331篇原創(chuàng)內(nèi)容
公眾號

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多