小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

【NLP】使用AutoX_nlp自動化提取文本特征

 漢無為 2022-05-22 發(fā)布于湖北

背景

你是否曾面對結(jié)構(gòu)化數(shù)據(jù)中的文本列,不知如何處理?文本數(shù)據(jù)作為一種常見的數(shù)據(jù)類型,包含了大量重要特征,如情感、意圖等。為了高效地將文本轉(zhuǎn)換為可供模型使用的特征,AutoX_nlp提供了文本列自動特征提取的解決方案。通過該方案,可以很方便地調(diào)用文本處理工具,將文本特征變成數(shù)值特征,進行后續(xù)訓(xùn)練、預(yù)測。

效果

目前AutoX_nlp結(jié)合AutoX端到端自動機器學(xué)習(xí)建模方案,已在多個包含文本域的數(shù)據(jù)集上取得優(yōu)于其他自動建模工具的結(jié)果。

圖片

案例說明

你可以很容易地使用AutoX_nlp,幾行代碼即可完成文本特征提?。?/p>

from autox.autox_nlp import NLP_featureNLP_feature = NLP_feature()
text_columns = ['text1','text2']train_text_feature = NLP_feature.fit_transform(train,text_columns)test_text_feature = NLP_feature.transform(test)

AutoX_nlp介紹

圖片

主要流程包括:

1. 分詞:將單條文本拆分為多個token,將文本信息拆分細(xì)化。默認(rèn)為空格分詞,無監(jiān)督分詞器可以動態(tài)選擇較合適的分詞粒度;

2. 特征提取:將拆分后的文本表示為數(shù)值特征向量,默認(rèn)為TFIDF,此外還支持Word2Vec、FastText、Glove、Bert、Zero-shot labeling。其中zero shot labeling使用在NLI任務(wù)下訓(xùn)練的模型對文本潛在的類別進行預(yù)測,適用于提前知曉文本列所指代特征的情況;

3. 輸出:將特征轉(zhuǎn)化為期望的輸出格式,默認(rèn)為離散型,此外也可以直接以稀疏矩陣輸出第二步的特征,以及使用有監(jiān)督的方式輸出連續(xù)型特征。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多