下載make好word2vec后,生成以下5個(gè)命令:
distance: word2phrase:就是將詞語(yǔ)拼成短語(yǔ)。 word2vec:丫應(yīng)該是make后第一個(gè)執(zhí)行的命令了,因?yàn)樾枰褂迷撁钣?xùn)練語(yǔ)料庫(kù)。我們首先需要準(zhǔn)備好txt文本文件,里面全是用空格或Tab空開的詞。然后通過以下代碼生成*.bin文件,bin里面保存的值就是文檔中詞語(yǔ)和其對(duì)應(yīng)的向量。千萬(wàn)不要以為,得到的bin文件就一定比input.txt小,超過100M的txt是這樣,而且越大越是,但是對(duì)于20~50M的語(yǔ)料庫(kù)而言就不一定了,起碼我訓(xùn)練的時(shí)候是這樣。
在Ubuntu15.04下安裝Gensim: sudo apt-get install python-numpy python-scipy pip install gensim |
|
|