|
這一點(diǎn)剛開始也讓我感到很神奇,但是事實(shí)是新聞分類的基本原理其實(shí)就是余弦定理。首先讓我們來回顧一下什么是余弦定理。 余弦定理和正弦定理是我們在高中時(shí)期學(xué)習(xí)三角函數(shù)時(shí)學(xué)到的兩個(gè)定理。其中余弦定理說的是如果我們知道三角形的兩條邊和這兩條邊的夾角,那么我們便可以通過以下公式來求出第三條邊。 圖1. 余弦定理示意圖 我們利用余弦定理可以求出兩條邊的夾角,即下面這個(gè)公式: cosA=(b2+c2-a2)/(2bc) 當(dāng)我們在坐標(biāo)系里研究余弦定理時(shí),其實(shí)就是在求兩個(gè)向量之間的夾角,這個(gè)公式我們也是很熟悉的, cosθ=a·b/|a|·|b| 在新聞分類中做的事就是將每一篇新聞都總結(jié)成一個(gè)向量,而兩篇新聞之間的相似度就可以用兩個(gè)向量的夾角大小來表示,夾角的大小就在某種程度是反映了兩篇新聞之間距離的遠(yuǎn)近。 所以問題就是我們應(yīng)該如何將一篇好多個(gè)字的新聞總結(jié)成一個(gè)向量。這看起來是不可思議的,但是現(xiàn)代的自然語言處理的理論發(fā)展出來了這樣的方法。 想象我們有一個(gè)詞匯的數(shù)據(jù)庫,這個(gè)數(shù)據(jù)庫中包含了十萬個(gè)詞,這十萬個(gè)詞基本可以將新聞中出現(xiàn)的各種詞所覆蓋,那么我們可以計(jì)算出每篇新聞對(duì)這個(gè)數(shù)據(jù)庫中的每個(gè)詞語的單詞文本頻率/逆文本頻率值。這個(gè)值是什么意義呢?在一篇文章中,重要的詞的文本頻率值就高。所以進(jìn)行這樣的處理之后,對(duì)于每一篇新聞我們都可以得到一個(gè)十萬維的向量,然后根據(jù)上面的公式就可以計(jì)算向量的夾角,從而得出新聞之間相似度了。 值得一提的是,2002年,谷歌推出了自己的新聞服務(wù),這個(gè)服務(wù)通過計(jì)算機(jī)對(duì)各個(gè)網(wǎng)站的新聞內(nèi)容進(jìn)行了整理和分類,核心技術(shù)就是我們這里提到的新聞自動(dòng)分類。 |
|
|