|
高新波 謝維信
摘要 從模糊聚類準(zhǔn)則函數(shù)的演化、算法實(shí)現(xiàn)的途徑、有效性度量方式以及在模式識(shí)別與圖像處理中的應(yīng)用等4個(gè)方面對(duì)模糊聚類理論的研究進(jìn)展做了綜述和評(píng)價(jià),指出模糊聚類進(jìn)一步研究的幾個(gè)重要方向及其應(yīng)用前景.
關(guān)鍵詞 聚類分析 模糊聚類 聚類有效性 模式識(shí)別 圖像處理
聚類就是按照事物間的相似性進(jìn)行區(qū)分和分類的過程,在這一過程中沒有教師指
導(dǎo),因此是一種無監(jiān)督的分類. 聚類分析則是用數(shù)學(xué)方法研究和處理所給定對(duì)象的分類. “人以群分,物以類聚”,聚類是一個(gè)古老的問題,它伴隨著人類社會(huì)
的產(chǎn)生和發(fā)展而不斷深化,人類要認(rèn)識(shí)世界就必須區(qū)別不同的事物并認(rèn)識(shí)事物間的相似性[1].
傳統(tǒng)的聚類分析是一種硬劃分,它把每個(gè)待辨識(shí)的對(duì)象嚴(yán)格地劃分到某個(gè)類中,具有非此即彼的性質(zhì),因此這種分類的類別界限是分明的. 而實(shí)際上大多數(shù)對(duì)象并沒有嚴(yán)格的屬性,它們?cè)谛詰B(tài)和類屬方面存在著中介性,適合進(jìn)行軟劃分. Zadeh[2]提
出的模糊集理論為這種軟劃分提供了有力的分析工具,人們開始用模糊的方法來處理聚類問題,并稱之為模糊聚類分析. 由于模糊聚類得到了樣本屬于各個(gè)類別的
不確定性程度,表達(dá)了樣本類屬的中介性,即建立起了樣本對(duì)于類別的不確定性的描述,能更客觀地反映現(xiàn)實(shí)世界,從而成為聚類分析研究的主流.
模糊劃分的概念最早由Ruspini[3]提出,利用這一概念人們提出了多種聚類方法,比較典型的有:基于相似性關(guān)系和模糊關(guān)系的方法(包括聚合法和分裂法)[4],基于模糊等價(jià)關(guān)系的傳遞閉包方法[5]、基于模糊圖論最大樹方法[6],
以及基于數(shù)據(jù)集的凸分解、動(dòng)態(tài)規(guī)劃和難以辨識(shí)關(guān)系等方法. 然而由于上述方法不適用于大數(shù)據(jù)量情況,難以滿足實(shí)時(shí)性要求高的場合,因此其實(shí)際的應(yīng)用不夠廣
泛,故在該方面的研究也就逐步減少了. 實(shí)際中受到普遍歡迎的是基于目標(biāo)函數(shù)的方法,該方法設(shè)計(jì)簡單、解決問題的范圍廣,最終還可以轉(zhuǎn)化為優(yōu)化問題而借助
經(jīng)典數(shù)學(xué)的非線性規(guī)劃理論求解,并易于計(jì)算機(jī)實(shí)現(xiàn). 因此,隨著計(jì)算機(jī)的應(yīng)用和發(fā)展,該類方法成為聚類研究的熱點(diǎn).
以下將從目標(biāo)函數(shù)的演化、算法的實(shí)現(xiàn)途徑、有效性度量方式以及在實(shí)際中的應(yīng)用等4個(gè)方面綜述基于目標(biāo)函數(shù)的模糊聚類方法的研究進(jìn)展. 有關(guān)傳統(tǒng)聚類分析以及其他的模糊聚類方法的系統(tǒng)總結(jié)可參見文獻(xiàn)[1,7~10].
1 模糊聚類目標(biāo)函數(shù)的演化
模糊聚類問題可以用數(shù)學(xué)語言描述為:把一組給定的模式O={o1,o2,…,on}劃分為c個(gè)模糊子集(聚類)S1,S2,…,Sc. 如果用μik(1≤i≤c,
1≤k≤n)表示模式ok隸屬于模糊子集Si的程度,那么就得到了這組模式的模糊c-劃分U={μik|1≤i≤c,
1≤k≤n}. 完成這樣一組無類別標(biāo)記模式集模糊劃分的操作就是模糊聚類分析.為了獲得有意義的分類,需要定義劃分的準(zhǔn)則,如相似性或相異性準(zhǔn)則D(.)等. 假定每個(gè)模糊子集Si(1≤i≤c)都有一個(gè)典型模式pi,常被稱做聚類原型,這樣任一模式ok與模糊子集Si的相似性可以通過模式ok與聚類原型pi間的失真度dik=D(ok,pi)來度量.
基于目標(biāo)函數(shù)的模糊聚類主要是利用模式集O的觀測值X={x1,x2,…,xn}Rs與原型特征值B={βi,
1≤i≤c}之間的距離構(gòu)造一個(gè)目標(biāo)函數(shù),然后通過優(yōu)化這一帶約束的非線性規(guī)劃問題獲得最佳的模糊c-劃分:
(1)
其中,ζ為懲罰項(xiàng),f(μik)∈C為約束條件,m為加權(quán)指數(shù). 這樣,模糊聚類的目標(biāo)函數(shù)就由參量集{U,D(.),B,m,X}而確定. 對(duì)應(yīng)于這些參量,模糊聚類目標(biāo)函數(shù)的發(fā)展演化可以從以下5個(gè)大的方面來概括.
1.1 對(duì)模糊劃分矩陣U的研究
傳統(tǒng)的聚拎分析為一種硬劃分,μi(xk)∈{0,1}為樣本xk類屬的指示函
數(shù),而類別標(biāo)記矢量μ(xk)=(μ1k,μ2k,…,μck)T則成為歐氏c-空間的基矢量. 為了表達(dá)模式間的相近信息,Ruspini[3]引入了模糊劃分的概念,令μi(xk)∈[0,1],把標(biāo)記矢量μ(xk)擴(kuò)展為歐氏c-空間中的超平面 ,這樣標(biāo)記矢量既可稱做模糊標(biāo)記又可稱為概率標(biāo)記. 由于存在概率約束,使得隸屬函數(shù)只能表示模式在模糊類間的分享程度,而不能反映典型性,為此Krishnapuram等人[11]提出可能性c-劃分的概念,放松了概率約束 ,從而使標(biāo)記矢量μ(xk)
變?yōu)槌ピc(diǎn)的單位超立方體. 由此而產(chǎn)生的可能性聚類算法具有良好的抗噪性能,但收斂速度慢,容易陷入局部極值點(diǎn)而得不到最優(yōu)分類. 為了結(jié)合傳統(tǒng)硬聚
類的收斂速度和模糊聚類的對(duì)初始化不敏感(獲得全局最優(yōu)解的概率大)而且能反映樣本間相近信息等優(yōu)點(diǎn),Selim和Ismail[12]提出了半模糊劃分的概念,只保留劃分矩陣中較模糊的元素,其余的元素作去模糊處理. 這樣使劃分矩陣U既具有一定的明晰性,又保持了樣本在空間分布的模糊性,從而提高了分類識(shí)別的正確性. 后來,Kamel等人[13]以及裴繼紅等人[14]分別從不同的角度提出了改進(jìn)型的半模糊劃分方法,即為閾值型軟聚類算法和截集模糊軟聚類算法. 上述幾種軟劃分的比較顯示在表1中.
表1 4種空間劃分概念的比較
|