數(shù)據(jù)挖掘-教育網(wǎng)志數(shù)據(jù)挖掘

七里 2006-04-20

展開全文

數(shù)據(jù)挖掘-教育網(wǎng)志數(shù)據(jù)挖掘

先鏈點文章放在這里。關(guān)于web數(shù)據(jù)挖掘最常見一句是：

Web挖掘分為三類：

Web內(nèi)容挖掘（Web Content Mining）
Web結(jié)構(gòu)挖掘（Web Structure Mining）
Web用法挖掘（Web Usage Mining）

Web數(shù)據(jù)挖掘的研究現(xiàn)狀及發(fā)展 : web數(shù)據(jù)挖掘 --- 數(shù)據(jù)挖掘研究院

Internet Computing-入門文章

Web Mining Researching:Survey

Web2.0系列軟件發(fā)展，標(biāo)志著與Blog相關(guān)聯(lián)的各種新協(xié)議新標(biāo)準(zhǔn)新工具產(chǎn)生與被實踐。Tim O’Reilly2005年力作《What Is Web 2.0》，闡述了下一代互聯(lián)網(wǎng)絡(luò)軟件的設(shè)計模式與商業(yè)模式7方面規(guī)則，既是對Web2.0發(fā)展的階段小結(jié)，又是對其未來展望與引領(lǐng)。另外從2004年開始由O‘Reilly公司與MediaLive國際公司組織年度Web2.0主題研討會，是對基于Blog的Web2.0軟件與服務(wù)發(fā)展的有力推進。

就名稱而言，以Blog為代表的Web2.0系列軟件被統(tǒng)稱為社會性軟件（Social Software）。對社會關(guān)系的研究是Blog與Web2.0發(fā)展中的重要內(nèi)容。不同背景的研究者與實踐者對社會關(guān)系研究探索的出發(fā)點也各不相同。有從技術(shù)角度對Blog相互鏈接社會關(guān)系進行統(tǒng)計與分類；有從社會心理研究Blog交往中人的行為；有從商業(yè)經(jīng)濟價值研究Blog商業(yè)發(fā)展服務(wù)模式等。

在這些研究中，對Blog相互鏈接社會關(guān)系進行數(shù)據(jù)統(tǒng)計與分類是基礎(chǔ)。目前計算機領(lǐng)域Web數(shù)據(jù)挖掘技術(shù)發(fā)展，為從內(nèi)容、從鏈接關(guān)系、從訪問行為等角度研究Blog與Web2.0中社會關(guān)系提供了思路、方法、技術(shù)與工具支持。換言之，網(wǎng)志數(shù)據(jù)挖掘是Web數(shù)據(jù)的具體應(yīng)用與發(fā)展之一。

就目前而言，Web數(shù)據(jù)挖掘技術(shù)在網(wǎng)志中的應(yīng)用還處于起步階段，如新近出現(xiàn)的http:///，其中提供的統(tǒng)計數(shù)據(jù)還是一些通常數(shù)據(jù)，盡管如此，這也是網(wǎng)志應(yīng)用向前發(fā)展一個巨大邁進。對網(wǎng)志數(shù)據(jù)分析主要包括三方面統(tǒng)計數(shù)據(jù)：一是訪問人群信息統(tǒng)計，主要包括新訪問者與重復(fù)訪問者的數(shù)據(jù)統(tǒng)計，具體信息還包括這些人群國家分布、語言分布等；二是訪問行為統(tǒng)計分析，主要包括以單篇日志為單位的訪問量分布統(tǒng)計、以日志分類為單位的分布統(tǒng)計、留言回復(fù)信息的分布統(tǒng)計等；三是對網(wǎng)志站點向外鏈接與來訪站點分布的統(tǒng)計，還包括通過搜索引擎訪問網(wǎng)志的信息分布統(tǒng)計等。

截取http:///中本人網(wǎng)志一段統(tǒng)計數(shù)據(jù)，拼接如下圖：

這是對日志內(nèi)容不同類別被訪問信息的分布統(tǒng)計。

Web數(shù)據(jù)挖掘技術(shù)在教育網(wǎng)志中應(yīng)用,有不同于其在電子商務(wù)中應(yīng)用的地方,每一個領(lǐng)域有其獨特領(lǐng)域發(fā)展信息,Web數(shù)據(jù)挖掘技術(shù)在教育網(wǎng)志中的應(yīng)用,將與教與學(xué)理論研究發(fā)展結(jié)伴而行。