數(shù)據(jù)挖掘-教育網(wǎng)志數(shù)據(jù)挖掘先鏈點文章放在這里。關(guān)于web數(shù)據(jù)挖掘最常見一句是: Web挖掘分為三類: Web內(nèi)容挖掘(Web Content Mining) Web數(shù)據(jù)挖掘的研究現(xiàn)狀及發(fā)展 : web數(shù)據(jù)挖掘 --- 數(shù)據(jù)挖掘研究院 Web2.0系列軟件發(fā)展,標(biāo)志著與Blog相關(guān)聯(lián)的各種新協(xié)議新標(biāo)準(zhǔn)新工具產(chǎn)生與被實踐。Tim O’Reilly2005年力作《What Is Web 2.0》,闡述了下一代互聯(lián)網(wǎng)絡(luò)軟件的設(shè)計模式與商業(yè)模式7方面規(guī)則,既是對Web2.0發(fā)展的階段小結(jié),又是對其未來展望與引領(lǐng)。另外從2004年開始由O‘Reilly公司與MediaLive國際公司組織年度Web2.0主題研討會,是對基于Blog的Web2.0軟件與服務(wù)發(fā)展的有力推進。 就名稱而言,以Blog為代表的Web2.0系列軟件被統(tǒng)稱為社會性軟件(Social Software)。對社會關(guān)系的研究是Blog與Web2.0發(fā)展中的重要內(nèi)容。不同背景的研究者與實踐者對社會關(guān)系研究探索的出發(fā)點也各不相同。有從技術(shù)角度對Blog相互鏈接社會關(guān)系進行統(tǒng)計與分類;有從社會心理研究Blog交往中人的行為;有從商業(yè)經(jīng)濟價值研究Blog商業(yè)發(fā)展服務(wù)模式等。 在這些研究中,對Blog相互鏈接社會關(guān)系進行數(shù)據(jù)統(tǒng)計與分類是基礎(chǔ)。目前計算機領(lǐng)域Web數(shù)據(jù)挖掘技術(shù)發(fā)展,為從內(nèi)容、從鏈接關(guān)系、從訪問行為等角度研究Blog與Web2.0中社會關(guān)系提供了思路、方法、技術(shù)與工具支持。換言之,網(wǎng)志數(shù)據(jù)挖掘是Web數(shù)據(jù)的具體應(yīng)用與發(fā)展之一。 就目前而言,Web數(shù)據(jù)挖掘技術(shù)在網(wǎng)志中的應(yīng)用還處于起步階段,如新近出現(xiàn)的http:///,其中提供的統(tǒng)計數(shù)據(jù)還是一些通常數(shù)據(jù),盡管如此,這也是網(wǎng)志應(yīng)用向前發(fā)展一個巨大邁進。對網(wǎng)志數(shù)據(jù)分析主要包括三方面統(tǒng)計數(shù)據(jù):一是訪問人群信息統(tǒng)計,主要包括新訪問者與重復(fù)訪問者的數(shù)據(jù)統(tǒng)計,具體信息還包括這些人群國家分布、語言分布等;二是訪問行為統(tǒng)計分析,主要包括以單篇日志為單位的訪問量分布統(tǒng)計、以日志分類為單位的分布統(tǒng)計、留言回復(fù)信息的分布統(tǒng)計等;三是對網(wǎng)志站點向外鏈接與來訪站點分布的統(tǒng)計,還包括通過搜索引擎訪問網(wǎng)志的信息分布統(tǒng)計等。 截取http:///中本人網(wǎng)志一段統(tǒng)計數(shù)據(jù),拼接如下圖: Web數(shù)據(jù)挖掘技術(shù)在教育網(wǎng)志中應(yīng)用,有不同于其在電子商務(wù)中應(yīng)用的地方,每一個領(lǐng)域有其獨特領(lǐng)域發(fā)展信息,Web數(shù)據(jù)挖掘技術(shù)在教育網(wǎng)志中的應(yīng)用,將與教與學(xué)理論研究發(fā)展結(jié)伴而行。 |
|
|
來自: 七里 > 《Web2.0研究》