首頁(yè) > 精品范文 > 網(wǎng)絡(luò)輿情監(jiān)測(cè)

網(wǎng)絡(luò)輿情監(jiān)測(cè)范文

時(shí)間：2022-04-27 08:24:20

序論：在您撰寫(xiě)網(wǎng)絡(luò)輿情監(jiān)測(cè)時(shí)，參考他人的優(yōu)秀作品可以開(kāi)闊視野，小編為您整理的7篇范文，希望這些建議能夠激發(fā)您的創(chuàng)作熱情，引導(dǎo)您走向新的創(chuàng)作高度。

網(wǎng)絡(luò)輿情監(jiān)測(cè)

第1篇

1.1重大事件。所有的重大事件的發(fā)生都會(huì)在很短的時(shí)間內(nèi)迅速在網(wǎng)絡(luò)上傳播開(kāi)來(lái)，與事件發(fā)生有關(guān)的各個(gè)報(bào)道，新聞，各方面的消息和熱點(diǎn)都會(huì)在各個(gè)網(wǎng)站上鋪天而來(lái)，在短時(shí)間內(nèi)就會(huì)出現(xiàn)大量的評(píng)論，跟貼和發(fā)帖等等。

1.2突發(fā)事件。量變到質(zhì)變的過(guò)程是突發(fā)事件產(chǎn)生的一個(gè)重要階段，例如“日本大地震后我國(guó)的搶鹽事件”，在發(fā)生初期，并沒(méi)有引起太多人的關(guān)注，只是在民間出現(xiàn)了許多的“謠言”，但其迅速擴(kuò)散，就會(huì)影響到廣大群眾，并有可能造成整個(gè)社會(huì)的恐慌。

1.3國(guó)家的經(jīng)濟(jì)工作和重點(diǎn)工作。網(wǎng)絡(luò)上的主流的意識(shí)形態(tài)還是需要各個(gè)新聞媒體來(lái)傳播，需要政府和組織來(lái)引導(dǎo)，繼而形成被大眾所接受的健康向上的主流輿論，政府部門(mén)要引導(dǎo)人民群眾，最大限度地在廣大人民群眾中形成共識(shí)，來(lái)統(tǒng)一不同領(lǐng)域，不同階級(jí)中的意識(shí)和信念，形成了社會(huì)的主流言論。

1.4一些關(guān)系國(guó)際民生的重大政策的改革更容易引起人們的廣泛關(guān)注，形成網(wǎng)絡(luò)輿情熱點(diǎn)事件。

1.5和大多數(shù)人民自身利益密切相關(guān)的事件。因?yàn)檩浨榈囊粋€(gè)重要作用就是人民群眾對(duì)自身利益的訴求表達(dá)的一個(gè)重要渠道。在群眾利益受到傷害時(shí)，他自然需要一個(gè)平臺(tái)來(lái)尋求幫助和進(jìn)行訴求，網(wǎng)絡(luò)就是這樣一個(gè)很好的輿情平臺(tái)。

2網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)的設(shè)計(jì)

網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)包含三個(gè)層次，自下而上分別為信息采集層、信息挖掘?qū)印⑿畔⒎?wù)層。每一層為其上一層提供基礎(chǔ)數(shù)據(jù)，以及為進(jìn)一步分析奠定基礎(chǔ)。

2.1輿情信息采集層。信息采集層的基本任務(wù)是從數(shù)據(jù)格式多種多樣的網(wǎng)頁(yè)中采集出其蘊(yùn)含的豐富的、各種各樣的輿情信息。采集層的最下層為信息采集的目標(biāo)網(wǎng)站，如新浪、網(wǎng)易、搜狐、新華網(wǎng)、人民網(wǎng)、鳳凰網(wǎng)、貓撲、天涯社區(qū)等；中間層包含爬蟲(chóng)管理模塊、預(yù)處理模塊、分類(lèi)存儲(chǔ)模塊，爬蟲(chóng)管理模塊主要采用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)獲取互聯(lián)網(wǎng)上的輿情信息；最上層將采集的文本信息分為Web內(nèi)容信息、Web結(jié)構(gòu)和使用記錄信息兩部分內(nèi)容。

2.2輿情信息挖掘?qū)?。開(kāi)展輿情信息深度挖掘，發(fā)現(xiàn)的熱點(diǎn)問(wèn)題、分析其態(tài)度傾向、處置構(gòu)成危害的敏感信息是互聯(lián)網(wǎng)輿情信息挖掘?qū)拥闹饕蝿?wù)。它通過(guò)分析輿情信息采集層提供的數(shù)據(jù)，能夠檢測(cè)網(wǎng)絡(luò)話題、分析民眾的態(tài)度傾向、監(jiān)測(cè)網(wǎng)絡(luò)敏感信息、評(píng)估輿情態(tài)勢(shì)等，為輿情信息服務(wù)層服務(wù)相關(guān)部門(mén)提供客觀依據(jù)，是輿情信息處理的核心內(nèi)容。主要包含文本信息預(yù)處理模塊、網(wǎng)絡(luò)話題檢測(cè)模塊、輿情傾向性分析模塊、敏感信息監(jiān)控模塊。

第2篇

網(wǎng)絡(luò)輿情監(jiān)測(cè)以監(jiān)測(cè)社會(huì)民生輿論為主，但“網(wǎng)絡(luò)水軍”往往將商業(yè)話題變相說(shuō)成社會(huì)生活話題，以此來(lái)吸引眼球。這樣，刻意制造的他生輿論就混雜在輿論陣營(yíng)中，表達(dá)了大眾的非本意輿論，掩蓋了自然形成的社會(huì)輿論。如此一來(lái)，網(wǎng)絡(luò)輿情監(jiān)測(cè)統(tǒng)計(jì)的輿論數(shù)據(jù)就會(huì)失真，并對(duì)學(xué)術(shù)研究機(jī)構(gòu)和政府造成誤導(dǎo)。而所有這些，無(wú)疑也會(huì)降低網(wǎng)絡(luò)輿情監(jiān)測(cè)的公信力。

網(wǎng)絡(luò)輿情監(jiān)測(cè)作為一種嚴(yán)謹(jǐn)?shù)目茖W(xué)體系，可以利用當(dāng)今先進(jìn)的計(jì)算機(jī)與網(wǎng)絡(luò)技術(shù)，通過(guò)先期技術(shù)處理和后期操作對(duì)網(wǎng)絡(luò)輿情進(jìn)行追根溯源，通過(guò)考量輿論的來(lái)源甄別出網(wǎng)絡(luò)輿論熱點(diǎn)的真?zhèn)?。鑒于當(dāng)今網(wǎng)絡(luò)水軍廣泛存在的現(xiàn)實(shí)，筆者提出以下幾種方案完善網(wǎng)絡(luò)輿情監(jiān)測(cè)工作的輿情篩選功能。

1.情感詞分析方法

“網(wǎng)絡(luò)水軍”在網(wǎng)上的帖子往往是非理性的、帶有強(qiáng)烈感彩的，或是極力美化雇主的產(chǎn)品或服務(wù)，或是極力貶低雇主競(jìng)爭(zhēng)對(duì)手的產(chǎn)品或服務(wù)，整體上傾向性比較強(qiáng)烈。因此，我們就可以通過(guò)對(duì)論壇或貼吧用戶的帖子的文本分析，主要是對(duì)情感詞的分析，來(lái)判斷這個(gè)用戶是不是“網(wǎng)絡(luò)水軍”，以及他所主導(dǎo)的輿論是不是有意制造的他生輿論。

通過(guò)傾向性分析可以明確網(wǎng)絡(luò)傳播者的意圖和傾向，通俗地說(shuō)，文本輿情描述的是文本所傳遞的情感。對(duì)文本輿情進(jìn)行分析，實(shí)際上就是試圖根據(jù)文本的內(nèi)容提煉出作者的情感方向。網(wǎng)絡(luò)文本的傾向性分析就是挖掘網(wǎng)絡(luò)文本內(nèi)容蘊(yùn)涵的各種觀點(diǎn)、喜好、態(tài)度、情感等非內(nèi)容或非事實(shí)信息。①

此前已有研究制定了一套完整的方法和公式，其基本思路是：首先進(jìn)行互聯(lián)網(wǎng)信息采集獲得數(shù)據(jù)，然后通過(guò)網(wǎng)頁(yè)頁(yè)面分析技術(shù)抽取元數(shù)據(jù)（比如信息者、信息時(shí)間、信息來(lái)源等）和正文信息，采用機(jī)器學(xué)習(xí)方法對(duì)正文信息進(jìn)行情感分類(lèi)，判斷其為正面信息或?yàn)樨?fù)面信息。經(jīng)過(guò)統(tǒng)計(jì)后，在特定的一段時(shí)間內(nèi)，當(dāng)某人發(fā)表的正面或者負(fù)面信息比重超過(guò)預(yù)設(shè)閾值時(shí)，則認(rèn)為其為“網(wǎng)絡(luò)水軍”。②

設(shè)定特定的時(shí)間段，信息者AN篇有關(guān)主題P的信息，其中正面信息X篇，負(fù)面信息Y篇（X+Y≤N）。設(shè)閾值為T(mén)(0

那么，信息者A為“網(wǎng)絡(luò)水軍”。

根據(jù)最新數(shù)據(jù)顯示，92.3%的網(wǎng)民經(jīng)常訪問(wèn)的網(wǎng)絡(luò)社區(qū)數(shù)量在2個(gè)以上，其中27.2%的網(wǎng)民經(jīng)常訪問(wèn)2個(gè)網(wǎng)絡(luò)社區(qū)，29.1%的網(wǎng)民經(jīng)常訪問(wèn)3個(gè)網(wǎng)絡(luò)社區(qū)，經(jīng)常訪問(wèn)4個(gè)以上網(wǎng)絡(luò)社區(qū)的網(wǎng)民達(dá)到36%，③網(wǎng)民平均每人使用3.09個(gè)網(wǎng)絡(luò)社區(qū)，這里將其簡(jiǎn)記作3個(gè)。那么，在上述公式中，X/Y=3（或Y/X=3），此時(shí)的閾值T為0.5。又因?yàn)椤熬W(wǎng)絡(luò)水軍”的發(fā)帖量遠(yuǎn)大于一般網(wǎng)民的平均發(fā)帖量，所以閾值T應(yīng)該略大于0.5。

換句話說(shuō)，在現(xiàn)階段，當(dāng)一個(gè)發(fā)帖人的Q值大于0.5時(shí)，我們就可以基本確定這個(gè)人是“水軍”，進(jìn)一步確定他所主導(dǎo)的輿論可能是他生輿論；而且Q值越大，這種疑似程度越強(qiáng)。總結(jié)起來(lái)看，情感詞分析方法是判斷發(fā)帖人個(gè)人身份的一種有效途徑，在計(jì)算機(jī)輔助技術(shù)的幫助下，將大大提高篩選的效率，其工作流程如圖1所示。

圖1網(wǎng)絡(luò)輿情信息文本分析工作流程④

上圖中，建立假設(shè)和檢驗(yàn)假設(shè)并不是存在于每一個(gè)分析文本中，為可選項(xiàng)目。輿論監(jiān)測(cè)者首先要制定有針對(duì)性的研究意圖，然后按照統(tǒng)計(jì)學(xué)原理選擇科學(xué)合理的樣本。定義分析單元就是定義分析樣本的每一個(gè)元素，再形成分析類(lèi)目即分析系統(tǒng)，使之適應(yīng)所提出的問(wèn)題，同時(shí)使所有類(lèi)目具有互斥性、完備性和信度。最后是通過(guò)統(tǒng)計(jì)、計(jì)算、分析得出結(jié)論。

2.相同IP與ID的統(tǒng)計(jì)分析

情感詞分析可以從個(gè)人角度篩選出“網(wǎng)絡(luò)水軍”，對(duì)于一個(gè)主題帖子是不是“網(wǎng)絡(luò)水軍”所為的考察，我們可以通過(guò)對(duì)相同IP地址的統(tǒng)計(jì)分析來(lái)完成。

正如前文所說(shuō)，“網(wǎng)絡(luò)水軍”在網(wǎng)上發(fā)帖時(shí)會(huì)用很多ID賬號(hào)，即網(wǎng)友所說(shuō)的“馬甲”，這些ID或網(wǎng)名是不同的，所以單一根據(jù)ID無(wú)法辨別發(fā)帖、回帖是不是少數(shù)人所為。

“網(wǎng)絡(luò)水軍”每天長(zhǎng)時(shí)間掛在網(wǎng)上刷帖，盡管更換不同的ID，但他們的上網(wǎng)IP地址是不變的。那么，通過(guò)統(tǒng)計(jì)每一個(gè)ID發(fā)帖時(shí)所使用的IP地址，就可以辨別出哪些不同ID發(fā)的帖子是出于同一臺(tái)電腦即同一個(gè)人。如果一個(gè)論壇里的帖子出現(xiàn)了大量相同的IP地址，或出現(xiàn)在不同論壇里的同一主題的帖子中出現(xiàn)了大量相同IP地址，那么就可以肯定，這個(gè)輿論主題是網(wǎng)絡(luò)水軍人為制造出來(lái)的。

另外，如果在同一處的同一個(gè)ID使用不同的IP，那么說(shuō)明這可能是同一個(gè)人在不同時(shí)間發(fā)表的言論，或是不同的人使用網(wǎng)絡(luò)營(yíng)銷(xiāo)公關(guān)公司統(tǒng)一發(fā)放的“馬甲”發(fā)表的言論。于是，就可以根據(jù)這個(gè)ID所使用的IP，繼續(xù)順藤摸瓜地找到本論壇中其他ID發(fā)表的言論和其他論壇中同一個(gè)IP使用的ID發(fā)表的言論。這樣就形成了一個(gè)由IP和ID構(gòu)成的無(wú)盡的關(guān)聯(lián)網(wǎng)絡(luò)，在這個(gè)網(wǎng)絡(luò)上的每一條帖子都可以確定為是“網(wǎng)絡(luò)水軍”制造的（如圖2）。

圖2IP、ID關(guān)聯(lián)網(wǎng)絡(luò)

這種方法同樣需要計(jì)算機(jī)技術(shù)的輔助。另外，要根據(jù)現(xiàn)實(shí)情況制定評(píng)價(jià)標(biāo)準(zhǔn)和體系，我們不妨統(tǒng)計(jì)出“水軍”發(fā)帖的個(gè)數(shù)，并求出這些帖子在整個(gè)話題帖子中的所占比例，這個(gè)比例越高，那么這個(gè)輿論熱點(diǎn)系炒作所為的疑似程度就越高。還可以根據(jù)實(shí)際操作中的情況，制定出一個(gè)更復(fù)雜的評(píng)價(jià)體系，將每一個(gè)指標(biāo)賦予不同的權(quán)重，分別賦值，求出最后的疑似程度值。

3.歷時(shí)性調(diào)研

由于現(xiàn)在“網(wǎng)絡(luò)水軍”和網(wǎng)絡(luò)營(yíng)銷(xiāo)公關(guān)公司的大量涌現(xiàn)，一些企業(yè)或團(tuán)體已經(jīng)認(rèn)識(shí)到了網(wǎng)絡(luò)輿論對(duì)其生存發(fā)展的影響。當(dāng)一家企業(yè)受到網(wǎng)絡(luò)打手的輿論攻擊時(shí)，也會(huì)自覺(jué)進(jìn)行調(diào)查，并盡力澄清。同時(shí)，公安機(jī)關(guān)對(duì)于重大輿論事件也會(huì)介入，比如伊利―蒙?！跋莺﹂T(mén)”。這些調(diào)查出的結(jié)論都可以成為網(wǎng)絡(luò)輿情監(jiān)測(cè)辨別輿論真?zhèn)蔚牟牧稀?/p>

4.省略/s2009/dcfb/，2011年1月11日

第3篇

輿情監(jiān)測(cè)工作由來(lái)已久，最早的網(wǎng)絡(luò)輿情監(jiān)測(cè)手段也是基于傳統(tǒng)的手工模式。通過(guò)雇傭大量工作人員對(duì)指定的監(jiān)測(cè)頁(yè)面進(jìn)行監(jiān)測(cè)，使用人工方式，對(duì)某些重點(diǎn)監(jiān)測(cè)詞匯進(jìn)行頻率統(tǒng)計(jì)來(lái)尋找輿情動(dòng)向。然而隨著互聯(lián)網(wǎng)的蓬勃發(fā)展，傳統(tǒng)的方式已經(jīng)落伍，要對(duì)網(wǎng)絡(luò)輿情進(jìn)行監(jiān)測(cè)，就必然要依托于一個(gè)功能強(qiáng)大的互聯(lián)網(wǎng)輿情監(jiān)測(cè)系統(tǒng)進(jìn)行。伴隨著網(wǎng)絡(luò)的發(fā)展，國(guó)內(nèi)外已有一系列的網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)正式投入使用，這些系統(tǒng)通常是依托于政府部門(mén)、學(xué)術(shù)機(jī)構(gòu)以及企業(yè)媒體建設(shè)的，分別基于不同的需求（行政決策的、學(xué)術(shù)研究的、商業(yè)開(kāi)發(fā)的），從不同的角度對(duì)網(wǎng)絡(luò)輿情進(jìn)行監(jiān)測(cè)。最早的相關(guān)研究始于TDT（TopicDetectionandTracking）項(xiàng)目［2］，它是美國(guó)國(guó)防高級(jí)研究計(jì)劃局主導(dǎo)的，旨在從新聞網(wǎng)頁(yè)中找到未知話題并對(duì)話題進(jìn)行追蹤。該項(xiàng)目歷經(jīng)多年發(fā)展演變，其核心研究?jī)?nèi)容分為報(bào)道切分、話題追蹤、話題監(jiān)測(cè)、首次話題報(bào)告以及關(guān)聯(lián)監(jiān)測(cè)這5個(gè)方面的內(nèi)容［3］。在我國(guó)，由于中西文在文本挖掘、分詞方面的巨大差異，以及社會(huì)經(jīng)濟(jì)等方面的差異，基于漢語(yǔ)的網(wǎng)絡(luò)輿情監(jiān)測(cè)研究起步較晚［4］。目前，學(xué)院型的輿情研究機(jī)構(gòu)主要有北京大學(xué)中國(guó)國(guó)情研究中心、中國(guó)人民大學(xué)輿論研究所、上海交通大學(xué)輿情研究實(shí)驗(yàn)室等［5］。

2網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)框架

從過(guò)程上看，網(wǎng)絡(luò)輿情監(jiān)測(cè)的本質(zhì)是從網(wǎng)絡(luò)上獲取數(shù)據(jù)、分析數(shù)據(jù)以及按用戶需求呈現(xiàn)分析結(jié)果的過(guò)程，因此在系統(tǒng)實(shí)現(xiàn)時(shí)，從數(shù)據(jù)流向的角度，可以把一個(gè)網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)劃分為數(shù)據(jù)獲取模塊、數(shù)據(jù)預(yù)處理模塊、數(shù)據(jù)分析模塊以及結(jié)果呈現(xiàn)模塊，整個(gè)系統(tǒng)的結(jié)構(gòu)如圖1所示。

2．1數(shù)據(jù)獲取模塊

數(shù)據(jù)獲取模塊的主要功能是全天候的、自動(dòng)的從整個(gè)網(wǎng)絡(luò)上，或者某些特定網(wǎng)絡(luò)上獲取進(jìn)行輿情分析的原始數(shù)據(jù)。在自動(dòng)獲取數(shù)據(jù)的過(guò)程中，有兩方面的要求。一方面，是獲取的相關(guān)輿情數(shù)據(jù)相對(duì)于整個(gè)數(shù)據(jù)的覆蓋率的要求，即要盡可能地獲取盡量全面的原始數(shù)據(jù)；另一方面，則是對(duì)數(shù)據(jù)準(zhǔn)確率的要求，即所需數(shù)據(jù)要盡可能貼近用戶關(guān)心的輿情熱點(diǎn)。只有在覆蓋率和準(zhǔn)確率全部達(dá)標(biāo)的情況下，才能更好地對(duì)網(wǎng)絡(luò)輿情進(jìn)行分析預(yù)測(cè)。目前，常見(jiàn)的數(shù)據(jù)獲取方式有兩種：（1）網(wǎng)絡(luò)爬蟲(chóng)方式?；ヂ?lián)網(wǎng)的一項(xiàng)基本協(xié)議是HTML協(xié)議，基于該協(xié)議，網(wǎng)絡(luò)中大量資源以統(tǒng)一資源定位符（URL）相互聯(lián)系，構(gòu)成一個(gè)有機(jī)整體。網(wǎng)絡(luò)爬蟲(chóng)從一個(gè)預(yù)先定義好的URL列表開(kāi)始，依次訪問(wèn)該列表上的所有頁(yè)面進(jìn)行數(shù)據(jù)抓取，并分析當(dāng)前訪問(wèn)頁(yè)面中的其他URL，選擇符合要求的URL加入待訪問(wèn)隊(duì)列，試圖以深度或者廣度的方式對(duì)限定范圍的網(wǎng)絡(luò)進(jìn)行遍歷式的訪問(wèn)，以獲取該網(wǎng)絡(luò)的所有信息。（2）元搜索采集技術(shù)。搜索引擎是大多數(shù)網(wǎng)民訪問(wèn)網(wǎng)絡(luò)的入口，目前有眾多的搜索引擎服務(wù)提供商，其檢索過(guò)程有不同的側(cè)重方向，檢索結(jié)果也各不相同?？梢栽谌舾刹煌乃阉饕嫔喜渴鹪阉饕?，通過(guò)對(duì)下層引擎的調(diào)用返回多個(gè)搜索結(jié)果，并基于一定的算法對(duì)不同結(jié)果進(jìn)行選擇。使用該方法能夠有效地提高數(shù)據(jù)獲取的覆蓋率和準(zhǔn)確率，且系統(tǒng)構(gòu)建較為簡(jiǎn)單。

2．2數(shù)據(jù)預(yù)處理模塊

Web頁(yè)面的數(shù)據(jù)有其自身特點(diǎn)，它是一種半結(jié)構(gòu)化的數(shù)據(jù)，整個(gè)數(shù)據(jù)包括內(nèi)容和描述兩個(gè)部分，且兩者混雜在一起。直接通過(guò)數(shù)據(jù)獲取模塊抓取的頁(yè)面內(nèi)容復(fù)雜，存在大量噪音，文本內(nèi)容非結(jié)構(gòu)化，無(wú)法直接進(jìn)行下一步的分析工作，對(duì)這些原始頁(yè)面必須進(jìn)行一次數(shù)據(jù)預(yù)處理。預(yù)處理的過(guò)程大體上分為兩步：（1）進(jìn)行網(wǎng)頁(yè)內(nèi)容提取。將用戶關(guān)心的內(nèi)容（例如新聞的內(nèi)容、對(duì)主題的討論等）從噪音（如頁(yè)面上的廣告、導(dǎo)航以及其他超鏈接）中找出。將頁(yè)面轉(zhuǎn)化為一個(gè)HTML標(biāo)簽樹(shù)，根據(jù)已有知識(shí)建立提取規(guī)則，最后依據(jù)規(guī)則對(duì)頁(yè)面內(nèi)容進(jìn)行提取。如何建立一個(gè)合適的規(guī)則是提取工作的核心，可以針對(duì)某類(lèi)特定的網(wǎng)站建立專屬規(guī)則，也可以針對(duì)一般頁(yè)面的結(jié)構(gòu)特點(diǎn)建立一些通用規(guī)則。（2）進(jìn)行中文文本分詞。自然語(yǔ)言中，詞是最小的獨(dú)立活動(dòng)的語(yǔ)言成分。要對(duì)頁(yè)面提取獲得的非結(jié)構(gòu)化連續(xù)文本進(jìn)行處理，首要的工作就是對(duì)其進(jìn)行分詞。分詞是將輸入的一段文本分解為符合邏輯的一組單詞的過(guò)程，例如輸入“羽毛球拍”時(shí)，依照某種分詞算法就可以初步將其分解為羽毛、羽毛球、球拍3個(gè)單詞。最簡(jiǎn)單的分詞算法以詞典為基礎(chǔ)，通過(guò)對(duì)字符串匹配完成初步工作，之后輔以少量詞法、語(yǔ)法和語(yǔ)義規(guī)則；另一種思路是基于統(tǒng)計(jì)進(jìn)行分詞，統(tǒng)計(jì)文本中相鄰字同時(shí)出現(xiàn)的頻率，頻率越高就越可能構(gòu)成一個(gè)詞；還有一些基于規(guī)則的分詞算法，通過(guò)模擬人對(duì)句子的理解過(guò)程，對(duì)當(dāng)前句子的語(yǔ)法、句法、詞法進(jìn)行分析推理，能夠自動(dòng)補(bǔ)全未登錄詞條。

2．3數(shù)據(jù)分析模塊

數(shù)據(jù)分析模塊是整個(gè)網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)的智能核心，在本質(zhì)上是一個(gè)數(shù)據(jù)挖掘的過(guò)程。它負(fù)責(zé)將前期獲得的網(wǎng)頁(yè)內(nèi)容進(jìn)行深度挖掘，發(fā)現(xiàn)新的輿情熱點(diǎn)，并對(duì)原有的輿情趨勢(shì)進(jìn)行分析。一個(gè)典型的系統(tǒng)應(yīng)具備以下幾方面的功能：（1）主題聚類(lèi)。聚類(lèi)可以很直觀地從海量數(shù)據(jù)中發(fā)現(xiàn)新的主題。將處理過(guò)后的網(wǎng)頁(yè)內(nèi)容歸一化到某個(gè)特征空間中，在這個(gè)特征空間中以某種方式，將特征接近的頁(yè)面內(nèi)容劃分為不同的類(lèi)別，相應(yīng)類(lèi)別的聚類(lèi)中心就可以認(rèn)為是新的主題。（2）熱點(diǎn)發(fā)現(xiàn)。在當(dāng)今網(wǎng)絡(luò)時(shí)代，每天產(chǎn)生的輿情主題眾多，其中有些主題能夠迅速成為當(dāng)下的輿情熱點(diǎn)，輿情監(jiān)測(cè)系統(tǒng)需要將這些輿情熱點(diǎn)從眾多主題中篩選出來(lái)，推送給輿情分析人員。篩選的時(shí)候應(yīng)該注意“熱點(diǎn)”一詞不同方面的含義，最直觀的含義就是某主題在某段時(shí)間內(nèi)出現(xiàn)的頻次；再有一方面的含義就是某主題除頻次以外的權(quán)重，例如該主題來(lái)源頁(yè)面的影響力、該主題的發(fā)展速度等。（3）話題追蹤。網(wǎng)絡(luò)話題的生命周期從最初的事件主題開(kāi)始，經(jīng)過(guò)一段時(shí)間的發(fā)展演化成為輿情熱點(diǎn)，又經(jīng)歷一段時(shí)間的發(fā)展變化逐漸熱度降低，最后消散。還有，在這個(gè)過(guò)程中話題的變異分支過(guò)程，都是在基于網(wǎng)絡(luò)輿情進(jìn)行決策分析時(shí)可以納入考慮的影響因素。在分析大量話題生命周期后，可以從中總結(jié)一定的規(guī)律，對(duì)當(dāng)前某話題的下個(gè)階段進(jìn)行一定的預(yù)測(cè)。（4）情感識(shí)別。網(wǎng)絡(luò)話題除了對(duì)某個(gè)發(fā)生事件的客觀描述外，還有一定的情感傾向，尤其是在網(wǎng)民對(duì)該話題的回復(fù)中，這種情感傾向會(huì)更加明顯地體現(xiàn)出來(lái)。從整體上看，這種情感傾向會(huì)分為贊成、反對(duì)以及中立這3種大的方向。將人們對(duì)某個(gè)輿情熱點(diǎn)的情感傾向進(jìn)行直觀體現(xiàn)，有助于更好地進(jìn)行分析決策。這種分析不光要對(duì)輿情的當(dāng)前狀態(tài)進(jìn)行情感識(shí)別，還要對(duì)該話題的發(fā)展過(guò)程中某個(gè)階段的情感同時(shí)進(jìn)行分析，以掌握輿論對(duì)該話題情感傾向的變化過(guò)程。

2．4結(jié)果呈現(xiàn)模塊

網(wǎng)絡(luò)輿情分析的目的是為相關(guān)的決策提供支撐依據(jù)，其分析結(jié)果需要簡(jiǎn)單直觀地提供給決策分析人員，并在初步分析的基礎(chǔ)上對(duì)整個(gè)結(jié)果進(jìn)行二次挖掘。這就需要結(jié)果呈現(xiàn)模塊能夠動(dòng)態(tài)圖形化地展示分析結(jié)果，并對(duì)某些輿情熱點(diǎn)、輿情的重大拐點(diǎn)進(jìn)行主動(dòng)推送警告。根據(jù)一般化的網(wǎng)絡(luò)輿情分析需求，必須實(shí)現(xiàn)的功能有：（1）針對(duì)所有主題的查詢。（2）新主題的推送。（3）輿情熱點(diǎn)、拐點(diǎn)的警告。（4）輿情發(fā)展態(tài)勢(shì)圖。

3總結(jié)展望

第4篇

關(guān)鍵詞：網(wǎng)絡(luò)輿情；輿情監(jiān)測(cè)；指標(biāo)體系

有效加強(qiáng)網(wǎng)絡(luò)輿情監(jiān)測(cè)分析，才能實(shí)時(shí)掌握網(wǎng)絡(luò)輿情動(dòng)態(tài)。網(wǎng)絡(luò)輿情監(jiān)測(cè)分析工作重要環(huán)節(jié)包括采集、整理和分析輿情信息，需要構(gòu)建一定的指標(biāo)體系，評(píng)價(jià)揭示網(wǎng)絡(luò)輿情信息的特征與變化規(guī)律。指標(biāo)是在評(píng)價(jià)某些研究對(duì)象所確定的依據(jù)和標(biāo)準(zhǔn)，包括指標(biāo)名稱和數(shù)值。網(wǎng)絡(luò)輿情指標(biāo)體系是由相互聯(lián)系、相互補(bǔ)充的指標(biāo)組成的統(tǒng)一整體，用于反映網(wǎng)絡(luò)輿情的綜合狀況，揭示其中的各個(gè)方面。本文首先介紹輿情監(jiān)測(cè)的來(lái)源范圍，接著闡述網(wǎng)絡(luò)輿情監(jiān)測(cè)指標(biāo)的構(gòu)建原則與內(nèi)容，提出從主題匯聚、熱度、內(nèi)容傾向性、預(yù)警等方面構(gòu)建網(wǎng)絡(luò)輿情監(jiān)測(cè)指標(biāo)體系。

1 網(wǎng)絡(luò)輿情監(jiān)測(cè)來(lái)源

網(wǎng)絡(luò)信息的來(lái)源不斷趨于多樣化，從傳統(tǒng)的新聞網(wǎng)站、博客論壇，發(fā)展到微博、微信等社會(huì)化網(wǎng)絡(luò)應(yīng)用[2]。準(zhǔn)確把握輿情態(tài)勢(shì)，防止監(jiān)測(cè)分析片面化，需要增加信息來(lái)源范圍。然而，輿情監(jiān)測(cè)難以捕獲所有網(wǎng)絡(luò)信息，網(wǎng)絡(luò)輿情的來(lái)源選擇就顯得非常重要。在網(wǎng)絡(luò)上，表現(xiàn)為圍繞新聞、事件、問(wèn)題與個(gè)案等產(chǎn)生的網(wǎng)絡(luò)信息。網(wǎng)絡(luò)輿情的信息來(lái)源選擇主要包括：

（1）主流媒體新聞網(wǎng)站。網(wǎng)絡(luò)新聞是民眾獲取信息的重要來(lái)源，特別是主流媒體的新聞。重大性與突發(fā)性輿情都會(huì)及時(shí)出現(xiàn)在主流媒體，聚集大量網(wǎng)民跟帖評(píng)論，是輿情的重要來(lái)源與傳播源頭。（2）論壇。在網(wǎng)絡(luò)社區(qū)中，網(wǎng)民會(huì)發(fā)出具有個(gè)人觀點(diǎn)看法的各類(lèi)信息。在輿情監(jiān)測(cè)工作中，接觸到的近半信息都來(lái)自于各種論壇。（3）博客。博客是個(gè)人分享、交流思想知識(shí)的空間，會(huì)對(duì)熱點(diǎn)和新聞事件、特定話題和現(xiàn)象發(fā)表個(gè)人評(píng)論，是輿情信息的重要載體之一。博客數(shù)量眾多，主要采集專家、知名人物的博客及網(wǎng)民回復(fù)。（4）視頻網(wǎng)站。視頻網(wǎng)站是社會(huì)生活和事件的記錄與者，并且大多視頻網(wǎng)站提供給留言功能，比如優(yōu)酷、愛(ài)奇藝等。視頻信息鮮活，網(wǎng)民會(huì)分享觀感看法與態(tài)度，視頻標(biāo)題與描述信息為輿情數(shù)據(jù)的整理分析提供了可能和便利。以往工作容易忽視這類(lèi)輿情載體，而實(shí)際中一些輿情事件會(huì)較早通過(guò)視頻網(wǎng)站傳播。輿情監(jiān)測(cè)工作需要重視視頻信息的價(jià)值，及時(shí)采集抽取其中的有價(jià)值信息。（5）社交媒體。在社交媒體應(yīng)用上，國(guó)內(nèi)主要是微博和微信。微博相對(duì)數(shù)據(jù)開(kāi)放，數(shù)據(jù)量巨大，很難在較短的輪詢時(shí)間窗口完成采集遍歷。所以，與傳統(tǒng)博客類(lèi)似，選擇其中的部分微博。微信主要限制在個(gè)人通訊范疇，主要將微信公眾號(hào)作為輿情信息來(lái)源。另外，一些網(wǎng)站由于贏利、點(diǎn)擊量等原因，有意甚至惡意炒作負(fù)面信息。所以，要區(qū)分標(biāo)識(shí)這類(lèi)信息來(lái)源。同時(shí)，在采集器設(shè)置上進(jìn)行一定限制和過(guò)濾，避免采集處理過(guò)多無(wú)效無(wú)關(guān)數(shù)據(jù)。

2 監(jiān)測(cè)指標(biāo)構(gòu)建原則

網(wǎng)絡(luò)輿情指標(biāo)體系的構(gòu)建原則應(yīng)包括：（1）主題性。具體的輿情工作具有明確的服務(wù)對(duì)象，其輿情內(nèi)容具有鮮明的主題、行業(yè)或領(lǐng)域性質(zhì)。輿情監(jiān)測(cè)的目的是及時(shí)識(shí)別問(wèn)題與風(fēng)險(xiǎn)。因此，輿情指標(biāo)應(yīng)對(duì)各類(lèi)信息做出靈敏響應(yīng)。（2）可靠性。指標(biāo)的選取要有相對(duì)可靠性與穩(wěn)定性，確保指標(biāo)的使用在時(shí)間上有延續(xù)性[1]。（3）系統(tǒng)性。網(wǎng)絡(luò)輿情監(jiān)測(cè)分析工作是一項(xiàng)十分復(fù)雜的過(guò)程，涉及內(nèi)容眾多。指標(biāo)體系一定要盡量全面完整形成整體，覆蓋輿情工作流程，從多層次多角度揭示網(wǎng)絡(luò)輿情特征。（4）實(shí)用性。輿情監(jiān)測(cè)指標(biāo)必須反映輿情演化趨勢(shì)與客觀規(guī)律，符合網(wǎng)絡(luò)輿情工作需求與相關(guān)流程，便于分析和引導(dǎo)輿情。同時(shí)，指標(biāo)的計(jì)算分析結(jié)果要盡量便于理解與解釋說(shuō)明，為輿情簡(jiǎn)報(bào)等工作提供必備的數(shù)據(jù)支持。

3 監(jiān)測(cè)指標(biāo)體系

（1）主題聚合

按照內(nèi)容相關(guān)度準(zhǔn)確關(guān)聯(lián)聚合輿情信息，是準(zhǔn)確把握輿情整體走向、媒體與網(wǎng)民言論態(tài)度的前提。主題聚合即指依據(jù)信息內(nèi)容實(shí)現(xiàn)信息的分類(lèi)與聚類(lèi)，是輿情話題發(fā)現(xiàn)與話題追蹤的基本支撐。從技術(shù)實(shí)現(xiàn)角度，主題聚合涉及信息內(nèi)容分析，大多都是基于詞語(yǔ)匹配的聚分類(lèi)方法實(shí)現(xiàn)輿情話題發(fā)現(xiàn)與追蹤等主題聚合功能。然而，文本中存在大量詞形不同，但意義關(guān)聯(lián)的近義詞、同義詞與相關(guān)詞，內(nèi)容相同或相近的新聞、帖文會(huì)出現(xiàn)在不同的頁(yè)面與帖文。輿情信息中包括大量短文本，特別是網(wǎng)民回帖評(píng)論，存在明顯的語(yǔ)義特征稀疏問(wèn)題。分類(lèi)體系只限于關(guān)鍵詞本身，不具備主題詞的語(yǔ)義描述，容易影響聚分類(lèi)的準(zhǔn)確率與召回率，主題聚合指數(shù)的性能會(huì)受到明顯限制。一個(gè)解決方法是構(gòu)建語(yǔ)義知識(shí)，并擴(kuò)展語(yǔ)義計(jì)算模型提高分析的準(zhǔn)確程度；利用當(dāng)前的最新技術(shù)，比如深度學(xué)習(xí)方法，通過(guò)構(gòu)建具有多隱層的學(xué)習(xí)模型，以海量輿情數(shù)據(jù)作為訓(xùn)練集，學(xué)習(xí)擴(kuò)展語(yǔ)義特征，提升內(nèi)容分析的準(zhǔn)確程度。

（2）熱度

輿情熱度衡量輿情被關(guān)注的程度與傳播范圍。輿情熱度主要包括輿情關(guān)注度、傳播覆蓋度、輿情權(quán)威度等二級(jí)指標(biāo)。一些研究提出地域關(guān)注度指標(biāo)[3]，但網(wǎng)民IP地址對(duì)于第三方采集系統(tǒng)是難以大范圍直接獲取的。其中，輿情關(guān)注度采用主題內(nèi)容下輿情信息的關(guān)注數(shù)量衡量，具體是篇目、瀏覽、回復(fù)數(shù)量的綜合加權(quán)值，一般以線性累加和公式計(jì)算。該指標(biāo)主要從網(wǎng)民角度，衡量輿情內(nèi)容的被關(guān)注程度和感興趣情況。覆蓋度是指主題信息在采集來(lái)源站點(diǎn)中出現(xiàn)的比例。輿情信息來(lái)源站點(diǎn)是經(jīng)過(guò)篩選的，代表輿情在整個(gè)監(jiān)測(cè)范圍內(nèi)的傳播程度。由于信息來(lái)源規(guī)模與特點(diǎn)不同，所以需要對(duì)來(lái)源類(lèi)型預(yù)設(shè)參數(shù)再進(jìn)行比例計(jì)算。權(quán)威度指輿情信息的來(lái)源權(quán)威度，比如人民網(wǎng)的權(quán)威度較高而小型商業(yè)新聞網(wǎng)站的權(quán)威度低，知名公眾人物的博客權(quán)威度較高。權(quán)威度通過(guò)預(yù)設(shè)參數(shù)區(qū)分主流媒體、論壇、博客、微信公眾號(hào)的來(lái)源指標(biāo)。最后，將以上二級(jí)指標(biāo)綜合加權(quán)，進(jìn)行標(biāo)準(zhǔn)化處理得到主題熱度。

（3）內(nèi)容傾向

內(nèi)容傾向是信息內(nèi)容中包含的觀點(diǎn)態(tài)度，內(nèi)容傾向指標(biāo)用于統(tǒng)計(jì)輿情信息中的各類(lèi)情感傾向類(lèi)型數(shù)量。傾向類(lèi)型主要分為兩類(lèi)：正面（褒、支持）、負(fù)面（貶、反對(duì)）。文本中的句子不僅包括情感詞，而且包含一些具有較強(qiáng)情感色彩的形容詞、程度副詞、感嘆詞、否定詞等影響判斷情感傾向的因素。區(qū)分輿情的傾向性，需要構(gòu)建情感詞庫(kù)作為智力支撐，才能提高情感判斷的范圍與準(zhǔn)確性。比如鄙視、侵犯屬于負(fù)面動(dòng)詞，而擁護(hù)、贊揚(yáng)屬于正面動(dòng)詞，安全、漂亮屬于正面形容詞?！氨梢曔@種言論”，“這種裝置不安全”，可以依據(jù)其中的動(dòng)詞形容詞判斷情感傾向。

傳統(tǒng)手工構(gòu)建的情感詞典覆蓋面有限，難以滿足實(shí)際運(yùn)用?？紤]到技術(shù)實(shí)施的快速性、易用性以及語(yǔ)義問(wèn)題。借助已有情感詞典構(gòu)建基本情感詞庫(kù)，運(yùn)用Word2Vector工具將語(yǔ)料庫(kù)（比如已采集輿情信息、維基百科知識(shí)）轉(zhuǎn)換為詞向量，計(jì)算其他詞語(yǔ)與已知情感詞的語(yǔ)義距離，構(gòu)建情感詞特征空間[4]。通過(guò)擴(kuò)展情感詞庫(kù)，判斷廣泛的情感傾向。輿情信息中的回帖或評(píng)論大多由較短句構(gòu)成，其中句子s中的情感詞表示為，s的情感類(lèi)型。其中，表示詞wi的傾向類(lèi)型。如果wi前面否定詞個(gè)數(shù)是奇數(shù)，則反置wi的極性傾向。將傾向性判斷問(wèn)題轉(zhuǎn)化為文本分類(lèi)問(wèn)題，這樣可以有效判斷各種長(zhǎng)短文本的情感傾向，得到主題信息的情感態(tài)度頻率分布與內(nèi)容傾向趨勢(shì)。

（4）預(yù)警

網(wǎng)絡(luò)輿情表現(xiàn)為海量的網(wǎng)絡(luò)信息，輿情變化程度對(duì)應(yīng)相應(yīng)數(shù)據(jù)的特征與趨勢(shì)。所以，監(jiān)測(cè)分析數(shù)據(jù)變化可以描述輿情的影響趨勢(shì)，對(duì)網(wǎng)絡(luò)輿情進(jìn)行危機(jī)預(yù)警。當(dāng)前，網(wǎng)絡(luò)輿情事件處理存在應(yīng)急準(zhǔn)備不足，報(bào)送時(shí)間不及時(shí)，突發(fā)事件響應(yīng)速度慢等不足。一個(gè)重要原因是網(wǎng)絡(luò)輿情預(yù)警能力相對(duì)較弱。輿情監(jiān)測(cè)需要增強(qiáng)輿情信息的分析和預(yù)測(cè)，將工作重點(diǎn)從單純的收集有效數(shù)據(jù)，向深入研判與預(yù)測(cè)輿情的趨勢(shì)方向拓展。常用的思路與方法是：預(yù)設(shè)時(shí)間窗口，獲取主題信息數(shù)量，內(nèi)容敏感程度，負(fù)面傾向性評(píng)價(jià)數(shù)量比例，傳播范圍等基本特征與指標(biāo)。計(jì)算歷史窗口下的信息增長(zhǎng)率、增長(zhǎng)梯度等變化程度，評(píng)估輿情信息的數(shù)據(jù)變化趨勢(shì)并制定預(yù)警級(jí)別。進(jìn)而，以數(shù)據(jù)挖掘?yàn)楹诵募夹g(shù)，應(yīng)用不同的數(shù)據(jù)模型方法，比如傳統(tǒng)的多元回歸、貝葉斯網(wǎng)絡(luò)、決策樹(shù)、支撐向量機(jī)等預(yù)測(cè)輿情發(fā)展趨勢(shì)。如果大于某閾值或符合預(yù)定模式，認(rèn)為需要預(yù)警，即從海量網(wǎng)絡(luò)數(shù)據(jù)中預(yù)判出潛在的危機(jī)隱患。

參考文獻(xiàn)

[1] 王鐵套，王國(guó)營(yíng)，陳越. 基于模糊綜合評(píng)價(jià)法的網(wǎng)絡(luò)輿情預(yù)警模型[J]. 情報(bào)雜志，2012， 31（6）：47-51.

[2] IRI網(wǎng)絡(luò)口碑研究咨詢機(jī)構(gòu)介紹及研究方法[EB/OL]. http：///wiki/網(wǎng)絡(luò)輿情指數(shù)體系.

[3] 李雯靜，許鑫，陳正權(quán). 網(wǎng)絡(luò)輿情指標(biāo)體系設(shè)計(jì)與分析[J]. 情報(bào)科學(xué)，2009 （7）：986-991.

[4] 黃仁，張衛(wèi). 基于word2vec的互聯(lián)網(wǎng)商品評(píng)論情感傾向研究[J]. 計(jì)算機(jī)科學(xué)，2016（6）：387-389.

第5篇

關(guān)鍵詞：網(wǎng)絡(luò)輿情網(wǎng)絡(luò)輿情分析與監(jiān)測(cè)

當(dāng)前，網(wǎng)絡(luò)已成為反映社會(huì)輿情的重要途徑。網(wǎng)絡(luò)輿情已滲透到社會(huì)的各個(gè)層面，成為了一股強(qiáng)大的、不容忽視的輿論力量。因此，如何識(shí)別和分析網(wǎng)絡(luò)輿情信息，如何對(duì)輿情進(jìn)行監(jiān)測(cè)和有效引導(dǎo)，對(duì)于維護(hù)當(dāng)今社會(huì)的穩(wěn)定和發(fā)展具有重要的現(xiàn)實(shí)意義。

1 我國(guó)網(wǎng)絡(luò)輿情現(xiàn)狀

由于當(dāng)前我國(guó)正處于社會(huì)變革和轉(zhuǎn)型的關(guān)鍵時(shí)期，各種社會(huì)矛盾日益凸現(xiàn)，各種社會(huì)問(wèn)題日益受到人們的關(guān)注，越來(lái)越多的人們?cè)敢馔ㄟ^(guò)各類(lèi)信息渠道表達(dá)自己的個(gè)人觀點(diǎn)和想法。隨著移動(dòng)互聯(lián)時(shí)代到來(lái)，借助移動(dòng)終端和各種網(wǎng)絡(luò)互動(dòng)軟件，人們可以隨時(shí)隨地的發(fā)表觀點(diǎn)，報(bào)道事件，尤其在突發(fā)公共事件中，任何一個(gè)人都可以對(duì)事件進(jìn)行現(xiàn)場(chǎng)報(bào)道，社會(huì)輿論的生成機(jī)制發(fā)生了深刻的變革。

當(dāng)前我國(guó)網(wǎng)絡(luò)輿論場(chǎng)的強(qiáng)度，在世界居首。2011年，我國(guó)網(wǎng)絡(luò)輿論力度驟然增強(qiáng)，上網(wǎng)發(fā)聲的階層越來(lái)越廣泛，網(wǎng)民高度警覺(jué)和關(guān)注著現(xiàn)實(shí)社會(huì)的各種熱點(diǎn)事件。特別是“7?23”動(dòng)車(chē)追尾事故和郭美美事件等敏感事件，造成網(wǎng)上網(wǎng)下人聲鼎沸，成為當(dāng)時(shí)最大的網(wǎng)絡(luò)熱點(diǎn)。

因此，在當(dāng)前復(fù)雜的社會(huì)環(huán)境下，加強(qiáng)輿情信息工作，及時(shí)掌握輿情動(dòng)態(tài)，積極引導(dǎo)社會(huì)輿論，是維護(hù)社會(huì)穩(wěn)定和安全的重要舉措。而研究和分析網(wǎng)絡(luò)輿情信息，明確輿情信息的來(lái)源是前提和基礎(chǔ)。目前，微博、微信、即時(shí)通訊軟件、博客、跟帖與網(wǎng)絡(luò)留言、網(wǎng)絡(luò)社群和網(wǎng)絡(luò)社區(qū)等是傳播網(wǎng)絡(luò)輿情信息的最主要途徑。

2 網(wǎng)絡(luò)輿情信息主要包含的內(nèi)容

2.1 重大事件。所有的重大事件的發(fā)生都會(huì)在很短的時(shí)間內(nèi)迅速在網(wǎng)絡(luò)上傳播開(kāi)來(lái)，與事件發(fā)生有關(guān)的各個(gè)報(bào)道，新聞，各方面的消息和熱點(diǎn)都會(huì)在各個(gè)網(wǎng)站上鋪天而來(lái)，在短時(shí)間內(nèi)就會(huì)出現(xiàn)大量的評(píng)論，跟貼和發(fā)帖等等。

2.2 突發(fā)事件。量變到質(zhì)變的過(guò)程是突發(fā)事件產(chǎn)生的一個(gè)重要階段，例如“日本大地震后我國(guó)的搶鹽事件”，在發(fā)生初期，并沒(méi)有引起太多人的關(guān)注，只是在民間出現(xiàn)了許多的“謠言”，但其迅速擴(kuò)散，就會(huì)影響到廣大群眾，并有可能造成整個(gè)社會(huì)的恐慌。

2.3 國(guó)家的經(jīng)濟(jì)工作和重點(diǎn)工作。網(wǎng)絡(luò)上的主流的意識(shí)形態(tài)還是需要各個(gè)新聞媒體來(lái)傳播，需要政府和組織來(lái)引導(dǎo)，繼而形成被大眾所接受的健康向上的主流輿論，政府部門(mén)要引導(dǎo)人民群眾，最大限度地在廣大人民群眾中形成共識(shí)，來(lái)統(tǒng)一不同領(lǐng)域，不同階級(jí)中的意識(shí)和信念，形成了社會(huì)的主流言論。

2.4 一些關(guān)系國(guó)際民生的重大政策的改革更容易引起人們的廣泛關(guān)注，形成網(wǎng)絡(luò)輿情熱點(diǎn)事件。

2.5 和大多數(shù)人民自身利益密切相關(guān)的事件。因?yàn)檩浨榈囊粋€(gè)重要作用就是人民群眾對(duì)自身利益的訴求表達(dá)的一個(gè)重要渠道。在群眾利益受到傷害時(shí)，他自然需要一個(gè)平臺(tái)來(lái)尋求幫助和進(jìn)行訴求，網(wǎng)絡(luò)就是這樣一個(gè)很好的輿情平臺(tái)。

3 網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)的設(shè)計(jì)

網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)包含三個(gè)層次，自下而上分別為信息采集層、信息挖掘?qū)?、信息服?wù)層。每一層為其上一層提供基礎(chǔ)數(shù)據(jù)，以及為進(jìn)一步分析奠定基礎(chǔ)。其系統(tǒng)結(jié)構(gòu)如下圖所示：

■

網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)結(jié)構(gòu)圖

3.1 輿情信息采集層。信息采集層的基本任務(wù)是從數(shù)據(jù)格式多種多樣的網(wǎng)頁(yè)中采集出其蘊(yùn)含的豐富的、各種各樣的輿情信息。采集層的最下層為信息采集的目標(biāo)網(wǎng)站，如新浪、網(wǎng)易、搜狐、新華網(wǎng)、人民網(wǎng)、鳳凰網(wǎng)、貓撲、天涯社區(qū)等；中間層包含爬蟲(chóng)管理模塊、預(yù)處理模塊、分類(lèi)存儲(chǔ)模塊，爬蟲(chóng)管理模塊主要采用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)獲取互聯(lián)網(wǎng)上的輿情信息；最上層將采集的文本信息分為Web內(nèi)容信息、Web結(jié)構(gòu)和使用記錄信息兩部分內(nèi)容。

3.2 輿情信息挖掘?qū)印ｉ_(kāi)展輿情信息深度挖掘，發(fā)現(xiàn)的熱點(diǎn)問(wèn)題、分析其態(tài)度傾向、處置構(gòu)成危害的敏感信息是互聯(lián)網(wǎng)輿情信息挖掘?qū)拥闹饕蝿?wù)。它通過(guò)分析輿情信息采集層提供的數(shù)據(jù)，能夠檢測(cè)網(wǎng)絡(luò)話題、分析民眾的態(tài)度傾向、監(jiān)測(cè)網(wǎng)絡(luò)敏感信息、評(píng)估輿情態(tài)勢(shì)等，為輿情信息服務(wù)層服務(wù)相關(guān)部門(mén)提供客觀依據(jù)，是輿情信息處理的核心內(nèi)容。主要包含文本信息預(yù)處理模塊、網(wǎng)絡(luò)話題檢測(cè)模塊、輿情傾向性分析模塊、敏感信息監(jiān)控模塊。

3.3 輿情信息服務(wù)層。輿情信息服務(wù)層是輿情信息挖掘的目標(biāo)，其輔助相關(guān)部門(mén)把握輿情動(dòng)態(tài)、關(guān)注民情民意、做出正確決策。它一方面提供輿情信息摘要，為相關(guān)部門(mén)快速了解輿情動(dòng)態(tài)、掌握輿情事件的來(lái)龍去脈提供便利，提高工作效率；另一方面綜合考慮話題熱度、傳播擴(kuò)散度、態(tài)度傾向程度、內(nèi)容敏感度、者影響力等輿情評(píng)價(jià)指標(biāo)，并做出輿情評(píng)測(cè)、適時(shí)輿情預(yù)警信號(hào)，為相關(guān)部門(mén)及時(shí)做出反應(yīng)提供幫助。

參考文獻(xiàn)：

[1]王磊.公安網(wǎng)絡(luò)輿情分析系統(tǒng)的研究[D].北京交通大學(xué)，2008（06）.

第6篇

關(guān)鍵詞：網(wǎng)絡(luò)輿情；監(jiān)測(cè)引導(dǎo)；Web數(shù)據(jù)挖掘

中圖分類(lèi)號(hào)：C93 文獻(xiàn)標(biāo)志碼：A 文章編號(hào)：1673—291X（2012）28—0227—03

一、時(shí)代背景

互聯(lián)網(wǎng)時(shí)代是人類(lèi)歷史上一個(gè)空前偉大的技術(shù)革命時(shí)代?，F(xiàn)代信息技術(shù)、通訊傳播技術(shù)、網(wǎng)絡(luò)技術(shù)等眾多現(xiàn)代化的傳播技術(shù)已滲透到社會(huì)生活的各個(gè)領(lǐng)域。互聯(lián)網(wǎng)廣泛性、即時(shí)性、開(kāi)放性、共享性和互動(dòng)性的特點(diǎn)及豐富多彩、方便實(shí)用的應(yīng)用形式?jīng)Q定其日益成為反映社情民意的重要陣地，網(wǎng)上熱點(diǎn)層出不窮，網(wǎng)絡(luò)輿情對(duì)國(guó)家事務(wù)、公共事務(wù)決策的影響力也日益加大。歷史原因曾使中國(guó)長(zhǎng)期處于封閉狀態(tài)，國(guó)內(nèi)關(guān)于輿情的研究起步較晚，目前迫切需要提升與之相應(yīng)的理論和技術(shù)支持。輿情分析與監(jiān)測(cè)是信息深加工，以往“剪報(bào)”式低價(jià)值粗加工的信息服務(wù)，雖可按主題范圍搜集，但提供的結(jié)果僅局限于單一的信息內(nèi)容，傳統(tǒng)的單一線性收集方式已不能夠滿足人類(lèi)大腦發(fā)散思維的需要。

二、網(wǎng)絡(luò)輿情監(jiān)測(cè)引導(dǎo)的技術(shù)支撐

在浩瀚的網(wǎng)絡(luò)中，政府如果僅僅依靠人工完成網(wǎng)絡(luò)海量信息的收集和處理是不現(xiàn)實(shí)的。而Web數(shù)據(jù)挖掘能快速、準(zhǔn)確的獲得有價(jià)值的網(wǎng)絡(luò)信息，利用歷史數(shù)據(jù)預(yù)測(cè)未來(lái)的行為以及從海量數(shù)據(jù)中發(fā)現(xiàn)知識(shí)。它克服了普通數(shù)據(jù)庫(kù)管理系統(tǒng)無(wú)法發(fā)現(xiàn)數(shù)據(jù)中隱藏的關(guān)系和規(guī)則及根據(jù)現(xiàn)有數(shù)據(jù)預(yù)測(cè)未來(lái)的弱點(diǎn)。Web數(shù)據(jù)挖掘的出現(xiàn)為自動(dòng)和智能的把互聯(lián)網(wǎng)上的海量數(shù)據(jù)轉(zhuǎn)化為有用信息和知識(shí)提供了條件?？捎行У貜腤eb獲取并分析相關(guān)輿情，達(dá)到監(jiān)測(cè)、輔助決策和引導(dǎo)的目的，為網(wǎng)絡(luò)輿情預(yù)警提供了極大的幫助。

（一）Web數(shù)據(jù)挖掘

Web數(shù)據(jù)挖掘由傳統(tǒng)數(shù)據(jù)庫(kù)領(lǐng)域的數(shù)據(jù)挖掘技術(shù)演變而來(lái)。數(shù)據(jù)挖掘是指從大型數(shù)據(jù)庫(kù)的數(shù)據(jù)中提取出人們感興趣的、可信的、隱含的、明顯未知的、新穎的、有效的、具有潛在用處的信息的過(guò)程[1]。隨著互聯(lián)網(wǎng)的蓬勃發(fā)展，數(shù)據(jù)挖掘技術(shù)被運(yùn)用到網(wǎng)絡(luò)上，并根據(jù)網(wǎng)絡(luò)信息的特點(diǎn)發(fā)展出新的理論與方法，演變成網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)。Web數(shù)據(jù)挖掘是指對(duì)目標(biāo)樣本進(jìn)行分析提取特征，以此為依據(jù)從Web文檔和Web活動(dòng)中抽取人們感興趣、潛在的有用模式和隱藏的信息，所挖掘出的知識(shí)能夠用于信息管理、查詢處理、決策支持、過(guò)程控制等方面。

根據(jù)挖掘?qū)ο蟮牟煌?，可將Web數(shù)據(jù)挖掘技術(shù)分為三大類(lèi)[2]：Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘和Web使用挖掘。Web內(nèi)容挖掘是指從Web上檢索資源，從相關(guān)文件內(nèi)容及描述信息中獲取有價(jià)值的潛在信息。根據(jù)處理對(duì)象的不同，Web內(nèi)容挖掘分為文本挖掘和多媒體挖掘。Web結(jié)構(gòu)挖掘的目標(biāo)是Web文檔的鏈接結(jié)構(gòu)，目的在于揭示蘊(yùn)含于文檔結(jié)構(gòu)中的信息，主要方法是通過(guò)對(duì)Web站點(diǎn)的結(jié)構(gòu)進(jìn)行分析、變形和歸納，將Web頁(yè)面進(jìn)行分類(lèi)，以利于信息的搜索。結(jié)構(gòu)挖掘的重點(diǎn)在于鏈接信息。Web使用挖掘是從服務(wù)器訪問(wèn)日志、用戶策略、用戶對(duì)話和事物處理信息中得到用戶的訪問(wèn)模式和感興趣的信息，利用這種方法，可以獲知Web使用者的行為偏好，從而預(yù)測(cè)其行為。

（二）Web挖掘過(guò)程

Web數(shù)據(jù)挖掘依然遵循數(shù)據(jù)挖掘的研究思路，挖掘過(guò)程分為四個(gè)階段：數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、模式發(fā)現(xiàn)和模式分析（如圖1所示）[3]。

1.數(shù)據(jù)收集。網(wǎng)絡(luò)信息的收集是網(wǎng)絡(luò)輿情監(jiān)測(cè)的源頭，其廣度和深度決定了監(jiān)測(cè)效果。對(duì)于明確主題的輿情信息采集，可以采用搜索引擎方法。由于各個(gè)現(xiàn)存搜索引擎索引數(shù)據(jù)庫(kù)的構(gòu)造方法不同，其索引數(shù)據(jù)不盡完整，所以應(yīng)將多個(gè)單搜索引擎搜索結(jié)果進(jìn)行整合、調(diào)用、控制和優(yōu)化。搜索中可以以寬度優(yōu)先、深度優(yōu)先或啟發(fā)方式循環(huán)地在互聯(lián)網(wǎng)中發(fā)現(xiàn)相關(guān)信息，可將網(wǎng)絡(luò)空間按域名、IP地址或國(guó)別域名劃分為獨(dú)立子空間詳細(xì)搜索；或以信息類(lèi)型為劃分，如HTML格式、XML格式、FTP文件、Word文檔、newsgroup文章和各種音、視頻文件等。輿情信息檢索結(jié)果可按不同維度展現(xiàn)，包括按內(nèi)容分類(lèi)、輿情分類(lèi)、相關(guān)人物、相關(guān)機(jī)構(gòu)、相關(guān)地區(qū)、正負(fù)面分類(lèi)等。每個(gè)維度下把搜索結(jié)果自動(dòng)分類(lèi)統(tǒng)計(jì)展示，以便短時(shí)間內(nèi)檢索到精確信息。

2.數(shù)據(jù)預(yù)處理。因原始Web訪問(wèn)數(shù)據(jù)的文件格式是半結(jié)構(gòu)化的，包含不完整、冗余、錯(cuò)誤的數(shù)據(jù)，需進(jìn)行提取、分解、合并，轉(zhuǎn)化為適合挖掘的格式，保存到關(guān)系型數(shù)據(jù)庫(kù)表或數(shù)據(jù)倉(cāng)庫(kù)中，等待進(jìn)一步處理。數(shù)據(jù)預(yù)處理可改進(jìn)數(shù)據(jù)質(zhì)量，提高后續(xù)輿情挖掘過(guò)程的精度和性能。對(duì)采集到的輿情進(jìn)行初步加工處理，如格式轉(zhuǎn)換、數(shù)據(jù)清理、數(shù)據(jù)統(tǒng)計(jì)，對(duì)于新聞評(píng)論，需過(guò)濾無(wú)關(guān)信息，保存新聞標(biāo)題、出處、時(shí)間、內(nèi)容、點(diǎn)擊次數(shù)、評(píng)論人、評(píng)論內(nèi)容和評(píng)論數(shù)量等。對(duì)于論壇，需記錄帖子的標(biāo)題、發(fā)言人、時(shí)間、內(nèi)容、回帖內(nèi)容、回帖數(shù)量等，最后形成格式化信息。條件允許時(shí)甚至可直接對(duì)網(wǎng)站服務(wù)器的數(shù)據(jù)庫(kù)進(jìn)行操作。

3.模式發(fā)現(xiàn)。利用數(shù)據(jù)挖掘的算法可發(fā)現(xiàn)用戶聚類(lèi)、頁(yè)面聚類(lèi)、頻繁訪問(wèn)頁(yè)組、頻繁訪問(wèn)路徑等隱藏的用戶訪問(wèn)模式。若在挖掘用戶瀏覽模式過(guò)程中發(fā)現(xiàn)選擇的數(shù)據(jù)或?qū)傩杂衅睿蛲诰蚣夹g(shù)達(dá)不到預(yù)期結(jié)果，需根據(jù)反饋結(jié)果不斷重復(fù)以上過(guò)程，通過(guò)數(shù)據(jù)挖掘，創(chuàng)建和更新用戶模式庫(kù)。模式發(fā)現(xiàn)可應(yīng)用許多相關(guān)領(lǐng)域的方法，但需針對(duì)Web數(shù)據(jù)挖掘的特點(diǎn)做出相應(yīng)的改進(jìn)。

第7篇

關(guān)鍵詞：高校BBS；網(wǎng)絡(luò)輿情；監(jiān)測(cè)；熱點(diǎn)分析

中圖分類(lèi)號(hào)：TP391 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1009-3044（2013）16-3688-04

1 概述

隨著互聯(lián)網(wǎng)的普及和高校信息化的建設(shè)，各大高校都擁有自己的BBS網(wǎng)絡(luò)，學(xué)生在網(wǎng)絡(luò)上進(jìn)行交流，發(fā)表自己的觀點(diǎn)和意見(jiàn)，表達(dá)思想等，輿情的影響和規(guī)律都不容忽視。然而，對(duì)敏感和突發(fā)事件的不實(shí)言論和惡意煽動(dòng)，會(huì)誤導(dǎo)和欺騙學(xué)生，擴(kuò)大學(xué)生的不滿情緒，影響和破壞校園的和諧穩(wěn)定。因此，有必要對(duì)高校BBS網(wǎng)絡(luò)涉及意識(shí)形態(tài)安全的議題和言論進(jìn)行有效地監(jiān)管。采用數(shù)據(jù)挖掘技術(shù)，對(duì)互聯(lián)網(wǎng)輿情進(jìn)行分析、整理，才能建立起全面、有效、快速的輿情監(jiān)測(cè)預(yù)警機(jī)制，使高校網(wǎng)絡(luò)得以健康、快速的發(fā)展，成為當(dāng)前研究和應(yīng)用的熱點(diǎn)。

在目前的校園網(wǎng)絡(luò)輿情監(jiān)測(cè)應(yīng)用中，還沒(méi)有比較成熟的網(wǎng)絡(luò)輿情產(chǎn)品，因此，針對(duì)高校BBS網(wǎng)絡(luò)的特點(diǎn)，結(jié)合高校網(wǎng)絡(luò)輿情監(jiān)控機(jī)制和引導(dǎo)策略，開(kāi)發(fā)高校網(wǎng)絡(luò)輿情監(jiān)測(cè)平臺(tái)有很大的現(xiàn)實(shí)意義和應(yīng)用價(jià)值。

2 輿情熱點(diǎn)分析方法

2.1網(wǎng)絡(luò)輿情的形成

2.2主題關(guān)注度分析

主題關(guān)注度是指過(guò)去某一時(shí)間段內(nèi)，輿情主題被關(guān)注的程度，用該主題的相關(guān)帖子回復(fù)數(shù)或與該主題的相關(guān)網(wǎng)頁(yè)數(shù)進(jìn)行衡量[1]。在進(jìn)行輿情分析時(shí)，要統(tǒng)計(jì)某一主題或事件被關(guān)注的程度，首先要明確事件或話題本身所處的階段；其次，應(yīng)該在分析某一輿情熱點(diǎn)之前對(duì)其進(jìn)行科學(xué)的類(lèi)型界定。熱點(diǎn)事件主要分為突發(fā)自然災(zāi)害事件、生產(chǎn)安全事故、、公共衛(wèi)生事件、公權(quán)力形象、司法事件、經(jīng)濟(jì)民生事件、社會(huì)思潮、境外涉華突發(fā)事件等。

2.3 主題熱度分析

主題熱度分析即在某一時(shí)同段內(nèi)相對(duì)更加被關(guān)注或集中關(guān)注的輿情主題，用該主題的關(guān)注度進(jìn)行衡量。統(tǒng)計(jì)所有輿情主題的關(guān)注度，在某一時(shí)間段內(nèi)，對(duì)所有設(shè)為熱點(diǎn)的主題按關(guān)注度的降序進(jìn)行排列，生成某一時(shí)間段內(nèi)的熱點(diǎn)主題排行榜。排在榜首的主題網(wǎng)民的關(guān)注度最高，也就是熱點(diǎn)問(wèn)題所在。

3 網(wǎng)絡(luò)輿情監(jiān)測(cè)關(guān)鍵技術(shù)

網(wǎng)絡(luò)輿情監(jiān)測(cè)技術(shù)主要集中在兩個(gè)方面，一是話題檢測(cè)與跟蹤技術(shù)（Topic Detection and Tracking），二是文體傾向性分析技術(shù)（Sentiment Classification）技術(shù)。主題檢測(cè)與跟蹤作為輿情分析的重要技術(shù)手段，是近十年自然語(yǔ)言處理和信息檢索領(lǐng)域的熱點(diǎn)研究課題[2]。要對(duì)高校網(wǎng)絡(luò)輿情進(jìn)行監(jiān)測(cè)，就是運(yùn)用網(wǎng)絡(luò)爬蟲(chóng)、文本挖掘和文本情感分析技術(shù)，實(shí)現(xiàn)熱點(diǎn)話題發(fā)現(xiàn)、話題跟蹤、關(guān)聯(lián)分析、敏感信息監(jiān)測(cè)的功能。

3.1 主題爬蟲(chóng)技術(shù)

3.1.1網(wǎng)絡(luò)爬蟲(chóng)的分類(lèi)

網(wǎng)絡(luò)爬蟲(chóng)也叫網(wǎng)絡(luò)蜘蛛，是一個(gè)按照一定的規(guī)則自動(dòng)提取網(wǎng)頁(yè)的程序，這種技術(shù)可以檢查站點(diǎn)上所有的鏈接是否有效，并把相關(guān)的數(shù)據(jù)保存下來(lái)，成為搜索引擎[3]。

通用網(wǎng)絡(luò)爬蟲(chóng)首先把網(wǎng)絡(luò)上的HTML文檔使用超鏈接連接起來(lái)，就像織了一張網(wǎng)，爬蟲(chóng)程序從一個(gè)或若干初始網(wǎng)頁(yè)的URL開(kāi)始，獲得初始網(wǎng)頁(yè)上的URL列表，順著這張網(wǎng)，不斷的抓取網(wǎng)頁(yè)，將內(nèi)容抽取出來(lái)，直到滿足系統(tǒng)的停止條件為止。

聚焦爬蟲(chóng)技術(shù)是根據(jù)一定的網(wǎng)頁(yè)分析算法地過(guò)濾與主題無(wú)關(guān)的鏈接，保留有用的鏈接放到待抓取的隊(duì)列中，通過(guò)一定的搜索策略從隊(duì)列中選擇下一步要抓取的URL，重復(fù)以上步驟，直到滿足程序的停止條件。

3.1.2爬行算法

基于主題的聚焦爬蟲(chóng)搜索策略主要有人工預(yù)選策略、過(guò)濾策略、啟發(fā)式搜索策略。人工預(yù)選策略是由人工預(yù)先瀏覽各個(gè)站點(diǎn)，從中選出與主題相關(guān)的網(wǎng)站，然后再用爬蟲(chóng)程序?qū)@類(lèi)網(wǎng)站進(jìn)行持續(xù)的訪問(wèn)；過(guò)濾策略是將爬蟲(chóng)抓取下來(lái)的網(wǎng)頁(yè)，先進(jìn)行過(guò)濾，刪除與主題不相關(guān)的頁(yè)面，保留相關(guān)頁(yè)面；啟發(fā)式策略是考慮特定問(wèn)題可應(yīng)用的知識(shí)地優(yōu)先選擇合適的操作算子，盡量減少不必要的搜索，以搜索效率。下面介紹比較有代表性的算法Fish Search算法。

Fish Search算法是模擬自然界中的魚(yú)群的行為來(lái)進(jìn)行最優(yōu)搜索，依據(jù)自然規(guī)律，魚(yú)群總是朝一個(gè)方向流動(dòng)來(lái)尋找食物并繁殖，子代魚(yú)群的數(shù)量和強(qiáng)壯程度取決于能找到的食物的數(shù)量。在Fish Search算法中，每一個(gè)URL看作是一條魚(yú)，當(dāng)一個(gè)Web頁(yè)面被抓取后，它包含的新的UEL也同時(shí)被解析出來(lái)。其中，有用的URL的數(shù)量取決于該頁(yè)面是否與主題相關(guān)以及它本身包含的鏈接數(shù)量。當(dāng)增加一個(gè)文檔，魚(yú)就繁殖一定數(shù)量的后代，若文檔相關(guān)也就是指魚(yú)兒找到了食物，可以繁殖出更多的后代，則再增加此文的鏈接深度；若文檔不相關(guān)，魚(yú)就越來(lái)越少，后代也越少。在某一方向上經(jīng)過(guò)幾條鏈接仍未找到相關(guān)文檔，就表明此魚(yú)已死，就不再沿著這個(gè)方向進(jìn)行查找了，將此URL加入到完成隊(duì)列中。若一條魚(yú)讀取文檔的時(shí)間過(guò)長(zhǎng)，說(shuō)明該魚(yú)已進(jìn)入污染區(qū)，則盡量少沿著這條URL搜索，以免出現(xiàn)死循環(huán)。

Fish Search算法不像傳統(tǒng)的搜索算法按照URL在父頁(yè)面中出現(xiàn)的順序來(lái)依次搜索，而是動(dòng)態(tài)的根據(jù)網(wǎng)頁(yè)的搜索深度值來(lái)決定搜索的順序，實(shí)現(xiàn)了可能的主題相關(guān)網(wǎng)頁(yè)優(yōu)先搜索。該算法的不足之處在于相關(guān)度的計(jì)算過(guò)于簡(jiǎn)單，容易使算法過(guò)早陷入局部最優(yōu)的陷阱，導(dǎo)致整體回報(bào)率不高[4]。

3.2 文本挖掘技術(shù)

3.2.1文本表示

文本表示包括兩個(gè)方面的問(wèn)題：文本的表示和計(jì)算，文本的表示是指文本特征的提取，計(jì)算指權(quán)重的定義和語(yǔ)義相似度的定義。

目前，文本的表示通常采用布爾模型、向量空間模型、潛在語(yǔ)義模型和概率模型文本表示模型，用某種特定結(jié)構(gòu)去表達(dá)文本的語(yǔ)義。

3.2.2文本相似度計(jì)算

3.2.3文本聚類(lèi)和分類(lèi)

文本聚類(lèi)通常對(duì)已有的文本集合進(jìn)行聚類(lèi)，文本聚類(lèi)技術(shù)是主題檢測(cè)技術(shù)的基礎(chǔ)，它的目標(biāo)是將文檔集合分成若干個(gè)簇，要求同一簇內(nèi)文檔內(nèi)容的相似度盡可能的大，而不同簇之間的相似度則盡可能的小。

經(jīng)過(guò)多年研究，聚類(lèi)算法已經(jīng)很成熟，主要可分為五類(lèi)：以k-means為代表的劃分方法，利用同一聚類(lèi)中的對(duì)象相似度高，不同類(lèi)的對(duì)象相似度低的特性進(jìn)行分類(lèi)；將類(lèi)別看作是在層次的層次聚類(lèi)方法，有兩種分類(lèi)方法：整合法和分裂法；主要考慮數(shù)據(jù)空間的密度、連通性和邊界區(qū)的基于密度的方法；將數(shù)據(jù)的分割方法轉(zhuǎn)換成對(duì)空間的分割的基于網(wǎng)絡(luò)的算法；在高維空間進(jìn)行聚類(lèi)的核聚類(lèi)算法等。

不管采用哪一種聚類(lèi)算法，文本聚類(lèi)的流程如圖2所示，主要有以下步驟：

①將原始文本進(jìn)行預(yù)處理，抽取詞條，詞條選擇等其他處理；

②抽取文本特征，建立模型，例如向量空間模型、概率模型等其他模型；

③將維度進(jìn)行約減，需要用到的算法有層次算法、劃分算法等其他算法；

④得到聚類(lèi)結(jié)果。

3.2.4 關(guān)鍵詞和摘要提取

由于網(wǎng)絡(luò)上的文檔信息量比較龐大，如果直接對(duì)全文進(jìn)行檢索，其檢索的速度會(huì)很慢，而且檢索的效率不高，經(jīng)常檢索出無(wú)關(guān)的內(nèi)容。因此為了提高檢索質(zhì)量和效率，必須對(duì)文檔建立關(guān)鍵詞和摘要。關(guān)于關(guān)鍵詞自動(dòng)提取的方法主要有主要包括基于統(tǒng)計(jì)、基于語(yǔ)義理解和基于機(jī)器學(xué)習(xí)三種方式。

關(guān)鍵詞的抽取過(guò)程非常復(fù)雜，設(shè)計(jì)思路是首先建立一個(gè)通用的主題詞表，然后基于這個(gè)主題表對(duì)處理后的頁(yè)面文檔進(jìn)行主題詞的抽取工作，主題詞的抽取過(guò)程主要包括預(yù)處理、選擇候選詞、計(jì)算關(guān)鍵詞權(quán)重、輸出關(guān)鍵詞等幾個(gè)主要步驟。

4 實(shí)驗(yàn)結(jié)果

5 結(jié)束語(yǔ)

本文立足于高校網(wǎng)絡(luò)輿情監(jiān)測(cè)的實(shí)際需求，研究了高校輿情監(jiān)控系統(tǒng)的關(guān)鍵技術(shù)：網(wǎng)絡(luò)爬蟲(chóng)、文本挖掘等多種信息技術(shù)。在多種技術(shù)的支撐下，開(kāi)發(fā)出一套適用于高校BBS網(wǎng)絡(luò)的輿情監(jiān)測(cè)平臺(tái)，實(shí)現(xiàn)了對(duì)新聞的實(shí)時(shí)跟蹤，校園熱點(diǎn)話題的監(jiān)控、敏感信息的監(jiān)測(cè)等功能是可以是實(shí)現(xiàn)的，這項(xiàng)研究還需要進(jìn)一步深入。

參考文獻(xiàn)：

[1] 林興發(fā)，肖照.基于大學(xué)生BBS論壇的輿情熱點(diǎn)分析——以武漢大學(xué)珞珈山水論壇為例[J].現(xiàn)代商貿(mào)工業(yè). 2010（18）：188-189.

[2] Pimwadee Chaovalit，Lina Zhou，Movie Review Mining：a Comparison between Supervised and Unsupervised Classification Approaches，In Proceedings of the 38th Hawaii International Conference on System Sciences，2005.

[3] PINKERTON B.Finding what people want：Experiences with theweb crawler[A].Proceedings of the SecondWorld2WideWeb conference[C].Chicago，Illinois，1994.

相關(guān)范文

相關(guān)期刊

網(wǎng)絡(luò)輿情監(jiān)測(cè)范文

第1篇

第2篇

第3篇

第4篇

第5篇

第6篇

第7篇

網(wǎng)絡(luò)財(cái)富

網(wǎng)絡(luò)傳播

網(wǎng)絡(luò)與信息