時間:2022-04-27 08:24:20
序論:在您撰寫網(wǎng)絡(luò)輿情監(jiān)測時,參考他人的優(yōu)秀作品可以開闊視野,小編為您整理的7篇范文,希望這些建議能夠激發(fā)您的創(chuàng)作熱情,引導(dǎo)您走向新的創(chuàng)作高度。
1.1重大事件。所有的重大事件的發(fā)生都會在很短的時間內(nèi)迅速在網(wǎng)絡(luò)上傳播開來,與事件發(fā)生有關(guān)的各個報道,新聞,各方面的消息和熱點都會在各個網(wǎng)站上鋪天而來,在短時間內(nèi)就會出現(xiàn)大量的評論,跟貼和發(fā)帖等等。
1.2突發(fā)事件。量變到質(zhì)變的過程是突發(fā)事件產(chǎn)生的一個重要階段,例如“日本大地震后我國的搶鹽事件”,在發(fā)生初期,并沒有引起太多人的關(guān)注,只是在民間出現(xiàn)了許多的“謠言”,但其迅速擴散,就會影響到廣大群眾,并有可能造成整個社會的恐慌。
1.3國家的經(jīng)濟工作和重點工作。網(wǎng)絡(luò)上的主流的意識形態(tài)還是需要各個新聞媒體來傳播,需要政府和組織來引導(dǎo),繼而形成被大眾所接受的健康向上的主流輿論,政府部門要引導(dǎo)人民群眾,最大限度地在廣大人民群眾中形成共識,來統(tǒng)一不同領(lǐng)域,不同階級中的意識和信念,形成了社會的主流言論。
1.4一些關(guān)系國際民生的重大政策的改革更容易引起人們的廣泛關(guān)注,形成網(wǎng)絡(luò)輿情熱點事件。
1.5和大多數(shù)人民自身利益密切相關(guān)的事件。因為輿情的一個重要作用就是人民群眾對自身利益的訴求表達的一個重要渠道。在群眾利益受到傷害時,他自然需要一個平臺來尋求幫助和進行訴求,網(wǎng)絡(luò)就是這樣一個很好的輿情平臺。
2網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)的設(shè)計
網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)包含三個層次,自下而上分別為信息采集層、信息挖掘?qū)?、信息服?wù)層。每一層為其上一層提供基礎(chǔ)數(shù)據(jù),以及為進一步分析奠定基礎(chǔ)。
2.1輿情信息采集層。信息采集層的基本任務(wù)是從數(shù)據(jù)格式多種多樣的網(wǎng)頁中采集出其蘊含的豐富的、各種各樣的輿情信息。采集層的最下層為信息采集的目標(biāo)網(wǎng)站,如新浪、網(wǎng)易、搜狐、新華網(wǎng)、人民網(wǎng)、鳳凰網(wǎng)、貓撲、天涯社區(qū)等;中間層包含爬蟲管理模塊、預(yù)處理模塊、分類存儲模塊,爬蟲管理模塊主要采用網(wǎng)絡(luò)爬蟲技術(shù)獲取互聯(lián)網(wǎng)上的輿情信息;最上層將采集的文本信息分為Web內(nèi)容信息、Web結(jié)構(gòu)和使用記錄信息兩部分內(nèi)容。
2.2輿情信息挖掘?qū)印i_展輿情信息深度挖掘,發(fā)現(xiàn)的熱點問題、分析其態(tài)度傾向、處置構(gòu)成危害的敏感信息是互聯(lián)網(wǎng)輿情信息挖掘?qū)拥闹饕蝿?wù)。它通過分析輿情信息采集層提供的數(shù)據(jù),能夠檢測網(wǎng)絡(luò)話題、分析民眾的態(tài)度傾向、監(jiān)測網(wǎng)絡(luò)敏感信息、評估輿情態(tài)勢等,為輿情信息服務(wù)層服務(wù)相關(guān)部門提供客觀依據(jù),是輿情信息處理的核心內(nèi)容。主要包含文本信息預(yù)處理模塊、網(wǎng)絡(luò)話題檢測模塊、輿情傾向性分析模塊、敏感信息監(jiān)控模塊。
網(wǎng)絡(luò)輿情監(jiān)測以監(jiān)測社會民生輿論為主,但“網(wǎng)絡(luò)水軍”往往將商業(yè)話題變相說成社會生活話題,以此來吸引眼球。這樣,刻意制造的他生輿論就混雜在輿論陣營中,表達了大眾的非本意輿論,掩蓋了自然形成的社會輿論。如此一來,網(wǎng)絡(luò)輿情監(jiān)測統(tǒng)計的輿論數(shù)據(jù)就會失真,并對學(xué)術(shù)研究機構(gòu)和政府造成誤導(dǎo)。而所有這些,無疑也會降低網(wǎng)絡(luò)輿情監(jiān)測的公信力。
網(wǎng)絡(luò)輿情監(jiān)測作為一種嚴(yán)謹?shù)目茖W(xué)體系,可以利用當(dāng)今先進的計算機與網(wǎng)絡(luò)技術(shù),通過先期技術(shù)處理和后期操作對網(wǎng)絡(luò)輿情進行追根溯源,通過考量輿論的來源甄別出網(wǎng)絡(luò)輿論熱點的真?zhèn)巍hb于當(dāng)今網(wǎng)絡(luò)水軍廣泛存在的現(xiàn)實,筆者提出以下幾種方案完善網(wǎng)絡(luò)輿情監(jiān)測工作的輿情篩選功能。
1.情感詞分析方法
“網(wǎng)絡(luò)水軍”在網(wǎng)上的帖子往往是非理性的、帶有強烈感彩的,或是極力美化雇主的產(chǎn)品或服務(wù),或是極力貶低雇主競爭對手的產(chǎn)品或服務(wù),整體上傾向性比較強烈。因此,我們就可以通過對論壇或貼吧用戶的帖子的文本分析,主要是對情感詞的分析,來判斷這個用戶是不是“網(wǎng)絡(luò)水軍”,以及他所主導(dǎo)的輿論是不是有意制造的他生輿論。
通過傾向性分析可以明確網(wǎng)絡(luò)傳播者的意圖和傾向,通俗地說,文本輿情描述的是文本所傳遞的情感。對文本輿情進行分析,實際上就是試圖根據(jù)文本的內(nèi)容提煉出作者的情感方向。網(wǎng)絡(luò)文本的傾向性分析就是挖掘網(wǎng)絡(luò)文本內(nèi)容蘊涵的各種觀點、喜好、態(tài)度、情感等非內(nèi)容或非事實信息。①
此前已有研究制定了一套完整的方法和公式,其基本思路是:首先進行互聯(lián)網(wǎng)信息采集獲得數(shù)據(jù),然后通過網(wǎng)頁頁面分析技術(shù)抽取元數(shù)據(jù)(比如信息者、信息時間、信息來源等)和正文信息,采用機器學(xué)習(xí)方法對正文信息進行情感分類,判斷其為正面信息或為負面信息。經(jīng)過統(tǒng)計后,在特定的一段時間內(nèi),當(dāng)某人發(fā)表的正面或者負面信息比重超過預(yù)設(shè)閾值時,則認為其為“網(wǎng)絡(luò)水軍”。②
設(shè)定特定的時間段,信息者AN篇有關(guān)主題P的信息,其中正面信息X篇,負面信息Y篇(X+Y≤N)。設(shè)閾值為T(0
那么,信息者A為“網(wǎng)絡(luò)水軍”。
根據(jù)最新數(shù)據(jù)顯示,92.3%的網(wǎng)民經(jīng)常訪問的網(wǎng)絡(luò)社區(qū)數(shù)量在2個以上,其中27.2%的網(wǎng)民經(jīng)常訪問2個網(wǎng)絡(luò)社區(qū),29.1%的網(wǎng)民經(jīng)常訪問3個網(wǎng)絡(luò)社區(qū),經(jīng)常訪問4個以上網(wǎng)絡(luò)社區(qū)的網(wǎng)民達到36%,③網(wǎng)民平均每人使用3.09個網(wǎng)絡(luò)社區(qū),這里將其簡記作3個。那么,在上述公式中,X/Y=3(或Y/X=3),此時的閾值T為0.5。又因為“網(wǎng)絡(luò)水軍”的發(fā)帖量遠大于一般網(wǎng)民的平均發(fā)帖量,所以閾值T應(yīng)該略大于0.5。
換句話說,在現(xiàn)階段,當(dāng)一個發(fā)帖人的Q值大于0.5時,我們就可以基本確定這個人是“水軍”,進一步確定他所主導(dǎo)的輿論可能是他生輿論;而且Q值越大,這種疑似程度越強??偨Y(jié)起來看,情感詞分析方法是判斷發(fā)帖人個人身份的一種有效途徑,在計算機輔助技術(shù)的幫助下,將大大提高篩選的效率,其工作流程如圖1所示。
圖1網(wǎng)絡(luò)輿情信息文本分析工作流程④
上圖中,建立假設(shè)和檢驗假設(shè)并不是存在于每一個分析文本中,為可選項目。輿論監(jiān)測者首先要制定有針對性的研究意圖,然后按照統(tǒng)計學(xué)原理選擇科學(xué)合理的樣本。定義分析單元就是定義分析樣本的每一個元素,再形成分析類目即分析系統(tǒng),使之適應(yīng)所提出的問題,同時使所有類目具有互斥性、完備性和信度。最后是通過統(tǒng)計、計算、分析得出結(jié)論。
2.相同IP與ID的統(tǒng)計分析
情感詞分析可以從個人角度篩選出“網(wǎng)絡(luò)水軍”,對于一個主題帖子是不是“網(wǎng)絡(luò)水軍”所為的考察,我們可以通過對相同IP地址的統(tǒng)計分析來完成。
正如前文所說,“網(wǎng)絡(luò)水軍”在網(wǎng)上發(fā)帖時會用很多ID賬號,即網(wǎng)友所說的“馬甲”,這些ID或網(wǎng)名是不同的,所以單一根據(jù)ID無法辨別發(fā)帖、回帖是不是少數(shù)人所為。
“網(wǎng)絡(luò)水軍”每天長時間掛在網(wǎng)上刷帖,盡管更換不同的ID,但他們的上網(wǎng)IP地址是不變的。那么,通過統(tǒng)計每一個ID發(fā)帖時所使用的IP地址,就可以辨別出哪些不同ID發(fā)的帖子是出于同一臺電腦即同一個人。如果一個論壇里的帖子出現(xiàn)了大量相同的IP地址,或出現(xiàn)在不同論壇里的同一主題的帖子中出現(xiàn)了大量相同IP地址,那么就可以肯定,這個輿論主題是網(wǎng)絡(luò)水軍人為制造出來的。
另外,如果在同一處的同一個ID使用不同的IP,那么說明這可能是同一個人在不同時間發(fā)表的言論,或是不同的人使用網(wǎng)絡(luò)營銷公關(guān)公司統(tǒng)一發(fā)放的“馬甲”發(fā)表的言論。于是,就可以根據(jù)這個ID所使用的IP,繼續(xù)順藤摸瓜地找到本論壇中其他ID發(fā)表的言論和其他論壇中同一個IP使用的ID發(fā)表的言論。這樣就形成了一個由IP和ID構(gòu)成的無盡的關(guān)聯(lián)網(wǎng)絡(luò),在這個網(wǎng)絡(luò)上的每一條帖子都可以確定為是“網(wǎng)絡(luò)水軍”制造的(如圖2)。
圖2IP、ID關(guān)聯(lián)網(wǎng)絡(luò)
這種方法同樣需要計算機技術(shù)的輔助。另外,要根據(jù)現(xiàn)實情況制定評價標(biāo)準(zhǔn)和體系,我們不妨統(tǒng)計出“水軍”發(fā)帖的個數(shù),并求出這些帖子在整個話題帖子中的所占比例,這個比例越高,那么這個輿論熱點系炒作所為的疑似程度就越高。還可以根據(jù)實際操作中的情況,制定出一個更復(fù)雜的評價體系,將每一個指標(biāo)賦予不同的權(quán)重,分別賦值,求出最后的疑似程度值。
3.歷時性調(diào)研
由于現(xiàn)在“網(wǎng)絡(luò)水軍”和網(wǎng)絡(luò)營銷公關(guān)公司的大量涌現(xiàn),一些企業(yè)或團體已經(jīng)認識到了網(wǎng)絡(luò)輿論對其生存發(fā)展的影響。當(dāng)一家企業(yè)受到網(wǎng)絡(luò)打手的輿論攻擊時,也會自覺進行調(diào)查,并盡力澄清。同時,公安機關(guān)對于重大輿論事件也會介入,比如伊利―蒙?!跋莺﹂T”。這些調(diào)查出的結(jié)論都可以成為網(wǎng)絡(luò)輿情監(jiān)測辨別輿論真?zhèn)蔚牟牧稀?/p>
4.省略/s2009/dcfb/,2011年1月11日
輿情監(jiān)測工作由來已久,最早的網(wǎng)絡(luò)輿情監(jiān)測手段也是基于傳統(tǒng)的手工模式。通過雇傭大量工作人員對指定的監(jiān)測頁面進行監(jiān)測,使用人工方式,對某些重點監(jiān)測詞匯進行頻率統(tǒng)計來尋找輿情動向。然而隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,傳統(tǒng)的方式已經(jīng)落伍,要對網(wǎng)絡(luò)輿情進行監(jiān)測,就必然要依托于一個功能強大的互聯(lián)網(wǎng)輿情監(jiān)測系統(tǒng)進行。伴隨著網(wǎng)絡(luò)的發(fā)展,國內(nèi)外已有一系列的網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)正式投入使用,這些系統(tǒng)通常是依托于政府部門、學(xué)術(shù)機構(gòu)以及企業(yè)媒體建設(shè)的,分別基于不同的需求(行政決策的、學(xué)術(shù)研究的、商業(yè)開發(fā)的),從不同的角度對網(wǎng)絡(luò)輿情進行監(jiān)測。最早的相關(guān)研究始于TDT(TopicDetectionandTracking)項目[2],它是美國國防高級研究計劃局主導(dǎo)的,旨在從新聞網(wǎng)頁中找到未知話題并對話題進行追蹤。該項目歷經(jīng)多年發(fā)展演變,其核心研究內(nèi)容分為報道切分、話題追蹤、話題監(jiān)測、首次話題報告以及關(guān)聯(lián)監(jiān)測這5個方面的內(nèi)容[3]。在我國,由于中西文在文本挖掘、分詞方面的巨大差異,以及社會經(jīng)濟等方面的差異,基于漢語的網(wǎng)絡(luò)輿情監(jiān)測研究起步較晚[4]。目前,學(xué)院型的輿情研究機構(gòu)主要有北京大學(xué)中國國情研究中心、中國人民大學(xué)輿論研究所、上海交通大學(xué)輿情研究實驗室等[5]。
2網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)框架
從過程上看,網(wǎng)絡(luò)輿情監(jiān)測的本質(zhì)是從網(wǎng)絡(luò)上獲取數(shù)據(jù)、分析數(shù)據(jù)以及按用戶需求呈現(xiàn)分析結(jié)果的過程,因此在系統(tǒng)實現(xiàn)時,從數(shù)據(jù)流向的角度,可以把一個網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)劃分為數(shù)據(jù)獲取模塊、數(shù)據(jù)預(yù)處理模塊、數(shù)據(jù)分析模塊以及結(jié)果呈現(xiàn)模塊,整個系統(tǒng)的結(jié)構(gòu)如圖1所示。
2.1數(shù)據(jù)獲取模塊
數(shù)據(jù)獲取模塊的主要功能是全天候的、自動的從整個網(wǎng)絡(luò)上,或者某些特定網(wǎng)絡(luò)上獲取進行輿情分析的原始數(shù)據(jù)。在自動獲取數(shù)據(jù)的過程中,有兩方面的要求。一方面,是獲取的相關(guān)輿情數(shù)據(jù)相對于整個數(shù)據(jù)的覆蓋率的要求,即要盡可能地獲取盡量全面的原始數(shù)據(jù);另一方面,則是對數(shù)據(jù)準(zhǔn)確率的要求,即所需數(shù)據(jù)要盡可能貼近用戶關(guān)心的輿情熱點。只有在覆蓋率和準(zhǔn)確率全部達標(biāo)的情況下,才能更好地對網(wǎng)絡(luò)輿情進行分析預(yù)測。目前,常見的數(shù)據(jù)獲取方式有兩種:(1)網(wǎng)絡(luò)爬蟲方式?;ヂ?lián)網(wǎng)的一項基本協(xié)議是HTML協(xié)議,基于該協(xié)議,網(wǎng)絡(luò)中大量資源以統(tǒng)一資源定位符(URL)相互聯(lián)系,構(gòu)成一個有機整體。網(wǎng)絡(luò)爬蟲從一個預(yù)先定義好的URL列表開始,依次訪問該列表上的所有頁面進行數(shù)據(jù)抓取,并分析當(dāng)前訪問頁面中的其他URL,選擇符合要求的URL加入待訪問隊列,試圖以深度或者廣度的方式對限定范圍的網(wǎng)絡(luò)進行遍歷式的訪問,以獲取該網(wǎng)絡(luò)的所有信息。(2)元搜索采集技術(shù)。搜索引擎是大多數(shù)網(wǎng)民訪問網(wǎng)絡(luò)的入口,目前有眾多的搜索引擎服務(wù)提供商,其檢索過程有不同的側(cè)重方向,檢索結(jié)果也各不相同??梢栽谌舾刹煌乃阉饕嫔喜渴鹪阉饕?,通過對下層引擎的調(diào)用返回多個搜索結(jié)果,并基于一定的算法對不同結(jié)果進行選擇。使用該方法能夠有效地提高數(shù)據(jù)獲取的覆蓋率和準(zhǔn)確率,且系統(tǒng)構(gòu)建較為簡單。
2.2數(shù)據(jù)預(yù)處理模塊
Web頁面的數(shù)據(jù)有其自身特點,它是一種半結(jié)構(gòu)化的數(shù)據(jù),整個數(shù)據(jù)包括內(nèi)容和描述兩個部分,且兩者混雜在一起。直接通過數(shù)據(jù)獲取模塊抓取的頁面內(nèi)容復(fù)雜,存在大量噪音,文本內(nèi)容非結(jié)構(gòu)化,無法直接進行下一步的分析工作,對這些原始頁面必須進行一次數(shù)據(jù)預(yù)處理。預(yù)處理的過程大體上分為兩步:(1)進行網(wǎng)頁內(nèi)容提取。將用戶關(guān)心的內(nèi)容(例如新聞的內(nèi)容、對主題的討論等)從噪音(如頁面上的廣告、導(dǎo)航以及其他超鏈接)中找出。將頁面轉(zhuǎn)化為一個HTML標(biāo)簽樹,根據(jù)已有知識建立提取規(guī)則,最后依據(jù)規(guī)則對頁面內(nèi)容進行提取。如何建立一個合適的規(guī)則是提取工作的核心,可以針對某類特定的網(wǎng)站建立專屬規(guī)則,也可以針對一般頁面的結(jié)構(gòu)特點建立一些通用規(guī)則。(2)進行中文文本分詞。自然語言中,詞是最小的獨立活動的語言成分。要對頁面提取獲得的非結(jié)構(gòu)化連續(xù)文本進行處理,首要的工作就是對其進行分詞。分詞是將輸入的一段文本分解為符合邏輯的一組單詞的過程,例如輸入“羽毛球拍”時,依照某種分詞算法就可以初步將其分解為羽毛、羽毛球、球拍3個單詞。最簡單的分詞算法以詞典為基礎(chǔ),通過對字符串匹配完成初步工作,之后輔以少量詞法、語法和語義規(guī)則;另一種思路是基于統(tǒng)計進行分詞,統(tǒng)計文本中相鄰字同時出現(xiàn)的頻率,頻率越高就越可能構(gòu)成一個詞;還有一些基于規(guī)則的分詞算法,通過模擬人對句子的理解過程,對當(dāng)前句子的語法、句法、詞法進行分析推理,能夠自動補全未登錄詞條。
2.3數(shù)據(jù)分析模塊
數(shù)據(jù)分析模塊是整個網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)的智能核心,在本質(zhì)上是一個數(shù)據(jù)挖掘的過程。它負責(zé)將前期獲得的網(wǎng)頁內(nèi)容進行深度挖掘,發(fā)現(xiàn)新的輿情熱點,并對原有的輿情趨勢進行分析。一個典型的系統(tǒng)應(yīng)具備以下幾方面的功能:(1)主題聚類。聚類可以很直觀地從海量數(shù)據(jù)中發(fā)現(xiàn)新的主題。將處理過后的網(wǎng)頁內(nèi)容歸一化到某個特征空間中,在這個特征空間中以某種方式,將特征接近的頁面內(nèi)容劃分為不同的類別,相應(yīng)類別的聚類中心就可以認為是新的主題。(2)熱點發(fā)現(xiàn)。在當(dāng)今網(wǎng)絡(luò)時代,每天產(chǎn)生的輿情主題眾多,其中有些主題能夠迅速成為當(dāng)下的輿情熱點,輿情監(jiān)測系統(tǒng)需要將這些輿情熱點從眾多主題中篩選出來,推送給輿情分析人員。篩選的時候應(yīng)該注意“熱點”一詞不同方面的含義,最直觀的含義就是某主題在某段時間內(nèi)出現(xiàn)的頻次;再有一方面的含義就是某主題除頻次以外的權(quán)重,例如該主題來源頁面的影響力、該主題的發(fā)展速度等。(3)話題追蹤。網(wǎng)絡(luò)話題的生命周期從最初的事件主題開始,經(jīng)過一段時間的發(fā)展演化成為輿情熱點,又經(jīng)歷一段時間的發(fā)展變化逐漸熱度降低,最后消散。還有,在這個過程中話題的變異分支過程,都是在基于網(wǎng)絡(luò)輿情進行決策分析時可以納入考慮的影響因素。在分析大量話題生命周期后,可以從中總結(jié)一定的規(guī)律,對當(dāng)前某話題的下個階段進行一定的預(yù)測。(4)情感識別。網(wǎng)絡(luò)話題除了對某個發(fā)生事件的客觀描述外,還有一定的情感傾向,尤其是在網(wǎng)民對該話題的回復(fù)中,這種情感傾向會更加明顯地體現(xiàn)出來。從整體上看,這種情感傾向會分為贊成、反對以及中立這3種大的方向。將人們對某個輿情熱點的情感傾向進行直觀體現(xiàn),有助于更好地進行分析決策。這種分析不光要對輿情的當(dāng)前狀態(tài)進行情感識別,還要對該話題的發(fā)展過程中某個階段的情感同時進行分析,以掌握輿論對該話題情感傾向的變化過程。
2.4結(jié)果呈現(xiàn)模塊
網(wǎng)絡(luò)輿情分析的目的是為相關(guān)的決策提供支撐依據(jù),其分析結(jié)果需要簡單直觀地提供給決策分析人員,并在初步分析的基礎(chǔ)上對整個結(jié)果進行二次挖掘。這就需要結(jié)果呈現(xiàn)模塊能夠動態(tài)圖形化地展示分析結(jié)果,并對某些輿情熱點、輿情的重大拐點進行主動推送警告。根據(jù)一般化的網(wǎng)絡(luò)輿情分析需求,必須實現(xiàn)的功能有:(1)針對所有主題的查詢。(2)新主題的推送。(3)輿情熱點、拐點的警告。(4)輿情發(fā)展態(tài)勢圖。
3總結(jié)展望
關(guān)鍵詞:網(wǎng)絡(luò)輿情;輿情監(jiān)測;指標(biāo)體系
有效加強網(wǎng)絡(luò)輿情監(jiān)測分析,才能實時掌握網(wǎng)絡(luò)輿情動態(tài)。網(wǎng)絡(luò)輿情監(jiān)測分析工作重要環(huán)節(jié)包括采集、整理和分析輿情信息,需要構(gòu)建一定的指標(biāo)體系,評價揭示網(wǎng)絡(luò)輿情信息的特征與變化規(guī)律。指標(biāo)是在評價某些研究對象所確定的依據(jù)和標(biāo)準(zhǔn),包括指標(biāo)名稱和數(shù)值。網(wǎng)絡(luò)輿情指標(biāo)體系是由相互聯(lián)系、相互補充的指標(biāo)組成的統(tǒng)一整體,用于反映網(wǎng)絡(luò)輿情的綜合狀況,揭示其中的各個方面。本文首先介紹輿情監(jiān)測的來源范圍,接著闡述網(wǎng)絡(luò)輿情監(jiān)測指標(biāo)的構(gòu)建原則與內(nèi)容,提出從主題匯聚、熱度、內(nèi)容傾向性、預(yù)警等方面構(gòu)建網(wǎng)絡(luò)輿情監(jiān)測指標(biāo)體系。
1 網(wǎng)絡(luò)輿情監(jiān)測來源
網(wǎng)絡(luò)信息的來源不斷趨于多樣化,從傳統(tǒng)的新聞網(wǎng)站、博客論壇,發(fā)展到微博、微信等社會化網(wǎng)絡(luò)應(yīng)用[2]。準(zhǔn)確把握輿情態(tài)勢,防止監(jiān)測分析片面化,需要增加信息來源范圍。然而,輿情監(jiān)測難以捕獲所有網(wǎng)絡(luò)信息,網(wǎng)絡(luò)輿情的來源選擇就顯得非常重要。在網(wǎng)絡(luò)上,表現(xiàn)為圍繞新聞、事件、問題與個案等產(chǎn)生的網(wǎng)絡(luò)信息。網(wǎng)絡(luò)輿情的信息來源選擇主要包括:
(1)主流媒體新聞網(wǎng)站。網(wǎng)絡(luò)新聞是民眾獲取信息的重要來源,特別是主流媒體的新聞。重大性與突發(fā)性輿情都會及時出現(xiàn)在主流媒體,聚集大量網(wǎng)民跟帖評論,是輿情的重要來源與傳播源頭。(2)論壇。在網(wǎng)絡(luò)社區(qū)中,網(wǎng)民會發(fā)出具有個人觀點看法的各類信息。在輿情監(jiān)測工作中,接觸到的近半信息都來自于各種論壇。(3)博客。博客是個人分享、交流思想知識的空間,會對熱點和新聞事件、特定話題和現(xiàn)象發(fā)表個人評論,是輿情信息的重要載體之一。博客數(shù)量眾多,主要采集專家、知名人物的博客及網(wǎng)民回復(fù)。(4)視頻網(wǎng)站。視頻網(wǎng)站是社會生活和事件的記錄與者,并且大多視頻網(wǎng)站提供給留言功能,比如優(yōu)酷、愛奇藝等。視頻信息鮮活,網(wǎng)民會分享觀感看法與態(tài)度,視頻標(biāo)題與描述信息為輿情數(shù)據(jù)的整理分析提供了可能和便利。以往工作容易忽視這類輿情載體,而實際中一些輿情事件會較早通過視頻網(wǎng)站傳播。輿情監(jiān)測工作需要重視視頻信息的價值,及時采集抽取其中的有價值信息。(5)社交媒體。在社交媒體應(yīng)用上,國內(nèi)主要是微博和微信。微博相對數(shù)據(jù)開放,數(shù)據(jù)量巨大,很難在較短的輪詢時間窗口完成采集遍歷。所以,與傳統(tǒng)博客類似,選擇其中的部分微博。微信主要限制在個人通訊范疇,主要將微信公眾號作為輿情信息來源。另外,一些網(wǎng)站由于贏利、點擊量等原因,有意甚至惡意炒作負面信息。所以,要區(qū)分標(biāo)識這類信息來源。同時,在采集器設(shè)置上進行一定限制和過濾,避免采集處理過多無效無關(guān)數(shù)據(jù)。
2 監(jiān)測指標(biāo)構(gòu)建原則
網(wǎng)絡(luò)輿情指標(biāo)體系的構(gòu)建原則應(yīng)包括:(1)主題性。具體的輿情工作具有明確的服務(wù)對象,其輿情內(nèi)容具有鮮明的主題、行業(yè)或領(lǐng)域性質(zhì)。輿情監(jiān)測的目的是及時識別問題與風(fēng)險。因此,輿情指標(biāo)應(yīng)對各類信息做出靈敏響應(yīng)。(2)可靠性。指標(biāo)的選取要有相對可靠性與穩(wěn)定性,確保指標(biāo)的使用在時間上有延續(xù)性[1]。(3)系統(tǒng)性。網(wǎng)絡(luò)輿情監(jiān)測分析工作是一項十分復(fù)雜的過程,涉及內(nèi)容眾多。指標(biāo)體系一定要盡量全面完整形成整體,覆蓋輿情工作流程,從多層次多角度揭示網(wǎng)絡(luò)輿情特征。(4)實用性。輿情監(jiān)測指標(biāo)必須反映輿情演化趨勢與客觀規(guī)律,符合網(wǎng)絡(luò)輿情工作需求與相關(guān)流程,便于分析和引導(dǎo)輿情。同時,指標(biāo)的計算分析結(jié)果要盡量便于理解與解釋說明,為輿情簡報等工作提供必備的數(shù)據(jù)支持。
3 監(jiān)測指標(biāo)體系
(1)主題聚合
按照內(nèi)容相關(guān)度準(zhǔn)確關(guān)聯(lián)聚合輿情信息,是準(zhǔn)確把握輿情整體走向、媒體與網(wǎng)民言論態(tài)度的前提。主題聚合即指依據(jù)信息內(nèi)容實現(xiàn)信息的分類與聚類,是輿情話題發(fā)現(xiàn)與話題追蹤的基本支撐。從技術(shù)實現(xiàn)角度,主題聚合涉及信息內(nèi)容分析,大多都是基于詞語匹配的聚分類方法實現(xiàn)輿情話題發(fā)現(xiàn)與追蹤等主題聚合功能。然而,文本中存在大量詞形不同,但意義關(guān)聯(lián)的近義詞、同義詞與相關(guān)詞,內(nèi)容相同或相近的新聞、帖文會出現(xiàn)在不同的頁面與帖文。輿情信息中包括大量短文本,特別是網(wǎng)民回帖評論,存在明顯的語義特征稀疏問題。分類體系只限于關(guān)鍵詞本身,不具備主題詞的語義描述,容易影響聚分類的準(zhǔn)確率與召回率,主題聚合指數(shù)的性能會受到明顯限制。一個解決方法是構(gòu)建語義知識,并擴展語義計算模型提高分析的準(zhǔn)確程度;利用當(dāng)前的最新技術(shù),比如深度學(xué)習(xí)方法,通過構(gòu)建具有多隱層的學(xué)習(xí)模型,以海量輿情數(shù)據(jù)作為訓(xùn)練集,學(xué)習(xí)擴展語義特征,提升內(nèi)容分析的準(zhǔn)確程度。
(2)熱度
輿情熱度衡量輿情被關(guān)注的程度與傳播范圍。輿情熱度主要包括輿情關(guān)注度、傳播覆蓋度、輿情權(quán)威度等二級指標(biāo)。一些研究提出地域關(guān)注度指標(biāo)[3],但網(wǎng)民IP地址對于第三方采集系統(tǒng)是難以大范圍直接獲取的。其中,輿情關(guān)注度采用主題內(nèi)容下輿情信息的關(guān)注數(shù)量衡量,具體是篇目、瀏覽、回復(fù)數(shù)量的綜合加權(quán)值,一般以線性累加和公式計算。該指標(biāo)主要從網(wǎng)民角度,衡量輿情內(nèi)容的被關(guān)注程度和感興趣情況。覆蓋度是指主題信息在采集來源站點中出現(xiàn)的比例。輿情信息來源站點是經(jīng)過篩選的,代表輿情在整個監(jiān)測范圍內(nèi)的傳播程度。由于信息來源規(guī)模與特點不同,所以需要對來源類型預(yù)設(shè)參數(shù)再進行比例計算。權(quán)威度指輿情信息的來源權(quán)威度,比如人民網(wǎng)的權(quán)威度較高而小型商業(yè)新聞網(wǎng)站的權(quán)威度低,知名公眾人物的博客權(quán)威度較高。權(quán)威度通過預(yù)設(shè)參數(shù)區(qū)分主流媒體、論壇、博客、微信公眾號的來源指標(biāo)。最后,將以上二級指標(biāo)綜合加權(quán),進行標(biāo)準(zhǔn)化處理得到主題熱度。
(3)內(nèi)容傾向
內(nèi)容傾向是信息內(nèi)容中包含的觀點態(tài)度,內(nèi)容傾向指標(biāo)用于統(tǒng)計輿情信息中的各類情感傾向類型數(shù)量。傾向類型主要分為兩類:正面(褒、支持)、負面(貶、反對)。文本中的句子不僅包括情感詞,而且包含一些具有較強情感色彩的形容詞、程度副詞、感嘆詞、否定詞等影響判斷情感傾向的因素。區(qū)分輿情的傾向性,需要構(gòu)建情感詞庫作為智力支撐,才能提高情感判斷的范圍與準(zhǔn)確性。比如鄙視、侵犯屬于負面動詞,而擁護、贊揚屬于正面動詞,安全、漂亮屬于正面形容詞。“鄙視這種言論”,“這種裝置不安全”,可以依據(jù)其中的動詞形容詞判斷情感傾向。
傳統(tǒng)手工構(gòu)建的情感詞典覆蓋面有限,難以滿足實際運用??紤]到技術(shù)實施的快速性、易用性以及語義問題。借助已有情感詞典構(gòu)建基本情感詞庫,運用Word2Vector工具將語料庫(比如已采集輿情信息、維基百科知識)轉(zhuǎn)換為詞向量,計算其他詞語與已知情感詞的語義距離,構(gòu)建情感詞特征空間[4]。通過擴展情感詞庫,判斷廣泛的情感傾向。輿情信息中的回帖或評論大多由較短句構(gòu)成,其中句子s中的情感詞表示為,s的情感類型。其中,表示詞wi的傾向類型。如果wi前面否定詞個數(shù)是奇數(shù),則反置wi的極性傾向。將傾向性判斷問題轉(zhuǎn)化為文本分類問題,這樣可以有效判斷各種長短文本的情感傾向,得到主題信息的情感態(tài)度頻率分布與內(nèi)容傾向趨勢。
(4)預(yù)警
網(wǎng)絡(luò)輿情表現(xiàn)為海量的網(wǎng)絡(luò)信息,輿情變化程度對應(yīng)相應(yīng)數(shù)據(jù)的特征與趨勢。所以,監(jiān)測分析數(shù)據(jù)變化可以描述輿情的影響趨勢,對網(wǎng)絡(luò)輿情進行危機預(yù)警。當(dāng)前,網(wǎng)絡(luò)輿情事件處理存在應(yīng)急準(zhǔn)備不足,報送時間不及時,突發(fā)事件響應(yīng)速度慢等不足。一個重要原因是網(wǎng)絡(luò)輿情預(yù)警能力相對較弱。輿情監(jiān)測需要增強輿情信息的分析和預(yù)測,將工作重點從單純的收集有效數(shù)據(jù),向深入研判與預(yù)測輿情的趨勢方向拓展。常用的思路與方法是:預(yù)設(shè)時間窗口,獲取主題信息數(shù)量,內(nèi)容敏感程度,負面傾向性評價數(shù)量比例,傳播范圍等基本特征與指標(biāo)。計算歷史窗口下的信息增長率、增長梯度等變化程度,評估輿情信息的數(shù)據(jù)變化趨勢并制定預(yù)警級別。進而,以數(shù)據(jù)挖掘為核心技術(shù),應(yīng)用不同的數(shù)據(jù)模型方法,比如傳統(tǒng)的多元回歸、貝葉斯網(wǎng)絡(luò)、決策樹、支撐向量機等預(yù)測輿情發(fā)展趨勢。如果大于某閾值或符合預(yù)定模式,認為需要預(yù)警,即從海量網(wǎng)絡(luò)數(shù)據(jù)中預(yù)判出潛在的危機隱患。
參考文獻
[1] 王鐵套,王國營,陳越. 基于模糊綜合評價法的網(wǎng)絡(luò)輿情預(yù)警模型[J]. 情報雜志,2012, 31(6):47-51.
[2] IRI網(wǎng)絡(luò)口碑研究咨詢機構(gòu)介紹及研究方法[EB/OL]. http:///wiki/網(wǎng)絡(luò)輿情指數(shù)體系.
[3] 李雯靜,許鑫,陳正權(quán). 網(wǎng)絡(luò)輿情指標(biāo)體系設(shè)計與分析[J]. 情報科學(xué),2009 (7):986-991.
[4] 黃仁,張衛(wèi). 基于word2vec的互聯(lián)網(wǎng)商品評論情感傾向研究[J]. 計算機科學(xué),2016(6):387-389.
關(guān)鍵詞:網(wǎng)絡(luò)輿情 網(wǎng)絡(luò)輿情分析與監(jiān)測
當(dāng)前,網(wǎng)絡(luò)已成為反映社會輿情的重要途徑。網(wǎng)絡(luò)輿情已滲透到社會的各個層面,成為了一股強大的、不容忽視的輿論力量。因此,如何識別和分析網(wǎng)絡(luò)輿情信息,如何對輿情進行監(jiān)測和有效引導(dǎo),對于維護當(dāng)今社會的穩(wěn)定和發(fā)展具有重要的現(xiàn)實意義。
1 我國網(wǎng)絡(luò)輿情現(xiàn)狀
由于當(dāng)前我國正處于社會變革和轉(zhuǎn)型的關(guān)鍵時期,各種社會矛盾日益凸現(xiàn),各種社會問題日益受到人們的關(guān)注,越來越多的人們愿意通過各類信息渠道表達自己的個人觀點和想法。隨著移動互聯(lián)時代到來,借助移動終端和各種網(wǎng)絡(luò)互動軟件,人們可以隨時隨地的發(fā)表觀點,報道事件,尤其在突發(fā)公共事件中,任何一個人都可以對事件進行現(xiàn)場報道,社會輿論的生成機制發(fā)生了深刻的變革。
當(dāng)前我國網(wǎng)絡(luò)輿論場的強度,在世界居首。2011年,我國網(wǎng)絡(luò)輿論力度驟然增強,上網(wǎng)發(fā)聲的階層越來越廣泛,網(wǎng)民高度警覺和關(guān)注著現(xiàn)實社會的各種熱點事件。特別是“7?23”動車追尾事故和郭美美事件等敏感事件,造成網(wǎng)上網(wǎng)下人聲鼎沸,成為當(dāng)時最大的網(wǎng)絡(luò)熱點。
因此,在當(dāng)前復(fù)雜的社會環(huán)境下,加強輿情信息工作,及時掌握輿情動態(tài),積極引導(dǎo)社會輿論,是維護社會穩(wěn)定和安全的重要舉措。而研究和分析網(wǎng)絡(luò)輿情信息,明確輿情信息的來源是前提和基礎(chǔ)。目前,微博、微信、即時通訊軟件、博客、跟帖與網(wǎng)絡(luò)留言、網(wǎng)絡(luò)社群和網(wǎng)絡(luò)社區(qū)等是傳播網(wǎng)絡(luò)輿情信息的最主要途徑。
2 網(wǎng)絡(luò)輿情信息主要包含的內(nèi)容
2.1 重大事件。所有的重大事件的發(fā)生都會在很短的時間內(nèi)迅速在網(wǎng)絡(luò)上傳播開來,與事件發(fā)生有關(guān)的各個報道,新聞,各方面的消息和熱點都會在各個網(wǎng)站上鋪天而來,在短時間內(nèi)就會出現(xiàn)大量的評論,跟貼和發(fā)帖等等。
2.2 突發(fā)事件。量變到質(zhì)變的過程是突發(fā)事件產(chǎn)生的一個重要階段,例如“日本大地震后我國的搶鹽事件”,在發(fā)生初期,并沒有引起太多人的關(guān)注,只是在民間出現(xiàn)了許多的“謠言”,但其迅速擴散,就會影響到廣大群眾,并有可能造成整個社會的恐慌。
2.3 國家的經(jīng)濟工作和重點工作。網(wǎng)絡(luò)上的主流的意識形態(tài)還是需要各個新聞媒體來傳播,需要政府和組織來引導(dǎo),繼而形成被大眾所接受的健康向上的主流輿論,政府部門要引導(dǎo)人民群眾,最大限度地在廣大人民群眾中形成共識,來統(tǒng)一不同領(lǐng)域,不同階級中的意識和信念,形成了社會的主流言論。
2.4 一些關(guān)系國際民生的重大政策的改革更容易引起人們的廣泛關(guān)注,形成網(wǎng)絡(luò)輿情熱點事件。
2.5 和大多數(shù)人民自身利益密切相關(guān)的事件。因為輿情的一個重要作用就是人民群眾對自身利益的訴求表達的一個重要渠道。在群眾利益受到傷害時,他自然需要一個平臺來尋求幫助和進行訴求,網(wǎng)絡(luò)就是這樣一個很好的輿情平臺。
3 網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)的設(shè)計
網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)包含三個層次,自下而上分別為信息采集層、信息挖掘?qū)?、信息服?wù)層。每一層為其上一層提供基礎(chǔ)數(shù)據(jù),以及為進一步分析奠定基礎(chǔ)。其系統(tǒng)結(jié)構(gòu)如下圖所示:
■
網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)結(jié)構(gòu)圖
3.1 輿情信息采集層。信息采集層的基本任務(wù)是從數(shù)據(jù)格式多種多樣的網(wǎng)頁中采集出其蘊含的豐富的、各種各樣的輿情信息。采集層的最下層為信息采集的目標(biāo)網(wǎng)站,如新浪、網(wǎng)易、搜狐、新華網(wǎng)、人民網(wǎng)、鳳凰網(wǎng)、貓撲、天涯社區(qū)等;中間層包含爬蟲管理模塊、預(yù)處理模塊、分類存儲模塊,爬蟲管理模塊主要采用網(wǎng)絡(luò)爬蟲技術(shù)獲取互聯(lián)網(wǎng)上的輿情信息;最上層將采集的文本信息分為Web內(nèi)容信息、Web結(jié)構(gòu)和使用記錄信息兩部分內(nèi)容。
3.2 輿情信息挖掘?qū)?。開展輿情信息深度挖掘,發(fā)現(xiàn)的熱點問題、分析其態(tài)度傾向、處置構(gòu)成危害的敏感信息是互聯(lián)網(wǎng)輿情信息挖掘?qū)拥闹饕蝿?wù)。它通過分析輿情信息采集層提供的數(shù)據(jù),能夠檢測網(wǎng)絡(luò)話題、分析民眾的態(tài)度傾向、監(jiān)測網(wǎng)絡(luò)敏感信息、評估輿情態(tài)勢等,為輿情信息服務(wù)層服務(wù)相關(guān)部門提供客觀依據(jù),是輿情信息處理的核心內(nèi)容。主要包含文本信息預(yù)處理模塊、網(wǎng)絡(luò)話題檢測模塊、輿情傾向性分析模塊、敏感信息監(jiān)控模塊。
3.3 輿情信息服務(wù)層。輿情信息服務(wù)層是輿情信息挖掘的目標(biāo),其輔助相關(guān)部門把握輿情動態(tài)、關(guān)注民情民意、做出正確決策。它一方面提供輿情信息摘要,為相關(guān)部門快速了解輿情動態(tài)、掌握輿情事件的來龍去脈提供便利,提高工作效率;另一方面綜合考慮話題熱度、傳播擴散度、態(tài)度傾向程度、內(nèi)容敏感度、者影響力等輿情評價指標(biāo),并做出輿情評測、適時輿情預(yù)警信號,為相關(guān)部門及時做出反應(yīng)提供幫助。
參考文獻:
[1]王磊.公安網(wǎng)絡(luò)輿情分析系統(tǒng)的研究[D].北京交通大學(xué),2008(06).
關(guān)鍵詞:網(wǎng)絡(luò)輿情;監(jiān)測引導(dǎo);Web數(shù)據(jù)挖掘
中圖分類號:C93 文獻標(biāo)志碼:A 文章編號:1673—291X(2012)28—0227—03
一、時代背景
互聯(lián)網(wǎng)時代是人類歷史上一個空前偉大的技術(shù)革命時代?,F(xiàn)代信息技術(shù)、通訊傳播技術(shù)、網(wǎng)絡(luò)技術(shù)等眾多現(xiàn)代化的傳播技術(shù)已滲透到社會生活的各個領(lǐng)域?;ヂ?lián)網(wǎng)廣泛性、即時性、開放性、共享性和互動性的特點及豐富多彩、方便實用的應(yīng)用形式?jīng)Q定其日益成為反映社情民意的重要陣地,網(wǎng)上熱點層出不窮,網(wǎng)絡(luò)輿情對國家事務(wù)、公共事務(wù)決策的影響力也日益加大。歷史原因曾使中國長期處于封閉狀態(tài),國內(nèi)關(guān)于輿情的研究起步較晚,目前迫切需要提升與之相應(yīng)的理論和技術(shù)支持。輿情分析與監(jiān)測是信息深加工,以往“剪報”式低價值粗加工的信息服務(wù),雖可按主題范圍搜集,但提供的結(jié)果僅局限于單一的信息內(nèi)容,傳統(tǒng)的單一線性收集方式已不能夠滿足人類大腦發(fā)散思維的需要。
二、網(wǎng)絡(luò)輿情監(jiān)測引導(dǎo)的技術(shù)支撐
在浩瀚的網(wǎng)絡(luò)中,政府如果僅僅依靠人工完成網(wǎng)絡(luò)海量信息的收集和處理是不現(xiàn)實的。而Web數(shù)據(jù)挖掘能快速、準(zhǔn)確的獲得有價值的網(wǎng)絡(luò)信息,利用歷史數(shù)據(jù)預(yù)測未來的行為以及從海量數(shù)據(jù)中發(fā)現(xiàn)知識。它克服了普通數(shù)據(jù)庫管理系統(tǒng)無法發(fā)現(xiàn)數(shù)據(jù)中隱藏的關(guān)系和規(guī)則及根據(jù)現(xiàn)有數(shù)據(jù)預(yù)測未來的弱點。Web數(shù)據(jù)挖掘的出現(xiàn)為自動和智能的把互聯(lián)網(wǎng)上的海量數(shù)據(jù)轉(zhuǎn)化為有用信息和知識提供了條件??捎行У貜腤eb獲取并分析相關(guān)輿情,達到監(jiān)測、輔助決策和引導(dǎo)的目的,為網(wǎng)絡(luò)輿情預(yù)警提供了極大的幫助。
(一)Web數(shù)據(jù)挖掘
Web數(shù)據(jù)挖掘由傳統(tǒng)數(shù)據(jù)庫領(lǐng)域的數(shù)據(jù)挖掘技術(shù)演變而來。數(shù)據(jù)挖掘是指從大型數(shù)據(jù)庫的數(shù)據(jù)中提取出人們感興趣的、可信的、隱含的、明顯未知的、新穎的、有效的、具有潛在用處的信息的過程[1]。隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,數(shù)據(jù)挖掘技術(shù)被運用到網(wǎng)絡(luò)上,并根據(jù)網(wǎng)絡(luò)信息的特點發(fā)展出新的理論與方法,演變成網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)。Web數(shù)據(jù)挖掘是指對目標(biāo)樣本進行分析提取特征,以此為依據(jù)從Web文檔和Web活動中抽取人們感興趣、潛在的有用模式和隱藏的信息,所挖掘出的知識能夠用于信息管理、查詢處理、決策支持、過程控制等方面。
根據(jù)挖掘?qū)ο蟮牟煌?,可將Web數(shù)據(jù)挖掘技術(shù)分為三大類[2]:Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘和Web使用挖掘。Web內(nèi)容挖掘是指從Web上檢索資源,從相關(guān)文件內(nèi)容及描述信息中獲取有價值的潛在信息。根據(jù)處理對象的不同,Web內(nèi)容挖掘分為文本挖掘和多媒體挖掘。Web結(jié)構(gòu)挖掘的目標(biāo)是Web文檔的鏈接結(jié)構(gòu),目的在于揭示蘊含于文檔結(jié)構(gòu)中的信息,主要方法是通過對Web站點的結(jié)構(gòu)進行分析、變形和歸納,將Web頁面進行分類,以利于信息的搜索。結(jié)構(gòu)挖掘的重點在于鏈接信息。Web使用挖掘是從服務(wù)器訪問日志、用戶策略、用戶對話和事物處理信息中得到用戶的訪問模式和感興趣的信息,利用這種方法,可以獲知Web使用者的行為偏好,從而預(yù)測其行為。
(二)Web挖掘過程
Web數(shù)據(jù)挖掘依然遵循數(shù)據(jù)挖掘的研究思路,挖掘過程分為四個階段:數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、模式發(fā)現(xiàn)和模式分析(如圖1所示)[3]。
1.數(shù)據(jù)收集。網(wǎng)絡(luò)信息的收集是網(wǎng)絡(luò)輿情監(jiān)測的源頭,其廣度和深度決定了監(jiān)測效果。對于明確主題的輿情信息采集,可以采用搜索引擎方法。由于各個現(xiàn)存搜索引擎索引數(shù)據(jù)庫的構(gòu)造方法不同,其索引數(shù)據(jù)不盡完整,所以應(yīng)將多個單搜索引擎搜索結(jié)果進行整合、調(diào)用、控制和優(yōu)化。搜索中可以以寬度優(yōu)先、深度優(yōu)先或啟發(fā)方式循環(huán)地在互聯(lián)網(wǎng)中發(fā)現(xiàn)相關(guān)信息,可將網(wǎng)絡(luò)空間按域名、IP地址或國別域名劃分為獨立子空間詳細搜索;或以信息類型為劃分,如HTML格式、XML格式、FTP文件、Word文檔、newsgroup文章和各種音、視頻文件等。輿情信息檢索結(jié)果可按不同維度展現(xiàn),包括按內(nèi)容分類、輿情分類、相關(guān)人物、相關(guān)機構(gòu)、相關(guān)地區(qū)、正負面分類等。每個維度下把搜索結(jié)果自動分類統(tǒng)計展示,以便短時間內(nèi)檢索到精確信息。
2.數(shù)據(jù)預(yù)處理。因原始Web訪問數(shù)據(jù)的文件格式是半結(jié)構(gòu)化的,包含不完整、冗余、錯誤的數(shù)據(jù),需進行提取、分解、合并,轉(zhuǎn)化為適合挖掘的格式,保存到關(guān)系型數(shù)據(jù)庫表或數(shù)據(jù)倉庫中,等待進一步處理。數(shù)據(jù)預(yù)處理可改進數(shù)據(jù)質(zhì)量,提高后續(xù)輿情挖掘過程的精度和性能。對采集到的輿情進行初步加工處理,如格式轉(zhuǎn)換、數(shù)據(jù)清理、數(shù)據(jù)統(tǒng)計,對于新聞評論,需過濾無關(guān)信息,保存新聞標(biāo)題、出處、時間、內(nèi)容、點擊次數(shù)、評論人、評論內(nèi)容和評論數(shù)量等。對于論壇,需記錄帖子的標(biāo)題、發(fā)言人、時間、內(nèi)容、回帖內(nèi)容、回帖數(shù)量等,最后形成格式化信息。條件允許時甚至可直接對網(wǎng)站服務(wù)器的數(shù)據(jù)庫進行操作。
3.模式發(fā)現(xiàn)。利用數(shù)據(jù)挖掘的算法可發(fā)現(xiàn)用戶聚類、頁面聚類、頻繁訪問頁組、頻繁訪問路徑等隱藏的用戶訪問模式。若在挖掘用戶瀏覽模式過程中發(fā)現(xiàn)選擇的數(shù)據(jù)或?qū)傩杂衅?,或挖掘技術(shù)達不到預(yù)期結(jié)果,需根據(jù)反饋結(jié)果不斷重復(fù)以上過程,通過數(shù)據(jù)挖掘,創(chuàng)建和更新用戶模式庫。模式發(fā)現(xiàn)可應(yīng)用許多相關(guān)領(lǐng)域的方法,但需針對Web數(shù)據(jù)挖掘的特點做出相應(yīng)的改進。
關(guān)鍵詞:高校BBS;網(wǎng)絡(luò)輿情;監(jiān)測;熱點分析
中圖分類號:TP391 文獻標(biāo)識碼:A 文章編號:1009-3044(2013)16-3688-04
1 概述
隨著互聯(lián)網(wǎng)的普及和高校信息化的建設(shè),各大高校都擁有自己的BBS網(wǎng)絡(luò),學(xué)生在網(wǎng)絡(luò)上進行交流,發(fā)表自己的觀點和意見,表達思想等,輿情的影響和規(guī)律都不容忽視。然而,對敏感和突發(fā)事件的不實言論和惡意煽動,會誤導(dǎo)和欺騙學(xué)生,擴大學(xué)生的不滿情緒,影響和破壞校園的和諧穩(wěn)定。因此,有必要對高校BBS網(wǎng)絡(luò)涉及意識形態(tài)安全的議題和言論進行有效地監(jiān)管。采用數(shù)據(jù)挖掘技術(shù),對互聯(lián)網(wǎng)輿情進行分析、整理,才能建立起全面、有效、快速的輿情監(jiān)測預(yù)警機制,使高校網(wǎng)絡(luò)得以健康、快速的發(fā)展,成為當(dāng)前研究和應(yīng)用的熱點。
在目前的校園網(wǎng)絡(luò)輿情監(jiān)測應(yīng)用中,還沒有比較成熟的網(wǎng)絡(luò)輿情產(chǎn)品,因此,針對高校BBS網(wǎng)絡(luò)的特點,結(jié)合高校網(wǎng)絡(luò)輿情監(jiān)控機制和引導(dǎo)策略,開發(fā)高校網(wǎng)絡(luò)輿情監(jiān)測平臺有很大的現(xiàn)實意義和應(yīng)用價值。
2 輿情熱點分析方法
2.1網(wǎng)絡(luò)輿情的形成
2.2主題關(guān)注度分析
主題關(guān)注度是指過去某一時間段內(nèi),輿情主題被關(guān)注的程度,用該主題的相關(guān)帖子回復(fù)數(shù)或與該主題的相關(guān)網(wǎng)頁數(shù)進行衡量[1]。在進行輿情分析時,要統(tǒng)計某一主題或事件被關(guān)注的程度,首先要明確事件或話題本身所處的階段;其次,應(yīng)該在分析某一輿情熱點之前對其進行科學(xué)的類型界定。熱點事件主要分為突發(fā)自然災(zāi)害事件、生產(chǎn)安全事故、、公共衛(wèi)生事件、公權(quán)力形象、司法事件、經(jīng)濟民生事件、社會思潮、境外涉華突發(fā)事件等。
2.3 主題熱度分析
主題熱度分析即在某一時同段內(nèi)相對更加被關(guān)注或集中關(guān)注的輿情主題,用該主題的關(guān)注度進行衡量。統(tǒng)計所有輿情主題的關(guān)注度,在某一時間段內(nèi),對所有設(shè)為熱點的主題按關(guān)注度的降序進行排列,生成某一時間段內(nèi)的熱點主題排行榜。排在榜首的主題網(wǎng)民的關(guān)注度最高,也就是熱點問題所在。
3 網(wǎng)絡(luò)輿情監(jiān)測關(guān)鍵技術(shù)
網(wǎng)絡(luò)輿情監(jiān)測技術(shù)主要集中在兩個方面,一是話題檢測與跟蹤技術(shù)(Topic Detection and Tracking),二是文體傾向性分析技術(shù)(Sentiment Classification)技術(shù)。主題檢測與跟蹤作為輿情分析的重要技術(shù)手段,是近十年自然語言處理和信息檢索領(lǐng)域的熱點研究課題[2]。要對高校網(wǎng)絡(luò)輿情進行監(jiān)測,就是運用網(wǎng)絡(luò)爬蟲、文本挖掘和文本情感分析技術(shù),實現(xiàn)熱點話題發(fā)現(xiàn)、話題跟蹤、關(guān)聯(lián)分析、敏感信息監(jiān)測的功能。
3.1 主題爬蟲技術(shù)
3.1.1網(wǎng)絡(luò)爬蟲的分類
網(wǎng)絡(luò)爬蟲也叫網(wǎng)絡(luò)蜘蛛,是一個按照一定的規(guī)則自動提取網(wǎng)頁的程序,這種技術(shù)可以檢查站點上所有的鏈接是否有效,并把相關(guān)的數(shù)據(jù)保存下來,成為搜索引擎[3]。
通用網(wǎng)絡(luò)爬蟲首先把網(wǎng)絡(luò)上的HTML文檔使用超鏈接連接起來,就像織了一張網(wǎng),爬蟲程序從一個或若干初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL列表,順著這張網(wǎng),不斷的抓取網(wǎng)頁,將內(nèi)容抽取出來,直到滿足系統(tǒng)的停止條件為止。
聚焦爬蟲技術(shù)是根據(jù)一定的網(wǎng)頁分析算法地過濾與主題無關(guān)的鏈接,保留有用的鏈接放到待抓取的隊列中,通過一定的搜索策略從隊列中選擇下一步要抓取的URL,重復(fù)以上步驟,直到滿足程序的停止條件。
3.1.2爬行算法
基于主題的聚焦爬蟲搜索策略主要有人工預(yù)選策略、過濾策略、啟發(fā)式搜索策略。人工預(yù)選策略是由人工預(yù)先瀏覽各個站點,從中選出與主題相關(guān)的網(wǎng)站,然后再用爬蟲程序?qū)@類網(wǎng)站進行持續(xù)的訪問;過濾策略是將爬蟲抓取下來的網(wǎng)頁,先進行過濾,刪除與主題不相關(guān)的頁面,保留相關(guān)頁面;啟發(fā)式策略是考慮特定問題可應(yīng)用的知識地優(yōu)先選擇合適的操作算子,盡量減少不必要的搜索,以搜索效率。下面介紹比較有代表性的算法Fish Search算法。
Fish Search算法是模擬自然界中的魚群的行為來進行最優(yōu)搜索,依據(jù)自然規(guī)律,魚群總是朝一個方向流動來尋找食物并繁殖,子代魚群的數(shù)量和強壯程度取決于能找到的食物的數(shù)量。在Fish Search算法中,每一個URL看作是一條魚,當(dāng)一個Web頁面被抓取后,它包含的新的UEL也同時被解析出來。其中,有用的URL的數(shù)量取決于該頁面是否與主題相關(guān)以及它本身包含的鏈接數(shù)量。當(dāng)增加一個文檔,魚就繁殖一定數(shù)量的后代,若文檔相關(guān)也就是指魚兒找到了食物,可以繁殖出更多的后代,則再增加此文的鏈接深度;若文檔不相關(guān),魚就越來越少,后代也越少。在某一方向上經(jīng)過幾條鏈接仍未找到相關(guān)文檔,就表明此魚已死,就不再沿著這個方向進行查找了,將此URL加入到完成隊列中。若一條魚讀取文檔的時間過長,說明該魚已進入污染區(qū),則盡量少沿著這條URL搜索,以免出現(xiàn)死循環(huán)。
Fish Search算法不像傳統(tǒng)的搜索算法按照URL在父頁面中出現(xiàn)的順序來依次搜索,而是動態(tài)的根據(jù)網(wǎng)頁的搜索深度值來決定搜索的順序,實現(xiàn)了可能的主題相關(guān)網(wǎng)頁優(yōu)先搜索。該算法的不足之處在于相關(guān)度的計算過于簡單,容易使算法過早陷入局部最優(yōu)的陷阱,導(dǎo)致整體回報率不高[4]。
3.2 文本挖掘技術(shù)
3.2.1文本表示
文本表示包括兩個方面的問題:文本的表示和計算,文本的表示是指文本特征的提取,計算指權(quán)重的定義和語義相似度的定義。
目前,文本的表示通常采用布爾模型、向量空間模型、潛在語義模型和概率模型文本表示模型,用某種特定結(jié)構(gòu)去表達文本的語義。
3.2.2文本相似度計算
3.2.3文本聚類和分類
文本聚類通常對已有的文本集合進行聚類,文本聚類技術(shù)是主題檢測技術(shù)的基礎(chǔ),它的目標(biāo)是將文檔集合分成若干個簇,要求同一簇內(nèi)文檔內(nèi)容的相似度盡可能的大,而不同簇之間的相似度則盡可能的小。
經(jīng)過多年研究,聚類算法已經(jīng)很成熟,主要可分為五類:以k-means為代表的劃分方法,利用同一聚類中的對象相似度高,不同類的對象相似度低的特性進行分類;將類別看作是在層次的層次聚類方法,有兩種分類方法:整合法和分裂法;主要考慮數(shù)據(jù)空間的密度、連通性和邊界區(qū)的基于密度的方法;將數(shù)據(jù)的分割方法轉(zhuǎn)換成對空間的分割的基于網(wǎng)絡(luò)的算法;在高維空間進行聚類的核聚類算法等。
不管采用哪一種聚類算法,文本聚類的流程如圖2所示,主要有以下步驟:
①將原始文本進行預(yù)處理,抽取詞條,詞條選擇等其他處理;
②抽取文本特征,建立模型,例如向量空間模型、概率模型等其他模型;
③將維度進行約減,需要用到的算法有層次算法、劃分算法等其他算法;
④得到聚類結(jié)果。
3.2.4 關(guān)鍵詞和摘要提取
由于網(wǎng)絡(luò)上的文檔信息量比較龐大,如果直接對全文進行檢索,其檢索的速度會很慢,而且檢索的效率不高,經(jīng)常檢索出無關(guān)的內(nèi)容。因此為了提高檢索質(zhì)量和效率,必須對文檔建立關(guān)鍵詞和摘要。關(guān)于關(guān)鍵詞自動提取的方法主要有主要包括基于統(tǒng)計、基于語義理解和基于機器學(xué)習(xí)三種方式。
關(guān)鍵詞的抽取過程非常復(fù)雜,設(shè)計思路是首先建立一個通用的主題詞表,然后基于這個主題表對處理后的頁面文檔進行主題詞的抽取工作,主題詞的抽取過程主要包括預(yù)處理、選擇候選詞、計算關(guān)鍵詞權(quán)重、輸出關(guān)鍵詞等幾個主要步驟。
4 實驗結(jié)果
5 結(jié)束語
本文立足于高校網(wǎng)絡(luò)輿情監(jiān)測的實際需求,研究了高校輿情監(jiān)控系統(tǒng)的關(guān)鍵技術(shù):網(wǎng)絡(luò)爬蟲、文本挖掘等多種信息技術(shù)。在多種技術(shù)的支撐下,開發(fā)出一套適用于高校BBS網(wǎng)絡(luò)的輿情監(jiān)測平臺,實現(xiàn)了對新聞的實時跟蹤,校園熱點話題的監(jiān)控、敏感信息的監(jiān)測等功能是可以是實現(xiàn)的,這項研究還需要進一步深入。
參考文獻:
[1] 林興發(fā),肖照.基于大學(xué)生BBS論壇的輿情熱點分析——以武漢大學(xué)珞珈山水論壇為例[J].現(xiàn)代商貿(mào)工業(yè). 2010(18):188-189.
[2] Pimwadee Chaovalit,Lina Zhou,Movie Review Mining:a Comparison between Supervised and Unsupervised Classification Approaches,In Proceedings of the 38th Hawaii International Conference on System Sciences,2005.
[3] PINKERTON B.Finding what people want:Experiences with theweb crawler[A].Proceedings of the SecondWorld2WideWeb conference[C].Chicago,Illinois,1994.