信息檢索學(xué)術(shù)論文(2)
信息檢索學(xué)術(shù)論文
信息檢索學(xué)術(shù)論文篇二
優(yōu)惠信息檢索與分析
摘 要 處在一個(gè)信息時(shí)代,越來越多復(fù)雜且紊亂的信息充斥著我們的生活。如何從繁多散亂的信息中找到顧客需要的、感興趣的優(yōu)惠信息成為一個(gè)難點(diǎn)。我們的課題致力于尋找局部地區(qū)的優(yōu)惠信息并將其匯總在一個(gè)平臺(tái)上,通過顧客的點(diǎn)擊率等方式挖掘數(shù)據(jù)分析顧客偏好。
關(guān)鍵詞 優(yōu)惠信息;搜索;關(guān)聯(lián)規(guī)則;平臺(tái)
中圖分類號(hào) TP39 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 1674-6708(2016)161-0099-02
在如今的信息時(shí)代,隨著internet網(wǎng)絡(luò)的迅速發(fā)展以及信息化水平不斷的提高,網(wǎng)絡(luò)上產(chǎn)生了許多關(guān)于打折優(yōu)惠的信息。越來越多的復(fù)雜且紊亂的優(yōu)惠信息充斥著我們的生活。大部分人需要并且對(duì)優(yōu)惠信息感興趣,然而目前優(yōu)惠信息是零散分布在各個(gè)地方,沒有集中在一個(gè)地方發(fā)表。這既沒有最大化商家的利益,也沒有造福于顧客。如今如何更好地利用和挖掘出有價(jià)值的優(yōu)惠信息從而更好地服務(wù)于顧客,是它要急需解決的問題。
1 優(yōu)惠信息需求分析
優(yōu)惠信息依靠不同的介質(zhì)大面積存在,而顧客針對(duì)優(yōu)惠信息有不同的需求和偏好,我們通過生活的一些現(xiàn)象,發(fā)現(xiàn)需要將受顧客歡迎的優(yōu)惠信息收集起來,便于顧客查看和選擇。網(wǎng)上和現(xiàn)實(shí)同時(shí)進(jìn)行了一次簡(jiǎn)單的問卷調(diào)查,問卷調(diào)查范圍主要是青年人,采用不同的統(tǒng)計(jì)表達(dá)形式,分析數(shù)據(jù)后得到以下信息。65%的人會(huì)主動(dòng)尋求優(yōu)惠信息,而且大部分人會(huì)知曉優(yōu)惠信息后主要去嘗試,由此可以看出青年人尤其是大學(xué)生財(cái)力不夠,沒有自己的收入或者工資不高。他們出于這些原因會(huì)希望獲得優(yōu)惠信息,不僅是節(jié)省而且可以以有限的財(cái)力來體驗(yàn)更多的生活。其中美食類的優(yōu)惠信息更得大眾歡迎,休閑娛樂類第二,購(gòu)物類第三。大家更多關(guān)注的還是豐富自己的精神生活,提升生活檔次,享受生活。當(dāng)然這也與年輕人自身的偏好有關(guān)。他們生長(zhǎng)于物質(zhì)和精神都更為豐富的社會(huì),比之年長(zhǎng)者更容易接受新事物。
就目前優(yōu)惠信息分布情況來看,基本沒有人或極少數(shù)人認(rèn)為其分布是集中的。大家感受到生活中的優(yōu)惠信息是零散的。而大眾獲取優(yōu)惠信息的渠道多種多樣,最廣泛使用的是通過微信等App發(fā)現(xiàn),其次為朋友告知。調(diào)查發(fā)現(xiàn)微信對(duì)大家的影響越來越深,在生活中的應(yīng)用愈加廣泛。
2 平臺(tái)建立
通過日常觀察和問卷調(diào)查,很多用戶常用微信最為日常工具,因此,建立一個(gè)微信平臺(tái)來發(fā)布我們的優(yōu)惠信息在一定程度上是可行的。
將收集的優(yōu)惠信息分類,歸為美食、休閑娛樂、購(gòu)物等多種類別,類別名稱由編碼代替并定時(shí)發(fā)布在微信平臺(tái)上。有目的性查找優(yōu)惠信息的顧客可以通過選擇不同編碼,進(jìn)入到不同類別的優(yōu)惠信息頁面中去,再可以點(diǎn)擊相關(guān)的推送來查看具體的優(yōu)惠信息內(nèi)容。平臺(tái)上每天會(huì)發(fā)送新的優(yōu)惠信息,可以方便關(guān)注我們平臺(tái)的顧客隨意點(diǎn)擊。在發(fā)布信息的同時(shí),定時(shí)刪除過時(shí)的優(yōu)惠信息,不浪費(fèi)顧客時(shí)間。
在顧客使用我們平臺(tái)的時(shí)候,我們將采用數(shù)據(jù)挖掘等方式來發(fā)現(xiàn)顧客的偏好,之后,我們將在顧客偏好的優(yōu)惠信息上加大收集力度。
3 信息收集
3.1 優(yōu)惠信息要求
通過查找感興趣的優(yōu)惠信息這一途徑,顧客能利用相同的價(jià)值去體驗(yàn)更多的生活感受。為了確保這些優(yōu)惠信息的實(shí)用性,收集到的信息必須具備以下要求。
3.1.1 時(shí)效性
很多優(yōu)惠信息都是伴隨著某種活動(dòng)產(chǎn)生的,例如節(jié)日、店慶等較為隆重的日期,可想而知,這類優(yōu)惠信息必定存在一定的期限,或長(zhǎng)或短,時(shí)間不定。而分享給顧客的時(shí)候必須保證優(yōu)惠信息不過時(shí),在提早發(fā)送消息的同時(shí)還要定期處理過期的優(yōu)惠信息。
3.1.2 真實(shí)性
有些商家為了得到更多顧客的關(guān)注,會(huì)編造一些虛假優(yōu)惠信息,需要運(yùn)氣才能獲得,但前提是顧客關(guān)注或者轉(zhuǎn)發(fā),事實(shí)卻是完全沒有這個(gè)活動(dòng)。有些優(yōu)惠信息又存在于宣傳的有差距的詐騙。這些現(xiàn)象明顯屬于欺騙消費(fèi)者行為。所以信息的真實(shí)性是必備因素。
3.2 優(yōu)惠信息收集途經(jīng)
3.2.1 走訪商家
作為一種存在時(shí)間最長(zhǎng)的收集方式,也是最基礎(chǔ)和保險(xiǎn)的收集方式,與商家面對(duì)面的洽談存在其優(yōu)點(diǎn)和缺點(diǎn)。走訪地區(qū)內(nèi)各戶商家,與商家進(jìn)行協(xié)議,體現(xiàn)誠(chéng)意,便于建立長(zhǎng)期合作。但是過程費(fèi)時(shí)費(fèi)勁,因此我們并不主要依靠這個(gè)方法來收集信息。
3.2.2 網(wǎng)絡(luò)收集
處在一個(gè)互聯(lián)網(wǎng)高速發(fā)展的時(shí)代,互聯(lián)網(wǎng)提供給用戶極大的便利。網(wǎng)絡(luò)信息便是其中占據(jù)大比例的存在。通過網(wǎng)絡(luò)收集各類優(yōu)惠信息是一個(gè)更為方便簡(jiǎn)單的方法。其中主要由搜索引擎查找、微信等平臺(tái)查找構(gòu)成。
1)搜索引擎。觀察互聯(lián)網(wǎng)用戶使用較多的搜索引擎,百度、Google、雅虎等,嘗試在不同的搜索引擎中打入相同的關(guān)鍵詞,例如:“優(yōu)惠信息 松江大學(xué)城”,可以看到,不同的引擎產(chǎn)生的網(wǎng)頁是完全不同的。在百度的搜索引擎中出現(xiàn)在首頁的是多為松江大學(xué)城團(tuán)購(gòu),且存在少量獨(dú)立商家的優(yōu)惠信息。而通過谷歌,可以看到大部分為松江大學(xué)城租房或買房的優(yōu)惠。兩個(gè)搜索引擎,相同的關(guān)鍵詞產(chǎn)生了差異較大的結(jié)果,這取決于網(wǎng)頁排序的規(guī)則。
網(wǎng)頁多采用鏈接分析的算法,鏈接分析排序原理啟發(fā)與文獻(xiàn)引文索引機(jī)制,分析網(wǎng)頁之間的鏈接結(jié)構(gòu),若一個(gè)網(wǎng)頁被引用的次數(shù)越多,表示該網(wǎng)頁越受大眾的歡迎;被越權(quán)威的網(wǎng)頁引用,表示該網(wǎng)頁質(zhì)量越高。這么看來,從這兩方面來說,這個(gè)網(wǎng)頁的價(jià)值越高。常見的算法有PageRank算法、HillTop算法、HITS算法等。根據(jù)不同的算法,會(huì)導(dǎo)致網(wǎng)頁結(jié)果的排序不同[ 1 ]。
例如,Google搜索引擎的最主要網(wǎng)頁排序算法就是PR算法,計(jì)算網(wǎng)頁的PR值,判斷網(wǎng)頁的重要性。若A網(wǎng)頁有個(gè)鏈接指向B網(wǎng)頁,那么B網(wǎng)頁將得到A貢獻(xiàn)給它的分值,值的大小取決于A的重要性。引用的網(wǎng)頁數(shù)量越多,質(zhì)量越高,排序越前面。
通過對(duì)算法原理的簡(jiǎn)單認(rèn)識(shí),我們可以分析得到,之所以百度的搜索引擎查到的信息更豐富,這歸結(jié)于在這個(gè)搜索引擎中,這些網(wǎng)頁的價(jià)值較高,從總的基數(shù)來看,被引用的次數(shù)較多,鏈接的網(wǎng)頁價(jià)值也不錯(cuò)。而在谷歌這個(gè)全球常用的搜索引擎上來看,同樣的網(wǎng)頁被引用的次數(shù)太少,而且相關(guān)鏈接的網(wǎng)頁價(jià)值不高。因此,在用搜索引擎來查詢優(yōu)惠信息時(shí),要注意使用的搜索引擎和關(guān)鍵詞的使用。其中,關(guān)鍵詞的使用需格外注意,指明針對(duì)性。 一般以“優(yōu)惠信息 松江大學(xué)城”為關(guān)鍵詞的搜索結(jié)果范圍仍舊極大,這不利于我們仔細(xì)排查一些小商家的信息。我們嘗試先利用百度地圖尋找松江大學(xué)城附近的商家信息,努力收集各個(gè)商家的官方公眾網(wǎng)絡(luò)。隨時(shí)關(guān)注商家的動(dòng)態(tài)信息變化,收集商家的優(yōu)惠活動(dòng),判斷商家活動(dòng)的真實(shí)性,匯總在我們平臺(tái)上。如果能在發(fā)現(xiàn)商家的官方網(wǎng)頁的同時(shí)取得商家的聯(lián)系方式,可以與之線上商談,爭(zhēng)取成為長(zhǎng)期合作伙伴。
2)微信等平臺(tái)搜索。有些小眾的網(wǎng)絡(luò)平臺(tái)同樣收集著一些值得嘗試的優(yōu)惠信息。而這些信息存在于不同的平臺(tái)上,顧客看到的較少。我們提供相關(guān)的鏈接,與那些小眾優(yōu)惠信息搭建一個(gè)橋梁,方便顧客查看。許多商家的微信公眾平臺(tái)同樣發(fā)布著一些消息,有時(shí)候會(huì)在朋友圈大范圍傳播,這個(gè)途徑收集起來的信息雖然不全面,但是也是一種較為常見的方式。
4 顧客行為信息分析
隨著平臺(tái)的不斷推廣,顧客涌入。在微信公眾號(hào)后臺(tái),可以用直觀看到訂閱人數(shù),每條推送消息的點(diǎn)擊數(shù)。因此可以獲取大量的顧客消費(fèi)行為數(shù)據(jù)。利用數(shù)據(jù)挖掘技術(shù)可以分析大量的數(shù)據(jù),對(duì)顧客進(jìn)行細(xì)分,還可以從已有的歷史數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的潛在的知識(shí),為顧客提供個(gè)性化的商品信息推薦。
建立模型以及分析:
經(jīng)過對(duì)數(shù)據(jù)的預(yù)處理,我們發(fā)現(xiàn)利用關(guān)聯(lián)規(guī)則挖掘來對(duì)數(shù)據(jù)進(jìn)行處理比較好。關(guān)聯(lián)規(guī)則可以發(fā)現(xiàn)不同事務(wù)之間隱藏的聯(lián)系。我們?cè)谶M(jìn)行關(guān)聯(lián)規(guī)則挖掘時(shí),主要做了兩步,第一找出頻繁項(xiàng)目集,然后根據(jù)頻繁項(xiàng)集產(chǎn)生滿足最小可信度的關(guān)聯(lián)規(guī)則。
從微信公眾平臺(tái)獲得的數(shù)據(jù),我們對(duì)其進(jìn)行整理。在事務(wù)數(shù)據(jù)庫中,事務(wù)的項(xiàng)目集為人們檢索的優(yōu)惠信息類別編號(hào),事務(wù)ID為人的編號(hào)。由此我們得到了事務(wù)數(shù)據(jù)庫D。
在挖掘關(guān)聯(lián)規(guī)則時(shí)我們運(yùn)用了Apriori算法,使用“K?項(xiàng)集”產(chǎn)生“1K +?項(xiàng)集”的迭代方法[3]。掃描所有的事務(wù),對(duì)每種優(yōu)惠信息類別出現(xiàn)次數(shù)計(jì)數(shù)。這里,假定最小事務(wù)支持計(jì)數(shù)為20,由此我們可以確定頻繁1-項(xiàng)集的集合。使用來產(chǎn)生候選集,再次掃描數(shù)據(jù)庫中事務(wù),計(jì)算中每一個(gè)候選集的支持度計(jì)數(shù)。具有最小支持度的里面的候選2?項(xiàng)集組成了頻繁2?項(xiàng)集的集合。反復(fù)進(jìn)行上述步驟,由于Apriori算法性質(zhì),頻繁項(xiàng)集的所有子集必須是頻繁的,因此我們計(jì)算過程中會(huì)剪去一些項(xiàng)集。一直反復(fù)進(jìn)行下去,直至1K +?項(xiàng)集為空集,我們得到K?項(xiàng)集為最大的頻繁項(xiàng)集{1、2、5},也就是為{美食、休閑娛樂、購(gòu)物}。
對(duì)于每個(gè)頻繁項(xiàng)集L,我們列出所有它的非空子集,對(duì)每一個(gè)非空子集X,計(jì)算它的可信度。在這里,我們假設(shè)最小可信度(min_conf)為60%,最終得到了4條關(guān)聯(lián)規(guī)則。在進(jìn)行數(shù)據(jù)整理時(shí),我們發(fā)現(xiàn)在每日推送的各種優(yōu)惠信息中,美食類的點(diǎn)擊量一直居高不下。這完全符合我們問卷調(diào)查的結(jié)果。
通過關(guān)聯(lián)規(guī)則等對(duì)顧客的行為數(shù)據(jù)進(jìn)行分析,我們發(fā)現(xiàn)人們往往會(huì)希望在休息娛樂比如看電影和購(gòu)物之后享受一頓美味大餐。在享受的同時(shí)也希望獲得優(yōu)惠信息,以較小的代價(jià)獲得高品質(zhì)生活。
參考文獻(xiàn)
[1]鄧維婕.網(wǎng)絡(luò)搜索引擎的原理、技術(shù)和發(fā)展[J].電腦與電信,2008(5):12-14.
[2]姚明.淺談網(wǎng)絡(luò)搜索引擎的研究[J].電腦知識(shí)與技術(shù):學(xué)術(shù)交流,2007,4(19):83-84.
[3]陳安,陳寧,數(shù)據(jù)挖掘技術(shù)及應(yīng)用[M].北京:科學(xué)出版社,2006.
看了“信息檢索學(xué)術(shù)論文”的人還看: