SEO教程提供SEO基礎入門教程
微笑SEO優化教程網:關注本站讓你的SEO不斷進步!

重要:索引和網頁去重原理的算法

您現在的位置:SEO教程 > SEO優化教程 > 時間:2018-06-29 10:07:00 > 作者:smiseo
索引:搜索引擎中使用的是倒排索引,有不少朋友并不理解什么叫倒排索引。這里先來介紹一下正向索引。當用戶進行查詢時,如果對本地文件全面掃描用戶所提交的關鍵詞,“查詢”的工作量就太大了,而且也是很消耗服務器資源的,所以搜索引擎會把己經處理過的網頁先進行索引,放到數據庫中等待網民的搜索查詢請求。

正向索引結構:
文件ID 內容所切分出關鍵詞
文件1 關鍵詞1、關鍵詞2、關鍵詞5、關鍵詞11......關鍵詞L
文件2 關鍵詞3、關鍵詞5、關鍵詞7......關鍵詞M
文件3 關鍵詞2、關鍵詞4、關鍵詞8......關鍵詞N
文件4 關鍵詞61、關鍵詞9、關鍵詞10......關鍵詞O
...... ......
文件N 關鍵詞9、關鍵詞15、關鍵詞21......關鍵詞P

一個網頁被搜索引擎經過以上處理后,就只剩下能夠體現網頁主體內容的文本了,此時就可以對該網頁進行索引了。正向索引指的是文件對應關鍵詞的形式,正向索引數據結構簡化示意如表2-1所示。如果使用這種索引直接參與排名,則與不分詞沒有太大區別,也需要對所有文件進行檢索,并且如果用戶提交的是長尾詞,這種索引對文件內容相關度的計算也會非常消耗資源。
 
重要:索引和網頁去重原理的算法
 
為了使得索引文件可以直接用于排名,搜索引擎會把上面的對應關系進行轉換,做成倒排索引,也就是采用關鍵詞對應文件的形式。倒排索引的數據結構簡化示意如表2-2所示。這樣的索引結構就可以直接應用于搜索排名了,比如,用戶搜索關鍵詞1,那么搜索引擎只會對包含關鍵詞1的文件進行相關度和權重計算;用戶搜索“關鍵詞1+關鍵詞2”組合詞,那么搜索引擎就會把包含關鍵詞1且包含關鍵詞2的文件調出,進行相關度和權重計算。這樣就大大加快了呈現排名的速度。

倒排索引結構:
關鍵詞 文件
關鍵詞1 文件1、文件2、文件5、文件11......文件L
關鍵詞2 文件3、文件5、文件7......文件M
關鍵詞3 文件2、文件4、文件8......文件N
關鍵詞4 文件61、文件9、文件10......文件O
...... ......
關鍵詞N 文件9、文件15、文件21......文件P
 
倒排索引中不僅僅記錄了包含相應關鍵詞文件的ID,還會記錄關鍵詞頻率、每個關鍵詞對應的文檔頻率,以及關鍵詞出現在文件中的位置等信息。在排名過程中,這些信息會被分別進行加權處理,并應用到最終的排名結果中。
 
在SEO操作中,會有相對應的加大關鍵詞頻率、盡量使核心關鍵詞出現在網頁的最前面,以及關鍵詞用H標簽和變色加粗等著重標識的操作手法,這些都會被倒排索引所記錄,并參與關鍵詞相關度的計算和搜索排名。
 
 
網頁去重原理:在互聯網如此發達的今天,同一資料會在多個網站發布,同一新聞會被大部分媒體網站報道,再加上小站長和SEO人員孜孜不倦地網絡采集,造成了網絡上擁有大量的重復信息。然而當用戶搜索某個關鍵詞時,搜索引擎必定不想呈現給用戶的搜索結果都是相同的內容。抓取這些重復的網頁,在一定意義上就是對搜索引擎自身資源的浪費,因此去除重復內容的網頁也成了搜索引擎所面臨的一大問題。
 
 在一般的搜索引擎架構中,網頁去重一般在Spider抓取部分就存在了,“去重”步驟在整個搜索引擎架構中實施得越早,越可以節約后續處理系統的資源使用。搜索引擎一般會對已經抓取過的重復頁面進行歸類處理,比如,判斷某個站點是否包含大量的重復頁面,或者該站點是否完全采集其他站點的內容等,以決定以后對該站點的抓取情況或是否直接屏蔽抓取。
 
去重的工作一般會在分詞之后和索引之前進行(也有可能在分詞之前),搜索引擎會在頁面已經分出的關鍵詞中,提取部分具有代表性的關鍵詞,然后計算這些關鍵詞的“指紋”。每一個網頁都會有個這樣的特征指紋,當新抓取的網頁的關鍵詞指紋和己索引網頁的關鍵詞指紋有重合時,那么該新網頁就可能會被搜索引擎視為重復內容而放棄索引。
 
實際工作中的搜索引擎,不僅僅使用分詞步驟所分出的有意義的關鍵詞,還會使用連續切割的方式提取關鍵詞,并進行指紋計算。連續切割就是以單個字向后移動的方式進行切詞,比如,“百度開始打擊買賣鏈接”會被切成“百度開”“度開始”“開始打”“始打擊”“打擊買”“擊買賣”“買賣鏈”“賣鏈接”。然后從這些詞中提取部分關鍵詞進行指紋計算,參與是否重復內容的對比。這只是搜索引擎識別重復網頁的基本算法,還有很多其他對付重復網頁的算法。
 
因此網絡上流行的大部分偽原創工具,不是不能欺騙搜索引擎,就是把內容做得鬼都讀不通,所以理論上使用普通偽原創工具不能得到搜索引擎的正常收錄和排名。但是由于百度并不是對所有的重復頁面都直接拋棄不索引,而是會根據重復網頁所在網站的權重適當放寬索引標準,這樣使得部分作弊者有機可乘,利用網站的高權重,大量采集其他站點的內容獲取搜索流量。不過自2012年6月份以來,百度搜索多次升級算法,對采集重復信息、垃圾頁面進行了多次重量級的打擊。所以SEO在面對網站內容時,不應該再以偽原創的角度去建設,而需要以對用戶有用的角度去建設,雖然后者的內容不一定全部是原創,一般如果網站權重沒有大問題,都會得到健康的發展。關于原創問題,本書后續會在第12章進行詳細討論。
 
另外,不僅僅是搜索引擎需要“網頁去重”,自己做網站也需要對站內頁面進行去重。比如分類信息、B2B平臺等UGC類的網站,如果不加以限制,用戶所發布的信息必然會有大量的重復,這樣不僅在SEO方面表現不好,站內用戶體驗也會降低很多。又如SEO人員在設計流量產品大批量產生頁面時,也需要做一個重復過濾,否則就會大大降低產品質量。SEO人員所設計的流量產品常見的一般為以“聚合”為基礎的索引頁、專題頁或目錄頁,“聚合”就必須有核心不加以過濾,海量核心詞所擴展出來的頁面就可能會有大量重復,從而導致該產品效果不甚至會因此被搜索引擎降權。
 
“去重”算法的大概原理一般就如上所述,有興趣的朋友可以了解一下I-Match. Shingle,SimHash及余弦去重具體算法。搜索引擎在做“網頁去重”工作之前首先要分析網頁,內容周圍的“噪聲”對去重結果多少會有影響,做這部分工作時只對內容部分操作就可以了,相對來說會簡單很多,并且可以很有效地輔助產出高質量的“SEO產品”。作為SEO人員只要了解實現原理就可以了,具體在產品中的應用,需要技術人員來實現。此外還涉及效率、資源需求等問題,并且根據實際情況“去重”工作也可以在多個環節進行(比如對核心詞的分詞環節),SEO人員只要稍微了解一些原理,能夠為技術人員建議幾個方向就很不錯了(技術人員并不是萬能的,也有不熟悉、不擅長的領域,在特定時刻也需要別人提供思路)。如果SEO人員能在這些方面和技術人員進行深入的交流,技術人員也會對SEO另眼相看,至少不會再認為“SEO人員就只會提改標題、改鏈接、改文字之類‘無聊’的需求”了。
 
本文出自微笑SEO優化教程網,未經允許不得轉載:重要:索引和網頁去重原理的算法 http://www.dklwl.com/seoyhjc/249.html
? 亚洲视频在线不卡免费