SEO教程提供SEO基礎入門教程
微笑SEO優化教程網:關注本站讓你的SEO不斷進步!

排名原理:有效索引和緩存機制

您現在的位置:SEO教程 > SEO優化教程 > 時間:2018-07-07 09:39:22 > 作者:smiseo
有效索引和緩存機制:現在百度抓取到本地并進行索引的網頁已經以千億計,如果每一個用戶提交查詢時,百度搜索從這幾千億個網頁中進行檢索,相信不論百度的服務器集群多么牛,都不能快速響應每天這么多網友的搜索查詢。即使勉強能夠應付用戶的搜索,反應速度和效率也會非常低下。既為了節省資源又為了提升響應速度,搜索引擎一般會引入有效索引和緩存模塊。
 
有效索引:面對如此巨大數量的網頁,任何一個常規關鍵詞都可能匹配出幾萬、幾十萬甚至上億的網頁。但是大部分用戶一般都只瀏覽搜索結果的前三頁,這樣搜索引擎就沒有必要響應每次搜索時都對全部的索引文件進行檢索,只需要對一個適當數量范圍內的索引文件進行檢索就可以了。

并且搜索引擎一般不會把檢索到的所有相關網頁都呈現給用戶,而只是呈現1000個左右的結果,比如,百度最多呈現760個結果,Google最多呈現1000個結果。所以搜索引擎只要建立一個能夠滿足大眾搜索請求的小范圍網頁索引集合也就是有效索引就可以了。

稍微有過SEO經驗的朋友應該就有這種經驗:一個新網站的網頁,搜索網頁的URL發現百度是收錄的,但是搜索網頁包含網站品牌詞的Title卻搜索不到。對于老網站來說這是降權的現象,對于新網站來說就是這個新網頁的權重比較低,并沒有參與排名計算。例如在百度中搜索,筆者原創并發布在個人博客上的一篇文章的URL,百度已經收錄了。但是直接搜索該頁面的Title時,在百度搜索結果中卻找不到這個頁面,并且為了使得這個搜索詞和網頁建立唯一的對應關系,搜索詞為網頁的Title而不只是文章標題。理論上全互聯網只有筆者博客上的這個網頁符合搜索請求,百度既然己經索引,那么就應該在搜索結果第一的位置呈現出來,但是百度并沒有這么做。
 
找不到這個頁面

如果百度是在己索引的全部文件中進行檢索,肯定就會把這個網頁呈現出來了(權重正常的網站都可以)。搜索Title時,百度并沒有呈現出這個網頁,代表這個網頁并沒有在百度的有效索引庫中。出現這種情況一般是兩種原因:該網頁的權重太低,或者該網站已被降權。有很多網站的首頁都是這種情況,直接搜索域名是有收錄的,如果只是搜索目標關鍵詞卻沒有排名,那可能是算法微調或更新,但是如果搜索幾乎是獨一無二的Title都找不到網站,那就要小心了,可能是被降權了,或者是降權的前兆。這個例子就體現出了搜索引擎擁有“有效索引”的模塊,但是搜索引擎內部可能不叫有效索引,可能是叫“一級索引數據”“初始子集”之類的名字。

從這里也可以看出搜索引擎的“有效索引”應該是和網頁權重掛鉤的,有效索引庫中是權重正常參與搜索排名的網頁,其他低權重的網頁可能就被列入了“無效索引”中,以備他用。當然在真實的大型搜索引擎中的索引庫級別肯定不會只有“有效”和“無效”索引庫兩個級別,而是有一個多級別并伴隨很復雜算法的索引系統。另外,也有可能搜索引擎并沒有對索引進行明確分類,而是搜索用戶只需要一小部分網頁,搜索引擎只需要從整個索引庫中抽取按照重要程度排序后比較靠前的一些網頁來進行檢索、排序和呈現就可以了,也就是說有些網頁沒有參與到排序并不是一定被歸為“無效索引”,而只是暫時權重不是很高,兩者還是有本質區別的。
 
在SEO工作中,提升網站和網頁的權重是一個很重要的工作,并且提升網站的有效收錄也是一個很重要的工作方向,這里的“有效收錄”指的是在搜索引擎中不僅僅搜索內容標題和網頁Title有排名,搜索網頁所涉及的關鍵詞也會有相關排名,并且可以帶來搜索流量的網頁。
 
緩存機制:緩存就是臨時文件交換區,是可以進行高速數據交換的存儲器,它先于內存與CPU交換數據,因此速率極快。現在為了加快用戶查詢的響應速度,緩存幾乎成了搜索引擎的標配。搜索引擎會把一些用戶經常搜索的關鍵詞的搜索結果放入到緩存中,這樣當該關鍵詞再次被搜索時,就可以直接從內存中調取搜索結果,而不必再從索引庫中進行重新檢索和排名。緩存機制的引入,不僅加快了搜索引擎對用戶搜索的反應速度,也減少了搜索引擎對數據的重復計算。
 
用戶的搜索請求中,少數查詢詞占了查詢總數的相當大比例,而大多數查詢詞單個出現的次數都非常少,類似于長尾理論。因此搜索引擎把用戶經常查詢的“少量”關鍵詞的搜索結果存放于緩存中,就可以應對大多數用戶的搜索請求了。整個搜索引擎的緩存機制中還會涉及緩存淘汰和緩存更新機制。

因為搜索引擎的緩存也不是無限的,肯定有滿載的時候,此時就需要有合理的淘汰機制,把使用頻率小的搜索結果剔除,補充進來使用頻率大的搜索結果,來保證緩存空間中的內容可以響應及命中當下盡可能多的用戶搜索請求。同時網頁和索引庫中的文件內容隨著時間的變化也會有所變動,為了使得緩存中的結果和網頁內容同步,此時就需要有合理的緩存更新機制。

解釋一下緩存更新機制:搜索引擎為了節省資源,不可能對緩存中的內容進行實時更新,而是會選擇在午夜等搜索請求比較少的時間段進行更新緩存,所以用戶在不同時間搜索同一個關鍵詞得到的結果可能是不同的,但是一般在較短時間內的重復搜索會得到相同的搜索結果。現在的搜索引擎會分析搜索詞的屬性,并根據搜索詞的屬性調整緩存的更新頻率,比如,現在百度的“最新相關信息”“最新相關微博”等實時性搜索的緩存更新頻率和普通詞緩存更新頻率肯定是不同的。需要說明的是,現在大型搜索引擎的緩存都不是簡單地直接緩存關鍵詞的搜索結果,而是擁有很復雜的緩存結構和數據,一般是多級結構的,同時提升搜索引擎的響應速度和緩存數據的命中搜索范圍。

排名原理:有效索引和緩存機制
 
這里要特別注意一下“有效索引”和“緩存”這兩個模塊,站長和SEO人員所留意到的很多問題其實都可以在這兩個模塊的原理中找到答案。在第3章快照、site命令等基礎內容介紹部分進行詳細討論。
 
本文出自微笑SEO優化教程網,未經允許不得轉載:排名原理:有效索引和緩存機制 http://www.dklwl.com/seoyhjc/254.html
? 亚洲视频在线不卡免费