SEO教程提供SEO基礎入門教程
微笑SEO優化教程網:關注本站讓你的SEO不斷進步!

站內優化

您現在的位置:SEO教程 > SEO優化教程 > 時間:2018-07-23 11:06:49 > 作者:smiseo
站內優化是整個SEO工作最核心的部分。SEO人員需要通過站內優化,把網站結構做得更容易被Spider抓取;設計整體內部鏈接架構把站內權重導給最重要的頁面;均衡站內鏈接使得盡可能多的長尾關鍵詞著陸頁得到支持;優化頁面內容使得搜索引擎更容易識別和匹配等。很多網站根本不需要花費精力去搞外鏈,只注重站內優化,精心優化內容和內鏈,同樣也會獲得搜索引擎的青睞,得到比較好的排名和流量。在搜索引擎不斷打擊外鏈作弊的情況下,站長和SEO人員更需要注重網站內功的修煉。本章所有示例均只是參考,并不是優化規則和標準操作模式。SEO沒有太多固定的規則,在“沒有硬性錯誤、迎合搜索用戶搜索習慣、保證用戶體驗”的原則下,任何優化方法和技巧都是允許的,SEO更多的是注重策略及方法變通,而不是過多地追求固定的技巧。

網站結構優化:良好的網站結構不僅可以引導Spider快速高效地抓取全站內容,還可以輔助站內權重的合理導向,最重要的是,良好的網站結構是用戶體驗的基礎。雖然這部分內容在網絡和其他SEO書籍中已經被討論得比較多了,但確實還是有很多需要注意的地方值得討論一下。這里
不再贅述Flash網站不利于優化之類的話題,僅挑選一些業內經常討論的、疑惑比較多的點進行討論。

URL優化注意事項:并不是所有的SEO人員都能在工作中接觸到URL優化。不少公司網站不需要新的URL規則,也不需要改版重新設計URL,就算設計URL結構,一般也都是SEO負責人來設計的,基層SEO人員并不會實際操作URL的設計和優化。但是為了美好的明天,或者如果自己擁有個人站試驗,也要對這部分內容進行詳細的了解。首先SEO人員都知道的URL設計原則是越短越好,參數越少越好,下面針對URL設計中的幾個小問題進行討論。
1. URL目錄層級不要過多:有SEO基礎的朋友應該都了解網站的物理結構和邏輯結構。一般認為物理結構上,網站URL涉及的目錄層級越少越好,即網頁在物理結構上越靠近首頁越好(在瀏覽器中訪問網頁時,動態生成的URL上體現出來的結構和文件在服務器上存放的真實位置是沒有什么區別的)。可以這樣比喻,目錄層級類似于家族輩分,層級越多輩分越低,不考慮其外鏈的情況下,從族長處分得的地位就越低,也就是頁面權重越低。很多大型網站由于歷史或者其他原因都有很復雜的物理層級結構,理論上這不僅會降低頁面本身通過層級傳遞獲得的“天生的重”,也不利于網頁鏈接在站內站外的引用。
 
比如以下幾個老牌網站的URL結構,充滿了“層次感”。
央視網:http://military.cntv.cn/program/jsbd/20121101/107910.shtml
河北新聞網:http://hebei.hebnews.cn/2012-11/04/content 2921856.htm
合肥在線:http://news.hf365.com/system/2012/10/18/012681457.shtml

當然這是強勢媒體網站,使用的一般都是比較久遠的CMS文章系統。當初設計時就沒有考慮到URL結構問題,只是管理人員按自己意愿進行設置的。比如這三個URL中的日期,有的占了一層,有的占了兩層,有的占了三層,除了按日期歸檔的目錄層級以外,還有不必要的系統目錄。其實完全可以把文章都放到一個固定分類的一級目錄中,如有必要進行日期歸檔的話,單獨設計日期歸檔頁面就可以了,沒有必要把文章都放到多層日期歸檔目錄的下面。這些媒體網站有著自己的流量渠道,也可能不太注重或者還沒有開始注重SEO。

如果營銷型網站也這樣來設計URL結構,那么可能在最基礎的部分就比競爭對手差了一些。同樣的網站權重、同樣的內部鏈接設計、同樣的外鏈質量和數量,但是你的目錄層級多,家族輩分低,出門競爭的強度也會相對弱一些。比如,下面是搜房網和中關村在線的URL結構設計示例。

搜房網租房房源中的交叉組合查詢頁面的鏈接,全部參數有10多個,搜房網通過偽靜態把
URL結構控制在了兩層以內:
http://zu.gz.soufun.com/house-a073-b01215/a21-c20-d2500-g22-n20-o25-p21-r22-s25-t22-u22-n31/
中關村在線平板電腦產品庫的交叉查詢頁面的鏈接,全部參數也超過10個了,和搜房網一樣,也是通過偽靜態把URL的目錄層級控制在了兩層以內:
http://detail.zol.com.cn/tablepc index/subcate702夕8-list-s3596-s1978一s2780-s2397-s2526-s3092-c79 1.html

所以如果需要設計URL結構,目錄層級應該控制一下。盡量使網站趨于扁平化,不要增加不必要的目錄層級。現在常見的URL結構設計為:目錄頁和專題頁URL的設計層級都盡可能少,甚至很多人會設計成全部使用一級目錄;內容頁一般放在一級目錄下,甚至直接放在域名下,而不是放在分類目錄下,目錄頁面往往只是對內容的歸類列表頁而已。例如一呼百應網。
域名下的信息頁URL及該信息所隸屬的分類目錄URL:
 
http://www.youboy.com/s4618198.htmlhtml
http://www.youboy. com/cp/wujingongju/

2.動態URL并不一定需要偽靜態:在SEO診斷工作中,很多朋友喜歡先檢查對方網站是不是動態URL,如果是動態URL,就會毫不思索地建議對方做偽靜態。這其實是不合理的,有的網站所有URL中只會有一個動態參數,只是不同類型頁面URL的動態參數不同而已。做不做偽靜態都是可以的,搜索引擎都會正常抓取,也并不會因為做了偽靜態而提升多少用戶體驗。很多博客系統就是這樣,比如WordPress的URL結構。
 
文章頁:http://www.pizirui. com/?p=5 91
目錄頁:h仰://www.pizirui.com/?cat=3
單頁面:http://www.pizirui.com/?page id=38
文章歸檔頁面:http://www.pizirui.com/?m=201208
 
這樣頁面URL己經很簡單了,就不需要進行偽靜態了。除非有的朋友喜歡在URL中加幾個關鍵詞,需要進行偽靜態的設置,否則完全沒有必要做偽靜態的工作。使用開源CMS系統做偽靜態一般都會有官方規則,如果是找建站公司做網站,那么就需要自己或重新找建站公司來寫偽靜態規則,雖然參數少的情況下對技術要求并不高,但也是需要技術支持的。沒必要的工作何必浪費精力呢?

對于站內參數復雜的網站,做偽靜態還是有必要的。比如商城類、房產類網站都有很多交叉查詢的參數,房產類網站的參數經常會有10個以上。其實如果站內參數設置沒有問題也不必進行偽靜態,不過大部分網站為了使得URL簡潔、目錄層級少,也會精心設計偽靜態規則。有必要提醒的是超過10個參數的偽靜態就不能通過簡單映射完成了,還需要其他技術輔助。如上面提到的搜房網和中關村在線的鏈接結構。

以前之所以強調把動態URL轉化成靜態URL,是因為原先搜索引擎比較排斥動態URL的多參數。有很多網站設置了很多動態參數使得Spider永遠抓不完這些頁面,并且這些頁面的內容可能是完全重復的,或者程序出現Bug產生無數動態鏈接使得Spider陷入死循環。現在,隨著站長們SEO意識的提高,以及搜索引擎自身技術的提高,很少會出現把Spider引入無底洞的情況了。站長會經常檢查網站是否有鏈接錯誤或無效URL產生,Spider也會對各種URL有選擇性地抓取,所以以前因為動態URL而產生的Spider抓取問題,現在已經很少了。

另外,現在百度還會自動去除URL中的無效參數。如千品網的大部分URL的末尾都加上了追蹤用戶行為的參數,并且原來千品網并沒有設置robots文件,但是百度并沒有收錄這些帶參數的URL,而收錄了去除參數后的URL。當時由于千品網站內只有帶參數的URL,反而真實的URL并沒有直接鏈接。千品網的SEO負責人還和筆者進行了多次討論,首先這些參數是運營人員要求加的,再者也疑惑為什么百度沒有收錄這些帶參數的URL,反而收錄了不帶參數的URL,因為真實的URL當時在網絡是不存在的。就此,筆者專門咨詢了百度站長平臺的運營人員,對方說明“百度會自動嘗試去掉URL中的一些無效參數”。后來千品網使用Sitemap把真實URL提交到了百度,并且以防萬一,配置了robots文件來禁止Spider抓取站內動態URL。
由于千品網沒了所以拿本站作例子:

<a href="http://www.dklwl.com/seoyhjc/?fdjaklfjkadlfjkdarhfkahrid10">SEO優化教程</a>
<a href="http://www.dklwl.com/seospjc/?fdjaklfjkadlfjkdarhfkahrid11">SEO視頻教程</a>
 
由此可見現在搜索引擎對動態URL的處理還是比較智能的,所以如果網站內的動態參數不多,網站結構不復雜,完全沒有必要糾結于做偽靜態。當然必要的URL優化工作還是要做的,不可能完全寄希望于搜索引擎,如果搜索引擎什么問題都能解決,那么SEO就沒有存在的意義了。對于千品網的這類URL問題,也有不少網站百度沒有處理好。不知道一些特殊網站為什么會有“?tob0odt6ll=WGmDSiNhRV”這樣的參數,并且這個參數并不會改變網頁內容,然而百度還是收錄了,可見完全依靠百度自己判斷URL中的參數是否有意義是不靠譜的。
 
很多拿萬年歷系統來舉例的SEO人員,表示萬年歷系統會引導Spider無限地抓取下去,不僅造成站內資源浪費,也會浪費Spider的抓取。先不談現在的搜索引擎會不會玩命地抓取這些URL,但作為站長和SEO人員,除非你用萬年歷系統來歸類內容,否則在該功能上線之初就應該屏蔽搜索引擎對這些URL的抓取。

綜上,如果是出于方便Spider抓取的目的,并不是所有動態URL的網站都需要靜態化。如果你的網站系統龐大或者擁有和搜房、中關村在線類似的多參數URL,那么就最好靜態化處理一下;如果你的網站系統很簡單,只有一兩個參數,就沒有必要糾結偽靜態問題。對于動態參數產生的頁面重復問題,不是通過偽靜態來解決的,而是需要通過技術去除或robots.txt文件及其他標簽設置來解決的;對于由程序BUG生成無限參數造成蜘蛛陷阱的網站,使用偽靜態也未必能解決問題,還是需要站長和SEO人員時常分析網站日志,修補Bug。當然偽靜態還可以把動態參數映射成關鍵詞拼音或英文單詞,甚至可以是中文關鍵詞,有些網站出于這方面考慮,也可以推進網站URL的靜態化。

SEO人員在進行網站優化方案寫作時,最好根據網站實際情況進行偽靜態建議。不要一旦發現對方是動態URL就提出做偽靜態的建議,除非你認為這樣做SEO方案顯得你更加專業。

3. URL中最好可以包含關鍵詞:在百度搜索“ipad3”的結果,百度把URL中的“ipad3”也進行匹配加粗。所以在URL中布局關鍵詞也可以增加網頁和搜索詞的相關度,很多大型網站甚至在URL中使用了大量中文。現在雙拼和三拼域名炒得這么火,域名本身所帶來的自然流量也是提升域名價值的一個重要因素。這種域名對在搜索引擎上優化對應關鍵詞也有一定的促進作用。
 
4.中文URL問題:經百度官方人員確認,只要URL不是過長,百度對中文URL的收錄就沒有問題。如下圖所示為在百度中使用inurl指令搜索URL中含有“聯想筆記本”的網頁。可見有不少網站在URL中使用了中文,并沒有影響百度的收錄。在URL中使用中文關鍵詞可以加強網頁和關鍵詞的匹配程度,不過現在有一些網站認為百度對中文URL收錄可能不夠友好,而采用了拼音、英文單詞或者拼音首字母形式的URL。

inurL:聯想筆記本
 
其實并沒有必要擔心中文URL的收錄情況,而是需要考慮站內中文URL過多是不是會造成用戶體驗下降的情況。中文URL在大多數瀏覽器中是編碼形式的,當用戶復制引用時也會是長長的編碼,在一定程度上降低了用戶體驗,也不便于分享和外鏈建設。并且如果是非知名的網站,中文URL過多,很容易被用戶認為是垃圾站點,所以不宜對站內重要頁面使用中文URLO對于TAG聚合頁面倒是不必擔心中文URL問題,現在很多網站都使用TAG詞庫來作弊搶奪流量。可見搜索引擎對中文URL收錄還是很友好的,不過因為網站沒有內容而湊關鍵詞,很多使用TAG詞的網站都被百度懲罰了。

因此中文URL是可以使用的,但是要綜合考慮,它可以增加頁面和關鍵詞的相關度,也會降低用戶體驗度,同時,如果自身內容不到位,還有可能被百度處理TAG詞作弊時所誤傷。

5.相對路徑和絕對路徑:在網站設計時,有不少朋友會考慮相對路徑和絕對路徑對SEO的影響。其實不論使用相對路徑還是使用絕對路徑,搜索引擎都可以正常抓取。兩種路徑各自的優缺點如下。
絕對路徑優缺點:
(1)如果你的文章內容被轉載或采集且對方比較懶,沒有除去你加的鏈接,就會給你的網站增加一些外鏈。
(2)如果你的網站沒有做301,并且你把帶。和不帶vvww的域名都解析到一個站點可能會產生網址規范化問題。使用絕對路徑,可以告訴搜索引擎你使用是哪個版本的URL,防止搜索引擎自動選擇你不想讓它收錄的URL版本。比如你把domain.com和www.domain.com解析到了一個站點,你想讓搜索引擎收錄www.domain.com下的內容。但是你沒有做或者不能做301,并且你使用的是相對路徑的URL,那么搜索引擎從domain.com進入網站后,網站內所有的URL就都是以domain.com開頭的了。最終搜索引擎很可能把你不想被收錄的domain.com版本URL的網頁作為主要網頁參與排名,而www.domain.com版本的URL被搜索引擎雪藏了。
(3)如果你的網頁移動位置,不會影響站內鏈接,因為是固定的鏈接。
(4)不利于測試,有規模的網站一般會有線下測試,如果網站內的鏈接不是動態參數,就會造成很多死鏈接,沒辦法進行測試。
(5)如果網頁中鏈接過多,會加大網頁的體積。

相對路徑的優缺點正好和絕對路徑相反。解釋一下第(3)條,如果頁面中使用了相對路徑,當頁面移動目錄或者域名時就會出現死鏈接,這種問題常見于大型新聞CMS系統。筆者曾經使用的TRS系統就有這個問題,比如:
 
在目錄加le/下放置了文件1.html;
1 .html中用相對鏈接指向了同目錄下的2.html;
編輯突然發現1.html放錯了目錄,應該放到目錄//news/下;
如果此時只是機械地把1.html轉放到目錄/news/下,那么l.html中的鏈接會自動改變指
向目錄/news/下的2.html;
如果目錄//news/下沒有2.html,就會產生404錯誤;
即使目錄//news/下有同文件名的2.html,兩個目錄下2.html的內容也是不同的,也會造成鏈接指向混亂。

推薦網站使用絕對路徑,現在都是動態語言開發網站,完全可以避免測試時的問題。至于加大網頁體積的問題,一是普通網站都不會在同一個頁面上放太多鏈接;二是如網頁其他方面精簡到位,正常的網頁體積都不會太大,都可以被搜索引擎完整抓取。所以相對來說絕對路徑更好一些。

6.字母小寫且不要用特殊符號:URL中的字母全部小寫,便于人工輸入,不會因為大小寫摻雜產生錯誤。并且Linux系統服務器是區分大小寫字母的。在一些流量統計工具中也會把有大小寫問題的同一個URL當成兩個URL來統計,這增加了流量分析的難度。如無必要,不要在URL中使用特殊符號,否則可能會出現不可預知的錯誤。并且在站外引用鏈接時,如果URL中包特殊符號,很可能導致被引用的鏈接解析不完整。

7.目錄最后的斜杠問題:有很多朋友發現百度同時收錄了網站URL最后帶“/”與不帶,’/”的兩種形式,兩個URL的快照并不同,可見百度把兩個URL當成了不同的頁面,曾經一度出現過兩種URL共同存在某個關鍵詞的搜索結果首頁。現過兩種URL共同存在某個關鍵詞的搜索結果首頁。
 
 
且不論百度會不會把這兩種URL當成重復頁面對待,站長和SEO人員自己首先就應該先把URL進行統一。如果是目錄那么就用正常的目錄形式,如果是文件那么就用文件形式。當用戶或Spider訪問www.domain.com/abc時,部分服務器發現網站根目錄下沒有abc這個文件,那么就會報404錯誤,也可能會自動301或302跳轉到www.domain.com/abc/上,也有部分服務器是兩個URL都可以正常訪問的。不論服務器使用哪種處理方式,站長和SEO人員最好都要保持站內URL的統一,不至于內鏈和外鏈都被分散到兩種URL上去。因為百度指不定會在排名中使用哪個版本的URL。另外,目錄URL和目錄首頁文件的URL也有同樣的問題,同樣需要網址規范化,做好301及站內只使用一個版本的URL,例如www.domain.com/abc/和www.domain.com/abc/index.html。

《百度搜索引擎優化指南》中對于網站URL的建議如下:
(1)網站中同一網頁只對應一個URL,如果網站上多種URL都能訪問同樣的內容,
 
會有如下危險:
搜索引擎會選一種URL為標準,可能會和正版不同;
用戶可能為同一網頁的不同URL Ac仁薦,多種URL形式分散了該網頁的權重。
如果你的網站上已經存在多種URL形式,建議按以下方式處理:
在系統中只使用正常形式URL,不讓用戶接觸到非正常形式的URL;
不把Session ID、統計代碼等不必要的內容放在URL中;
不同形式的URL, 301永久跳轉到正常形式;
防止用戶輸錯而啟用的備用域名,301永久跳轉到主域名;
使用robots.txt禁止BaiduSpider抓取你不想向用戶展現的形式。
 
(2)讓用戶能從URL判斷出網頁內容以及網站結構信息,并可以預測將要看到的內容。
 
http://www.dklwl.com/smiseo/
http://www.dklwl.com/smiseo/blog/
http://www.dklwl.com/smiseo/blog/item/abcd.html
http://www.dklwl.com/smiseo/album/
 
舉例,URL結構中加入了用戶ID信息,用戶在看到空間的URL時,可以方便的判斷是誰的空間.URL結構中還加入了Blog. Album等內容信息,用戶可以通過URL判斷將要看到的內容是一篇博客,還是一個相冊。

(3)URL盡量4A,長長的URL不僅不美觀,用戶還很難從中獲取額外有用的信息.另一方面,短URL還有助于減小頁面體積,加快網頁打開速度,提升用戶體驗。
 
https://www.baidu.com/link?url=qQoAVUnOJJXJ9Vk-sO87ZA9wKrQdEZspIKqSsI3oQcMxj9XNsLrOdsKtfTLiH0dXrJ4kSGNiwUosGBR6VSDfuq&wd=
&eqid=923931dc00009b11000000065b5542bd

 
http://tieba.baidu.com/f?kw=百度吧
 
例子中的第一個URL,會讓用戶望而卻步,第二個URL,用戶可以很輕松地判斷是貼吧中關于百度的。

(4)正常的動態URL對搜索引擎沒有影響。URL是動態的還是靜態的對搜索引擎沒有影響,但建議盡量減少動態URL中包含的變量參數,這樣既有助于減少URL長度,也可以減少讓搜索引擎掉入黑洞的風險.

(5)不添加不能被系統自動識別為URL組成部分的字符、URL中力口入了‘,;"、“,"等字符,用戶在通過論壇、即時通信工具等渠遙拼仁薦這些URL時,不能被自動識別為鏈接,增加了用戶訪問這些網頁的困難度。

(6)利用百度提供的URL優化工具檢查。
百度站長平臺提供了URL優化工具,可以幫助檢查URL對搜索引擎的友好程度并提出修改建議。

是否需要Sitemap及制作方法:Sitemap即網站地圖。網站地圖分為兩種,一種是HTML地圖,主要讓普通用戶使用,一種是XML地圖,主要是引導Spider抓取網站。很多SEO人員在制作網站優化方案時,如果發現目標網站沒有網站地圖,一般都是寫上制作網站地圖的建議。那么網站是否真的需要網站地圖呢?
1.網站是否需要地圖:首先要明白制作網站地圖的目的是什么?比如針對Spider抓取的XML地圖,XML網站地圖的制作可以方便Spider對全站重要頁面的抓取。這是SEO人員熟悉得不能再熟悉的理論了。如果你的網站結構比較復雜,或者你有資源處于多級目錄下,Spider自己不容易抓取全站的內容,此時你是需要XML地圖引導一下Spider的;如果你只是一個小型博客站點,或者只有幾十個網頁的公司網站,網站結構沒問題,鏈接都可以正常抓取的話,Spider很容易就把你網站所有內容都抓一遍了,此時就沒有必要制作XML地圖了。所以并不是所有的網站都必須使用XML地圖,做SEO的朋友也不需要把制作XML地圖當做SEO優化方案的必加建議。
對于HTML地圖,一般認為是方便用戶瀏覽網站才進行制作的,和XML地圖一樣,結構復雜的網站需要,結構簡單的網站并不需要。如果一個網站所有頻道和重要內容都在首頁上有鏈接了,那么再單獨做一個HTML的地圖干什么呢?如果網站結構復雜,頻道眾多,網站首頁上不可能放么多重要頁面的鏈接,此時就需要一個HTML的地圖來方便引導用戶瀏覽網站。

如下圖所示為搜房網的HTML地圖,搜房網有太多重要的目錄和頁面了,在網站首頁不可能有這么多空間來放這么多鏈接,即使全放到首頁,用戶體驗也會非常糟糕,所以這個HTML地圖對用戶有很好的引導作用,方便用戶快速找到自己所需要瀏覽的頻道、目錄、專題或詳細信息頁面。
 
搜房網HTML地圖
 
2.不推薦使用站外XML地圖生成工具:如果確定網站的確需要制作XML地圖引導一下Spider,就要考慮怎樣制作這個XML地圖了。對于XML地圖的格式,網絡上有很多介紹,百度站長平臺的“推薦閱讀”區Sitemap工具的介紹中也有詳細講解,在此就不多做介紹了。這里重點談一下怎么來做這個XML地圖。

很多朋友在網上尋找制作XML地圖的工具,網上也確實有很多相關工具。這些工具一般需要你提交一個頁面作為入口,然后模擬Spider抓取你的網站。筆者不認為這些工具的Spider比搜索引擎的Spider還要強大,這些工具的Spider能夠抓取到的頁面搜索引擎基本上都可以抓取到。并且對于網站內隱藏比較深的頁面,這些工具也不一定能夠抓全,所以不推薦使用站外XML地圖生成工具。

作為站長或SEO人員,應該對自己的網站了如指掌。如果想制作XML地圖,最好根據網站內容和數據庫字段批量生成有效網頁的URL。現在的網站差不多都是動態程序了,網站URL一般都是數據庫驅動的。所以大家根據數據庫的字段和網站URL結構進行對比組合批量生成就可以了,去除那些不希望被搜索引擎抓取的參數,只提取有效參數,才能制作出高質量的XML地圖。這樣的XML地圖才可以方便Spider抓取正常情況下抓取不到的內容,方便搜索引擎抓取全站的內容。使用外部工具抓自己的網站不但消耗自己的服務器和帶寬資源,抓取到的URL可能還會包含很多垃圾頁面,更會降低這種XML地圖的價值。

不過,如果確實沒有能力根據數據庫批量生成有效頁面的URL,通過日志分析又發現有太多站內頁面遲遲沒有被搜索引擎抓取,本著“有總比沒有強”的目的也可以使用站外工具制作一個XML地圖提交到搜索引擎,在制作過程中及提交地圖之前一定要檢查一下地圖中URL是否有錯誤,是否存在垃圾鏈接過多等問題。不提交Sitemap就只能等待搜索引擎發現網站的URL后才抓取,提交Sitemap后就是把網站的URL提交給搜索引擎直接抓取,提交Sitemap就相當于幫助搜索引擎省去了發現URL的步驟,相對來說會提升網站內網頁被搜索引擎抓取效率。至于生成工具,Site Map Maker, SiteMap Builder等都是相對比較不錯的,有需要的朋友可以T解一下。

所以,如果網站結構比較簡單,網頁也比較少,就沒有必要糾結是否需要制作和提交網站地圖;如果網站內頁面比較多且有一定的技術能力,就可以按照數據庫中的字段來批量為有內容的頁面生成網站地圖;如果網站內頁面比較多,但又沒有能力通過技術手段生成高質量的網站地圖,那么也可以通過站外生成工具來制作,不過一定要嚴格檢查生成URL的正確性和質量,如果提交太多垃圾頁面的URL,就等于直接告訴搜索引擎你的站點內容質量不怎么樣了。

3.網站地圖入口和格式問題:對于XML版的地圖,Google Webmaster和百度站長平臺都已經有專門的提交入口。對于HTML版的地圖,最好在全站的頁腳都推薦一下,因為這是主要為用戶服務的,要讓用戶隨時都可以找到網站地圖,從而更方便地瀏覽網站。對于Google,還可以在robots.txt文件中聲明站點地圖的位置,且Google可以支持單個地圖文件含URL的上限為50 000條,文件大小為50MB。而百度暫時只支持通過站長平臺提交網站地圖,不支持:obots.txt文件聲明,所支持的地圖文件URL條數上限也為50 000條,不過文件大小上限為10MB。另外Google和百度都支持XML形式之外的純文本地圖,但是Google只支持UTF-8編碼,百度則支持UTF-8和GBK兩種編碼。

所以,如果使用同一套地圖文件同時提供給Google和百度,需要讓地圖文件同時符合兩邊的要求:單個文件的大小不要超過10MB,所含URL不要超過50 000條;當使用純文本文件時,要使用UTF-8編碼;兩邊都支持經過gzip壓縮的地圖文件;兩邊都支持地圖索引文件提交。

robots.txt相關問題及用途:
robots.txt文件是引導搜索引擎Spider抓取網站的文件。合理地使用robots.txt文件可以防止自己網站內諸如后臺登入之類的秘密頁面被搜索引擎抓取索引和公布,還可以屏蔽搜索引擎對網站非內容頁面的抓取,只讓搜索引擎抓取和收錄能夠帶來排名和流量的頁面。在robots.txt文件的使用中有下面幾個問題值得討論一下。

1.要不要使用robots.txt:對于有需要屏蔽Spider抓取的內容的網站,當然是需要robots.txt文件的。但是對于希望把內容全部開放給Spider的網站來說robots.txt就沒有意義了,那么此時還需不需要這個robots.txt文件呢?

2012年11月1日,百度、360和搜狗等國內主流搜索引擎簽署了《互聯網搜索引擎服務自律公約》,表態全部支持robots協議。搜索引擎支持robots協議,也就是在抓取網站內容之前需要先抓取網站的:obots.txt文件。
如果網站不設置robots.txt文件,正常情況下服務器會返回404狀態碼,但是也有些服務器會返回200或者其他錯誤。針對返回404狀態碼的服務器,就不需要做特殊處理了。因為搜索引擎抓取一兩次都發現網站并沒有設置robots.txt文件,在一定周期內就不會再進行抓取了,而是正常抓取網站內容。對于返回404狀態碼之外的信息的服務器,最好重新配置一下服務器,設置為對訪問服務器上不存在的URL或文件的用戶返回404狀態碼。如果不能進行配置,那么就在網站根目錄下放一個空設置或允許抓取全部內容設置的robots.txt文件,以防服務器對Spider做出錯誤的引導。

有些人認為如果允許Spider抓取全站內容,還在服務器上放一個robots.txt文件有可能會浪費Spider的抓取次數,畢竟Spider對一個網站的抓取次數是有限的。其實這種擔心是不必要的,不論你設置不設置robots.txt文件,搜索引擎都會頻繁地抓取這個文件,因為搜索引擎并不知道你以后是不是要設置或者更新這個文件,為了遵守互聯網協議,就只能頻繁地對此文件進行抓取。并且搜索引擎每天只抓幾次robots.txt文件,并不會造成對網站抓取次數的浪費。

2.不同搜索引擎對robots協議的支持并不相同:雖然主流搜索引擎都聲明支持robots協議,但是對于robots.txt文件中的限制語句可能會有不同的匹配解讀。在本書后續對Google Webmaster的“已攔截的網址”介紹中,介紹了百度和Google對robots協議匹配不同的地方即“Disallow:/tmp”在百度中是不可以匹配“/tmpdaf"的,但是在Google中是可以匹配的。所以站長和SEO人員在配置robots.txt文件時,‘需要特別注意一下,最好使用通用的屏蔽語句,或者研究幾個主流搜索引擎的官方幫助說明,針對不同的搜索引擎進行單獨的屏蔽設置。

3. robots.txt可以聲明網站地圖:robots.txt文件除了有限制搜索引擎抓取的功能外,還可以聲明網站地圖的位置。這其實是Google所支持的一個功能,站長可以通過Google Webmaster直接向Google提交XML版本或純文本的網站地圖,也可以選擇在robots.txt文件中添加一行聲明:
Sitemap: http://example.com/Sitemapes location.xml
該聲明和限制搜索引擎抓取的語句沒有關系,可以放到文件中的任何位置。不過暫時只有Google支持,百度搜索工程師曾經表示不支持,并且現在百度在站長平臺中有了專門的Sitemap提交入口,所以這個聲明對百度不一定有效。不過由于robots.txt文件的特性,搜索引擎都必須頻繁抓取此文件,所以在robots.txt文件中聲明一下網站地圖,單從促進搜索引擎對網站抓取方面來看,只會有益無害。
 
4. robots meta標簽的使用:robots協議除可以在網站根目錄使用robots.txt文件外,還可以使用meta標簽。具體寫法如下:

<meta name="robots" content="nofollow">
<meta name="BaiduSpider" content="nofollow">
<meta name="robots" content="noarchive">
<meta name="BaiduSpider" content="noarchive">

nofollow會在后面進行詳細的介紹,noarchive是禁止顯示快照的意思,也就是當網友搜索到你的網站時,只能進入你的網站瀏覽內容,不能通過搜索引擎的快照瀏覽你的網站的內容。

使用meta標簽中的nofollow可以使得搜索引擎不跟蹤頁面中的鏈接。值得一提的是在網絡上和其他SEO書籍中提及的<meta name="robots"content="noindex">,百度是不支持的,在針對百度進行設置時,應該了解并注意到這一點(不過筆者試驗也有一定的效果)。現在禁止百度收錄某
個頁面只能使用robots.txt來實現,或者針對百度Spider返回404狀態碼,robots meta暫時還不可以,不過百度官方表示己經在計劃支持noindex。

robots.txt的具體用途:一般都說可以使用robots.txt文件來屏蔽不想被搜索引擎抓取的頁面,但是這些“不想被抓取的頁面”一般都會有哪些呢?下面來舉幾個簡單的例子。
(1)多版本URL情況下,非主顯URL的其他版本。比如網站鏈接偽靜態后就不希望搜索引擎抓取動態版本了,這時就可以使用robots.txt屏蔽掉站內所有動態鏈接。
(2)如果網站內有大量的交叉組合查詢所生成的頁面,肯定有大量頁面是沒有內容的,對于沒有內容的頁面可以單獨設置一個URL特征,然后使用robots.txt進行屏蔽,以防被搜索引擎認為網站制造垃圾頁面。
(3)如果網站改版或因為某種原因突然刪除了大量頁面,眾所周知。網站突然出現大量死鏈接對網站在搜索引擎上的表現是不利的。雖然現在可以直接向百度提交死鏈接,但是還不如直接屏蔽百度對死鏈接的抓取,這樣理論上百度就不會突然發現網站多了太多死鏈接,或者兩者同時進行。當然站長自己最好把站內的死鏈接清理干凈。
(4)如果網站有類似UGC的功能,且為了提高用戶提供內容的積極性并沒有禁止用戶在內容中夾雜鏈接,此時為了不讓這些鏈接浪費網站權重或牽連網站,就可以把這些鏈接做成站內的跳轉鏈接,然后使用robots.txt進行屏蔽。現在有不少論壇己經這樣操作了。
(5)常規的不希望被搜索引擎索引的內容,比如隱私數據、用戶信息、管理后臺頁面等都可以使用robots.txt進行屏蔽。

以上就是robots.txt常見的功能。合理地使用 robots.txt,不僅可以保護網站的隱私數據,還可以只給搜索引擎展現網站高質量的一面,同時也可以使得搜索引擎多多抓取其他允許抓取的頁面。不過,站長和SEO人員要慎重考慮是否需要把后臺地址寫到robots.txt文件中,現在很多黑客都在頻繁地掃描各個網站的后臺地址,如果直接把后臺地址寫入到robots.txt中,也就相當于直接告訴黑客網站的后臺地址了;還有,現在只是Google支持robots.txt文件聲明Sitemap地址,百度并不支持,并且站長現在完全可以通過Google Webmaster提交Sitemap,所以使用robots.txt文件聲明網站XML地圖位置并沒有太大的必要性。現在有不少做采集的人都會通過robots.txt文件尋找網站的Sitemap,然后批量地提取目標內容的URL,如果站內有比較有價值的資源(例如關鍵詞庫等),就很容易被競爭對手鉆空子。所以在制作robots.txt文件時一定要綜合考慮都需要寫什么,而不能只站在SEO的角度思考問題。

另外,SEO人員不要被robots.txt文件本身原始的作用所限制,要將思維擴散一下,多多思考。比如為防止被搜索引擎抓到把柄,不讓搜索引擎抓取透露網站弊端的頁面鏈接;為提升網站在搜索引擎眼中的整體質量等,不讓搜索引擎抓取無搜索價值的頁面。

導航優化注意事項:網站導航的本職作用是引導用戶和Spider更好地瀏覽網站內容。常見的網站導航有主導航、多級導航、底部導航和面包屑導航等。這些導航鏈接在SEO中,不僅可以引導用戶和Spider瀏覽全站內容,告訴用戶和Spider自己所在網頁的位置;還可以布局整站內鏈架構,控制站內權重的流動及向Spider聲明站內各個頁面的重要程度等。

1.主導航:
展示網站一級重要頻道入口,一般是整站內容的大分類欄目。作為網站的最重要的導航,一般都位于整個網站所有頁面的上方,主導航中最好不要添加過細分類或內容頁面的鏈接。
 
2.多級導航:
如果網站內容豐富復雜,一般會有樹形的多級分類。此時為了方便用戶瀏覽及方便Spider的抓取和權重提升,也會在網站主要頻道首頁或者全站進行多級導航的推薦。有的網站會獨立于主導航單獨設置多級導航,有的網站會在主導航的基礎上進行擴展,如圖5-10所示為馬可波羅網站首頁的多級導航。

馬可波羅網站首頁
 
3.底部導航:
原本此導航一般是提供網站介紹、投訴舉報及聯系方式等網頁的入口。在網站注意做SEO工作之后,底部導航就會被添加上大量網站主推網頁或者站內索引頁的鏈接。由于用戶對底部信息關注較少,底部導航就為SEO人員布局內鏈提供了很大的空間。不過應該注意底部導航鏈接個數,如果太多頁面的底部導航代碼體積占網頁總體積過大,可能會被當成站內鏈接工廠,被搜索引擎認定為無實際內容的頁面,造成網頁不被收錄的情況。為馬可波羅網為產品庫索引和其他重要頁面索引做的底部導航。
 
4.面包屑導航:
面包屑導航是網站不可或缺的。對用戶而言,.可以讓用戶清楚地知道自己所瀏覽頁面在網站中的位置。對于SEO而言,保證了整站各級頁面結構上權重的流通導向:網頁級別越高獲得的內鏈支持越多,最底層的頁面在結構上得到的內鏈支持是最少的。

在進行面包屑導航設計時,如果網頁的上一級頁面不是很重要,在網站首頁己經有入口了,那么其面包屑中的鏈接就可以nofollow掉,比如一些網站中的“其他”分類。

如果一個網頁分屬兩個頻道,比如對于主題為“石家莊好利來”的頁面,可以通過地區分類找到這個頁面,也可以通過食品分類找到這個頁面,此時就可以為頁面設置雙面包屑導航,可以并排在網頁上方,也可以在網頁內容的上下各設置一個。

如果當前頁面是網站的子域名,那么最好不要把面包屑導航的第一級設置為網站的首頁,而要設置為子域名的首頁。一般主導航或者Logo上都會有網站首頁的鏈接,沒必要為其再增加一個鏈接了。
 
最后再強調一點,網站導航最好都使用普通文本鏈接形式,不要使用Flash, JS,框架和Ajax等不利于Spider抓取的形式。如果為了美觀必須使用特殊的形式,那么在網頁的其他地方,比如底部導航中做好文本導航鏈接。其實稍有SEO經驗的朋友對此都熟記于心了,不過現在的確還有不少企業站和一些老牌地方新聞網站使用非文本鏈接的形式。《百度搜索引擎優化指南》對于網站導航的建議如下。
 
(1)為每個頁面都加上導航欄,讓用戶可以方便地返回頻道、網站首頁,也可以讓搜索引擎方便地定位網頁在網站結構中的層次;
(2)內容較多的網站,建議使用面包屑式的導航,這更容易讓用戶理解當前所處的位置。例如:網站首頁>頻道>當前瀏覽頁面;
(3)導航中使用文字鏈接,不使用復雜的Js或者Flash;
(4)使用圖片做導航時,可以使用Alt注釋,用Alt告訴搜索引擎所指向的網頁內容是什么。

其中第(4)條“使用圖片做導航時,可以使用Alt注釋,用Alt告訴搜索引擎所指向的網頁內容是什么”,原來筆者以為這一點有誤,但向百度站長平臺PM求證了“圖片導航鏈接中的圖片ALT有描述鏈接的作用”。不知道百度會不會對導航類的鏈接單獨處理,不過理論上說對于圖片鏈接,Alt是對圖片的描述,‘也就是圖片的內容,鏈接錨文本和Title屬性才是對鏈接的描述,不過Alt也可以間接描述鏈接。站在SEO對鏈接進行描述的角度,筆者更加傾向于標簽回歸本意:使用鏈接Title來對鏈接進行描述,導航上的圖片本身沒有多少含義,沒有必要設置Alt,但是為了防止圖片加載失敗而讓用戶對鏈接感到迷惑,還是有必要為圖片設置Alt的。當然最好是直接使用文本鏈接,如果必須使用圖片導航,那么圖片Alt和鏈接Title就都設置上吧。
本文出自微笑SEO優化教程網,未經允許不得轉載:站內優化 http://www.dklwl.com/seoyhjc/266.html
? 亚洲视频在线不卡免费