SEO優化課堂:向搜尋器爬蟲Say No!詳談如何利用robots.txt阻止網站被索引

SEO優化課堂:向搜尋器爬蟲Say No!詳談如何利用robots.txt阻止網站被索引 - 網頁設計, 網站設計, 網頁方案, Website Design, 網絡推廣

自Google面世以來,搜尋器一直是協助用戶發現資訊的重要媒介,而網站在搜索結果(Search Engine Results Page,SERP)上的排名亦關乎其所獲得搜索曝光及流量之多寡,以及消費者對企業、品牌之觀感與評價。

因此,掌握技術SEO、內容SEO、站外SEO和數據SEO這四大面向的基礎策略,便成為眾多商家踏進網絡市場的首要任務。在接下來的香港網頁HKWEB課堂主要和大傢具體所說,網站該如何進行SEO優化才能達到理想的效果。

——————————

那麼,本堂課主要講什麼內容呢?

下面香港網頁HKWEB主要和大家說說,技術SEO優化中最基礎也是最容易忽視的內容——為網站設置robots.txt。

▌ 什麼是robots.txt?為什麼要設置robots.txt

對絕大多數商家及網站管理員而言,「網站能夠在搜索結果頁中獲得靠前排名,藉此實現更可觀的流量及轉換」是進行網站SEO優化的目的。話雖如此,但是如果網站有些「不可告人的秘密」,而又不想讓Google、Yahoo等搜尋器爬取時,我們又有什麼方法可以阻止它們的行動呢?

Robots.txt是一種存放於根目錄下的文件檔案,主要用於管理搜尋器爬取對網站造成的流量,「通常」可以讓搜尋器不顯示特定的檔案。

以下是robots.txt檔案的基本規則:

SEO優化課堂:向搜尋器爬蟲Say No!詳談如何利用robots.txt阻止網站被索引

• user-agent:指定規則適用的搜尋器檢索器名稱,其中星號(*)通常表示適用除指定搜尋器檢索器意外的所有搜尋器檢索器。

• disallow:禁止前述搜尋器檢索器在根網域下檢索特定的目錄或網頁。

• allow:允許前述搜尋器檢索器在根網域下檢索特定的目錄或網頁。

• sitemap:告知搜尋器檢索器,該網站的Sitemap所在位置

值得注意的是,每項規則至少要有一個disallow或allow項目。

以下是robots.txt一些常見的使用規則:

SEO優化課堂:向搜尋器爬蟲Say No!詳談如何利用robots.txt阻止網站被索引

▌ 瞭解robots.txt檔案的設置限制

在建立或編輯robots.txt檔案之前,建議先瞭解以下關於網址封鎖方式的限制,網站管理員可以視乎網站目標和狀況而改用其他機制,以確保無人能透過網絡搜索到你的網址:

① 並非所有搜尋器都支援robots.txt規則

雖然大部分搜尋器檢索器都會遵循robots.txt檔案中的指示,但並非每個檢索器都是如此,因此若要確保特定資訊不會被檢索器存取,建議使用其他方式(如使用密碼保護伺服器上的私人檔案等)來封鎖搜尋器檢索器的存取。

② 各種檢索器解讀語法的方式有所不同

雖然大部分搜尋器檢索器都會遵循robots.txt檔案中的規則,但各個檢索器解讀規則的方式可能有所不同,部分搜尋器檢索器可能無法理解特定的指示,因此網站管理員需要掌握不同檢索器的robots.txt規則並採用合適的語法。

③ 如果其他網站鏈接到robots.txt所封鎖的網頁,檢索器仍然可以為其建立索引。

雖然搜尋器檢索器通常不會對robots.txt所封鎖的內容進行檢索或建立索引,但如果封鎖網頁於網絡上其他網頁出現,檢索器仍然會建立這些網址的索引,甚至在搜索結果中顯示。如要完全避免這種建議,建議使用密碼保護伺服器上的檔案、使用noindex meta標記或回應標頭,或完全移除網頁等。

▌ robots.txt的測試方法

正常來說,當你將robots.txt檔案儲存在網站根目錄中後,搜尋器檢索器就會自動尋找並開始使用robots.txt檔案。但需要注意的是,為了保證robots.txt檔案能夠被檢索器正常存取,檔案上傳後別忘記使用「robots.txt 測試工具進行檢測:

SEO優化課堂:向搜尋器爬蟲Say No!詳談如何利用robots.txt阻止網站被索引

△ 登入https://www.google.com/webmasters/tools/robots-testing-tool,選擇你需要測試的驗證的網址。

SEO優化課堂:向搜尋器爬蟲Say No!詳談如何利用robots.txt阻止網站被索引

△ 接着就可以測試當前robots.txt檔案是否有問題,以及查看即時robots.txt的檔案內容。

【最後】robots.txt對SEO優化重要嗎?

答案並非絕對!首先我們需要搞清楚一點的是,robots.txt檔案並不是每個網站必備的。Googlebot造訪網站時,通常會先嘗試擷取 robots.txt 檔案,尋求檢索權限;如果網站沒有設置robots.txt檔案,或者是robots meta標記、X-Robots-Tag HTTP標頭,Googlebot同樣會對該網站進行檢索並為建立索引,但有可能會增加檢索預算(Crawl Budget)的浪費。

反之,如果網站錯誤使用robots.txt檔案來阻止搜尋器檢索器來做索引,那肯定是對網站SEO成效大打折扣。因此,網站架構初期一定要謹慎,否則第一步走錯,後續的影響絕對是很深遠的。

香港網頁提供一站式數碼營商方案服務,包括、網頁設計、網絡推廣、網頁管理與寄存、系統開發及其它增值服務,全方位滿足客戶的業務需要,歡迎隨時聯絡我們,香港網頁是您開拓網路商機的最佳伙伴。

聯絡電話: 37499734 電郵地址: [email protected] 網址: www.hkweb.com.hk