Google索引未建立原因?如何讓Google找到自己的網頁? (上)

作者 Sharon Ding

對使用者及Google搜尋引擎來說,有在持續更新內容的網站才是好的網站;然而,網站管理者有時候會發現,新發布的文章Google竟然搜尋不到,這可能是因為Google未索引該內容。

如何檢查頁面是否被Google索引?

只要發布的文章能在Google搜尋引擎找到,不論排名好壞,都代表文章已被索引。若想確認特定文章是否被索引,有以下2種方式:

  • 在Google使用「site:」指令

在Google搜尋引擎輸入「site:網址」,若該網址有被索引,搜尋結果就會出現該文章。

  • 到Google Search Console查看

是最直接、準確的方法。進入Google Search Console後,按下左邊側欄的「網址審查」,將想檢查的網址貼入上方搜尋框,就可看到結果。(如下圖表示有成功索引)

網頁未被Google索引的原因?

在Google Search Console網頁索引報表中,可看到網頁未被建立索引的可能原因。Google官方說明如下:

伺服器錯誤(5XX)

Google要求存取網頁時,網頁伺服器傳回響應碼(狀態碼)以數字5開頭的錯誤,代表伺服器在處理請求的過程中有錯誤或異常狀態發生。

重新導向錯誤

Google遇到以下其中一種錯誤:

  1. 重新導向鏈結過長
  2. 重新導向循環(A→B→C→A)
  3. 重新導向網址最終超過網址長度上限
  4. 重新導向鏈結中的網址無效或空白

網址遭robots.txt封鎖

robots.txt檔案是用來告訴搜尋引擎「網站上哪些內容可以被檢索、哪些內容不用被檢索」。當不想被搜尋到網站的某些內容,管理員可能會使用這個方法。

※雖然Google不會對robots.txt封鎖的內容進行檢索,但若有其他網頁的說明文字指向該內容,Google仍可為該網頁建立索引

已提交的網址含有「noindex」標記

網頁原始碼中若有「noindex」標記,該網頁就不會被Google建立索引。

noindex標記是比robots.txt更有效避免建立索引的方式

轉址式404錯誤(soft 404)

Google要求存取時收到「轉址式404錯誤」回應。「轉址式404錯誤」指網址回傳的頁面告訴使用者「該頁面不存在」或是「沒有內容」,但卻向搜尋引擎傳遞200(成功)的代碼。出現轉址式404錯誤的原因,可能是頁面的響應碼(狀態碼)錯誤、網頁內容過少或無內容、重複內容、不相關頁面的301/302轉址

找不到(404)

網頁在Google要求存取時回傳404錯誤。出現404錯誤的原因可能是此網址曾存在過,但後來刪除了;或是換了網址卻沒有使用301轉址

因傳回未經授權的要求(401)而遭到封鎖

網頁提出授權要求,Googlebot無法存取。簡單來說,某些頁面可能設定特定身分才能檢閱,但Googlebot無法使用伺服器進行身分驗證,因此無法查看資源

因拒絕存取(403)而遭到封鎖

使用者代理程式已提供憑證,但Googlebot並未獲得存取權。常和401錯誤搞混,403錯誤表示用戶已經過身分驗證,但該用戶沒有網頁的存取權

已提交的網址因其他4xx問題而遭到封鎖

數字4開頭的錯誤與「用戶端」有關,除了前述幾種常見錯誤,還有很多類型。


網頁未被索引的其他8個原因,以及關於如何促進Google為網頁建立索引,將於下篇說明。

Google Search Console索引涵蓋範圍報表

Leave A Reply

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *