作者 Sharon Ding
對使用者及Google搜尋引擎來說,有在持續更新內容的網站才是好的網站;然而,網站管理者有時候會發現,新發布的文章Google竟然搜尋不到,這可能是因為Google未索引該內容。
內容目錄
如何檢查頁面是否被Google索引?
只要發布的文章能在Google搜尋引擎找到,不論排名好壞,都代表文章已被索引。若想確認特定文章是否被索引,有以下2種方式:
- 在Google使用「site:」指令
在Google搜尋引擎輸入「site:網址」,若該網址有被索引,搜尋結果就會出現該文章。
- 到Google Search Console查看
是最直接、準確的方法。進入Google Search Console後,按下左邊側欄的「網址審查」,將想檢查的網址貼入上方搜尋框,就可看到結果。(如下圖表示有成功索引)

網頁未被Google索引的原因?
在Google Search Console網頁索引報表中,可看到網頁未被建立索引的可能原因。Google官方說明如下:
伺服器錯誤(5XX)
Google要求存取網頁時,網頁伺服器傳回響應碼(狀態碼)以數字5開頭的錯誤,代表伺服器在處理請求的過程中有錯誤或異常狀態發生。
重新導向錯誤
Google遇到以下其中一種錯誤:
- 重新導向鏈結過長
- 重新導向循環(A→B→C→A)
- 重新導向網址最終超過網址長度上限
- 重新導向鏈結中的網址無效或空白
網址遭robots.txt封鎖
robots.txt檔案是用來告訴搜尋引擎「網站上哪些內容可以被檢索、哪些內容不用被檢索」。當不想被搜尋到網站的某些內容,管理員可能會使用這個方法。
※雖然Google不會對robots.txt封鎖的內容進行檢索,但若有其他網頁的說明文字指向該內容,Google仍可為該網頁建立索引。
已提交的網址含有「noindex」標記
網頁原始碼中若有「noindex」標記,該網頁就不會被Google建立索引。
※noindex標記是比robots.txt更有效避免建立索引的方式。
轉址式404錯誤(soft 404)
Google要求存取時收到「轉址式404錯誤」回應。「轉址式404錯誤」指網址回傳的頁面告訴使用者「該頁面不存在」或是「沒有內容」,但卻向搜尋引擎傳遞200(成功)的代碼。出現轉址式404錯誤的原因,可能是頁面的響應碼(狀態碼)錯誤、網頁內容過少或無內容、重複內容、不相關頁面的301/302轉址。
找不到(404)
網頁在Google要求存取時回傳404錯誤。出現404錯誤的原因可能是此網址曾存在過,但後來刪除了;或是換了網址卻沒有使用301轉址。
因傳回未經授權的要求(401)而遭到封鎖
網頁提出授權要求,Googlebot無法存取。簡單來說,某些頁面可能設定特定身分才能檢閱,但Googlebot無法使用伺服器進行身分驗證,因此無法查看資源。
因拒絕存取(403)而遭到封鎖
使用者代理程式已提供憑證,但Googlebot並未獲得存取權。常和401錯誤搞混,403錯誤表示用戶已經過身分驗證,但該用戶沒有網頁的存取權。
已提交的網址因其他4xx問題而遭到封鎖
數字4開頭的錯誤與「用戶端」有關,除了前述幾種常見錯誤,還有很多類型。
網頁未被索引的其他8個原因,以及關於如何促進Google為網頁建立索引,將於下篇說明。