揭秘網站不能被充分收錄的真實原因
網站上線后首先要做的就是提交網址給搜索引擎,搜索引擎收到網址的請求后,并會安排蜘蛛對網站進行抓取,但是不盡人意的是蜘蛛總是不能對網站進行充分收錄,網站的實際收錄率非常低,到底是什么原因導致網站不能被充分收錄,是網站結構問題、是網站權重問題、還是網站優化問題?廣州兼職吧給大家揭秘不能充分收錄的真實原因。
第一:被robots.txt文件屏蔽。在分析網站日志時發現蜘蛛每天都會在網站抓取,但是網站依然是收錄不充分,這時我們很有必要檢測網站的robots文件,站長們都知道蜘蛛來網站抓取時,首先會檢索網站是否存在robots文件,查看網站是否已經存在不需要抓取的頁面,看文件中是否阻止了網站中某部分內容,很多站長因為不會正確的寫robots文件,導致網站不能被充分的收錄。對于很多新手站長不知道如何寫文件,可以利用百度站長工具robots文件功能,可以檢測你的文件寫法是否正確,或者可以直接幫你生成文件,需要你填寫屏蔽的文件路徑即可。如下面的例子:
User-agent: *
Disallow: /news / 不允許所有的搜索引擎抓取news路徑下的內容
如果某網站上添加了上面的文件,蜘蛛并不會抓取網站上在news路徑下的內容,網站在news目錄下更新的文章永遠不會被收錄,網站更新再多的文章,訪問日志中蜘蛛每天都來抓取,但是對于這些內容還是不會給予收錄。但是對于網站來說news下的內容是很重要的,這樣錯誤的robots文件并是網站不能被充分收錄的幕后黑手。
第二: robots meta標簽禁止,網站在診斷的過程中,發現網站的實際收錄率很低,網站有的欄目頁可以被收錄完整,但是有的欄目頁更新原創的文章,也不會被收錄,之后在檢查網站代碼時才發現,頁面上使用了 noindex標簽告訴蜘蛛不允許索引這個頁面,顯然保護這段代碼的欄目頁不會被收錄,更新的內容即使質量再高也不會被抓取。同時,nofollow標簽告訴蜘蛛此頁面上的鏈接不傳遞權重,如果網站上的頁面鏈接都帶有nofollow,那這就是明顯的告訴搜索引擎此頁面沒有任何價值。如果你的站遇到不能被充分收錄,檢查下meta標簽,是否存在錯誤的標簽。
第三:頁面沒有被訪問過,特別對于一些大型的內容型網站來說,網站上的內容頁面特別多,網站之間如果不能很好的建立內鏈,很多頁面可能就會面臨著被沉底不收錄的現象,這些頁面大多數離網站首頁深度比較深,蜘蛛無法對頁面進行爬行,導致不能被蜘蛛收錄。或者是鏈接到此頁面的鏈接都是加了nofollow標簽,不傳遞任何權重的鏈接。因為這種原因導致網站不被充分收錄比較冤枉,對于網站的建設來說,好不要在網站上使用nofollow標簽、JS代碼、或者蜘蛛不能識別的轉向等。對于網站頁面深度比較深的情況,站長們可以完善網站的內鏈建設,不要網站的頁面變成獨立的頁面,建立好導航和內鏈,或者給想要收錄的頁面增加外鏈,提高頁面在搜索引擎中的權重值。
第四:被蜘蛛當做是作弊的內容,網站中大量的使用黑帽SEO,作弊的手法優化頁面,這樣的頁面蜘蛛是不會給予收錄的。網站上長期使用隱藏文字在頁面上進行關鍵詞堆積,網站上對蜘蛛檢索到存在隱藏文字和鏈接,這時你的網站很有可能會被蜘蛛從索引中刪除,不會再次出現在搜索頁面中。站長們可能會問什么是作弊的內容,如初的作弊方法使用和背景顏色相同的文字,堆積大量的關鍵詞,這種作弊方法很容易被檢測出來;使用noscript標簽,告訴瀏覽器當頁面上有JS時,當瀏覽器關閉時,頁面上該顯示什么內容,事實上是在noscript標簽中堆積很多關鍵詞,這種做法是相關有危險的,很容易就會導致內容被刪除。
第五:低質量內容垃圾站點,除去上面說到的4點優化方法上的原因,還有個重要的不可忽視的就是頁面本身的問題,搜索引擎識別能力逐漸加強,對于非高質量非原創的內容,蜘蛛有一定的識別能力,不管是本身網站的重復內容,還是網站從外部獲得的重復內容,蜘蛛都能一定程度的對其識別,對于重復的內容頁面,蜘蛛不會繼續放入自己的數據庫,甚至會對一些低權重的網站,進行刪除索引的操作。在互聯網垃圾泡沫的時代,要想真正的做到收錄充分,網站權重高,還是要堅持去做高質量的內容,這樣才能長久在業界生存。