記憶盒子

把記憶裝進灰色的盒子,封裝起來,那年那月,重新拾起。

首頁搜索目錄
search
當前主題: 互聯網絡

使用noindex而不是robots.txt屏蔽搜素引擎(baidu/google)收錄網頁

作者:Kaka    時間:2018-7-18 10:50:33    瀏覽:    評論:0

上篇文章分析了使用robots.txt不能阻止網頁被抓取收錄的原因,那么,如何有效阻止網頁被收錄呢,方法是使用noindex元標記。本文將給大家詳細介紹。

 noindex與robots.txt

noindex與robots.txt

要阻止某個網頁出現在搜索結果中,您可以將 noindex 元標記加入該網頁的 HTML 代碼中,或在 HTTP 請求中返回“noindex”標頭。當爬蟲下次抓取該網頁并看到相應的標記或標頭時,就會完全阻止該網頁出現在搜索結果中(不論是否有其他網站鏈接到該網頁)。

重要提示!

要想讓 noindex 指令生效,就不得使用 robots.txt 文件屏蔽相應網頁。如果該網頁被 robots.txt 文件屏蔽了,抓取工具將永遠無法看到 noindex 指令,因此該網頁可能仍會顯示在搜索結果中(例如,如果有其他網頁鏈接到該網頁的話)。

如果你不具備對服務器的 root 訪問權限,則可借助非常實用的 noindex 工具控制搜索引擎對你網站上各個網頁的訪問權限。

實施 noindex

你可采用以下兩種方法來實施 noindex:將 noindex 用作元標記,或用作 HTTP 響應標頭。這兩種方法的效果是等同的,但你可根據自己對服務器的控制程度和所用的具體發布流程,從中任選一種對你而言較為便捷的方式。

<meta> 標記

要想阻止大部分搜索引擎網頁抓取工具將你網站中的網頁編入索引,請將以下元標記放入相應網頁的 <head> 部分中:

<meta name="robots" content="noindex">

要阻止 baidu 網頁抓取工具將網頁編入索引,請放入以下元標記:

<meta name="Baiduspider" content="noindex">

要阻止 Google 網頁抓取工具將網頁編入索引,請放入以下元標記:

<meta name="googlebot" content="noindex">

屏蔽所有蜘蛛爬蟲抓取該頁面的寫法是:

<meta name="robots" content="noindex" >

請注意,某些搜索引擎網頁抓取工具對 noindex 指令可能會有不同的解讀,因此,你的網頁可能仍會出現在其他搜索引擎的結果中。

◆幫助搜索引擎發現你的noindex元標記

只有在抓取你的網頁后才能看到元標記。如果你的網頁仍出現在搜索結果中,可能是因為在你添加標記之后搜索引擎尚未抓取過你的網站。你可以向搜索引擎主動提交你的網頁,讓爬蟲重新抓取你的網頁。此外,也可能是因為你的 robots.txt 文件禁止了爬蟲訪問該網址,因此無法看到此標記。要允許搜索引擎訪問你的網頁,你必須修改 robots.txt 文件。

HTTP 響應標頭

除了使用元標記,你還可在響應中返回一個值為 noindex 或 none 的 X-Robots-Tag 標頭。下面的 HTTP 響應示例便含有一個可指示抓取工具不要將某一網頁編入索引的 X-Robots-Tag

HTTP/1.1 200 OK
(…)
X-Robots-Tag: noindex
(…)

如何利用 Apache 實際實施 X-Robots-Tag

你可以使用基于 Apache 的網絡服務器上默認提供的 .htaccess 和 httpd.conf 文件,將 X-Robots-Tag 添加到網站的 HTTP 響應中。在 HTTP 響應中使用 X-Robots-Tag 的好處是,你可以指定要應用于整個網站的抓取指令。系統對正則表達式的支持提供了很高的靈活性。

例如,要將 noindex, nofollow X-Robots-Tag 添加到整個網站上所有 .PDF 文件的 HTTP 響應中,請將以下代碼段添加到網站的 root .htaccess 文件或 httpd.conf 文件中:

<Files ~ "\.pdf$">
Header set X-Robots-Tag "noindex, nofollow"
</Files>

你可以對無法使用漫游器元標記的非 HTML 文件(如圖片文件)使用 X-Robots-Tag。下面的示例說明了如何針對整個網站上的所有圖片文件(.png、.jpeg、.jpg、.gif)添加 noindex X-Robots-Tag 指令:

<Files ~ "\.(png|jpe?g|gif)$">
Header set X-Robots-Tag "noindex"
</Files>

如何合并使用抓取指令與索引編制/內容顯示指令

只有當網頁被抓取時,漫游器元標記和 X-Robots-Tag HTTP 標頭才會被抓取工具發現。如果你通過 robots.txt 文件禁止抓取某一網頁,那么抓取工具就不會找到任何關于索引編制/內容顯示指令的信息,因此會忽略這些信息。如果索引編制/內容顯示指令必須被遵循,那么你就不能禁止抓取工具抓取包含這些指令的網址。

您可能對以下文章也感興趣

屏蔽百度蜘蛛或某一爬蟲的四種方法

標簽: robots.txt  noindex  

加入本站QQ群(312716741),交流分享網站建設、優化、SEO技術。。。

 

上一篇: 使用robots.txt不能阻止網頁被抓取收錄的原因
下一篇: SSLDUN多域名ssl DV證書最多支持250個域名

發表評論:

◎歡迎參與討論,請在這里發表您的看法、交流您的觀點。

訂閱博客                   QQ交流群(312716741)

  • 通過Google訂閱本站 通過鮮果訂閱本站 通過抓蝦訂閱本站
  • 通過QQ郵箱訂閱本站 通過Yahoo訂閱本站 通過有道訂閱本站

Search

最新評論及回復

最近留言

網站分類

Powered By Z-Blog 1.8 Walle Build 91204 Designed by Han'space

Copyright @2009-2019 All Rights Reserved. 粵ICP備14028160號-1

Powered By Z-Blog 1.8 Walle Build 91204
Copyright @2009-2019 All Rights Reserved.
财神捕鱼128 金拉霸老虎机开奖查询 辽宁快乐12最准预测 看牌牛牛外挂 北京pk拾稳赚技巧 美式足球比分规则 棋牌可以玩二八杠的 双色球投注载止时间 广西快乐10分开奖走势图 女的适合做什么工作比较赚钱 一天稳赚五百的方法