robots协议如何设置网络爬虫来爬网站

  • A+
所属分类:建站技术

设置robots.txt的方法:

可以设置robots.txt来禁止网络爬虫来爬网站。
首先,你先建一个空白文本文档(记事本),然后命名为:robots.txt;

(1)禁止所有搜索引擎访问网站的任何部分。

User-agent: *
Disallow: /

robots协议如何设置网络爬虫来爬网站

robots协议如何设置网络爬虫来爬网站

(2)允许所有的robots访问,无任何限制。

User-agent: *
Disallow:
或者
User-agent: *
Allow: /
还可以建立一个空文件robots.txt或者不建立robots.txt。

(3)仅禁止某个搜索引擎的访问(例如:百度baiduspider)

User-agent: BaiduSpider
Disallow:/

(4)允许某个搜索引擎的访问(还是百度)

User-agent: BaiduSpider
Disallow:
User-agent: *
Disallow: /
这里需要注意,如果你还需要允许谷歌bot,那么也是在“User-agent: *”前面加上,而不是在“User-agent: *”后面。

(5)禁止Spider访问特定目录和特定文件(图片、压缩文件)。

User-agent: *
Disallow: /AAA.net/
Disallow: /admin/
Disallow: .jpg$
Disallow: .rar$
这样写之后,所有搜索引擎都不会访问这2个目录。需要注意的是对每一个目录必须分开说明,而不要写出“Disallow:/AAA.net/ /admin/”。

  • 我的微信
  • 技术咨询
  • weinxin
  • 微信公众号
  • 营销技巧分享
  • weinxin
马找钱

发表评论

:?::razz::sad::evil::!::smile::oops::grin::eek::shock::???::cool::lol::mad::twisted::roll::wink::idea::arrow::neutral::cry::mrgreen: