robots.txt文件书写

2009年07月15日  |  1:34 上午分类:经验分享,网络资源与工具  |  标签:  |  313 views

robots.txt
什么是robots.txt
  robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。
  当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
  robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
  语法:最简单的 robots.txt 文件使用两条规则:
  • User-Agent: 适用下列规则的漫游器
  • Disallow: 要拦截的网页

robots.txt使用误区
  误区一:我的网站上的所有文件都需要蜘蛛抓取,那我就没必要在添加robots.txt文件了。反正如果该文件不存在,所有的搜索蜘蛛将默认能够访问网站上所有没有被口令保护的页面。
  每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该做网站中添加一个robots.txt。
  误区二:在robots.txt文件中设置所有的文件都可以被搜索蜘蛛抓取,这样可以增加网站的收录率。
  网站中的程序脚本、样式表等文件即使被蜘蛛收录,也不会增加网站的收录率,还只会浪费服务器资源。因此必须在robots.txt文件里设置不要让搜索蜘蛛索引这些文件。
  具体哪些文件需要排除, 在robots.txt使用技巧一文中有详细介绍。
  误区三:搜索蜘蛛抓取网页太浪费服务器资源,在robots.txt文件设置所有的搜索蜘蛛都不能抓取全部的网页。
  如果这样的话,会导致整个网站不能被搜索引擎收录。

robots.txt使用技巧
  1. 每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该在网站中添加一个robots.txt。
  2. 网站管理员必须使蜘蛛程序远离某些服务器上的目录——保证服务器性能。比如:大多数网站服务器都有程序储存在“cgi-bin”目录下,因此在robots.txt文件中加入“Disallow: /cgi-bin”是个好主意,这样能够避免将所有程序文件被蜘蛛索引,可以节省服务器资源。一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。
  下面是VeryCMS里的robots.txt文件:
  User-agent: *
  Disallow: /admin/ 后台管理文件
  Disallow: /require/ 程序文件
  Disallow: /attachment/ 附件
  Disallow: /images/ 图片
  Disallow: /data/ 数据库文件
  Disallow: /template/ 模板文件
  Disallow: /css/ 样式表文件
  Disallow: /lang/ 编码文件
  Disallow: /script/ 脚本文件
  3. 如果你的网站是动态网页,并且你为这些动态网页创建了静态副本,以供搜索蜘蛛更容易抓取。那么你需要在robots.txt文件里设置避免动态网页被蜘蛛索引,以保证这些网页不会被视为含重复内容。
  4. robots.txt文件里还可以直接包括在sitemap文件的链接。就像这样:
  Sitemap: http://www.***.com/sitemap.xml
  目前对此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN。而中文搜索引擎公司,显然不在这个圈子内。这样做的好处就是,站长不用到每个搜索引擎的站长工具或者相似的站长部分,去提交自己的sitemap文件,搜索引擎的蜘蛛自己就会抓取robots.txt文件,读取其中的sitemap路径,接着抓取其中相链接的网页。
  5. 合理使用robots.txt文件还能避免访问时出错。比如,不能让搜索者直接进入购物车页面。因为没有理由使购物车被收录,所以你可以在robots.txt文件里设置来阻止搜索者直接进入购物车页面。

摘自百度百科:http://baike.baidu.com/view/1280732.htm

◎ 如果喜欢本文,你可以 订阅本站全文,以便获取更多相关的信息。

◎ 转载本站文章请在文中注明「转载自 长沙SEO博客 字样,并附上本站链接,敬请合作!

◎ 本文永久链接:http://www.changshaseo.com/seo-tools/1075.html
喜欢本文,那就收藏到: Del.icio.us Google书签 Digg Live Bookmark Technorati Furl Yahoo书签 Facebook 百度搜藏 新浪ViVi 365Key网摘 天极网摘 和讯网摘 博拉网 POCO网摘 添加到饭否 QQ书签 Digbuzz我挖网
  • 暂无相关日志

发表您的评论

*
To prove you're a person (not a spam script), type the security word shown in the picture. Click on the picture to hear an audio file of the word.
Click to hear an audio file of the anti-spam word