|
您的位置:首页>>创业指南>>网站策划与推广
在你的主页中为Web Robot设计路标 .../robots.txt. 2、Robots META tag 一个网页作者可以使用专门的HTML META tag ,来指出某一个网页是否可以被索 引、分析或链接。 这些方法适合于大多数的Web Robot,至于是否在软件中实施了这些方法,还依赖于 Robot的开发者,并非可以保证对任何Robot都灵验。如果你迫切需要保护自己内容,则应考虑采用诸如增加密码等其他保护方法。 使用Robots Exclusion Protocol协议 当Robot访问一个 Web 站点时,比如http://www.sti.net.cn/,它先去检查文件http://www.sti.net.cn/robots.txt。如果这个文件存在,它便会按照这样的记录格式去分析: User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /~joe/ 以确定它是否应该检索站点的文件。这些记录是专门给Web Robot看的,一般的浏览 者大概永远不会看到这个文件,所以千万不要异想天开地在里面加入形似 类的HTML语句或是“How do you do? where are you from?”之类假情假意的问候语。 在一个站点上只能有一个 "/robots.txt" 文件,而且文件名的每个字母要求全部是小 写。在Robot的记录格式中每一个单独的"Disallow"行表示你不希望Robot访问的URL, 每个URL必须单独占一行,不能出现 "Disallow: /cgi-bin/ /tmp/"这样的病句。同时在一个记录中不能出现空行,这是因为空行是多个记录分割的标志。 User-agent行指出的是Robot或其他代理的名称。在User-agent行,''*'' 表示一个特殊的含义---所有的robot。 下面是几个robot.txt的例子: 在整个服务器上拒绝所有的robots: User-agent: * Disallow: / 允许所有的robots访问整个站点: User-agent: * Disallow: …… 下一页>> 分页:[1] [2] [3] [4] 刘 建 新
|