真正有几个网站像淘宝一样牛逼呢,如果都是那样百度、360等搜索引擎都是改关闭的时候了。先来看下什么是robots.txt。北京做网站给你完美讲解.企业做网站-做网站价格
robots协议(也称为爬虫协议、爬虫规则、机器人协议等)也就是robots.txt,网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议是网站国际互联网界通行的道德规范,其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。因其不是命令,故需要搜索引擎自觉遵守。一些病毒如malware(马威尔病毒)经常通过忽略robots协议的方式,获取网站后台数据和个人信息。
一般的写法也是通用的既然是外国定义的肯定他的写法也是依英文来定义。常见的命令符是:
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
Sitemap: 网站地图 告诉爬虫这个页面是网站地图等等。
对我们不是很专业的运用人员来说没必要研究的非常透彻,只需看到一些主要指令就可以了,下面依照我的一个织梦CMS网站http://www.87330.com来研究下, robots.txt在空间的位置肯定是根目录下,也是蜘蛛来到你网站能够方便爬到的位置。
User-agent: * (指的是给所有搜索引擎看的)
Disallow: /plus/ad_js.php
Disallow: /plus/advancedsearch.php
Disallow: /plus/car.php
Disallow: /plus/carbuyaction.php
Disallow: /plus/shops_buyaction.php
Disallow: /plus/erraddsave.php
Disallow: /plus/posttocar.php
Disallow: /plus/disdls.php
Disallow: /plus/feedback_js.php
Disallow: /plus/mytag_js.php
Disallow: /plus/rss.php
Disallow: /plus/search.php
Disallow: /plus/recommend.php
Disallow: /plus/stow.php
Disallow: /plus/count.php
Disallow: /include
Disallow: /templets
以上所有Disallow: /后面的文件夹和具体的文件名是不允许收录的,一般考虑到网站的安全为主设置的这些指令,当然搜索引擎还是准许的。一般重要的文件和数据库文件都需要Disallow的。还有就是网站模板所在的页面templets也不被Disallow的,防止黑客篡改盗用等。更多针对百度搜索引擎的相关内容请访问 百度搜索帮助中心-禁止搜索引擎收录的方法http://www.baidu.com/search/robots.html
请立即点击咨询我们或拨打咨询热线: 134 3935 8888,我们会详细为你一一解答你心中的疑难。项目经理在线