精选robots.txt 文件作用
发布时间:
您也可以同时使用“Disaw”和“Aw”。 例如,要拦截子目录中某个页面之外的其他所有页面,可以使用下列条目:User-agent:GgebtAw:/fer/:/fer/这些条目将拦截fer目录内除之外的所有页面。
Gge与百度都分别在自己的站长工具中提供了rbts工具。
如果您编写了文件,
建议您在这两个工具中都进行测试,因为这两者的解析实现确实有细微差别。
Rbt特殊参数:允许Ggebt:如果您要拦截除Ggebt以外的所有漫游器不能访问您的网页,可以使用下列语法:User-agent:Disaw:/User-agent:GgebtDisaw:Ggebt跟随指向它自己的行,而不是指向所有漫游器的行。 “Aw”扩展名:Ggebt可识别称为“Aw”的标准扩展名。 其他搜索引擎的漫游器可能无法识别此扩展名,因此请使用您感兴趣的其他搜索引擎进行查找。
但是,以结尾的网址可能是您要包含的网页版本。
“Aw”行的作用原理完全与“Disaw”行一样。 只需列出您要允许的目录或页面即可。
在此情况下,可对文件进行如下设置:User-agent:*Aw:/*$Disaw:/*Disaw:/*一行将拦截包含的网址(具体而言,它将拦截所有以您的域名开头、后接任意字符串,然后是问号,而后又是任意字符串的网址)。
Aw:/*$一行将允许包含任何以结尾的网址(具体而言,它将允许包含所有以您的域名开头、后接任意字符串,然后是问号,问号之后没有任何字符的网址)。
如果您要拦截Ggebt并允许Gge的另一个漫游器(如Ggebt-Mbie),
可使用”Aw”规则允许该漫游器的访问。 例如:User-agent:GgebtDisaw:/User-agent:Ggebt-MbieAw:使用*号匹配字符序列:您可使用星号(*)来匹配字符序列。 例如,要拦截对所有以private开头的子目录的访问,
可使用下列条目:User-Agent:GgebtDisaw:/private*/要拦截对所有包含问号的网址的访问,可使用下列条目:User-agent:*Disaw:/**使用$匹配网址的结束字符您可使用$字符指定与网址的结束字符进行匹配。 例如,要拦截以.asp结尾的网址,可使用下列条目:User-agent:GgebtDisaw:/*.asp$您可将此模式匹配与Aw指令配合使用。 例如,
如果表示一个会话ID,您可排除所有包含该ID的网址,确保Ggebt不会抓取重复的网页。
尽管已经存在很多年了,
但是各大搜索引擎对它的解读都有细微差别。