关于robots.txt的问题关于星号和斜杠

问题描述:

我有一个关于robots.txt的关于robots.txt的问题关于星号和斜杠

  1. 几个问题,如果我有robots.txt中

    不允许以下行:/目录/分类/查看/ id/6

    这是否会阻止网址http://example.com/catalog/category/view/id/61

  2. 如果我有

    不允许:/ *教育

    将这个块的URL http://example.com/some/uri/education以及http://example.com/some/uri/education/another/uri

  3. 其实差别我是否有/在每个规则的结尾?

  4. *必要Disallow: /disallowme*如果我想禁止与http://example.com/disallowme

(Q1)开始的所有URL

Disallow: /catalog/category/view/id/6 

将阻止其路径与/catalog/category/view/id/6开头的URL。所以是的,它也会阻止http://example.com/catalog/category/view/id/61

(Q3)斜杠只是另一个字符,没什么特别之处。

(Q2,Q4)*字符在原始robots.txt规范中没有特殊含义,它只是另一个字符,如/a。一些解析器(for example, Google’s)使用*进行模式匹配。你必须检查他们关于它的文档(每个解析器可能会以不同的方式实现,因为没有关于它的规范)。

因此遵循原始规范的解析器将在Disallow: /disallowme*之后nothttp://example.com/disallowme。他们会阻止,例如:http://example.com/disallowme*foo。如上所述,无论您在Disallow中指定的是否为URL路径前缀