网页排除

要配置此 crawler 以避免将不需要的 Web 页面导入至门户网站:

  1. 默认情况下,此 crawler 遵循 Web 服务器关于哪些页面可能对自动 crawler 具有价值的建议。如果要忽略这些建议,请清除遵循目标站点的自动排除协议复选框。

    一般情况下,这些建议有助于限制将不需要的内容搜寻到门户网站中。但是,一些站点会提出非常严格的建议。如果 crawler 未从站点导入任何内容,请尝试关闭此选项。

  2. 默认情况下,crawler 会保存导入 Web 页面的 URL,以备来源 Web 站点需要时使用。要将 URL 改为小写,请选择将所有 URL 转换为小写

  3. 要避免从某 Web 站点区域导入内容或避免导入特定页面:

  4. 默认情况下,此 crawler 不搜寻或导入排除中指定的任何页面。如果 crawler 要从已排除页面上的链接定位至非排除且导入的页面,请选择搜寻排除的页面但不导入

  5. 要将搜寻限制为 Web 站点的区域或特定页面以内:


  1. 单击系统管理
  2. 打开 Web Crawler 编辑器:
  3. 在左边的"编辑对象设置"下面,单击网页排除