要配置此 crawler 以避免将不需要的 Web 页面导入至门户网站:
默认情况下,此 crawler 遵循 Web 服务器关于哪些页面可能对自动 crawler 具有价值的建议。如果要忽略这些建议,请清除遵循目标站点的自动排除协议复选框。
一般情况下,这些建议有助于限制将不需要的内容搜寻到门户网站中。但是,一些站点会提出非常严格的建议。如果 crawler 未从站点导入任何内容,请尝试关闭此选项。
默认情况下,crawler 会保存导入 Web 页面的 URL,以备来源 Web 站点需要时使用。要将 URL 改为小写,请选择将所有 URL 转换为小写。
要避免从某 Web 站点区域导入内容或避免导入特定页面:
要指定避免的区域,请单击 添加排除;然后,在文本框中键入要避免的 Web 站点区域的 URL。
您可以使用通配符 (*) 进行更广泛的排除。例如,要避免搜寻站点中的销售信息,您可以键入 http://mycompany.com*sales。于是,此 crawler 将不会从 mycompany.com 导入 URL 中任何位置包含 "sales" 的任何页面。
注:您的文本两边均假定使用通配符。例如,如果键入 sales,crawler 将不会从可通过目标 URL 访问的任何站点中导入 URL 的任何位置中包含 "sales" 的任何页面。
切记:如果同时列出排除和包含,则排除仅应用于包含的页面。例如,如果排除 sales 而包含 http://mycompany.com,则 crawler 将导入 http://mycompany.com 中除 URL 中任何位置包含 "sales" 的那些页面以外的所有页面。
要移除排除项,请先选中该排除项,然后单击 。
要选中或清除所有排除复选框,请选中或清除排除左边的复选框。
默认情况下,此 crawler 不搜寻或导入排除中指定的任何页面。如果 crawler 要从已排除页面上的链接定位至非排除且应导入的页面,请选择搜寻排除的页面但不导入。
要将搜寻限制为 Web 站点的区域或特定页面以内:
要指定此 crawler 可搜寻的位置,请单击 添加包含;然后在文本框中键入 URL,以将搜寻限制于该区域的 Web 站点。由于 Web 站点可以包含其它站点的链接,因此您可能需要使用包含来将 crawler 保持在特定站点上。要避免搜寻其它站点,请向包含列表中添加要搜寻站点的基本 URL;例如,http://mycompany.com。
您可以使用通配符 (*) 进行更广泛的包含。例如,如果仅要搜寻单点登录 (SSO) 中的信息,您可以键入 http://mycompany.com*sso。于是,此 Crawler 将仅从 mycompany.com 导入 URL 中任何位置包含 "sso" 的页面。
注:您的文本两边均假定使用通配符。例如,如果键入 sso,crawler 将从可通过目标 URL 访问的任何站点导入 URL 的任何位置中包含 "sso" 的任何页面。
切记:如果同时列出包含和排除,则排除仅应用于包含的页面。例如,如果包含 http://mycompany.com 而排除 sso,则 crawler 将导入 http://mycompany.com 中除 URL 中任何位置包含 "sso" 的那些页面以外的任何页面。
要移除包含项,请先选中该包含项,然后单击 。
要选中或清除所有包含复选框,请选中或清除包含左边的复选框。
要显示与此帮助主题相关的页面: