Marche � suivre pour configurer ce crawler de mani�re � ce qu'il n'importe aucune page web non d�sir�e dans le portail :
Par d�faut, ce crawler applique les recommandations
du serveur web concernant le choix des pages int�ressantes pour les crawlers
automatis�s. Si vous pr�f�rez ne pas appliquer ces recommandations, d�s�lectionnez
l'option Ob�ir aux protocoles automatiques
d'exclusion du site destinataire.
En r�gle g�n�rale, ces recommandations permettent de limiter les analyses
d'un contenu jug� ind�sirable dans le portail. Cependant, certains sites
proposent des recommandations tr�s strictes. S'il s'av�re que votre crawler
n'importe aucun contenu d'un site, essayez de d�sactiver cette option.
Par d�faut, ce crawler enregistre les URL des pages web import�es en fonction de la casse de caract�res utilis�e sur le site d'origine. Pour changer les URL en minuscules, s�lectionnez Convertir toutes les URL en minuscules.
Marche � suivre pour �viter d'importer du contenu venant d'une certaine partie d'un site web ou pour �viter d'importer des pages particuli�res :
Pour pr�ciser une zone � �viter, cliquez sur
Ajouter
une exclusion ; ensuite, dans la zone de texte, tapez l'URL
de la partie du site web que vous souhaitez �viter.
Vous pouvez utiliser le caract�re g�n�rique * pour rendre cette
exclusion plus g�n�rale. Par exemple, pour �viter d'analyser les informations
sur les ventes d'un site web, vous pouvez taper http://masociete.com*ventes.
Ainsi, ce crawler ne va importer aucune page du site masociete.com dont
l'adresse URL comporte le mot � ventes �, o� qu'il soit plac�.
Remarque : Des caract�res g�n�riques sont impliqu�s
par d�faut de part et d'autre du texte saisi. Par exemple, si vous tapez
ventes,
le crawler ne va importer aucune page d'un site quelconque
accessible � partir de cette URL et comportant le mot � ventes �
dans l'URL.
Important : Si vous indiquez des exclusions et
des inclusions, les exclusions ne s'appliquent qu'aux pages incluses.
Par exemple, si vous excluez ventes
et incluez http://masociete.com,
votre crawler va importer toutes les pages de http://masociete.com � l'exception des pages dont l'URL
contient le mot � ventes �, o� qu'il soit plac�.
Pour supprimer une exclusion, s�lectionnez
celle-ci et cliquez sur .
Pour s�lectionner ou d�s�lectionner toutes les cases des exclusions, s�lectionnez ou d�s�lectionnez la case situ�e � gauche de Exclusions.
Par d�faut, ce crawler n'analyse et n'importe aucune des pages d�sign�es dans les exclusions. Si votre crawler doit partir du lien d'une page exclue pour se rendre sur une page non exclue qui elle-m�me doit �tre import�e, choisissez l'option Analyser les pages exclues, mais ne pas les importer.
Marche � suivre pour limiter l'analyse � une partie d'un site web ou � des pages particuli�res :
Pour sp�cifier l'adresse vis�e par l'analyse,
cliquez sur Ajouter une inclusion ; ensuite, dans la zone
de texte, tapez l'URL de la zone du site web � laquelle vous souhaitez
limiter l'analyse. Comme les sites web peuvent contenir des liens vers
d'autres sites, les inclusions sont utiles car elles peuvent servir �
maintenir le crawler sur un site particulier. Pour �viter d'analyser d'autres
sites, ajoutez l'URL de base du site que vous souhaitez analyser � la
liste des inclusions ; par exemple, http://masociete.com.
Vous pouvez utiliser le caract�re g�n�rique * pour rendre cette
inclusion plus g�n�rale. Par exemple, si vous souhaitez analyser uniquement
l'information d'acc�s par signature unique (SSO), vous pouvez taper http://masociete.com*sso. Ainsi, ce
crawler ne va importer que les pages du site masociete.com dont l'URL
comporte le mot � sso �, o� qu'il soit plac�.
Remarque : Des caract�res g�n�riques sont impliqu�s
par d�faut de part et d'autre du texte saisi. Par exemple, si vous tapez
sso,
le crawler ne va importer aucune page d'un site quelconque
accessible � partir de cette URL et comportant le mot � sso �
dans l'URL.
Important : Si vous indiquez des inclusions et
des exclusions, les exclusions ne s'appliquent qu'aux pages incluses.
Par exemple, si vous incluez http://masociete.com
et excluez sso, votre crawler
va importer toutes les pages de http://masociete.com �
l'exception des pages dont l'URL contient le mot � sso �,
o� qu'il soit plac�.
Pour supprimer une inclusion, s�lectionnez
celle-ci et cliquez sur .
Pour s�lectionner ou d�s�lectionner toutes les cases des inclusions, s�lectionnez ou d�s�lectionnez la case situ�e � gauche de Inclusions.
Marche � suivre pour afficher la page associ�e � cette rubrique d'aide :