Param�tres avanc�s (Crawler de contenu)

Pour sp�cifier la langue du contenu, traiter les documents rejet�s et utiliser des balises de crawler de contenu :

  1. Dans la liste d�roulante sous Langue du contenu, choisissez la langue utilis�e dans la majorit� du contenu que vous souhaitez importer.

  2. Sous Documents rejet�s, sp�cifiez la fa�on de traiter les documents ne pouvant pas �tre rang�s dans un dossier � l�issue du tri :

  3. Si vous modifiez un crawler de contenu existant, des options suppl�mentaires visibles sous Documents rejet�s vous permettent de sp�cifier la marche � suivre quand ce crawler de contenu trouve un document d�j� rejet�. La d�finition de "d�j� rejet�" d�pend de l�option choisie � l��tape 4b :

  4. Sp�cifiez la fa�on de traiter les documents d�j� rejet�s :

    En cas de n�cessit� absolue, vous pouvez supprimer l�historique des documents d�j� rejet�s. L� encore, la d�finition de "d�j� rejet�" d�pend de l�option choisie � l��tape 4b. Si vous choisissez "dans cette source de contenu" � l��tape 4b, vous supprimez l�historique des rejets de tous les crawlers de contenu qui importent des documents depuis cette source de contenu. Si vous �tes toujours convaincu de devoir supprimer l�historique des documents d�j� rejet�s, cliquez sur Effacer l�historique de rejet.

    Remarque : si un document n�est class� dans aucun dossier et se trouve par cons�quent dans le dossier Documents non class�s, il ne sera pas consid�r� comme rejet�. Les documents rejet�s sont des documents qui n�ont �t� plac�s dans aucun dossier.

  5. Si vous �tes en train de modifier un crawler de contenu existant, la section Importation de documents est visible. Sous Importation de documents, pr�cisez si l�importation doit �tre limit�e aux nouveaux documents. Par d�faut, ce crawler de contenu ne s�occupe que d�importer les nouveaux documents (ceux qui n�ont pas encore �t� import�s par ce crawler de contenu ou par d�autres crawlers de contenu ayant acc�s � cette m�me source de contenu). Vous pouvez changer les param�tres du crawler de contenu pour importer plusieurs exemplaires de chaque document, ce qui peut �tre utile pendant la phase d�essai de vos crawlers de contenu.

    1. Pour importer uniquement de nouveaux documents, s�lectionnez Importer uniquement les nouveaux liens et de nouvelles options apparaissent ; sinon, passez � l��tape 5.

    2. Marche � suivre pour pr�ciser la signification de � nouveaux liens � :

    3. Remarque : l�option que vous choisissez ici affecte les actions de l��tape 3 et de l��tape 4f.

    4. Pour actualiser les documents d�j� import�s selon les sp�cifications de la page Param�tres des documents, s�lectionnez les actualiser. En r�gle g�n�rale, l�actualisation des documents est assur�e par l�agent d�actualisation de document car le processus d�actualisation des documents tend � ralentir le crawler de contenu. Cependant, si vous avez chang� les param�tres de document pour ce crawler de contenu ou chang� les correspondances de propri�t�s dans les types de contenu associ�s, le fait d�actualiser les documents a pour effet de mettre ces param�tres � jour pour les documents d�j� import�s.

      Remarque :
      si vous analysez un flux RSS, l�option Les actualiser actualise les propri�t�s (telles que le titre et la description) avec les valeurs des documents cible et non du flux RSS. Si vous voulez conserver les propri�t�s du flux RSS, ne s�lectionnez pas Les actualiser.

    5. Si vous avez cr�� des dossiers suppl�mentaires ou appliqu� des filtres diff�rents aux dossiers destinataires, s�lectionnez essayer de les trier en dossiers suppl�mentaires pour trier les documents d�j� import�s dans de nouveaux dossiers du r�pertoire de connaissances.

      Il est possible qu�un autre crawler de contenu ait import� des documents depuis la m�me source de contenu mais dans des dossiers diff�rents des dossiers destinataires sp�cifi�s pour ce crawler de contenu. Soyez certain de vouloir trier � nouveau ces documents dans les dossiers destinataires sp�cifi�s pour ce crawler de contenu.

    6. Pour r�importer des documents d�j� supprim�s (manuellement, pour cause d�expiration ou pour cause d�absence des documents source), s�lectionnez r�g�n�rer les liens supprim�s. Il est possible que cela r�importe des documents qui avaient �t� jug�s ne pas convenir � votre portail.

    7. En cas de n�cessit� absolue, vous pouvez supprimer l�historique des documents ayant �t� supprim�s du portail. Le terme "Historique" est interpr�t� en fonction de la d�finition des nouveaux documents � l��tape 3b :

    8. Si vous �tes toujours convaincu de devoir supprimer l�enregistrement des documents supprim�s du portail, cliquez sur Effacer l�historique des suppressions.

  6. Pour marquer les documents import�s � l�aide d�une balise de crawler de contenu, tapez le texte de la balise dans la zone Marquer les documents import�s avec la balise de crawler de contenu suivante. Cette balise sert � diff�rencier les documents import�s par ce crawler de contenu de ceux import�s par un autre crawler de contenu.

  7. Sous Configuration d�ex�cution, faites les r�glages ci-dessous :

  8. Les plages autoris�es pour ces champs sont indiqu�es dans le fichier de configuration de portail. Les valeurs d�finies d�pendent �galement du nombre maximum de threads autoris�s par le service d�automatisation utilis� pour cette t�che associ�e � cette source de contenu.


  1. Cliquez sur Administration.
  2. Ouvrez l��diteur de crawler de contenu :
  3. � gauche, sous Modifier les param�tres d�objet, cliquez sur Param�tres avanc�s.