Donnez vie à vos documents numériques !
 

Recherche mot en majuscule pour construction d’index

abracadabraPDF Forums PDF – Général Recherche mot en majuscule pour construction d’index

  • Ce sujet est vide.
  • Créateur
    Sujet
  • #45410
    Flagnico
    Membre

    Bonjour,

    Travaillant dans l’édition, je dois réaliser un index des noms propres. Y a-t-il une manière simple de faire une recherche de tous les mots débutant par une majuscule ?
    Et y aurait-il une manière d’automatiser le travail ? C’est-à-dire construire l’index avec une liste des mots débutant avec une majuscule associés au folio où ils sont présents dans le texte ?
    Merci pour votre aide

Affichage de 3 réponses de 1 à 3 (sur un total de 3)
  • Auteur
    Réponses
  • #60656
    bebarth
    Maître des clés

    bonjour,
    Il faudrait donner un peut plus d’information sur le logiciel utilisé et sous quel OS.
    dans un premier temps, voici l’adaptation d’un script que j’avais écris et qui listera dans la console tous les mots commençant par une capitale.
    l’indication de la durée du process peut être interressant pour des documents volumineux.

    var nbmots = 0;
    console.show();
    console.clear();
    //debut duree
    d0=new Date();
    debut=util.printd(“dd-mm HH:MM”,d0);
    console.println(“Début du process:”+debut);
    //Changement de page
    for (var p = 0; p < this.numPages; p++)
    {
    console.println(“*** Page “+(p+1)+” ***”);
    var numWords = this.getPageNumWords(p);
      for (var i=0; i  {
      var ckWord = this.getPageNthWord(p, i, true);
          //Recherche première lettre en majuscule
          if (ckWord.charCodeAt(0)>=65 & ckWord.charCodeAt(0)<=90)
          {
          console.println(ckWord);
          nbmots = nbmots+1;
          }
      }
    }
    console.println(“*** “+nbmots+” mots trouvés commençant par une majuscule”)
    //fin duree
    df=new Date();
    fin=util.printd(“dd-mm HH:MM”,df);
    console.println(“Fin du process:”+fin);
    delta=(df.valueOf()-d0.valueOf())/1000/60;
    console.println(“Durée du process:”+delta+” minutes”);

    @+
    :bonjour:

    #60657
    Merlin
    Maître des clés

    Bonjour et bienvenue.

    L’indexation est toujours quelque chose de délicat. Depuis un logiciel auteur (Word, InDesign…) ce n’est pas toujours évident, mais à partir d’un PDF ça l’est encore moins.

    Mais comme c’est une problématique récurrente plusieurs éditeurs ont tenté d’apporter leurs solutions et il existe plusieurs logiciels et plugins spécialisés :
    http://www.planetpdf.com/tools.asp?webpageid=615&SearchType=Product&SearchString=index&SearchPlatform=-1&SearchCategory=-1&CompanyID=&SearchApplicationType=-1&SearchLicenseType=-1

    :Smiley01:

    #60658
    bebarth
    Maître des clés

    …petite erreur, il fallait écrire
          if (ckWord.charCodeAt(0)>=65 & ckWord.charCodeAt(0)<=90)
    et non …ckWord.charCodeAt(0)<=68). je ne sais pas d'où j'ai sorti le 68 !!!
    j’ai corrigé la ligne dans le script entier.
    @+
    :bonjour:

Affichage de 3 réponses de 1 à 3 (sur un total de 3)
  • Vous devez être connecté pour répondre à ce sujet.