Donnez vie à vos documents numériques !
 

GREP pour InDesign : détection d’adresses email

Cette fois nous allons étudier une requête GREP (regex) pour InDesign destinée à capter les adresses email.

 

On peut l’utiliser en Rechercher-remplacer GREP ou bien en Style GREP.

\<\S+@\S+\.\S{2,}\>

 

Explication :

 

\< : indique le début d’un mot, c’est-à-dire qu’il doit être précédé d’une espace, d’une fin de paragraphe, d’un saut de ligne, d’un saut de page, etc.

\S : en GREP l’utilisation d’un métacaractère en capitale inverse la requête. Comme “\s” signifie “espace quelconque”, alors “\S” signifie “caractère quelconque sauf l’espace”. L’absence d’espace étant précisément une des caractéristiques des adresses email, il est plus simple d’éliminer ce qu’on ne cherche pas plutôt que de devoir cerner précisément ce qu’on cherche avec des kilomètres de requêtes.

+ :  signifie “présent une ou plusieurs fois”.

@ : pas de signification cachée ici, c’est bien l’arobase qu’on cherche à détecter puisque sa présence est caractéristique d’une adresse email.

\S+ : on recherche à droite de l’arobase la même séquence de caractères qu’à sa gauche.

\. : en GREP le métacaractère “.” (point) signifie “caractère quelconque”, mais comme c’est bien le point qu’on cherche et non pas un caractère quelconque on doit l’indiquer en “échappant” (escape) le point, c’est-à-dire en le faisant précéder d’un anti-slash. Le point situé entre le nom de domaine et son suffixe est également une caractéristique des adresses email.

\S{2,} : là aussi on recherche un “caractère quelconque sauf l’espace” mais si et seulement si il est présent au moins deux fois, ou plus. Car si la récente libéralisation a levé la limite maximale elle n’a pas changé la limite minimale du nombre de caractères requis pour un suffixe de nom de domaine, il en faut au moins deux (.fr, .be , .it , .de, etc.). Le “2” a l’intérieur des accolades indique la quantité minimale, l’absence de chiffre après la virgule indique “sans limite”, mais on pourrait indiquer une quantité maximale.

\> : indique la fin d’un mot, c’est-à-dire qu’il doit être suivi d’une espace, d’une fin de paragraphe, d’un saut de ligne, d’un saut de page, etc.

 

On recherche donc un caractère quelconque sauf l’espace, présent une ou plusieurs fois, suivi(s) de l’arobase, suivie d’un caractère quelconque sauf l’espace, présent une ou plusieurs fois, suivi(s) d’un point, suivi d’un caractère quelconque sauf l’espace, présent au moins deux fois.

 

À bientôt pour un autre abracadabraGREP.

 

abracadabraGREP, fenêtre rechercher-remplacer

abracadabraGREP, fenêtre style GREP