12 Syntaxe des requêtes CQL

12.2 Recherche simple [niveau 1 (infralexical) : les valeurs]

12.2.1 Recherche d'un mot

bonheur

Pour chercher un mot donné il suffit de saisir sa graphie.

l'amitié

l'

amitié

aujourd'hui

parce que

L'expression CQL doit correspondre exactement à une unité telle que découpée par la segmentation lexicale, une unité lexicale n'est pas forcément une chaîne de caractères entre deux blancs. Voir par exemple aussi les différences entre Voeux et Discours pour les unités ci-contre.

ami
amiti

Une partie d'un mot ne rapporte aucun résultat, l'expression doit correspondre à un mot entier attesté dans le corpus.

 

Trois façons équivalentes d'exprimer une recherche sur une graphie :

bonheur

- la graphie telle quelle

"bonheur"

- la graphie entre guillemets doubles droits

[word="bonheur"]

- l'usage des crochets et du mot réservé « word ».

Les moyens les plus verbeux montreront leur utilité dans des cas plus complexes.

[word="parce que"]

[word=" bonheur "]

Un blanc à l'intérieur des guillemets est significatif (partie intégrante de la graphie). Le guillemet doit être collé à la graphie cherchée (sans espace supplémentaire).

[ word = "bonheur" ]

Les blancs à l'extérieur des guillemets sont non significatifs et peuvent être utilisés pour faciliter la lecture.

12.2.2 Variantes d'écriture

"gouvernement"%c

Neutralisation de la casse (majuscules/minuscules). Les guillemets sont obligatoires.

"Etat"%d

Neutralisation des signes diacritiques (accents, cédille, etc.).

"franc.*"%cd

Les deux neutralisations peuvent être cumulées.

12.2.3 Troncature et joker

libertés?

âgé?e?s?

"premiere?s?"%d

Le point d'interrogation porte sur le caractère qui précède et signifie qu'il est facultatif (0 ou 1 fois). Il peut se placer n'importe où. C'est utile notamment quand le corpus n'est pas lemmatisé, ou que la qualité de la lemmatisation est insuffisante.

nation.*

Point étoile à la fin = « mot qui commence par … » . Point = « un caractère, n'importe lequel ».

.*patri.*

Etoile = « 0 à n fois, n aussi grand qu'on veut ». Utile pour chercher un radical.

.+patri.*

Signe plus = « 1 à n fois ». Ici on impose qu'il y ait un préfixe.

.*ables?

in.*ables?

Ces opérateurs se plaçant n'importe où, on peut chercher des mots partageant les mêmes affixes, le radical variant librement.

"i[mn].*ables?"

Les crochets sont pratiques pour indiquer l'ensemble des lettres possibles, une seule devant être choisie.

.*

Zéro à n caractères, n'importe lesquels. Cette expression attrape tous les mots.

.* .*

(dans Discours) Graphies incluant un blanc (au moins).

.

Mots formés d'un seul caractère.

Mots de longueur trois.

12.2.4 Ponctuations

\.

\?

Les caractères spéciaux (opérateurs), doivent être « endormis » en les précédant d'une barre oblique

descendante, si on veut pouvoir les considérer eux-mêmes comme des caractères que l'on recherche.

.*'

Ce n'est pas le cas de toutes les ponctuations : ex. ici mots terminés par une apostrophe.

12.2.5 Classes de caractères

.+\p{P}

Mot terminé par une ponctuation : permet d'attraper aussi les apostrophes obliques (souvent originaires de Word et qu'on ne peut pas saisir facilement au clavier dans TXM).

\p{Lu}+

Mot composé de majuscules (y compris diacritiques). Voir FAQ pour autres classes.

12.2.6 Alternative

paix|guerre

OU, alternative non exclusive. Élargit la recherche à des variantes de formulation.

(inter|supra)nation.*

Peut s'utiliser à l'intérieur du mot, avec des parenthèses pour délimiter sa portée.

(inter|supra)?nation.*

Des opérateurs de facultativité ou répétition peuvent porter sur la parenthèse.