22 Table des matières

1 Préface

1.1 Pourquoi lire ce manuel ?

1.2 Comment est organisé ce manuel ?

1.3 Conventions typographiques

2 Installer TXM

2.1 Installer TXM sur sa machine

2.1.1 Prérequis d'installation

2.1.2 Installation sur Windows

2.1.2.1 Avertissement avant installation (Windows 7 et 8)

2.1.2.2 Exécution de l'installeur

2.1.2.3 Premier lancement de TXM

2.1.3 Installation sur Mac OS X

2.1.3.1 Étape 1 : pré-requis

2.1.3.2 Étape 2 : Exécution de l'installeur

Accueil

Disque d'installation

Authentification

Installation

Installation des librairies statistiques R

Fin de l'installation

2.1.3.3 Premier lancement de TXM

2.1.4 Installation sur Linux Ubuntu

2.1.4.1 Installation avec la logithèque Ubuntu

Ouverture  de  TXM_0.7.7_LinuxXX.deb

Démarrage de l'installation

Étapes suivantes de l'installation

2.1.4.2 Installation avec Gdebi

Ouverture de TXM_0.7.7_LinuxXX.deb

Étapes suivantes de l'installation

2.1.4.3 Installation par ligne de commande

Acceptation de la licence

Installation des librairies statistiques R

Progression de l'installation

Fin de l'installation du package

2.1.4.4 Premier lancement de TXM

2.1.4.5 Reconnexion lors de la première installation

2.1.5 Vérification de l'installation des packages R

2.2 Installer TreeTagger pour ajouter automatiquement des propriétés morphosyntaxiques et des lemmes aux mots

2.2.1 À l'aide d'un navigateur et de votre explorateur de fichiers

2.2.2 Dans TXM

2.3 Mises à jour automatiques

2.3.1 Niveaux de mise à jour

2.3.2 Lancer une mise à jour

2.3.3 Effectuer une mise à jour

2.3.3.1 Étape 1

2.3.3.2 Étape 2

2.3.3.3 Étape 3

2.3.3.4 Étapes 4 à 6

2.4 Installer une extension

2.4.1 Documentation des extensions

2.4.2 Installer une extension tierce dans TXM

2.4.2.1 Étape 1

2.4.2.2 Étapes suivantes

2.5 Désinstaller une mise à jour, une extension ou une extension tierce

2.6 Réglages de l'accès au réseau par proxy

2.7 Visualisation de l'espace mémoire utilisé

2.8 En cas de problème avec le logiciel

3 Lancer TXM

3.1 Sous Windows

3.2 Sous Mac OS X

3.3 Sous Linux

4 Utiliser l’interface graphique de TXM : fenêtres, menus, barres d'outils et raccourcis clavier

4.1 Vue générale de l'interface graphique

4.1.1 L'explorateur

4.1.1.1 La vue « Corpus »

4.1.1.2 La vue « Fichier »

4.1.1.3 La vue "Console"

4.1.1.4 La fenêtre « Éditeur de texte »

4.1.1.5 La vue « Variables R »

4.1.1.6 La vue « R Console »

4.1.1.7 La vue « Requête »

4.1.2 Les commandes

4.1.3 Les icones

4.1.3.1 icones d'objets

4.1.3.2 icones des commandes

4.1.4 Les menus principaux

4.1.4.1 Menu « Fichier »

4.1.4.2 Menu « Corpus »

4.1.4.3 Menu « Outils »

4.1.4.4 Menu « Affichage »

4.1.4.5 Menu « Aide »

4.1.5 Affichage des résultats

4.1.6 Affichage des messages dans la console

4.1.6.1 Réglage du niveau de détails des commentaires de la console

4.1.7 Changer d'interface grâce aux perspectives

4.1.8 Réinitialiser l'interface utilisateur

4.2 Le gestionnaire de fenêtres

5 Créer et manipuler de nouveaux corpus

5.1 Principes généraux d’import : les trois types de sources textuelles exploitables

5.2 Philologie progressive : les trois principaux niveaux de représentation textuelle importables

5.3 Carte des modules d’import et des niveaux de représentation

5.4 Enchaînement canonique des opérations d’un module d’import

5.5 Création d’un corpus par appel d’un module d’import

5.5.1 Import à partir du presse-papier

5.5.2 Modules d’import à partir de fichiers sources

5.5.3 Fichier de métadonnées « metadata.csv »

5.5.3.1 Exemple de fichier « metadata.csv »

5.5.4 Noms des fichiers source

5.6 Exporter ou charger un corpus binaire

5.7 Exporter les sources d'un corpus au format standard XML-TEI P5

6 Formats importables dans TXM

6.1 Textes écrits

6.1.1 Presse-papier du système d’exploitation : module d’import Presse-papier

6.1.1.1 Entrée

6.1.1.2 Sortie

6.1.1.3 Annotation

6.1.1.4 Édition

6.1.2 Texte brut (.txt) : module d’import TXT+CSV

6.1.2.1 Entrée

6.1.2.2 Sortie

6.1.2.3 Annotation

6.1.2.4 Édition

6.1.3 Traitement de texte (.docx, .odt ...) : module ODT/DOC/RTF+CSV

6.1.3.1 Entrée

6.1.3.2 Sortie

6.1.3.3 Annotation

6.1.3.4 Édition

6.1.4 XML tout venant (.xml) : module XML/w+CSV

6.1.4.1 Entrée

Corps de texte

Métadonnées de texte

Paramètres supplémentaires

Prétraitements XSL front

Feuilles d'adaptation de sources XML-TEI P5

Feuilles d'adaptation de corpus particuliers

6.1.4.2 Édition

Interprétation des éléments XML pour construire l'édition

Stylage par CSS

6.1.5 XML TEI générique (.xml) : module XML-TEI Zero+CSV (dit aussi XTZ+CSV ou XTZ)

6.1.5.1 Balises TEI interprétées

Unités textuelles

text

Unités lexicales

w

Autres éléments

6.1.5.2 Éditions

Production de l'édition par défaut

Page de garde

Intertitres

Paragraphes

Mises en évidence

Sauts de ligne

Listes à puces

Tableaux

Illustrations

Liens hypertextes

Notes de bas de page

Pagination

Mots

Stylage par CSS

Images et Javascript

Production de l'édition "fac-similé"

Désignation des images de pages à partir de fichiers locaux

Désignation des images par URLs encodées dans les sources

Production d'éditions supplémentaires par XSL

6.1.5.3 Plans textuels

Hors texte

Hors texte à éditer

Notes

Milestones

6.1.5.4 Traitements XSL intermédiaires à certaines étapes clés du traitement du module

Bibliothèque de feuilles XSL de transformation intermédiaire

1-split-merge

2-front

3-posttok

4-edition

6.1.5.5 Ordre des textes

6.1.5.6 Tokenisation

Élément mot

6.1.5.7 Options supplémentaires

6.1.6 XML TEI de la BFM (.xml) : module XML-TEI BFM

6.1.6.1 Entrée

6.1.6.2 Annotation

6.1.6.3 Édition

6.1.7 XML TEI de Frantext libre (.xml) : module XML-TEI Frantext

6.1.8 XML TEI de TXM (.xml) : module XML-TEI TXM

6.1.8.1 Entrée

6.1.8.2 Sortie

6.1.8.3 Annotation

6.1.8.4 Édition

6.1.9 XML de Factiva (.xml) : module XML Factiva

6.1.9.1 Entrée

6.1.10 Export Mail de Factiva (.txt) : module Factiva TXT

6.1.10.1 Entrée

6.1.11 Sortie CNR de Cordial (.cnr) : module CNR+CSV

6.1.11.1 Entrée

6.1.11.2 Sortie

6.1.11.3 Annotation

6.1.11.4 Édition

6.1.12 Texte brut étoilé Alceste-IraMuTeQ (.txt) : module Alceste

6.1.12.1 Entrée

6.1.12.2 Sortie

6.1.12.3 Annotation

6.1.12.4 Édition

6.1.13 Texte brut esperluette Hyperbase (.txt) : module Hyperbase

6.1.13.1 Entrée

6.1.13.2 Annotation

6.1.13.3 Édition

6.1.14 Tabulé pour CQP (.wtc) : module CQP

6.1.14.1 Entrée

6.1.14.2 Sortie

6.1.14.3 Édition

6.2 Transcriptions d’enregistrements

6.2.1 XML de Transcriber (.trs) : module XML Transcriber+CSV

6.2.1.1 Entrée

6.2.1.2 Sortie

6.2.1.3 Annotation

6.2.1.4 Édition

6.3 Corpus parallèles

6.3.1 XML de TMX (.tmx) : module XML-TMX

6.3.1.1 Entrée

6.3.1.2 Sortie

6.3.1.3 Édition

7 Corpus exemples livrés avec TXM

7.1 Le corpus VOEUX

7.2 Le corpus GRAAL

8 Analyser un corpus

8.1 Propriétés d’un corpus

8.1.1 Appliquée à un corpus

8.1.2 Appliquée à une partition

8.2 Lecture d’un texte

8.3 Lexique et Index

8.3.1 Lexique

8.3.2 Index

8.3.2.1 Choix du jeu de propriétés de mots à lister

8.3.2.2 Requêtes

8.3.2.3 Index d’une partition

8.3.2.4 Filtrage des résultats

8.3.2.5 Navigation dans les résultats

8.3.2.6 Appel de commandes à partir des résultats

8.4 Concordances

8.4.1 Requêtes

8.4.2 Navigation

8.4.3 Retour au texte

8.4.4 Tri

8.4.5 Propriétés de mot

8.4.6 Références

8.4.7 Export

8.5 Cooccurrences

8.6 Progression

8.7 Références

8.8 Sous-corpus

8.8.1 Construire un sous-corpus : mode « simple »

8.8.2 Construire un sous-corpus : mode « assisté »

8.8.3 Construire un sous-corpus : mode « avancé »

8.9 Partition

8.9.1 Construire une partition : mode « simple »

8.9.2 Construire une partition : mode « assisté »

8.9.3 Construire une partition : mode « avancé »

8.10 Table lexicale

8.10.1 Sauvegarde d'une table lexicale

8.10.1.1 Exporter une table lexicale

8.10.1.2 Importer une table lexicale

8.11 Spécificités

8.11.1 Indice de spécificité

8.11.2 Calcul direct de l’indice de spécificité

8.11.3 Présentation des résultats

8.11.4 Spécificités d'une partition

8.11.4.1 Tri des résultats

8.11.4.2 Visualisation graphique des indices de spécificité

8.11.5 Spécificités d'une table lexicale

8.11.6 Spécificités d'un sous-corpus

8.12 Analyse Factorielle des Correspondances (AFC)

8.13 Classification Ascendante Hiérarchique (CAH)

8.14 Visualisation graphique des résultats

8.14.1.1 Manipulation interactive

8.14.1.2 Affichages complémentaires

8.14.1.3 Export des graphiques

8.15 Exploitation des résultats

8.15.1 Sauvegarde et Exportation des résultats

8.15.2 Traitement des résultats avec R

8.15.3 Exploiter les graphiques de résultats dans d'autres logiciels

8.15.3.1 Import direct d'une image vectorielle au format SVG dans le traitement de texte LibreOffice Writer

8.15.3.2 Import direct d'une image bitmap au format JPEG dans le traitement de texte LibreOffice Writer

8.15.3.3 Édition préalable d'un graphique au format SVG avec InkScape

8.16 Récapitulatif des relations entre commandes et résultats

9 Annoter un corpus

9.1 Annotation simple par concordances

9.1.1 Sauvegarde des annotations et exploitation avec TXM

9.1.2 Encodage de plusieurs informations dans l’annotation

9.1.3 Combinaison de recherche d’annotations et de propriétés de mots

9.1.4 Visualisation des annotations dans une concordance

9.1.5 Transmission des annotations entre différents TXM

9.2 Annotation avancée par concordances

9.3 Limites de l’annotation simple et avancée

9.4 Annotation avec un modèle Unité-Relation-Schéma (URS) au fil du texte

9.4.1 Installation de l’extension Analec

9.4.1.1 Compatibilité et Prérequis

9.4.2 Préparation d'un corpus pour l'annotation

9.4.2.1 Corpus TXM quelconque

9.4.2.2 Corpus TXM prêts à l'annotation

9.4.2.3 Corpus déjà annotés dans Analec ou Glozz

Import XML-TEI Analec de corpus

Import Glozz de corpus : à partir de trois fichiers .aa, .aam et .ac

9.4.3 Annoter des unités interactivement depuis une édition de texte

9.4.3.1 Lancer une session d'annotation

9.4.3.2 Visualiser les unités présentes

9.4.3.3 Créer des unités

9.4.3.4 Éditer les propriétés d'une unité

9.4.3.5 Sélectionner des unités

9.4.3.6 Rechercher des unités par la valeur de leurs propriétés

9.4.3.7 Rectifier les bornes d'une unité

9.4.3.8 Créer des unités à cheval sur deux pages d'édition

9.4.3.9 Supprimer une annotation

9.4.4 Annoter des éléments URS automatiquement par scripts

9.4.4.1 Utilisation de macros

9.4.4.2 Macros d'ajouts d'annotations

9.4.5 Enregistrer les annotations

9.4.6 Exploiter des annotations URS avec des macros

9.4.6.1 Macros de vérification de cohérence

9.4.6.2 Macros de mesures

9.4.6.3 Macros de visualisation d’annotations

9.4.7 Exporter des annotations

9.4.7.1 Dans un corpus binaire TXM

9.4.7.2 Au format XML-TEI URS

9.4.7.3 Au format Glozz

9.4.8 Importer des annotations

10 Éditer un fichier texte

10.1.1 Barre d'outils de l'éditeur de texte

10.1.2 Menu contextuel de l'éditeur de texte

11 Préférences

11.1 Section TXM

11.2 Section TXM / Avancé

11.2.1 Moteur de Corpus

11.2.2 Moteur de Graphiques

11.2.3 Moteur de Statistique

11.2.4 TAL / TreeTagger

11.3 Section TXM / Utilisateur

11.3.1 Analyse factorielle des correspondances

11.3.2 Annotations

11.3.3 Classification

11.3.4 Concordances

11.3.5 Cooccurrences

11.3.6 Description

11.3.7 Édition

11.3.8 Explorateur de fichiers

11.3.9 Export

11.3.10 Import

11.3.11 Partition

11.3.12 Progression

11.3.13 Références

11.3.14 Scripts

11.3.15 Spécificités

11.3.16 Table lexicale

11.3.16.1 Définition du format d'affichage des nombres réels ou entiers55

12 Syntaxe des requêtes CQL

12.1 Introduction

12.1.1 CQL, CQP

12.1.2 Les requêtes dans TXM : requêtes simples, requêtes assistées, requêtes avancées

12.1.3 Dynamique de la construction d'une requête

12.1.4 Utilisation pédagogique des exemples

12.2 Recherche simple [niveau 1 (infralexical) : les valeurs]

12.2.1 Recherche d'un mot

12.2.2 Variantes d'écriture

12.2.3 Troncature et joker

12.2.4 Ponctuations

12.2.5 Classes de caractères

12.2.6 Alternative

12.3 Recherche sur les propriétés [niveau 2 (lexical) : les propriétés]

12.3.1 Introduction

12.3.2 Recherche sur une propriété

12.3.3 Alternative (2)

12.3.4 Combinaison d'informations

12.4 Recherche d'un motif de plusieurs mots [niveau 3 (supralexical) : séquences d'unités lexicales]

12.4.1 Succession de mots

12.4.2 Traitement des insertions

12.4.3 Étude distributionnelle

12.4.4 Alternatives

12.4.5 Lien entre deux mots

12.5 Informations contextuelles

12.5.1 Utilisation des structures

12.5.2 Utilisation d'une propriété de structure

12.6 Lien d'alignement entre corpus parallèles

12.7 Stratégies de résolution des opérateurs itérateurs

12.8 Documentation complémentaire

13 Syntaxe des expressions régulières

Références de caractères mémorisés

14 Piloter la plateforme par macros ou par scripts Groovy ou R

14.1 Utiliser des macros

14.1.1 Exécuter une macro

14.1.2 Installer une macro

14.1.3 Modifier une macro

14.1.4 Créer une macro

14.1.4.1 À l’aide du bouton « Nouvelle macro »

14.1.4.2 Par copie de fichier

14.1.4.3 Les différents types de paramètres disponibles pour une macro

14.1.4.4 Variables prédéfinies

14.1.4.5 Appel d'une macro depuis une autre macro

14.1.5 Macros TXM prédéfinies

14.1.5.1 Macros d’assistance à la préparation des fichiers sources d'un corpus

14.1.5.2 Macros d’assistance à la correction de l'annotation de mots d'un corpus

14.1.5.3 Macros d’appel de script R

14.1.5.4 Macros d’assistance à l'appel de commandes CQP

14.1.5.5 Macros d’assistance pour l'appel répétitif de commandes de TXM

14.1.6 Partager vos macros avec la communauté des utilisateurs de TXM

14.2 Utiliser des scripts Groovy

14.2.1 Exécuter un script

14.2.2 Utilisation de librairies tierces (fichiers .jar ou .so)

14.2.3 Comment utiliser les objets de TXM depuis Groovy

14.3 Utiliser des scripts R

14.3.1 Exécuter un script

14.3.2 Utilisation des résultats et objets TXM depuis R

14.3.3 Utiliser la perspective R pour organiser son accès à R

14.3.4 L'environnement R de TXM

14.3.5 Exemple de session de travail utilisant R

14.3.5.1  Affichage de l'histogramme des fréquences d'un index de lemmes calculé avec R

14.3.5.2 Affichage de l'histogramme directement dans TXM avec un script Groovy

14.3.5.3 Exécution du script R et de l'affichage de l'histogramme depuis un seul script Groovy

14.3.5.4 Saisie du nom de l'index depuis une boite de dialogue à l'aide d'une macro TXM

14.3.5.5 Récupération du nom de l'index directement depuis la macro

14.3.6 Description des principaux objets TXM transférés à R

15 Raccourcis clavier

15.1 Tableaux de résultats

15.2 Graphiques

15.1 Éditeur de texte

15.2 Fenêtres

15.3 Raccourcis généraux

16 Extensions

16.1 Extension Analec

16.2 Extension XML Editor

16.2.1 Services du mode syntaxique XML

16.2.1.1 Repérage au sein de la syntaxe XML

16.2.1.2 Saisie assistée d’éléments XML

16.2.1.3 Formatage automatique

16.2.1.4 Validation de la syntaxe

16.2.2 Gestion des déclarations XML

16.2.2.1 Association d'une DTD à un fichier XML

16.2.2.2 Association d'un schéma à un fichier XML

16.2.2.3 Accès distant aux DTD et schéma XML

16.2.2.4 Resynchronisation de l'éditeur XML après une mise à jour du catalogue XML

16.2.3 Paramétrage de la colorisation des balises XML

17 Jeu d'étiquettes morphosyntaxiques du français

18 Documentation complémentaire

18.1 Le wiki des utilisateurs de TXM

18.2 La liste de diffusion des utilisateurs de TXM

18.3 Le site web du projet Textométrie

18.4 Le site web des développeurs du logiciel TXM

18.5 Les plaquettes de présentation de TXM

18.6 TXM dans les réseaux sociaux

18.7 Les Ateliers de formation TXM

18.8 Accéder à la documentation en ligne

19 Glossaire

20 Bibliographie

21 Index des illustrations et des tableaux

22 Table des matières