La trajectoire de grammaticalisation engagée par là semble des plus classiques (cf. Heine/Kuteva 2002, Kriegel 2003), de nombreuses études (p.ex. Baker 2003, Daff 1998, Detges/Waltereit 2009, Italia 2006, Vincent 1993, Ludwig/Pfänder 2003, Wiesmath 2003) en ont explicité les aspects structuraux pour différentes variétés du français et des langues créoles à base française. Cependant, les analyses quantitatives des données orales sont encore très peu développées. L’objectif de cette recherche sera l’étude exploratoire des caractéristiques combinatoires de là en français parlé, ayant pour objectif la remise en perspective des évolutions envisagées dans la littérature. Nous verrons que l’un des problèmes majeurs est l’interprétation structurelle même des formes relevées dans les corpus. Il n’est pas rare en effet de noter l’instabilité notoire des emplois :
Il semble alors que là ne peut intervenir que sur les entités thématisées ou thématisables dans le discours, et qu’il y a une différence référentielle entre les noms marqués par là et les noms marqués par un déterminant préposé, en ce que là confère le trait [+présupposé] au nom qu’il marque. Cependant, l’absence du marqueur là dans des exemples similaires dont le référent est déjà introduit dans le co-texte (sa bouche, leur bouche) va à l’encontre de cette interprétation. Il est pour cette raison difficile de formaliser une distinction sémantique entre les deux paradigmes en question qui expliquerait leur distribution respective dans le texte. Même si dans la plupart des cas il est possible de conférer une valeur stable à là (valeur spécifique maximale), il ne semble pas possible, pour le moment, d’articuler une différence sémantique entre les syntagmes det + nom + là d’une part, et Ø + nom + là d’autre part. (Knutsen/Ploog 2005: 50)
- ou encore de « det + nom », pourrait-on ajouter : car si la description se réfère à un usage périphérique (celui d’Abidjan), la co-existence en synchronie de différentes étapes de grammaticalisation semble la règle plutôt que le cas d'exception. Enfin, comme l'indique le terme de glissement sémantique, les différentes interprétations possibles sont liées dans un continuum. Une délimitation catégorielle des emplois serait un non-sens dans la saisie descriptive de la grammaticalisation.
2 Corpus d’étude
2.1 ESLO-MD
Le corpus ESLO-MD (« microdiachronique ») est un corpus oral de français hexagonal composé d’un million de mots (environ 80h enregistrées) issus d’interactions parmi les corpus ESLO1 (1968-1971) et ESLO2 (2008-2019). Les données d’études sont équilibrées entre les deux périodes, en veillant à une répartition équilibrée également entre les genres interactionnels (conférences, repas, entretiens). L’échantillon est constitué comme suit :
ESLO-MD | Conférences | Repas | Entretiens | TOTAL | Nombre de mots |
ESLO1 | 192 mn | 196 mn | 2042 mn | 2430 mn | 453298 |
ESLO2 | 186 mn | 201 mn | 2034 mn | 2421 mn | 521931 |
TOTAL | 378 mn | 397 mn | 4076 mn | 4851 mn | 975229 |
Tableau 1:
Composition de ESLO-MD
Si l'on décline la taille de ESLO-MD en termes du nombre des sous-échantillons ainsi que des mots-occurrences, on obtient la ventilation suivante par genre et sous-corpus :
Conférences | Repas | Entretiens | ||||
Sous-corpus | Echantillons | Mots | Echantillons | Mots | Echantillons | Mots |
ESLO1 | 2 | 32866 | 4 | 40665 | 30 | 384279 |
ESLO2 | 5 | 30432 | 8 | 40864 | 31 | 452293 |
TOTAL | 7 | 63298 | 12 | 81529 | 61 | 836572 |
Tableau 2 :
Nombre de sous-échantillons et de mots-occurrences par genre et sous-corpus
Les considérations méthodologiques liées aux variables sociologiques qui ont présidé au choix de l’échantillon ESLO-MD sont détaillées dans Abouda/Skrovec (2018). Si les deux sous-corpus ne sont pas sociologiquement représentatifs ni même comparables au sens strict, les méthodologies de recueil le sont dans une large mesure, ce qui rend possible la documentation d’une temporalité intermédiaire des dynamiques linguistiques, entre changement et variation synchronique, dans un intervalle de 40 ans.
Le corpus ESLO dans son intégralité est librement accessible en ligne1. Les transcriptions de l’échantillon ESLO-MD ont été enrichies avec une annotation morpho-syntaxique automatique par TreeTagger (Schmid 1994), sous TXM, outil d'analyse textométrique libre (Heiden et al. 2010)2. Nous reproduisons les extraits tels qu'ils apparaissent dans la transcription ESLO.3
2.2 Limitation du champ
Notre étude est basée sur une concordance que nous avons créée au moyen de TXM. Comme le codage orthographique dans le corpus avec ou sans trait d’union montre des inconsistances, liées ou non à l’ambivalence sémantique de là, nous avons extrait ses occurrences à partir de son lemme (tel qu’annoté par TreeTagger). Les occurrences ont été annotées sans tenir compte de la variabilité de la transcription. En vue de l’analyse détaillée selon les différents critères syntaxiques, sémantiques et énonciatifs, que nous allons exposer dans la section 3, nous avons procédé à un échantillonnage aléatoire en retenant un tiers des 5134 occurrences obtenues au départ,