Plateforme de la base de données du projet de recherche G-ULSID

Recherche Enseignement

Le laboratoire

Le laboratoire GIPSA-lab, Grenoble Images Parole Signal Automatique, est une unité mixte du CNRS, de Grenoble-INP et de l'université Grenoble Alpes. Il mène des recherches théoriques et appliquées sur les signaux et les systèmes.

Les tutelles

CNRS UGA GRENOBLE-INP

Projet G-ULSID

Responsable scientifique et coordinateur du projet : Nathalie Vallée

Responsable de la base de données : Denis Faure-Vincent

Le projet G-ULSID (Grenoble & UCLA Lexical and Syllabic Inventory Database) vise à constituer une base de données de lexiques transcrits phonologiquement (IPA) et syllabés pour la recherche de régularités dans la phonotaxe des langues du monde. L'application prend en compte la structure de la syllabe et les niveaux infra- et supra-syllabiques. G-ULSID contient à ce jour les lexiques de 30 langues dont 3 sont en cours de finalisation, totalisant pour l'ensemble quelques 594 900 syllabes extraites d'environ de 188 900 lemmes - de 2 000 environ pour le ngizim à 22 849 pour le français - avec une moyenne par langue de 6 441 lemmes. Chaque entrée lexicale est phonologisée et découpée en syllabe(s), et chaque syllabe est décomposée en sous constituants (attaque et rime décomposée en noyau et coda). Les langues sont sélectionnées sur des critères de représentativité définis par Maddieson (1984) pour les bases de données segmentales UPSID (UCLA Phonological Segment Inventory Database). Ils font référence à l'appartenance génétique et à la provenance géographique des langues. Les langues retenues disposent toutes d'un dictionnaire ou d'un lexique dont les entrées sont soit phonétiques, soit phonologiques, soit orthographiques lorsque le code graphique de la langue est aisément interprétable avec un code phonétique. La syllabation a été obtenue soit parce qu'elle figurait dans le lexique publié, soit manuellement par au moins deux locuteurs natifs de la langue. Dans la continuité de Maddieson & Precoda (1992), seuls les lemmes sont pris en compte et les emprunts récents sont écartés.

Les langues étudiées

Langues des Amériques
Langues d'Asie
Langues d'Europe