Plateforme de la base de données du projet de recherche G-ULSID

Recherche Enseignement

Le laboratoire

Le laboratoire GIPSA-lab, Grenoble Images Parole Signal Automatique, est une unité mixte du CNRS, de Grenoble-INP et de l'université Grenoble Alpes. Il mène des recherches théoriques et appliquées sur les signaux et les systèmes.

Les tutelles

CNRS UGA GRENOBLE-INP

Le lexique Russe

La base de données du lexique Russe

Origine des données

Le lexique du russe sur lequel s’appuie notre étude contient 15000 lemmes extraits d’un dictionnaire d’environ 35000 mots. Ce dictionnaire de fréquences du russe était un des projets de l’Institut russe de recherche en intelligence artificielle conduit d’abord par Sharov (http://www.artint.ru/projects/frqlist.php) puis poursuivi par Lyashevskaya& Sharov (2009). Ila été élaboré sur une collection de textes du corpusnational de la langue russe37 (http://www.ruscorpora.ru/new/), représentant la langue de la période 1950-2007. Une version électronique du dictionnaire est publiée sur le site de l'Institut de la Langue Russe de V.V. Vinogradovde l'Académie des Sciences (http://dict.ruslang.ru). La liste des items lexicaux est représentative du russe moderne. Il comprend une sélection de prose, de mémoires politiques, de journaux et de littérature scientifique populaire (environ 40 millions de mots). Tous les textes du corpus ont été écrits en russe entre 1970 et 2002.

Création de la base de données G-ulsid et services ajoutés

  1. le fichier texte des 15 000 lemmes a été importé dans une base de données MYSQL (application permettant de manupuler les données à partir d'un langage appelé SQL)
  2. un programme a convertit les graphèmes cyrilliques en symboles de l'alphabet phonétique international API
  3. une application web a permis à un locuteur natif de procéder à la syllabation et à la vérification de la traduction automatique de l'API

Exploitation de la base de données

Des statistiques et des représentations graphiques ont été élaborées à partir de programmes PHP, qui utilisent les informations de la base de données obtenues avec le langage SQL.

Les résultats obtenus sont pour la plupart consultables sur une interface web privative ou rendu public dans le cadre ce site web.

L'ensemble de la base de données est utilisé dans le cadre de la recherche et de l'enseignement.



Consulter un extrait de la base de données