Retour à la liste des évènementsBack to the events list
Conférence / séminaire / webinaire - conference / seminar / webinarRecherche - ResearchRéservé à certains publics

Séminaire de Djegdjiga AMAZOUZ / Université de Paris III Sorbonne-nouvelle

Séminaire de Djegdjiga AMAZOUZ / Université de Paris III Sorbonne-nouvelle
Études linguistiques et phonétiques du code-switching français-arabe : analyses de grands corpus et traitement automatique de la parole

Cette présentation porte sur l’étude linguistique et phonétique sur code-swicthing (CS) français-arabe algérien à l'aide d'outils de traitement automatique de la parole. Un corpus de 7h30 de parole de 20 locuteurs bilingues (5h de parole spontanée et 2h30 de parole lue) a été conçu, enregistré et annoté. L'un des premiers défis abordés a consisté à développer des méthodes de traitement des données telles que la segmentation en langues, la transcription du français et de l'arabe algérien. Les méthodes d'alignement automatique de la parole ont été adaptées pour traiter les données du code-switching en combinant deux systèmes d'alignement monolingues, produisant ainsi des transcriptions orthographiques et phonémiques avec des localisations temporelles dans les deux langues. Une expérience a été menée pour détecter automatiquement les changements de langue, mais cela reste un défi, en particulier pour les durées de parole monolingues très courtes. Le second aspect de ce travail porte sur l'influence du système phonologique de la langue A sur la deuxième langue B dans la parole du code-switching, en l'occurrence les productions phonétiques de l'arabe et du français.

Le corpus annoté a été utilisé pour effectuer des études phonétiques sur la variation des voyelles et des consonnes en utilisant un paradigme de discrimination automatique de type ABX. Avec ce paradigme, nos résultats sur la variation de la production correspondent aux hypothèses a priori: considérant les voyelles périphériques /i, a, u/, des taux de variantes plus élevés sont mesurés en arabe algérien (40%) qu'en français (27%). Une comparaison avec des locuteurs de langue maternelle française suggère que les locuteurs bilingues ont des productions de voyelles plus conservatrices que les locuteurs natifs (34%), du moins dans le code-switching. Trois études sur la variation des consonnes ont également été menées: la gemination, l’emphatisation et le voisement. Globalement, les consonnes présentent des tendances similaires à celles des voyelles: 42% de taux de variantes pour l'arabe algérien et 30% pour le français en code-switching, contre 38% pour les natifs français. De futures études utilisant ce corpus novateur pourront contribuer à démêler l'interaction complexe entre la variation phonétique et les systèmes phonologiques chez les bilingues dans le code-switching.

Mardi 28 janvier 2020, 11h30
Laboratoire LIMSI - Salle de Conférences
Retour à la liste des évènementsBack to the events list
  • Janvier 2020

    • Mardi 28 11:30 - 12:30

LieuLocation

Laboratoire LIMSI - Salle de Conférences

Bâtiment 507 - rue du Belvédère - Orsay, Essonne, Île-de-France

Informations PratiquesUseful informations