Cette page a été traduite de l'anglais. Si une phrase semble étrange, passez à la version anglaise. Voir en anglais.
Étude de cas faisabilité (n=3) d'un système VR arabe de prise de parole avec détecteur automatisé d'événements de bégaiement
Comment cela a été évalué
Étude de cas avec trois participants en une seule session expérimentale. L'étude fait une affirmation de faisabilité/preuve de concept sur la RV en langue arabe + analyse vocale automatisée, pas une affirmation d'effet clinique. Le seuil de détection des prolongations de l'analyseur vocal a été calculé à partir d'un corpus de trois locutrices saoudiennes fluentes (uniquement), ce qui peut ne pas se généraliser à travers les genres ou les dialectes. Aucune condition contrôle ; aucune comparaison avec la sévérité du bégaiement évaluée par le clinicien ; aucun suivi longitudinal. Le papier ne comporte pas de déclaration de financement explicite ni de déclaration de conflits d'intérêts.
Les évaluations suivent un schéma simplifié à quatre niveaux (Élevée, Modérée, Faible, Très faible), inspiré du GRADE working group. En savoir plus sur la méthode d'évaluation des études.
Étude de cas de faisabilité à trois participants (deux femmes, un homme, 30-34 ans) d'un système VR arabe de prise de parole sur Samsung Gear VR + téléphone S6, couplé à un détecteur automatisé d'événements de bégaiement. Chaque participant a effectué une séance lisant depuis un pupitre virtuel face à un public virtuel. Temps de mise en place 2-3 minutes ; le détecteur automatisé corrélait R=0.95 avec le comptage manuel du clinicien sur le même audio.
Une étude de cas de faisabilité à 3 participants en séance unique d'un environnement de prise de parole en public en RV en langue arabe avec un module analyseur vocal automatisé qui détecte les prolongations, les blocages et les répétitions via l'API Google Cloud Speech-to-Text. Utile comme preuve de concept pour la RV dans un contexte linguistique peu desservi (arabe) et pour l'intégration de l'analyse vocale automatisée à la RV ; l'échantillon (n=3, séance unique, environnement unique) ne peut établir d'effet clinique. Le participant avec le bégaiement léger montrant le taux de détection le plus élevé soulève des questions sur la calibration de l'analyseur vocal par rapport à la sévérité évaluée par le clinicien que les auteurs signalent pour les études futures.
Principaux résultats
- Trois participants (deux femmes, un homme ; âges 30-34, M=32 ET=1,6) ont chacun complété UNE seule séance, PAS plusieurs séances ; le système prend en charge trois niveaux de taille de public (5, 8, 11 avatars) mais l'expérience utilisait une seule configuration par participant
- Forte corrélation positive (R=0,95) entre la durée de la séance et le nombre d'événements de bégaiement détectés automatiquement
- Les participants ont rapporté une anxiété et une présence comparables à la prise de parole en public réelle ; ils ont également rapporté un 'léger effet de vallée dérangeante' avec les personnages avatars
- L'installation et la préparation ont pris 2-3 minutes par participant ; la durée de la séance s'étendait de 1:40 à 2:25 minutes (les participants ont dépassé la durée moyenne de récitation fluente de 44,7±2,4 secondes d'environ 1:15 min)
- Résultat contre-intuitif signalé par les auteurs : le participant évalué comme ayant une sévérité de bégaiement LÉGÈRE par l'orthophoniste superviseur a présenté le taux de détection d'événements de bégaiement le PLUS ÉLEVÉ (20,8 %) tandis que le participant SÉVÈRE a montré le plus bas (4,8 %) ; le participant modéré a montré 8,6 %. Les auteurs notent que cela 'suggère que la RV pourrait ne convenir qu'aux individus avec une sévérité de bégaiement plus élevée. Des données supplémentaires sont nécessaires pour valider cette théorie'
- L'analyseur vocal a détecté trois types de dysfluence : prolongations (durée de mot dépassant un seuil dérivé de trois locutrices fluentes faisant la moyenne de 74 mots arabes lus à voix haute en 44,7±2,4 secondes), blocages (lorsque l'API vocale renvoie null pour un énoncé, interprété comme des sons vocaux non verbaux), et répétitions (lorsque l'API transcrit un mot plus de fois qu'attendu)
- Matériel/logiciel : casque Samsung Gear VR sur téléphone Samsung S6 (lunettes VR Android compatibles Oculus) ; outil de modélisation 3D Blender pour les personnages de scène ; Mixamo + Unity 3D pour l'animation et le placement ; bibliothèque client Python Google Cloud Speech-to-Text avec reconnaissance synchrone (choisie pour sa précision avec les langues à ressources limitées et la prise en charge des dialectes arabes) ; Audacity pour la capture d'enregistrement ; magnétophone numérique Sony ICD-AX412F avec microphone lavalier
Contexte
L’évaluation de la fluidité de la parole nécessite généralement qu’un clinicien compte et classe manuellement chaque moment de bégaiement durant une conversation ou une tâche de lecture. Ce processus est chronophage, subjectif et peut varier entre les observateurs. Pour les personnes qui bégaient, la conscience d’être étroitement surveillées peut également modifier leur façon de parler. Un deuxième défi concerne l’accès : la plupart des recherches sur la RV et le bégaiement ont été conduites avec des populations anglophones, avec très peu de travaux équivalents en arabe. Al-Nafjan, Alghamdi et Almudhi - travaillant dans trois universités saoudiennes (Imam Muhammad ibn Saud, King Saud et King Khalid) - ont entrepris de relever ces deux défis en développant un environnement de prise de parole en public en RV en langue arabe avec un analyseur vocal automatisé intégré.
Ce que les chercheurs ont fait
L’équipe a construit un système à deux composantes : (1) une composante RV qui place le participant à un pupitre virtuel face à un public virtuel, prenant en charge trois configurations de taille de public (5, 8 et 11 avatars aux niveaux 1, 2 et 3 respectivement), construit dans Blender pour la modélisation des personnages, Mixamo pour l’animation, et Unity 3D pour l’assemblage de la scène, rendu sur un casque Samsung Gear VR (compatible Oculus) fonctionnant sur un téléphone Android Samsung S6 ; et (2) une composante analyseur vocal qui enregistre la lecture du participant via un magnétophone numérique Olympus WS-500M avec microphone lavalier, segmente l’audio avec Audacity en seuillant l’énergie du signal et le centroïde spectral, et transcrit chaque segment à l’aide de la bibliothèque client Python Google Cloud Speech-to-Text avec reconnaissance synchrone. L’analyseur vocal signale trois types de dysfluence :
- Prolongation : lorsque la durée d’un mot du participant dépasse un seuil par mot calculé en faisant la moyenne de la durée du même mot chez trois locutrices de référence fluentes (74 mots arabes lus en 44,7±2,4 secondes).
- Blocage : lorsque l’API vocale renvoie une transcription null pour un énoncé, interprété comme un son vocal non verbal produit durant un blocage de bégaiement.
- Répétition : lorsque l’API transcrit un mot plus de fois qu’attendu à partir du script de référence.
Le score de Dépistage du Bégaiement (DB) est la somme de ces trois comptes.
Participants. Trois adultes arabophones qui bégaient ont été recrutés à partir de la pratique clinique de l’orthophoniste superviseur (co-auteur Almudhi). Données démographiques : deux femmes, un homme ; âges 30, 32 et 34 (moyenne 32, ET 1,6). La sévérité du bégaiement a été évaluée par l’orthophoniste : P1 modéré (âge 32), P2 léger (âge 34), P3 sévère (âge 30). Tous étaient en bonne santé avec une vision normale et aucune expérience préalable en RV.
Procédure. L’expérience était une séance unique dans une salle isolée sous la supervision du superviseur. Les participants ont mis un microphone lavalier Sony IC-Recorder numérique (ICD-AX412F) et le casque Samsung Gear VR, ont ajusté leur position jusqu’à ce que le texte sur le pupitre virtuel soit lisible, et ont lu le script arabe de 74 mots à voix haute face au public virtuel. L’installation/préparation a pris 2-3 minutes par participant ; la séance de lecture proprement dite a duré 1:40-2:25 minutes. Après l’enregistrement, l’audio a été segmenté, transcrit et analysé ; les participants ont ensuite été interrogés pour un retour subjectif.
Ce qu’ils ont trouvé
Acceptabilité et présence (qualitatif). Les participants ont évalué positivement leurs expériences en RV à travers la conception esthétique, la conception des personnages et l’immersion. Ils ont rapporté une ressemblance acceptable entre la scène RV et une vraie salle de conférence, un « léger effet de vallée dérangeante » avec les personnages avatars (une limitation notée de la conception des personnages), et des réactions émotionnelles similaires (peur, anxiété) à celles vécues lors d’activités de prise de parole en public réelles. Subjectivement, l’orthophoniste superviseur n’a observé aucune différence significative dans la prosodie de la parole des participants lors de l’utilisation de la RV par rapport à l’extérieur de la RV.
Performance de l’analyseur vocal. Une forte corrélation positive a été trouvée entre la durée de la séance et les événements de bégaiement détectés automatiquement (R=0,95). Les auteurs interprètent cela comme la preuve d’une « performance acceptable de l’analyseur vocal dans la détection des événements de bégaiement, en particulier les instances de prolongation. »
Résultat contre-intuitif sévérité-vs-détection. Le tableau 2 du papier montre les pourcentages d’événements de bégaiement détectés par participant : P1 (modéré, 32 ans) 8,6 %, P2 (léger, 34 ans) 20,8 %, P3 (sévère, 30 ans) 4,8 %. Autrement dit, le participant évalué comme LÉGER par le clinicien a montré le taux de détection le PLUS ÉLEVÉ, tandis que le participant SÉVÈRE a montré le plus bas. Les auteurs le signalent directement : « Une observation intéressante est que le participant avec une sévérité de bégaiement légère a présenté un pourcentage plus élevé d’événements de bégaiement. Cette observation suggère que la RV pourrait ne convenir qu’aux individus avec une sévérité de bégaiement plus élevée. Des données supplémentaires sont nécessaires pour valider cette théorie. » Un lecteur pourrait également interpréter cela comme une question de calibration/validité sur le détecteur automatisé par rapport à l’évaluation de sévérité du clinicien, mais les auteurs l’interprètent comme une question de pertinence de la population.
Faisabilité de l’installation. Le temps d’installation de 2-3 minutes par participant est présenté comme preuve que le système est réalisable pour une utilisation clinique.
Pourquoi cela compte
Il s’agit de l’une des très rares études RV-bégaiement conduites en arabe, abordant une sous-représentation significative dans le domaine. C’est également l’une des relativement rares études qui intègre explicitement une API de reconnaissance vocale en cloud du commerce à un environnement RV pour détecter automatiquement les événements de bégaiement. Le concept d’intégration - réduire la charge du comptage manuel lors de l’évaluation du bégaiement - est un besoin clinique réel ; si l’implémentation fonctionne de manière robuste est ce que cette petite étude de cas peut laisser entrevoir (corrélation R=0,95 avec la durée de la séance) mais ne peut pas établir (n=3, aucune comparaison avec les comptes d’événements du clinicien).
L’observation sévérité-vs-détection est le résultat cliniquement le plus intéressant. Avec seulement 3 participants, il est générateur d’hypothèses, pas conclusif. Il pourrait refléter : (a) une variation réelle de population dans la façon dont le bégaiement se manifeste lors de la lecture en RV ; (b) des problèmes de calibration avec le seuil de prolongation (dérivé de trois locutrices fluentes, appliqué à des participants de genre mixte et de sévérités variées) ; (c) une variabilité test-retest qu’une seule séance ne peut pas quantifier ; (d) un bruit statistique de n=3. Des travaux ultérieurs devraient démêler ces facteurs.
Concernant Therapy withVR : cette étude n’a pas utilisé, testé ni évalué Therapy withVR. Le système était un logiciel de recherche personnalisé construit par les auteurs. L’article Al-Nafjan est inclus dans le Hub de preuves parce qu’il contribue à la base de preuves plus large sur la RV immersive pour le bégaiement et représente une rare contribution en langue arabe, et non parce qu’il est lié à Therapy withVR.
Limites
Le papier reconnaît certaines d’entre elles directement ; d’autres sont inhérentes à la conception :
- Taille d’échantillon n=3, séance unique, configuration de public unique par participant. Le système prend en charge trois niveaux de taille de public (5/8/11 avatars) mais l’expérience n’a pas fait varier la taille du public au sein ou entre les participants ; l’aspect « hiérarchie graduée » du système n’a pas été testé.
- Aucune condition contrôle. Aucune baseline non-RV, aucune comparaison avec les comptes manuels d’événements du clinicien, aucun test-retest.
- Aucun suivi longitudinal. Séance unique uniquement.
- Seuil de l’analyseur vocal dérivé de trois locutrices FÉMININES fluentes. Appliqué à des participants de genre mixte ; peut ne pas se généraliser à travers les genres, les dialectes ou les tempos de parole.
- Résultat contre-intuitif sévérité-vs-détection (participant léger : taux détecté le plus élevé ; sévère : le plus bas) soulève la question de savoir si le détecteur automatisé suit le jugement du clinicien sur la sévérité ; les auteurs notent que « des données supplémentaires sont nécessaires pour valider cette théorie. »
- Léger effet de vallée dérangeante rapporté par les participants dans le bilan qualitatif - un signal pour la conception des avatars.
- Aucune déclaration de financement explicite ni déclaration de conflits d’intérêts dans le papier.
- Le matériel RV est le Samsung Gear VR original (RV mobile de l’ère 2015). Le matériel moderne de classe Quest offre une fidélité visuelle et un suivi matériellement meilleurs.
Implications pour la pratique
Pour les cliniciens arabophones envisageant une évaluation du bégaiement assistée par technologie : ce papier fournit des preuves de faisabilité qu'une API de reconnaissance vocale en cloud du commerce (Google Cloud Speech-to-Text) peut être combinée à un environnement de prise de parole en public en RV pour détecter les prolongations, les blocages et les répétitions dans l'évaluation du bégaiement en langue arabe. Le résultat inattendu que le participant avec la sévérité cliniquement évaluée la plus faible a montré le taux de détection automatisée le plus élevé est une mise en garde contre l'utilisation de tels systèmes pour l'évaluation de la sévérité sans calibration supplémentaire. Les cliniciens devraient traiter l'étude comme une preuve de concept pour la pipeline technique (RV en langue arabe + analyse vocale automatisée), pas comme preuve que la RV réduit le bégaiement ou que la détection automatisée correspond au jugement du clinicien.
Liens avec Therapy withVR
L'étude ci-dessus est une recherche indépendante et ne porte aucun jugement sur quelque produit que ce soit. Les notes ci-dessous sont un commentaire de withVR sur la manière dont les thèmes de cette recherche rejoignent des fonctionnalités de Therapy withVR. Les résultats de la recherche ne constituent pas des allégations concernant Therapy withVR.
Speech analysis integration (editorial parallel only)
L'étude Al-Nafjan intégrait un reconnaisseur de parole automatisé du commerce (Google Cloud Speech-to-Text) avec l'environnement RV pour détecter les prolongations, les blocages et les répétitions en arabe. L'objectif conceptuel - réduire la charge du comptage manuel des événements de bégaiement durant les séances - est un besoin clinique réel que la journalisation de session de Therapy withVR peut soutenir d'une manière différente (dans sa propre conception). Parallèle éditorial uniquement ; le système étudié est un logiciel de recherche personnalisé, pas Therapy withVR.
Adjustable audience size (editorial parallel only)
Le système RV Al-Nafjan prend en charge trois configurations de taille de public (5, 8, 11 avatars). L'expérience utilisait une seule configuration par participant, mais le concept de hiérarchie du système s'aligne avec les contrôles de public ajustables par le clinicien de Therapy withVR dans sa propre conception. Parallèle éditorial uniquement.
Citer cette étude
Si vous référencez cette étude dans votre travail, voici les formats de citation canoniques :
@article{alnafjan2021,
author = {Al-Nafjan, A. and Alghamdi, N. and Almudhi, A.},
title = {Virtual Reality Technology and Speech Analysis for People Who Stutter},
journal = {EMITTER International Journal of Engineering Technology},
year = {2021},
doi = {10.24003/emitter.v9i2.649},
url = {https://withvr.app/fr/evidence/studies/al-nafjan-2021}
}TY - JOUR
AU - Al-Nafjan, A.
AU - Alghamdi, N.
AU - Almudhi, A.
TI - Virtual Reality Technology and Speech Analysis for People Who Stutter
JO - EMITTER International Journal of Engineering Technology
PY - 2021
DO - 10.24003/emitter.v9i2.649
UR - https://withvr.app/fr/evidence/studies/al-nafjan-2021
ER - Vous connaissez des travaux qui auraient leur place dans cette base ? Si une étude pertinente évaluée par les pairs n'y figure pas, envoyez la référence à hello@withvr.app. La base est tenue à jour au fil de la littérature.
Financement et indépendance
Le papier ne divulgue AUCUNE source de financement externe - il n'y a pas de section 'Financement' dans le papier. Les Remerciements remercient trois membres non nommés de l'équipe du projet (Asmaa Albasha, Maryam Alghalban, Ola Semsemiah) 'pour leur dur travail et leur dévouement' ainsi que les sujets participants. Aucune déclaration de conflits d'intérêts n'est incluse dans le papier. Affiliations des auteurs : Abeer Al-Nafjan (Département des sciences informatiques, Faculté d'informatique et de sciences de l'information, Université islamique Imam Muhammad ibn Saud, Riyad, Arabie Saoudite) ; Najwa Alghamdi (Département des technologies de l'information, Faculté d'informatique et de sciences de l'information, Université King Saud, Riyad, Arabie Saoudite) ; Abdulaziz Almudhi (Département des sciences de réadaptation médicale, Faculté des sciences médicales appliquées ET Unité d'orthophonie, Université King Khalid, Abha, Arabie Saoudite). Le système RV a été développé par les auteurs avec Blender, Unity 3D et Mixamo, fonctionnant sur un casque Samsung Gear VR (compatible Oculus) avec un téléphone Samsung S6 ; ce n'est PAS Therapy withVR. L'analyseur vocal utilisait la bibliothèque client Python Google Cloud Speech-to-Text. Aucune implication de withVR BV dans le financement, la conception de l'étude ou la rédaction. Résumé préparé indépendamment par withVR à partir de l'article publié.