Qu'a trouvé Delangle et al. (2026) ?

L'acceptabilité et la présence du système étaient élevées : ITC-SOPI Présence spatiale M=3,60/5 (ET=0,70), Engagement M=3,87/5 (ET=0,78), Validité écologique M=3,27/5 (ET=1,53), Effets négatifs M=1,58/5 (ET=0,60). Les items IWA montrent : 'j'avais l'impression de parler à une vraie personne' M=8,43/10, 'les situations pratiquées étaient pertinentes' M=9,29/10, 'j'aimerais utiliser cet outil pour les situations stressantes' M=9,57/10 La plupart des participants n'ont PAS reconnu leur propre orthophoniste derrière l'avatar (item IWA 2 M=2,86/10 ; un score inférieur est préférable ici). La modulation vocale (Clownfish Voice Changer) associée à la capture faciale Live Link Face s'est avérée efficace, sauf pour les deux participants les plus âgés (16 et 18 ans) qui ont reconnu la prosodie de leur orthophoniste (scores respectifs de 10 et 8) La conductance cutanée (SCL) du groupe expérimental était significativement plus élevée que le niveau de base durant la préparation du discours et la conversation en session 1 (in virtuo p=,006 et p=,009) et en session 2 (in vivo p<,001 et p=,008). Le groupe contrôle jeu de rôle avec l'orthophoniste n'a montré aucune élévation significative de la SCL par rapport au niveau de base dans aucune phase des deux sessions Les réponses de conductance cutanée (SCR) à des stimuli anxiogènes spécifiques étaient significativement PLUS fréquentes dans le groupe jeu de rôle avec l'orthophoniste que dans le groupe RV lors de la session 1, notamment pour le froncement (t=-3,79, p<,05) et pour l'ensemble des stimuli combinés (t=-3,76, p<,05). Au sein du groupe expérimental, les taux de détection des SCR étaient comparables entre les conditions in virtuo (session 1) et in vivo (session 2) (t(4)=-1,07, p=,35) Le SUDS auto-rapporté du groupe RV n'a PAS différé significativement du niveau de base lors de la conversation in virtuo, tandis que le SUDS du groupe jeu de rôle était significativement plus élevé que le niveau de base (p<,001 au début et à la fin de la conversation). L'effet inter-groupes en fin de conversation était large (d=1,35, IC 95 % [-2,77, -0,67], p=,031) De façon inattendue, la fréquence cardiaque a DIMINUÉ par rapport au niveau de base dans les deux groupes au cours de la plupart des phases (par ex. session 1 conversation groupe expérimental FC IC 95 % [-9,828, -2,325], p=,002 ; groupe contrôle IC 95 % [-6,038, -2,029], p ,58) et n'a PAS changé significativement au sein de l'un ou l'autre groupe de la session 1 à la session 2 (expérimental Z=-1,36, p=,17, r=,60 ; contrôle Z=-0,94, p=,345, r=,39). Les tailles d'effet intra-groupe modérées (r=0,36-0,60) suggèrent des tendances potentielles que des échantillons plus grands pourraient détecter Une séance d'entraînement unique dans l'une ou l'autre condition n'a PAS réduit l'anxiété lors de la conversation réelle ultérieure avec l'acteur-professeur inconnu - les deux groupes ont montré un SUDS élevé au début de la conversation en session 2 (expérimental p=,003 ; contrôle p=,002), retournant près du niveau de base en fin de conversation

Qui a participé à cette étude ?

Cette étude a inclus 12 participants : Enfants et adolescents qui bègaient (6F ; 9-18 ans)

Cette page a été traduite de l'anglais. Si une phrase semble étrange, passez à la version anglaise. Voir en anglais.

ECR pilote chez des jeunes qui bégaient : la VR à avatar photoréaliste, bien acceptée, n'a pas surpassé le jeu de rôle avec l'orthophoniste

Delangle M et al. · 2026 · Journal of Fluency Disorders · RCT · n = 12 · Enfants et adolescents qui bègaient (6F ; 9-18 ans) · DOI

Niveau de certitude : Certitude faible

Comment cela a été évalué

ECR pilote avec allocation aléatoire (n=12 ; 6 par groupe), inférence par bootstrap (10 000 ré-échantillons) appropriée pour les petits échantillons, et objectifs pré-spécifiés. L'objectif 1 (acceptabilité, présence) a été soutenu ; l'objectif 2 (susciter des réponses physiologiques) a été partiellement soutenu avec une diminution inattendue de la fréquence cardiaque dans les deux groupes ; l'objectif 3 (valeur ajoutée de la RV par rapport au jeu de rôle après une séance unique) n'a PAS été soutenu. Limites contraignant la certitude : très petit échantillon, séance d'entraînement unique, deux acteurs-professeurs différents lors de la session 2, SUDS rétrospectif, absence de mesure des tendances immersives, et une relation pertinente industrie-académie - le co-auteur Stephane Bouchard est consultant pour Cliniques et Developpement In Virtuo (société de développement de RV) et y détient des parts, bien que le papier précise que cette société n'a pas créé les environnements utilisés dans cette étude.

Les évaluations suivent un schéma simplifié à quatre niveaux (Élevée, Modérée, Faible, Très faible), inspiré du GRADE working group. En savoir plus sur la méthode d'évaluation des études.

ECR pilote randomisant 12 enfants/adolescents PQB (9-18 ans) à deux conditions avant un acteur-enseignant inconnu : conversation avec enseignant virtuel photoréaliste en RV contrôlé en direct par leur orthophoniste via capture faciale (n=6), ou jeu de rôle en présentiel (n=6). Système VR bien accepté (présence élevée, faible cybermalaise). Conductance cutanée élevée vs départ dans le groupe VR ; le jeu de rôle a davantage augmenté l'anxiété auto-rapportée. Une séance n'a pas surpassé le jeu de rôle sur l'auto-efficacité ni l'anxiété in vivo post-tâche.

Message clinique essentiel

Un ECR pilote à petit échantillon (n=12, 6 par groupe) montrant qu'un système de RV à avatar photoréaliste en temps réel piloté par l'orthophoniste via capture faciale est acceptable et réalisable pour les adolescents qui bégaient et suscite une activation physiologique lors d'une conversation en face-à-face. L'étude n'a PAS démontré de valeur ajoutée d'une séance de RV par rapport à une séance de jeu de rôle avec l'orthophoniste sur l'auto-efficacité ou la réduction de l'anxiété lors d'une conversation réelle ultérieure. À interpréter avant tout comme une étude de faisabilité et un signal en faveur d'une recherche multiséances, pas comme une preuve d'efficacité clinique.

Principaux résultats

L'acceptabilité et la présence du système étaient élevées : ITC-SOPI Présence spatiale M=3,60/5 (ET=0,70), Engagement M=3,87/5 (ET=0,78), Validité écologique M=3,27/5 (ET=1,53), Effets négatifs M=1,58/5 (ET=0,60). Les items IWA montrent : 'j'avais l'impression de parler à une vraie personne' M=8,43/10, 'les situations pratiquées étaient pertinentes' M=9,29/10, 'j'aimerais utiliser cet outil pour les situations stressantes' M=9,57/10
La plupart des participants n'ont PAS reconnu leur propre orthophoniste derrière l'avatar (item IWA 2 M=2,86/10 ; un score inférieur est préférable ici). La modulation vocale (Clownfish Voice Changer) associée à la capture faciale Live Link Face s'est avérée efficace, sauf pour les deux participants les plus âgés (16 et 18 ans) qui ont reconnu la prosodie de leur orthophoniste (scores respectifs de 10 et 8)
La conductance cutanée (SCL) du groupe expérimental était significativement plus élevée que le niveau de base durant la préparation du discours et la conversation en session 1 (in virtuo p=,006 et p=,009) et en session 2 (in vivo p<,001 et p=,008). Le groupe contrôle jeu de rôle avec l'orthophoniste n'a montré aucune élévation significative de la SCL par rapport au niveau de base dans aucune phase des deux sessions
Les réponses de conductance cutanée (SCR) à des stimuli anxiogènes spécifiques étaient significativement PLUS fréquentes dans le groupe jeu de rôle avec l'orthophoniste que dans le groupe RV lors de la session 1, notamment pour le froncement (t=-3,79, p<,05) et pour l'ensemble des stimuli combinés (t=-3,76, p<,05). Au sein du groupe expérimental, les taux de détection des SCR étaient comparables entre les conditions in virtuo (session 1) et in vivo (session 2) (t(4)=-1,07, p=,35)
Le SUDS auto-rapporté du groupe RV n'a PAS différé significativement du niveau de base lors de la conversation in virtuo, tandis que le SUDS du groupe jeu de rôle était significativement plus élevé que le niveau de base (p<,001 au début et à la fin de la conversation). L'effet inter-groupes en fin de conversation était large (d=1,35, IC 95 % [-2,77, -0,67], p=,031)
De façon inattendue, la fréquence cardiaque a DIMINUÉ par rapport au niveau de base dans les deux groupes au cours de la plupart des phases (par ex. session 1 conversation groupe expérimental FC IC 95 % [-9,828, -2,325], p=,002 ; groupe contrôle IC 95 % [-6,038, -2,029], p<,001) et le RMSSD a souvent AUGMENTÉ - interprété par les auteurs comme une adaptation/habituation autonomique plutôt que l'augmentation d'activation prédite
L'auto-efficacité n'a PAS différé significativement entre les groupes à aucun moment (tous p>,58) et n'a PAS changé significativement au sein de l'un ou l'autre groupe de la session 1 à la session 2 (expérimental Z=-1,36, p=,17, r=,60 ; contrôle Z=-0,94, p=,345, r=,39). Les tailles d'effet intra-groupe modérées (r=0,36-0,60) suggèrent des tendances potentielles que des échantillons plus grands pourraient détecter
Une séance d'entraînement unique dans l'une ou l'autre condition n'a PAS réduit l'anxiété lors de la conversation réelle ultérieure avec l'acteur-professeur inconnu - les deux groupes ont montré un SUDS élevé au début de la conversation en session 2 (expérimental p=,003 ; contrôle p=,002), retournant près du niveau de base en fin de conversation

Contexte

Le bégaiement chez les enfants et adolescents d’âge scolaire s’accompagne fréquemment d’anxiété sociale. Iverach et al. (2016) ont rapporté que les enfants qui bégaient sont environ six fois plus susceptibles que leurs pairs qui ne bégaient pas de développer un trouble d’anxiété sociale, et que l’anxiété sociale dans cette population tend à augmenter à travers l’adolescence. La TCC avec exposition graduée est efficace pour réduire l’anxiété sociale chez les adultes qui bégaient, mais peu d’interventions empiriques ont spécifiquement abordé l’anxiété chez les jeunes qui bégaient.

La thérapie d’exposition repose traditionnellement sur des expériences in vivo ou des jeux de rôle en cabinet avec le clinicien. Chacune présente des contraintes : l’exposition in vivo est logistiquement difficile et laisse peu de contrôle sur la situation au thérapeute, tandis que le jeu de rôle est limité par la conscience qu’ont les participants que le clinicien est une figure familière et rassurante plutôt qu’un étranger. La réalité virtuelle a été proposée comme un juste milieu contrôlable, mais la plupart des travaux VR-bégaiement à ce jour ont utilisé des scénarios de groupe ou de public (Brundage et al. 2006, 2016 ; Brundage & Hancock 2015 ; Moise-Richard et al. 2021) plutôt qu’une conversation naturaliste en face-à-face, et ont reposé sur un comportement d’avatar pré-scripté ou statique plutôt que sur des réponses dynamiques en temps réel.

Delangle et ses collègues (la même équipe de recherche que Moise-Richard et al. 2021) ont entrepris de combler deux lacunes : l’absence de mesures physiologiques dans les travaux antérieurs de l’équipe sur la classe virtuelle, et l’absence d’un scénario RV en face-à-face en temps réel simulant la dynamique naturaliste et réciproque de la conversation quotidienne.

Ce que les chercheurs ont fait

Treize enfants et adolescents qui bégaient ont été recrutés au Centre de réadaptation Marie Enfant (CHU Sainte-Justine), à l’Institut Raymond-Dewar, et dans des cliniques d’orthophonie privées à Montréal, Québec. Une adolescente a été exclue (exposition similaire antérieure en RV lors d’un enregistrement télévisuel), laissant douze participants dans l’analyse (6 filles ; âges 9-18, M=13,1, ET=3,0). Tous avaient été professionnellement diagnostiqués comme bégayants par un orthophoniste certifié, étaient actuellement en traitement thérapeutique, et avaient complété au moins trois séances avec leur propre thérapeute. La répartition aléatoire par générateur de nombres aléatoires a produit deux groupes équilibrés (n=6 par bras). Les mesures de base d’anxiété sociale (LSAS-CA) et de confiance en prise de parole publique (forme courte du PRCS) n’ont montré aucune différence significative entre les groupes.

Le système de RV. Un enseignant virtuel photoréaliste a été construit avec MetaHuman et rendu sur un Meta Quest 2 avec Unreal Engine 5.03. Depuis une pièce adjacente, l’orthophoniste contrôlait l’avatar en temps réel : un iPhone 11 exécutant Live Link Face capturait les mouvements des lèvres, de la bouche, des yeux, des sourcils et de la tête du thérapeute et les diffusait vers l’avatar ; Clownfish Voice Changer appliquait un effet vocal masculin constant (les orthophonistes étaient majoritairement féminines, et un avatar masculin d’environ 40-50 ans a été choisi spécifiquement pour limiter la reconnaissance). L’orthophoniste voyait en direct la vue du participant sur un ordinateur portable, permettant une réactivité verbale et non verbale dynamique. Une légère animation corporelle de l’avatar (léger balancement, mouvement neutre des bras) était pilotée par Adobe Mixamo pour éviter une apparence statique non naturelle. La salle de classe virtuelle et la salle d’expérimentation utilisaient une géométrie de bureau assortie pour renforcer le sentiment de présence corporelle.

Procédure. Chaque participant a complété deux sessions espacées d’environ deux semaines (M=12 jours, ET=11,3, étendue 3-42). Chaque session comportait trois phases :

Niveau de base - une conversation de 3 minutes avec un membre inconnu de l’équipe de recherche (différent à la fois de l’orthophoniste et de l’acteur-professeur) sur des sujets neutres (loisirs, musique, destinations de voyage) pour capturer l’activation liée à la prise de parole.
Préparation du discours - une discussion de 3 minutes avec le même membre de l’équipe sur les aménagements possibles en classe que le participant pourrait demander en lien avec son bégaiement.
Tâche de conversation - une conversation de 5 minutes (M=4,7 min, ET=1,6) avec le « professeur » lors de laquelle le participant déclarait son bégaiement et négociait des aménagements en classe. L’enseignant introduisait trois catégories de stimuli anxiogènes, présentés chacun au moins une fois : froncement, bâillement, et phrases inconfortables scriptées (« Ce n’est pas juste pour les autres élèves », « Pourquoi devrais-je faire des aménagements spéciaux pour vous ? »). Les orthophonistes étaient entraînés à attendre au moins 20 secondes entre les stimuli et à ne pas en introduire deux simultanément ; ils avaient pour instruction de ne pas renforcer les comportements de recherche de réassurance ou d’évitement.

En session 1, la tâche de conversation du groupe expérimental était in virtuo (leur propre orthophoniste contrôlait l’avatar depuis la pièce adjacente) ; celle du groupe contrôle était un jeu de rôle en personne avec l’orthophoniste. En session 2 (in vivo, pour les deux groupes), la tâche de conversation se déroulait avec un acteur-professeur inconnu en personne.

Mesures.

Acceptabilité et présence (objectif 1) : ITC-SOPI (44 items sur les sous-échelles Présence spatiale, Engagement, Validité écologique, Effets négatifs) et un questionnaire sur mesure Interaction avec les avatars (IWA).
Anxiété physiologique (objectifs 2 et 3) : activité électrodermale (conductance cutanée SCL, réponse de conductance cutanée SCR) et électrocardiogramme (fréquence cardiaque FC, variabilité de la fréquence cardiaque via RMSSD) enregistrés avec un système Biopac MP36R et traités avec AcqKnowledge et NeuroKit2. Un placement d’électrodes ECG périphérique adapté (jambe gauche + avant-bras droit) a été utilisé à la place du placement clavicule-costal standard pour éviter d’être intrusif pour les enfants. Les mesures physiologiques étaient exprimées en changement par rapport au niveau de base de chaque session afin de tenir compte de la variation naturelle jour après jour.
Anxiété auto-rapportée (objectifs 2 et 3) : un SUDS modifié de 0-10 administré après le niveau de base, après la préparation du discours, et rétrospectivement après la conversation (pour le début et la fin séparément).
Auto-efficacité (objectif 3) : un questionnaire sur mesure de 14 items (1 = « Pas du tout confiant » à 5 = « Très confiant ») adapté de Bray et al. 2003 / Manning 1994 (cadre cognitif social de Bandura). Alpha de Cronbach = 0,87.

Analyse statistique. En raison du petit échantillon, les auteurs ont utilisé un ré-échantillonnage bootstrap paramétrique (données physiologiques continues) et non paramétrique (données de questionnaire ordinales) avec 10 000 itérations dans IBM SPSS Statistics 29 et Python. La signification était inférée à partir des intervalles de confiance à 95 % (non-chevauchement avec le niveau de base zéro ou avec l’intervalle de l’autre groupe) et des valeurs p bootstrap. Les tailles d’effet (d de Cohen, r de Pearson) ont été rapportées en parallèle. Aucune correction pour comparaisons multiples n’a été appliquée car le ré-échantillonnage bootstrap fournit des estimations de signification empiriques sans hypothèses paramétriques.

Ce qu’ils ont trouvé

Objectif 1 - acceptabilité et présence. Les sous-échelles ITC-SOPI indiquaient une bonne présence : Présence spatiale M=3,60 (ET=0,70), Engagement M=3,87 (ET=0,78), Validité écologique M=3,27 (ET=1,53 ; un participant a évalué ceci à 1/5, contribuant à l’ET plus élevé), Effets négatifs M=1,58 (ET=0,60). Sur l’IWA, les participants avaient l’impression de parler à une vraie personne (M=8,43/10), n’avaient PAS l’impression de parler à leur propre orthophoniste (M=2,86/10 ; des scores inférieurs indiquent que l’incarnation de l’orthophoniste a été masquée avec succès), ont trouvé les scénarios simulés pertinents (M=9,29/10), et souhaitaient vivement avoir accès à l’outil pour pratiquer des situations stressantes (M=9,57/10). Les deux participants les plus âgés (16 et 18 ans) ont donné les scores les plus élevés de « j’avais l’impression de parler à mon orthophoniste » (10 et 8 respectivement), reconnaissant la prosodie et l’intonation de leur orthophoniste plutôt que la voix modulée. Les réponses ouvertes ont montré que les participants souhaitaient pratiquer l’outil plus fréquemment (quotidiennement à deux fois par semaine avant des présentations in vivo) et ont identifié les présentations orales à une classe virtuelle comme un scénario futur souhaité. Deux participants le même jour ont signalé un décalage voix-lèvres dû à une faible connexion Wi-Fi.

Objectif 2 - réponses d’anxiété physiologiques et subjectives. La SCL du groupe expérimental RV était significativement plus élevée que le niveau de base durant la préparation du discours (session 1 : IC 95 % [0,404, 2,578], p=,006 ; session 2 : IC 95 % [0,215, 0,935], p<,001) et la conversation (session 1 : IC 95 % [0,351, 2,142], p=,009 ; session 2 : IC 95 % [0,859, 4,471], p=,008). Le groupe contrôle jeu de rôle avec l’orthophoniste n’a PAS montré d’élévation significative de la SCL par rapport au niveau de base dans aucune phase des deux sessions (tous p>,05). Les effets inter-groupes SCL étaient généralement faibles (d=0,06-0,41), avec un effet moyen pour la tâche conversationnelle de la session 2 (d=0,80).

Les taux de détection des SCR (proportion de stimuli anxiogènes ayant suscité une réponse de conductance cutanée) ont montré un schéma inattendu en session 1 : le groupe contrôle a présenté significativement PLUS de SCR que le groupe expérimental, en particulier pour le froncement (t=-3,79, p<,05) et pour l’ensemble des stimuli combinés (t=-3,76, p<,05). Les auteurs interprètent cela comme le fait que le froncement est un indice non verbal subtil qui peut être plus difficile à percevoir avec précision depuis un avatar photoréaliste que depuis une personne réelle. Au sein du groupe expérimental, les taux de détection des SCR étaient comparables entre les conditions in virtuo (session 1) et in vivo (session 2) (t(4)=-1,07, p=,35), suggérant que l’avatar suscitait des réponses physiologiques liées aux stimuli comparables à celles évoquées par une personne réelle pour les mêmes individus.

La fréquence cardiaque et le RMSSD ont produit un schéma inattendu dans les deux groupes. Plutôt que l’augmentation prédite de la FC (et la diminution du RMSSD) avec le stress, les deux groupes ont montré une DIMINUTION de la FC par rapport au niveau de base dans la plupart des phases (par ex. session 1 conversation groupe expérimental FC IC 95 % [-9,828, -2,325], p=,002 ; groupe contrôle IC 95 % [-6,038, -2,029], p<,001) et une AUGMENTATION du RMSSD lors de la conversation de la session 1 du groupe expérimental (IC 95 % [4,699, 12,030], p<,001). Les auteurs interprètent cela comme une adaptation ou habituation autonomique durant le stress social (Kreibig, 2010), notant que les réponses de fréquence cardiaque ne suivent pas toujours le schéma classique dans les contextes d’anxiété sociale.

Le SUDS auto-rapporté a montré une dissociation claire avec l’activation physiologique. En session 1, le SUDS du groupe RV durant la conversation in virtuo n’a PAS différé significativement du niveau de base (début IC 95 % [-1,167, 2,833], p=,40 ; fin IC 95 % [-2,667, 1,833], p=1,0). Le SUDS du groupe jeu de rôle était significativement plus élevé que le niveau de base au début (IC 95 % [2,00, 4,33], p<,001) et à la fin (IC 95 % [2,16, 5,16], p<,001). L’effet inter-groupes en fin de conversation était large (d=1,35, IC 95 % [-2,77, -0,67], p=,031) ; d’autres comparaisons inter-groupes en session 1 ont montré de grandes tailles d’effet (d=0,94-1,27) qui n’ont pas atteint la signification statistique avec cet échantillon.

En session 2 (in vivo pour les deux groupes), les deux groupes ont montré un SUDS élevé au début de la conversation (expérimental p=,003 ; contrôle p=,002) et sont revenus près du niveau de base à la fin, avec des tailles d’effet inter-groupes devenant faibles (d=0,25-0,30).

Objectif 3 - valeur ajoutée de la RV par rapport au jeu de rôle avec l’orthophoniste. L’auto-efficacité n’a montré aucune différence significative inter-groupes à aucun moment de mesure (tests Mann-Whitney U, tous p>,58) et aucun changement significatif intra-groupe entre avant la conversation de la session 1 et après la conversation de la session 2 (Wilcoxon expérimental Z=-1,36, p=,17, r=,60 ; contrôle Z=-0,94, p=,345, r=,39). Les auteurs concluent qu’une séance d’entraînement unique dans l’une ou l’autre condition n’a pas produit de gains significatifs en auto-efficacité ni réduit l’anxiété lors de la conversation réelle ultérieure avec l’acteur-professeur inconnu. Les tailles d’effet intra-groupe modérées (r=0,36-0,60) suggèrent que des études plus grandes ou plus longues pourraient détecter des signaux que ce pilote n’avait pas la puissance suffisante pour démontrer.

Pourquoi cela compte

Il s’agit de la première étude sur le bégaiement à mettre en œuvre un environnement RV en face-à-face en temps réel avec un avatar photoréaliste dont le comportement verbal et non verbal est piloté en direct par un clinicien via capture faciale, et à combiner cela avec des mesures physiologiques et subjectives appariées. Elle prolonge les travaux antérieurs de la même équipe de recherche sur la classe virtuelle (Moise-Richard et al. 2021) des scénarios de groupe/public vers la conversation individuelle, et comble l’absence de mesure physiologique de cette étude antérieure.

La contribution interprétative centrale est la dissociation entre l’activation physiologique élevée (SCL) et la détresse subjective inchangée (SUDS) dans la condition RV - un schéma cohérent avec le modèle tripartite de l’anxiété de Lang et avec Brundage et al. (2016) chez les adultes qui bégaient. Si un futur protocole multiséances confirme cette dissociation de manière fiable, les auteurs proposent qu’elle pourrait soutenir la RV comme point d’entrée précoce pour les adolescents évitants qui refuseraient autrement l’exposition in vivo : le corps engage le mécanisme d’activation pertinent pour l’extinction de la peur tandis que l’expérience consciente de la menace reste tolérable. Les auteurs sont explicites sur le fait qu’il s’agit d’une inférence tirée du schéma de dissociation, et non d’un effet thérapeutique démontré par cette étude.

Tout aussi important est ce que l’étude n’a PAS montré : une séance de RV unique n’était pas supérieure à une séance de jeu de rôle unique avec l’orthophoniste pour réduire l’anxiété ou améliorer l’auto-efficacité lorsque les participants ont ensuite fait face à un acteur-professeur inconnu. Les auteurs sont clairs sur le fait que des protocoles multiséances dans le cadre d’une TCC complète sont nécessaires avant toute recommandation clinique sur la valeur ajoutée de la RV.

Concernant Therapy withVR spécifiquement : cette étude n’a pas utilisé, évalué ni comparé Therapy withVR. Le système testé est une application personnalisée Unreal Engine 5.03 / MetaHuman pilotée par capture faciale de l’orthophoniste sur un Meta Quest 2. Therapy withVR est une plateforme différente avec un modèle de contrôle différent (environnements, émotions et comportement du public ajustables par le clinicien depuis une application web plutôt qu’incarnation faciale d’un avatar unique). L’article Delangle est inclus dans le Hub de preuves parce qu’il contribue à la base de preuves plus large sur la RV immersive pour l’anxiété liée au bégaiement chez les jeunes, et non parce qu’il est lié à Therapy withVR.

Limites

Les auteurs signalent explicitement les points suivants dans leur Discussion (section 6) :

Très petit échantillon. N=12, 6 par groupe. Une variation individuelle substantielle dans les réponses perçues et physiologiques a été observée. Un échantillon plus grand est nécessaire pour caractériser la variabilité et identifier les profils de réponse.
Séance d’entraînement unique seulement. Les auteurs sont explicites sur le fait qu’une séance est insuffisante pour évaluer les effets de l’entraînement sur l’auto-efficacité et l’anxiété ; des protocoles multiséances sont nécessaires.
Incohérence des acteurs-professeurs en session 2. Deux acteurs différents ont joué l’enseignant in vivo dans l’échantillon (assortis par tranche d’âge et type corporel, tous deux engagés dans les deux groupes), mais chaque acteur avait naturellement des caractéristiques prosodiques différentes et des réactions uniques.
Le même orthophoniste a joué les deux rôles pour tous les participants. L’orthophoniste de chaque participant jouait parfois l’avatar (groupe expérimental) et parfois le partenaire de jeu de rôle en personne (groupe contrôle). Les auteurs notent que cela reflète la variation naturelle du cadre clinique mais ajoute de la variabilité aux données.
Reconnaissance de l’orthophoniste par les participants plus âgés. Les deux participants les plus âgés (16 et 18 ans) ont reconnu la prosodie et le style de parole de leur orthophoniste malgré la modulation vocale, ce qui peut avoir influencé leurs réponses émotionnelles.
Mesure rétrospective du SUDS. Le SUDS a été administré après la conversation pour éviter d’interrompre la tâche. Les participants qui ont naturellement régulé leur anxiété durant la conversation peuvent avoir sous-estimé le pic d’anxiété rétrospectivement.
Absence de mesure des tendances immersives. Le Questionnaire sur les tendances immersives (Witmer & Singer, 1998) a été exclu pour réduire la charge cognitive sur les participants plus jeunes. Les différences individuelles en termes de propension à l’immersion peuvent expliquer la variabilité des réponses subjectives de présence et émotionnelles.
Comparaison individuel versus contextes de groupe non effectuée. Certains participants ont rapporté une anxiété moindre qu’attendu dans les contextes individuels ; les travaux futurs pourraient comparer la RV avec avatar unique aux scénarios de groupe virtuel.
Absence de suivi oculaire. Certains enfants semblaient éviter le contact visuel avec l’enseignant virtuel ; le suivi oculaire aiderait à quantifier les comportements d’évitement.
Acteur inconnu plutôt que vrai professeur. La session 2 in vivo utilisait un acteur inconnu plutôt que le propre professeur de chaque participant. Cela améliorait le contrôle expérimental mais réduisait les enjeux personnels (aucune conséquence académique ou sociale réelle pour les réponses du participant), contribuant potentiellement à une anxiété perçue plus faible.
Absence d’un cadre complet d’exposition TCC. La procédure s’apparente plus précisément à une « séance d’entraînement » qu’à une thérapie d’exposition formelle. Un protocole d’exposition complet fondé sur la TCC avec hiérarchie graduée, cadrage par violation des attentes, et consolidation post-exposition sur plusieurs séances n’a pas été mis en œuvre.
Conflit d’intérêts à déclarer. Le co-auteur Stephane Bouchard est consultant pour Cliniques et Developpement In Virtuo et y détient des parts. Le papier précise explicitement que cette société n’a pas créé les environnements utilisés dans l’étude, mais la relation capitalistique est un facteur de fond pertinent lors de l’évaluation du cadrage interprétatif du papier concernant le potentiel thérapeutique de la RV.

Implications pour la pratique

Pour les cliniciens envisageant la RV immersive pour les adolescents qui bégaient, cet essai pilote soutient l'acceptabilité et la faisabilité d'un système de RV à avatar photoréaliste en temps réel, mais ne fournit AUCUNE preuve qu'une séance de RV réduit l'anxiété ou améliore l'auto-efficacité davantage qu'une séance de jeu de rôle avec l'orthophoniste avant une tâche de prise de parole réelle. La proposition interprétative des auteurs - qu'une activation physiologique élevée combinée à une détresse subjective inchangée pourrait faire de la RV un point d'entrée utile pour les jeunes évitants qui refuseraient l'exposition in vivo - est une inférence tirée du schéma de dissociation, et non un effet thérapeutique démontré par cette étude. Les auteurs sont explicites sur le fait que la RV devrait être utilisée dans le cadre d'un protocole de TCC multiséances aux côtés des approches traditionnelles, et non comme une intervention autonome en séance unique.

Implications pour la recherche

Une réplication est nécessaire sur des échantillons plus larges et sur plusieurs séances d'entraînement avant qu'une quelconque affirmation de valeur ajoutée clinique de la RV par rapport au jeu de rôle avec l'orthophoniste puisse être formulée. Les études futures devraient inclure une mesure validée des tendances immersives (par ex. le ITQ de Witmer & Singer), un suivi oculaire pour les comportements d'évitement, une comparaison des scénarios RV individuels avec des scénarios de groupe/public, et un protocole d'exposition complet fondé sur la TCC avec cadrage par violation des attentes et hiérarchie graduée des séances. Les auteurs notent également que la reconnaissance prosodique par les adolescents plus âgés (16-18 ans) de leur propre orthophoniste derrière l'avatar mérite une investigation approfondie.

Notes éditoriales de withVR

Liens avec Therapy withVR

L'étude ci-dessus est une recherche indépendante et ne porte aucun jugement sur quelque produit que ce soit. Les notes ci-dessous sont un commentaire de withVR sur la manière dont les thèmes de cette recherche rejoignent des fonctionnalités de Therapy withVR. Les résultats de la recherche ne constituent pas des allégations concernant Therapy withVR.

Real-time clinician-controlled avatar (different platform)

Cette étude a utilisé un système personnalisé Unreal Engine 5.03 / MetaHuman sur Meta Quest 2, dans lequel l'orthophoniste contrôlait en temps réel les expressions faciales de l'enseignant virtuel via Live Link Face sur un iPhone 11, avec modulation vocale via Clownfish Voice Changer. Therapy withVR utilise un modèle de contrôle différent : le clinicien ajuste les paramètres environnementaux, les émotions des avatars et le comportement du public depuis une application web, plutôt qu'en incarnant faciallement un avatar unique via capture de mouvement. Parallèle éditorial uniquement - l'outil étudié est un logiciel de recherche personnalisé développé par les auteurs, pas un produit commercial.

Adjustable conversational difficulty

L'étude Delangle a introduit des stimuli anxiogènes gradués (froncement, bâillement, phrases inconfortables scriptées telles que 'Ce n'est pas juste pour les autres élèves') durant la conversation, l'orthophoniste minutant chaque stimulus en fonction des réactions du participant. Les contrôles clinicien de Therapy withVR permettent des ajustements analogues en temps réel des émotions des avatars et de la dynamique conversationnelle dans sa propre conception. Parallèle éditorial uniquement.

Multi-session flexibility

Les auteurs Delangle notent explicitement qu'une séance d'entraînement unique était insuffisante pour détecter des effets sur l'auto-efficacité ou le transfert de l'anxiété, et recommandent des protocoles multiséances dans le cadre d'une TCC complète. Les profils de session et les configurations sauvegardées de Therapy withVR facilitent le type de pratique répétée et graduée que la recherche multiséances préconise. Parallèle éditorial uniquement.

Citer cette étude

Si vous référencez cette étude dans votre travail, voici les formats de citation canoniques :

APA 7th

Delangle, M., Moise-Richard, A., Leclercq A-L, Labbe, D., Bouchard, S., Andrews, S., & Menard, L. (2026). Speaking face-to-face with a virtual avatar to reduce anxiety in students who stutter: Tool development and pilot study results. Journal of Fluency Disorders. https://doi.org/10.1016/j.jfludis.2026.106194.

AMA 11th

Delangle M, Moise-Richard A, Leclercq A-L, Labbe D, Bouchard S, Andrews S, Menard L. Speaking face-to-face with a virtual avatar to reduce anxiety in students who stutter: Tool development and pilot study results. Journal of Fluency Disorders. 2026. doi:10.1016/j.jfludis.2026.106194.

BibTeX

@article{delangle2026,
  author = {Delangle, M. and Moise-Richard, A. and Leclercq A-L and Labbe, D. and Bouchard, S. and Andrews, S. and Menard, L.},
  title = {Speaking face-to-face with a virtual avatar to reduce anxiety in students who stutter: Tool development and pilot study results},
  journal = {Journal of Fluency Disorders},
  year = {2026},
  doi = {10.1016/j.jfludis.2026.106194},
  url = {https://withvr.app/fr/evidence/studies/delangle-2026}
}

RIS

TY  - JOUR
AU  - Delangle, M.
AU  - Moise-Richard, A.
AU  - Leclercq A-L
AU  - Labbe, D.
AU  - Bouchard, S.
AU  - Andrews, S.
AU  - Menard, L.
TI  - Speaking face-to-face with a virtual avatar to reduce anxiety in students who stutter: Tool development and pilot study results
JO  - Journal of Fluency Disorders
PY  - 2026
DO  - 10.1016/j.jfludis.2026.106194
UR  - https://withvr.app/fr/evidence/studies/delangle-2026
ER  -

Vous connaissez des travaux qui auraient leur place dans cette base ? Si une étude pertinente évaluée par les pairs n'y figure pas, envoyez la référence à hello@withvr.app. La base est tenue à jour au fil de la littérature.

Financement et indépendance

D'après la Déclaration de conflits d'intérêts du papier : 'Stephane Bouchard est consultant pour Cliniques et Developpement In Virtuo, et y détient des parts ; cette société développe des environnements virtuels ; cependant, Cliniques et Developpement In Virtuo n'a pas créé les environnements virtuels utilisés dans cette étude. Aucun des auteurs n'a de conflits d'intérêts à déclarer.' Les parts de Bouchard dans une société commerciale de développement de RV constituent une relation de fond pertinente dont tout lecteur devrait être informé lors de l'évaluation du cadrage interprétatif du papier concernant le potentiel thérapeutique de la RV, même si la société n'est explicitement pas le développeur de l'outil testé ici. D'après les Remerciements du papier : 'Ce travail a été soutenu par les Fonds de recherche du Québec (FRQ) via le programme AUDACE (numéro de subvention 2022-AUDC-300126).' L'outil de RV a été développé par l'équipe de recherche avec Unreal Engine 5.03 (Epic Games), des ressources de Quixel Bridge et un avatar MetaHuman, fonctionnant sur Meta Quest 2 connecté à un ordinateur portable Intel Core i7-12700H, 16 Go de RAM, GeForce RTX 3070i ; il ne s'agit pas d'un produit commercial et ce n'est pas Therapy withVR. Aucune implication de withVR BV dans le financement, la conception de l'étude ou la rédaction. Résumé préparé indépendamment par withVR à partir de l'article publié.

Dernière évaluation : 2026-05-12 Prochaine évaluation prévue : 2027-05-12 Évalué par : Gareth Walkom

ECR pilote chez des jeunes qui bégaient : la VR à avatar photoréaliste, bien acceptée, n'a pas surpassé le jeu de rôle avec l'orthophoniste

Principaux résultats

Contexte

Ce que les chercheurs ont fait

Ce qu’ils ont trouvé

Pourquoi cela compte

Limites

Implications pour la pratique

Implications pour la recherche

Liens avec Therapy withVR

Real-time clinician-controlled avatar (different platform)

Adjustable conversational difficulty

Multi-session flexibility

Études associées

Les réponses de bégaiement et d'anxiété face aux publics virtuels correspondent étroitement à celles face aux publics réels

Public en RV : hausse de la détresse subjective, mais pas de l'activation physiologique ni du bégaiement (hommes PQB)

ECR pilote d'une VRET auto-guidée sur smartphone pour l'anxiété sociale chez les personnes qui bégaient (résultat nul, critères primaires)

Chez dix enfants/adolescents PQB, les classes virtuelles produisent anxiété et sévérité de bégaiement comparables à un public réel

Citer cette étude

Financement et indépendance