Tous les professionnels de l’orthophonie ont connu la même frustration. Vous passez une séance à travailler avec une personne, tout se passe bien dans la salle de thérapie, puis le monde réel paraît complètement différent. Le café est trop bruyant. La salle de classe est trop imprévisible. La salle de réunion comporte trop d’enjeux. Le jeu de rôle aide, mais vous comme la personne savez que ce n’est pas réel. L’écart entre la clinique et la vie quotidienne (la raison d’être de Therapy withVR) a toujours été l’un des problèmes les plus difficiles en orthophonie.

La réalité virtuelle est en train de combler cet écart. Et les recherches commencent à montrer à quel point elle le fait efficacement.

Les données s’accumulent

Les données sur la RV dans les contextes de la parole et de la communication remontent à deux décennies. Plus récemment, trois articles évalués par des pairs ont été publiés en utilisant la plateforme withVR, chacun examinant un aspect différent de la façon dont les gens parlent et utilisent leur voix dans des environnements virtuels.

Certaines des données fondatrices les plus solides proviennent de Brundage et ses collègues à l’université George Washington. Dans une étude de 2015 publiée dans l’American Journal of Speech-Language Pathology, la principale mesure de la parole lors d’un discours face à un public virtuel exigeant était corrélée à rho = 0,99 avec la même mesure lors d’un discours devant un public réel (Brundage et Hancock, 2015). Cette corrélation quasi parfaite démontre que des situations de prise de parole virtuelles bien conçues peuvent susciter un comportement de parole essentiellement équivalent à celui de la vie réelle.

Brundage et Hancock 2015 · 10 adultes qui bégaient

Fréquence du bégaiement face à un public virtuel exigeant vs. public réel

référence y = x 0 2 4 6 8 % de syllabes bégayées · public virtuel exigeant 0 2 4 6 8 % de syllabes bégayées · public réel RHO DE SPEARMAN 0,99 p < ,001 · n = 10

Chaque point représente l'un des dix adultes qui bégaient de l'étude Brundage et Hancock 2015. La ligne en pointillés est la référence y = x (accord parfait). La condition du public virtuel neutre (non représentée) était elle aussi corrélée de façon significative avec la condition réelle, mais plus faiblement, à ρ = 0,82.

Source : Brundage SB et Hancock AB (2015). Real Enough: Using Virtual Public Speaking Environments to Evoke Feelings and Behaviors Targeted in Stuttering Assessment and Treatment. American Journal of Speech-Language Pathology, 24(2), 139-149. DOI : 10.1044/2014_AJSLP-14-0087. Points de données reconstitués à partir de la Figure 4b publiée afin d'illustrer le schéma de corrélation.

En s’appuyant sur cet ensemble de données plus large, Bauerly et Jackson ont publié en 2024 une étude dans le Journal of Speech, Language, and Hearing Research utilisant Research withVR pour examiner comment l’orientation de l’attention influe sur la variabilité articulatoire chez des adultes qui bégaient et qui ne bégaient pas. Les résultats ont montré que l’environnement virtuel parvenait à créer les conditions contrôlées nécessaires pour détecter des différences significatives dans la production de la parole.

En 2025, Leyns et ses collègues ont publié « Virtual Reality as a Tool in Gender-Affirming Voice Training » dans le Journal of Voice. Cette étude a exploré si la RV pouvait constituer un environnement d’entraînement pertinent pour les personnes travaillant sur des objectifs vocaux, un domaine où il est difficile de trouver des espaces de pratique sûrs et réalistes en dehors de la clinique.

Plus récemment encore, Dasdogen et Hitchcock ont publié « The Effects of Visual Input in Virtual Reality on Voice Production: Comparing Trained Singers and Untrained Speakers » dans le Journal of Voice en 2026, en étudiant comment le réalisme visuel d’un environnement virtuel influence le comportement vocal. Ensemble, ces études convergent vers la même conclusion : lorsque les gens entrent dans une situation de prise de parole virtuelle bien conçue, leur corps réagit comme si elle était réelle.

Au-delà de ces articles publiés, 19 projets de recherche actifs étaient en cours en 2025 dans des universités et des cliniques du monde entier. La base de données probantes s’enrichit rapidement.

Pourquoi la RV réussit là où le jeu de rôle échoue

L’idée d’utiliser la RV en orthophonie n’est pas nouvelle. Les premières études exploraient les environnements virtuels pour la thérapie d’exposition, en s’appuyant sur le principe selon lequel, si une situation paraît suffisamment réelle, le système nerveux réagit en conséquence. Ce qui a changé, c’est la technologie et, point essentiel, le niveau de contrôle qu’elle offre aux cliniciens.

L’idée centrale est simple. Dans la pratique clinique, vous disposez de deux options pour travailler des situations de prise de parole en dehors de la salle de thérapie. Le jeu de rôle ne semble pas assez réel : le clinicien comme la personne savent que c’est une simulation, et cette conscience limite la réaction émotionnelle et physiologique. Le monde réel, à l’inverse, paraît entièrement réel mais n’offre presque aucun contrôle. Vous ne pouvez pas mettre une salle de classe en pause. Vous ne pouvez pas ajuster le nombre de personnes dans un café. Vous ne pouvez pas rejouer un entretien d’embauche.

La RV se place exactement entre ces deux extrêmes. Elle est assez réaliste pour déclencher de véritables réactions, mais assez contrôlée pour être thérapeutique. C’est dans cet entre-deux que se déroule le travail le plus productif.

Ce qui rend un environnement virtuel réaliste

Le réalisme en RV ne se résume pas à des graphismes haute résolution. Il tient aux détails que le cerveau utilise pour évaluer si une situation sociale est réelle, et ces détails concernent avant tout les personnes.

Therapy withVR comprend plus de 12 environnements de prise de parole (un café, une salle de classe, une boulangerie, une salle de réunion, un auditorium, et bien d’autres), chacun conçu autour des types de situations que les personnes rencontrent fréquemment et trouvent difficiles. Mais les environnements ne sont qu’une partie de l’équation. Les personnes virtuelles présentes dans ces environnements comptent tout autant, sinon plus.

Les avatars sont conçus pour se comporter comme de vraies personnes au cours d’une conversation. Ils expriment une gamme d’émotions (intérêt, encouragement, impatience, distraction) par de subtiles expressions faciales et des mouvements de bouche naturels pendant la parole. Ce ne sont pas des figures statiques debout dans une pièce. Ils bougent sur leur siège. Ils vous regardent quand vous parlez. Ils détournent le regard quand ils perdent de l’intérêt. Cette boucle de rétroaction sociale, le sentiment que quelqu’un est réellement en train de vous écouter ou non, est ce qui rend une situation de prise de parole réaliste.

Le thérapeute garde le contrôle

L’un des aspects les plus importants de Therapy withVR, et l’un de ceux qui le distinguent des applications de RV grand public, est que le thérapeute contrôle tout en temps réel depuis un ordinateur portable. Pendant que la personne est immergée dans l’environnement virtuel en portant un casque, le clinicien choisit la scène, ajuste la taille du public, modifie les émotions des avatars et réagit à ce qui se passe dans la séance, instant après instant.

Cela signifie que le thérapeute peut augmenter la difficulté progressivement. Commencer avec un seul interlocuteur dans une pièce calme. Ajouter d’autres personnes. Introduire du bruit de fond. Faire en sorte qu’un avatar paraisse sceptique. Chaque ajustement peut être effectué sans rompre l’immersion, et chacun donne au clinicien un contrôle précis sur le défi thérapeutique.

Ce contrôle en temps réel signifie aussi que le thérapeute peut désamorcer la situation. Si une personne se sent dépassée, le clinicien peut simplifier la scène instantanément : moins de personnes, des expressions plus avenantes, un cadre plus apaisant. Ce type d’exposition réactive et graduée est difficile à réaliser dans la pratique en conditions réelles et impossible dans le jeu de rôle traditionnel.

Ce que cela signifie pour la pratique clinique

Les résultats de la recherche comptent parce qu’ils valident ce que beaucoup de cliniciens pressentent déjà lorsqu’ils voient des personnes réagir à la RV : ces environnements produisent un comportement communicatif réel, et non un comportement simulé. Lorsque le comportement de parole en RV est corrélé à rho = 0,99 avec un discours devant un public réel, lorsque la production vocale évolue en fonction du public virtuel, et lorsque les personnes rapportent une véritable anxiété et une véritable confiance dans les situations de prise de parole virtuelles, les cliniciens peuvent avoir confiance dans le fait que le travail effectué en RV se transfère.

Le test le plus direct de cette affirmation de transfert à ce jour provient d’un essai contrôlé randomisé de 2026. McCleery et ses collègues, dans le Journal of Autism and Developmental Disorders, ont réparti au hasard 47 adolescents et adultes autistes entre soit trois courtes séances de pratique d’interaction avec la police en RV, soit une intervention de modélisation vidéo de dose équivalente. Le test final consistait en une interaction réelle avec un véritable policier en uniforme, évaluée par des codeurs en aveugle. Le groupe RV a donné des réponses nettement plus appropriées et a fait preuve d’un langage corporel plus calme lors de la rencontre réelle ; le groupe témoin de modélisation vidéo, non. C’est l’une des démonstrations les plus nettes à ce jour que la pratique fondée sur la RV se généralise aux interactions sociales du monde réel avec des inconnus, précisément l’écart entre la clinique et la vie que la RV est censée combler.

La RV ne remplacera pas la pratique en conditions réelles. L’objectif n’a jamais été de maintenir les personnes indéfiniment dans un casque. L’objectif est de combler l’écart entre la salle de thérapie et le monde extérieur, d’offrir aux cliniciens un outil qui leur permet de créer à la demande des situations de prise de parole réalistes, reproductibles et ajustables.

Les recherches suggèrent que ce pont est solide. Et à mesure que la base de données probantes continue de s’étoffer, les arguments en faveur de la RV comme élément à part entière de la boîte à outils de l’orthophonie ne font que se renforcer.

Une remarque sur la confidentialité : aucun audio ni aucune vidéo n’est jamais enregistré pendant une séance, et aucune donnée identifiable du client n’a besoin d’entrer dans le système. Si vous évaluez une nouvelle technologie pour votre cabinet, j’ai préparé une liste de contrôle gratuite couvrant la confidentialité des données, le consentement éclairé, et plus encore.

Pour aller plus loin


Si vous explorez la façon dont la RV pourrait s’intégrer à votre pratique, contactez-moi. Je serai heureux de vous présenter le logiciel et d’échanger sur la pertinence qu’il pourrait avoir pour votre cadre de travail.