La plupart des personnes avec qui je travaille et qui utilisent Therapy withVR ne font pas de recherche sur l’anxiété. Ce sont des professionnels de l’orthophonie soutenant des clients qui bégaient, des clients travaillant la voix, des adultes autistes se préparant à des conversations difficiles, ou quelqu’un à la veille d’un entretien d’embauche. Mais l’anxiété finit presque toujours par apparaître. Un locuteur dont la parole semble fluide en salle de clinique et se bloque devant une réunion. Un client en travail vocal dont la hauteur et la résonance sont parfaites avec l’orthophoniste mais disparaissent à l’instant où il parle à un inconnu. Un adolescent qui a les mots mais pas la volonté de les utiliser en classe.
Pendant des décennies, les traitements les plus explicitement conçus pour ce type d’anxiété d’évaluation sociale sont issus de la littérature des troubles anxieux, et non de celle de l’orthophonie. Cet écart se réduit - il existe désormais des travaux directs significatifs sur l’anxiété de parole dans les contextes du bégaiement et de la voix - mais le corpus de preuves le plus profond sur la VR pour la prise de parole sous évaluation sociale réside dans les essais menés sur le trouble d’anxiété sociale et la peur de parler en public. Donc, lorsqu’un clinicien me demande, à juste titre, quelles preuves soutiennent la VR comme moyen de soutenir les clients dans les situations de parole quotidiennes, la réponse honnête implique de revenir sur ce que ces littératures adjacentes montrent réellement.
Cet article rassemble trois essais contrôlés randomisés et une méta-analyse. Chacun est une étude que vous pouvez prendre au sérieux - de taille adéquate, méthodologiquement rigoureuse, évaluée par des pairs dans des revues respectées. Aucune n’a été conçue spécifiquement pour tester l’orthophonie. Mais chacune nous dit quelque chose d’utile sur la question de savoir si et comment la pratique basée sur la VR peut soutenir les personnes dans le type de situations de parole quotidiennes qui comptent pour elles.
Les quatre études en un coup d'œil
Exposition basée sur la VR pour l'anxiété sociale et de prise de parole en public
Anderson et al. - exposition VR équivalente à la TCC de groupe
Les deux groupes actifs se sont significativement améliorés par rapport à la liste d'attente ; aucune différence statistique entre l'exposition VR et la TCC de groupe. Gains maintenus à 12 mois de suivi.
Wallach, Safir & Bar-Zvi - VR-TCC équivalente à la TCC traditionnelle, abandon plus faible
Réductions équivalentes de l'anxiété de parole en public. L'abandon était plus faible dans la condition VR ; les participants ont jugé la VR-TCC plus attrayante.
Bouchard et al. - supériorité pré-enregistrée de la VR sur l'in vivo
L'exposition VR a été significativement plus efficace que l'exposition en monde réel sur le critère principal en post-traitement et à 6 mois de suivi. Les auteurs ont documenté des avantages pratiques : moins encombrant, coût plus faible, confidentialité plus simple.
Opriş et al. - relation dose-réponse à travers la littérature
Les tailles d'effet groupées montrent de grands gains par rapport à la liste d'attente et des effets équivalents aux traitements actifs non VR. Plus de séances ont produit des gains plus importants - un schéma dose-réponse clair.
Les quatre études sont liées individuellement dans les sections ci-dessous et dans l'Evidence Hub. Les tailles d'échantillon montrent comment chacune se compare : moins de 20 = pilote, 20-50 = petite, 50+ = généralisable.
Anderson 2013 : l’exposition VR équivaut à la TCC de groupe, avec des gains qui durent
Anderson et collègues (2013) ont mené un essai contrôlé randomisé avec 97 adultes vivant avec une anxiété sociale. Les participants ont été assignés à l’un des trois groupes : exposition VR en séances individuelles, thérapie cognitivo-comportementale de groupe comme comparateur actif bien établi, ou liste d’attente. Les deux conditions actives se sont déroulées sur le même nombre de séances et la même période.
Les deux groupes actifs ont produit des améliorations significatives par rapport à la liste d’attente. Les deux groupes actifs ont produit des améliorations équivalentes l’un par rapport à l’autre. Il n’y avait pas de différence statistique entre l’exposition VR délivrée individuellement et la thérapie cognitivo-comportementale de groupe délivrée en groupe. Et les gains ont été maintenus à 12 mois de suivi - non seulement durables pendant quelques semaines, mais stables sur un an.
Ce que je retiens de cela pour la pratique d’orthophonie. La TCC de groupe est logistiquement exigeante et pas toujours accessible. Elle exige aussi que la personne participe en groupe, ce qui est souvent justement ce qu’elle trouve le plus difficile. L’exposition VR donne aux cliniciens un moyen de délivrer une expérience d’exposition équivalente individuellement. Pour les clients qui évitent les groupes pour les mêmes raisons qui les ont conduits en thérapie au départ, cela compte.
Wallach 2009 : la VR-TCC équivaut à la TCC traditionnelle pour l’anxiété de parole en public, avec un abandon plus faible
Wallach, Safir et Bar-Zvi (2009) ont mené un ECR de 88 personnes axé spécifiquement sur l’anxiété de parole en public. Les participants ont été assignés aléatoirement à une thérapie cognitivo-comportementale basée sur la VR, à une TCC traditionnelle ou à une liste d’attente. Les deux conditions actives se sont déroulées sur 12 séances hebdomadaires.
La conclusion principale était que la VR-TCC et la TCC traditionnelle produisaient des réductions équivalentes de l’anxiété de parole en public, toutes deux significativement plus importantes que l’effet de la liste d’attente. Mais il y avait une conclusion secondaire qui, je pense, reçoit trop peu d’attention. L’abandon était plus faible dans la condition VR. Les participants ont jugé la VR-TCC plus attrayante que la TCC traditionnelle.
Les effets de traitement en conditions réelles dépendent de deux choses, pas d’une. Ils dépendent de l’efficacité par séance, et ils dépendent de savoir si les personnes terminent le cours du traitement. Une modalité qui est aussi efficace par séance mais produit moins d’abandon délivre plus de bénéfice agrégé au niveau de la population que ne le suggérerait son seul effet par séance. Si vingt personnes commencent une intervention et quinze la terminent, cette intervention aide quinze personnes. Si vingt personnes commencent une intervention différente mais aussi efficace et dix-huit la terminent, cette intervention aide dix-huit personnes. La différence d’abandon n’est pas une note de bas de page.
Bouchard 2017 : un essai de supériorité pré-enregistré montre que la VR surpasse l’exposition en monde réel
L’essai que je trouve le plus intéressant méthodologiquement est Bouchard et collègues (2017), publié dans le British Journal of Psychiatry. Ils ont mené un ECR à trois bras avec 59 adultes diagnostiqués avec un trouble d’anxiété sociale. Les trois bras étaient TCC avec exposition in virtuo (VR), TCC avec exposition in vivo (monde réel), et un contrôle en liste d’attente. Les deux bras actifs ont reçu 14 séances hebdomadaires de structure identique - seule la modalité d’exposition différait.
Le détail méthodologique crucial est qu’il s’agissait d’un essai de supériorité pré-enregistré. Les chercheurs se sont engagés à l’avance à tester si l’exposition VR était plus efficace que l’exposition in vivo - une hypothèse qui place la barre plus haut que l’équivalence. Le pré-enregistrement compte parce qu’il ferme une partie de la flexibilité analytique post-hoc qui a historiquement gonflé les estimations d’effet en recherche clinique.
Le résultat : l’exposition VR a été significativement plus efficace que l’exposition in vivo. Sur le critère principal (LSAS-SR), la VR a surpassé l’exposition in vivo en post-traitement (t(56)=2.02, p<.05) et à 6 mois de suivi (F(1,37)=4.78, p<.05). Les taux de changement fiable étaient de 76.5 % pour la VR et de 68.3 % pour l’in vivo - un écart directionnellement cohérent qui n’a pas atteint la significativité statistique à lui seul, mais le critère principal continu l’a atteinte. Les chercheurs ont également documenté des avantages pratiques pour la condition VR. Selon leurs propres termes, l’exposition in virtuo était « significativement moins encombrante et coûteuse à mener que les expositions in vivo, en termes d’accès aux stimuli pertinents pour induire le ridicule, de durée, de préparation, de préoccupations de confidentialité, de coûts de rassemblement de membres du personnel pour assister à des exercices de prise de parole en public ».
Bouchard et al. 2017 · n = 59 · ECR à trois bras pré-enregistré
Changement fiable après 14 semaines de TCC pour l'anxiété sociale
Les deux traitements actifs ont produit substantiellement plus de changement fiable que la liste d'attente. La VR a légèrement surpassé l'in vivo ici ; l'écart était directionnellement cohérent, mais c'est sur le critère continu LSAS-SR que la significativité s'est manifestée.
Source : Bouchard S, Dumoulin S, Robillard G, et al. (2017). Virtual reality compared with in vivo exposure in the treatment of social anxiety disorder: a three-arm randomised controlled trial. British Journal of Psychiatry, 210(4), 276-283. DOI : 10.1192/bjp.bp.116.184234.
Je veux tirer une implication spécifique de cela. L’argument en faveur de la pratique de prise de parole basée sur la VR est parfois présenté comme « la VR est une étape préparatoire utile avant la pratique en monde réel ». Cet essai soutient une lecture plus forte. L’exposition VR n’est pas une manière de se préparer à l’exposition en monde réel. C’est une modalité d’exposition à part entière - une qui, dans cet essai, a produit des résultats supérieurs sur la mesure principale tout en demandant significativement moins d’efforts à mettre en œuvre.
Opriş 2012 : un schéma dose-réponse méta-analytique
La quatrième étude dont je veux discuter n’est pas un essai mais une méta-analyse. Opriş et collègues (2012) ont groupé les tailles d’effet à travers plusieurs études primaires d’exposition VR pour les troubles anxieux. Ils ont constaté, comme le suggèrent également les essais examinés ci-dessus, que l’exposition VR produisait de grandes tailles d’effet par rapport à la liste d’attente et des effets équivalents aux interventions fondées sur des preuves non VR.
Mais la conclusion que je veux mettre en avant est différente : la relation dose-réponse. À travers les études, plus de séances ont produit des gains plus importants. C’est un schéma cohérent avec la manière dont les thérapies basées sur l’exposition sont théorisées comme fonctionnant - par un engagement répété et structuré avec la situation redoutée, permettant à l’habituation et au changement cognitif de s’accumuler. Ce n’est pas une propriété propre à la VR, mais elle a une implication clinique spécifique pour le travail basé sur la VR.
L’implication est la suivante : une démonstration d’une seule séance n’est pas le bon test de ce que la pratique de prise de parole basée sur la VR peut faire. Le mécanisme est une pratique soutenue, multi-séances - graduée, contrôlée, répétée - et les preuves suggèrent que ses bénéfices évoluent avec le volume de pratique. Les cliniciens travaillant avec la VR devraient planifier des progressions de pratique multi-séances, pas des essais ponctuels.
Quatre études, une seule direction
Forest plot des tailles d'effet pour les contrastes VR-versus-comparaison
Quatre études d'anxiété sociale, tracées avec les tailles d'effet rapportées
Panneau du haut : face aux conditions de comparaison active, aucune étude n'a favorisé le comparateur par rapport à la VR ; une (Bouchard 2017) a favorisé la VR. Panneau du bas : face à la liste d'attente sans traitement, la VR a produit de grands effets groupés. Preuves convergentes avec une direction cohérente à travers les protocoles d'étude.
Sources : Anderson et al. 2013 (J Consult Clin Psychol), Wallach et al. 2009 (Behav Modif), Bouchard et al. 2017 (Br J Psychiatry, DOI), Opriş et al. 2012 (Depress Anxiety, DOI). Anderson 2013 est présentée qualitativement parce que le PDF original est tramé et que les valeurs spécifiques de d de Cohen n'ont pas pu être extraites par machine ; l'article source rapporte une équivalence entre la VR et la TCC de groupe sur la LSAS. L'estimation de d de Bouchard est dérivée du t(56)=2.02 rapporté via d = 2t/√df. Le d de Wallach est l'effet groupé VRCBT+CBT-vs-LA sur LSAS-Avoidance. Opriş est le d de Cohen méta-analytique pondéré sur les critères primaires.
Ce que cela signifie pour l’orthophonie
Ces quatre études ont été conçues pour traiter le trouble d’anxiété sociale et la peur de parler en public, et non le bégaiement, le travail vocal, la communication autistique ou tout autre contexte spécifique à la communication. Je veux faire attention à ne pas sur-revendiquer. Le transfert de « l’exposition VR fonctionne pour l’anxiété sociale » à « la pratique VR soutient la confiance de parole chez une personne qui bégaie » est un transfert de preuves entre populations, et ce transfert nécessite sa propre validation. L’Evidence Hub possède déjà des études directes sur la VR avec des personnes qui bégaient - Brundage et Hancock (2015), Brock (2023), Kumar (2024) - et des travaux croissants sur la voix. Le test direct le plus récent dans l’autisme est McCleery et al. (2026), un ECR parallèle chez des adolescents et adultes autistes qui a comparé trois courtes séances VR avec du modelage vidéo pour l’entraînement aux interactions avec la police. Le groupe VR a donné des réponses nettement plus appropriées et a montré un langage corporel plus calme lors d’un post-test en monde réel avec de vrais agents de police ; le groupe contrôle de modelage vidéo non. Ces études directes font la majeure partie du gros du travail pour les revendications spécifiques à la population.
Ce que la littérature sur l’anxiété sociale fait, c’est établir quatre choses utiles comme arrière-plan.
Premièrement : l’exposition graduée, contrôlable et répétable fonctionne. Le mécanisme est établi à travers plusieurs conditions anxieuses dans des essais avec comparateurs actifs et échantillons adéquats. L’ingrédient actif n’est pas la VR en soi - c’est l’exposition délivrée d’une manière qui permet au clinicien de contrôler l’intensité, de répéter de manière fiable et de progresser par étapes que la personne peut gérer. La VR est un moyen de délivrer ces propriétés ; les propriétés comptent plus que le médium.
Deuxièmement : la VR peut remplacer l’exposition in vivo, pas seulement la précéder. La conclusion de supériorité de Bouchard établit ce point plus directement que ne le ferait l’équivalence. Pour les cliniciens travaillant dans des cadres où organiser une pratique de prise de parole en monde réel est difficile - zones rurales, écoles avec contraintes de confidentialité, contextes où la confidentialité compte - c’est plus qu’une simple autorisation. La VR n’est pas un repli quand l’in vivo n’est pas disponible ; c’est une modalité d’exposition à part entière - une qui, dans cet essai, a produit des résultats supérieurs sur la mesure principale avec une charge logistique significativement plus faible.
Troisièmement : l’abandon compte autant que l’efficacité par séance. La conclusion de Wallach mérite plus d’attention clinique qu’elle n’en obtient. Une modalité qui engage suffisamment les personnes pour les maintenir en traitement délivre plus de bénéfice agrégé, même à effets équivalents par séance.
Quatrièmement : la dose compte, et une séance n’est pas le test. Le schéma dose-réponse dans la méta-analyse plaide pour planifier des progressions de pratique multi-séances plutôt que de traiter la VR comme une démonstration ponctuelle. Un mode d’échec courant que je vois dans l’usage clinique précoce est de trop s’appuyer sur l’effet « waouh » de la première séance. Les preuves suggèrent que c’est le mauvais endroit pour mettre le poids.
Ce que je ne revendique pas
Je ne revendique pas que ces études prouvent que la pratique basée sur la VR fonctionne pour le bégaiement, le travail vocal ou tout autre contexte spécifique à la communication. Les études directes dans ces domaines sont plus petites, moins matures et à un stade différent de développement des preuves. Le cadrage honnête est : une base de preuves adjacente robuste soutient la modalité et son mécanisme sous-jacent, les preuves directes sont plus petites et croissantes, et les cliniciens devraient peser les deux.
Je ne revendique pas non plus que la VR remplace l’expertise clinique. Chaque essai ci-dessus a été conçu par des cliniciens, délivré avec un jugement clinicien et évalué avec une supervision clinicienne. La technologie est le médium, pas le praticien. Les conclusions se transposent quand la pratique est une bonne pratique.
Une note sur les vingt prochaines années
Une grande partie des travaux VR sur l’anxiété sociale que j’ai référencés ici a maintenant dix à vingt ans. La technologie a substantiellement changé - de casques filaires en laboratoires de recherche à des appareils grand public autonomes qui tiennent dans une sacoche de clinique. La structure de la pratique n’a pas changé. L’exposition graduée, contrôlable et répétable reste le mécanisme actif. Ce qui change, c’est l’accès : qui peut la délivrer, où et à quel coût.
C’est pourquoi je pense que les preuves dont nous disposons déjà - bien qu’adjacentes - soutiennent une confiance prudente quant à la direction du domaine, même si les preuves directes continuent de s’accumuler dans les domaines spécifiques où travaillent les professionnels de l’orthophonie. L’écart se réduit. Et entre-temps, vingt ans de recherche VR sur l’anxiété sociale font plus de travail utile pour la pratique d’orthophonie qu’on ne leur en accorde parfois le crédit.
Pour aller plus loin
- Thème Anxiété de parole - Thème de l’Evidence Hub avec toutes les études du hub sur l’anxiété de parole
- Anderson et al. (2013) - L’ECR de 97 personnes sur l’anxiété sociale
- Bouchard et al. (2017) - ECR de supériorité pré-enregistré : la VR plus efficace que l’exposition in vivo sur le critère principal
- Wallach et al. (2009) - ECR sur l’anxiété de parole en public avec la conclusion d’abandon plus faible
- Opriş et al. (2012) - Méta-analyse avec le schéma dose-réponse
- Validité écologique de l’orthophonie en VR - Ce que montrent les preuves sur les publics virtuels vs réels
- VR pour l’entraînement vocal d’affirmation de genre : ce qu’a trouvé le premier ECR - Application directe de la conclusion sur la volonté de communiquer au travail vocal
- Comment le NHS utilise la VR pour soutenir les jeunes qui bégaient - La même recherche appliquée dans les cadres du NHS
- Comment lire une étude d’orthophonie en VR - Un guide pour interpréter une recherche comme celle-ci
- Pour aller plus loin - Ouvrages et communautés qui façonnent la pratique actuelle