Cette page a été traduite de l'anglais. Si une phrase semble étrange, passez à la version anglaise. Voir en anglais.

Pilote d'Immersive VoiceSpace VR (N=17, personnes vocalement saines plus personnes avec dysphonie) - les participants ont modulé l'intensité et la hauteur à travers des conditions graduées de restaurant virtuel

Daşdöğen Ü · 2026 · Journal of Voice · Expérimentale · n = 17 · Dix-sept adultes recrutés à Mount Sinai... · DOI
Niveau de certitude : Certitude faible
Comment cela a été évalué

Évalué par les pairs dans Journal of Voice (Elsevier), approuvé par l'IRB (Mount Sinai STUDY-25-01418), analyse linéaire à effets mixtes avec ordonnée à l'origine aléatoire par sujet et degrés de liberté de Kenward-Roger - un cadre analytique défendable pour un pilote. Points forts: inclut une population clinique (dysphonie) et pas seulement des adultes vocalement sains; les seuils en dB relatifs à la baseline par participant suppriment la confusion liée au SPL absolu; le schéma comportemental était cohérent entre les deux groupes pour le SPL. Limites qui maintiennent la certitude basse: faible N total (17) avec seulement 7 dans le groupe atypique; séance et contexte uniques (un restaurant virtuel peu fréquenté); pas de groupe contrôle ni de condition comparatrice; baseline recueillie hors du casque, ce qui confond l'exposition VR avec les effets d'exigence de la tâche; le bruit ambiant du restaurant a été délibérément coupé, ce qui limite le réalisme écologique et la validité externe; l'instrument principal de faisabilité a été développé par l'auteur et n'est pas encore validé; étude à auteur unique sans travail de fidélité inter-juges rapporté; conflit d'intérêts important - l'auteur a inventé IVS et détient une demande de brevet américain sur la technologie (seul inventeur listé). Le travail établit la faisabilité et un signal, pas l'efficacité. Une réplication dans des échantillons multisites plus larges avec comparateurs contrôlés est nécessaire avant tout usage en décision clinique.

Les évaluations suivent un schéma simplifié à quatre niveaux (Élevée, Modérée, Faible, Très faible), inspiré du GRADE working group. En savoir plus sur la méthode d'évaluation des études.

Un pilote intra-sujets d'Immersive VoiceSpace (IVS), une plateforme VR sur mesure de rééducation vocale développée par l'auteur unique. Dix-sept adultes (10 locuteurs vocalement sains et 7 personnes avec dysphonie) ont accompli une tâche de commande au menu dans un restaurant virtuel sous quatre conditions - une baseline plus trois niveaux IVS gradués manipulant la distance de l'avatar, les seuils d'activation vocale et les temporisations de départ. Le niveau de pression acoustique et la f0 moyenne en parole ont augmenté significativement à travers les niveaux IVS dans les deux groupes; la flexibilité tonale était plus contrainte dans le groupe avec dysphonie. Les évaluations de faisabilité étaient bonnes dans l'ensemble (4,0/5), avec confort et sécurité excellents (4,5/5) et aucun cas de cybersickness signalé.

Message clinique essentiel

Première preuve publiée de faisabilité et de validation de principe pour Immersive VoiceSpace (IVS), une plateforme VR sur mesure répondant à la voix, inventée et brevetée par l'auteur unique à Mount Sinai. Dans un pilote intra-sujets à séance unique avec 17 adultes (10 vocalement sains plus 7 personnes avec dysphonie, dont 2 femmes trans en soins vocaux d'affirmation de genre), des conditions de restaurant virtuel graduées ont produit des augmentations systématiques et progressives du niveau de pression acoustique (SPL) et de la f0 moyenne en parole. Les deux groupes ont suivi le même schéma de SPL; le groupe avec dysphonie a montré une mise à l'échelle tonale plus aplatie à mesure que les exigences de la tâche augmentaient. Les participants ont jugé le confort et la sécurité excellents; aucun cybersickness, aucun événement indésirable. L'étude est limitée par un faible échantillon (N=17, atypiques n=7), un contexte unique (restaurant), une séance unique, un auteur unique avec un conflit d'intérêts important en tant qu'inventeur et titulaire du brevet, et une scène audio délibérément silencieuse qui contraint la validité écologique. Les résultats soutiennent la faisabilité et la validité de construit préliminaire de la VR répondant à la voix comme outil de pratique contextualisée, mais n'établissent pas encore d'efficacité thérapeutique ni de généralisation à l'usage vocal du monde réel - les deux exigent des études multiséances ultérieures dans des populations cliniques avec comparateurs contrôlés.

Principaux résultats

  • 17 adultes (10 vocalement sains, 7 avec dysphonie: presbyphonie, polype des cordes vocales, parésie des cordes vocales, dysphonie de tension musculaire, et 2 femmes trans en soins vocaux d'affirmation de genre) ont accompli un protocole intra-sujets à séance unique
  • Équipement: casque Oculus Quest 3 exécutant l'application IVS; microphone à condensateur AKG C520 à 7 cm de la bouche (calibré à une référence de 30 cm); enregistrements via Computerized Speech Lab (CSL) à 44,1 kHz / 16 bits
  • Quatre conditions dans un ordre randomisé: Baseline (membre de l'équipe de recherche comme auditeur à ~2 m dans la salle clinique) plus trois niveaux IVS dans un restaurant virtuel - Normal (serveur à 5 m, +3 dB au-dessus de la baseline propre de chaque participant, temporisation de 5 s), Effortful (10 m, +5 dB, 10 s), Calling (15 m, +10 dB, 20 s). L'audio ambiant du restaurant a été coupé pour isoler les effets visuo-spatiaux
  • Effet principal de Niveau IVS sur le SPL significatif: F(3, 48) = 33,94, p < 0,001. Par rapport à la Baseline, le SPL a augmenté de 3,83 dB (Normal), 7,41 dB (Effortful) et 9,04 dB (Calling), tous p < 0,001
  • Effet principal de Niveau IVS sur la f0 moyenne en parole significatif: F(3, 45) = 17,63, p < 0,001. Augmentations par paliers depuis la Baseline d'environ 36 Hz (Normal, p = 0,008), 66,6 Hz (Effortful, p < 0,001) et 103,9 Hz (Calling, p < 0,001)
  • Effets principaux de groupe: les personnes avec dysphonie ont produit un SPL globalement plus faible (estimation -6,88 dB, p = 0,001) et une f0 moyenne globalement plus faible (p = 0,002) que les locuteurs vocalement sains
  • Interaction Niveau IVS x Groupe significative uniquement pour la f0 moyenne: F(3, 45) = 3,94, p = 0,014. La mise à l'échelle tonale a divergé dans les conditions plus exigeantes - l'écart entre les groupes était non significatif à la Baseline (p = 0,102), a approché la significativité à Normal (p = 0,055) et était significatif à Effortful (p = 0,003) et Calling (p < 0,001). L'interaction sur le SPL était non significative et a été retirée du modèle final - les deux groupes ont augmenté l'intensité en parallèle
  • Faisabilité (Likert 1-5): Utilisabilité & Interaction 3,9 (modéré-bon), Immersion & Réalisme 3,4 (modéré, domaine le plus faible), Engagement & Bénéfice perçu 4,0 (bon), Confort & Sécurité 4,5 (excellent). Total 4,0 (bon)
  • Aucun événement indésirable. Aucun cas de cybersickness signalé. Aucune interruption technique sur l'ensemble du protocole. Environ 2 minutes en moyenne pour reconfigurer les paramètres de difficulté entre essais. La séance complète, y compris instructions et questionnaires, a duré environ 20 minutes par participant
  • Les retours libres ont souligné la réactivité limitée de l'avatar comme contrainte clé - les participants ont demandé des réponses verbales, des expressions faciales et des gestes conversationnels pour approfondir le réalisme interactionnel

Contexte

Le changement vocal est un problème d’apprentissage moteur, pas seulement un problème de connaissance. La rééducation vocale comportementale est efficace pour de nombreuses pathologies vocales, mais les gains obtenus en clinique échouent souvent à se reporter sur la communication quotidienne. La littérature en apprentissage moteur est claire sur les raisons: un changement durable dépend d’une pratique sous des conditions qui ressemblent au contexte cible, et pas seulement de l’exécution du comportement dans une séance structurée. Le Specificity of Learning Principle, le Transfer-Appropriate Processing et l’Encoding Specificity convergent tous sur le même point - lorsque les exigences sensorielles et contextuelles de la pratique correspondent aux exigences de l’usage réel, le transfert est plus fort.

L’usage vocal du monde réel se produit sous des exigences en couches: intention communicative, distance à l’auditeur, pression socio-émotionnelle, taille de la pièce, acoustique de fond et indices visuo-spatiaux qui signalent la quantité de voix nécessaire avant même que la personne ne parle. Les salles de consultation conventionnelles minimisent intentionnellement ces variables, ce qui sert à l’acquisition initiale mais sous-représente précisément les indices dont la théorie de l’apprentissage dit que la généralisation dépend.

La réalité virtuelle immersive offre un moyen contrôlé de réintroduire ces indices. L’étude multisensorielle de Daşdöğen 2023 (dans ce Hub) a établi que les indices VR visuels et audiovisuels entraînent des adaptations vocales mesurables chez des adultes vocalement sains, au-delà de ce que produit la simulation acoustique seule. L’étude 2026 sur les chanteurs entraînés (aussi dans ce Hub) a prolongé cela en comparant locuteurs experts et non entraînés. La présente étude franchit l’étape suivante: le même effet se maintient-il dans une population vocale clinique, et une plateforme VR sur mesure répondant à la voix est-elle faisable à utiliser dans cette population.

Ce que les chercheurs ont fait

Un pilote intra-sujets à Mount Sinai avec 17 adultes: 10 locuteurs vocalement sains recrutés dans la clinique d’otolaryngologie et le personnel hospitalier, et 7 personnes avec dysphonie recrutées lors de consultations de routine d’évaluation vocale (diagnostics incluant presbyphonie, polype des cordes vocales, parésie des cordes vocales, dysphonie de tension musculaire et soins vocaux d’affirmation de genre).

L’intervention était Immersive VoiceSpace (IVS) - une plateforme VR sur mesure développée par l’auteur unique. IVS a rendu un restaurant virtuel peu fréquenté sur un casque Oculus Quest 3. Un personnage non-joueur de serveur servait de cible auditrice. Le serveur réagissait en temps réel à la voix du participant: si l’intensité vocale atteignait un seuil prédéfini, le serveur s’approchait et restait en posture d’écoute; si elle restait en dessous du seuil plus longtemps qu’une temporisation définie, le serveur s’éloignait.

Trois paramètres étaient gradués à travers les conditions:

La tâche de parole dans les quatre conditions était la même: “Commandez une boisson, une entrée, un plat et un dessert.” La condition Baseline a été réalisée avec un membre de l’équipe de recherche jouant l’auditeur dans la salle clinique à ~2 m. Les trois conditions IVS ont été réalisées dans le restaurant virtuel dans un ordre randomisé.

Pour isoler les effets visuo-spatiaux, l’audio ambiant du restaurant (conversations de fond et bruits de couverts, qu’IVS peut diffuser) a été coupé dans toutes les conditions expérimentales. L’enregistrement acoustique a été réalisé avec un microphone à condensateur AKG C520 monté sur la tête à 7 cm de la bouche, calibré à une référence de 30 cm, capté à 44,1 kHz / 16 bits via Computerized Speech Lab (CSL).

Critères de jugement: niveau de pression acoustique (SPL, dB) et fréquence fondamentale moyenne en parole (f0 moyenne, Hz), chacun extrait de CSL et analysé dans des modèles linéaires séparés à effets mixtes avec une ordonnée à l’origine aléatoire par sujet. Effets fixes: Groupe (Typique, Atypique) et Condition de tâche (Baseline, Normal, Effortful, Calling). L’interaction Groupe x Condition de tâche a été conservée pour la f0 moyenne (significative) et retirée du modèle final SPL (non significative). Les effets fixes ont été évalués avec des sommes de carrés de type III et des degrés de liberté approximés par Kenward-Roger; les contrastes par paires ont utilisé les moyennes marginales estimées avec correction de Tukey.

Un questionnaire Likert à 5 points (développé par l’auteur, pas encore validé) a capté quatre domaines après la séance: Utilisabilité et Interaction, Immersion et Réalisme, Engagement et Bénéfice perçu, Confort et Sécurité. Les scores de domaine ont été moyennés; un indice global de faisabilité était la moyenne des quatre domaines. Les retours libres ont été examinés de façon descriptive.

Ce qu’ils ont trouvé

Niveau de pression acoustique. Un effet principal significatif de Niveau IVS: F(3, 48) = 33,94, p < 0,001. Par rapport à la Baseline, le SPL a augmenté de 3,83 dB à Normal, 7,41 dB à Effortful et 9,04 dB à Calling (tous p < 0,001). Les contrastes par paires Normal-vers-Effortful et Normal-vers-Calling étaient significatifs; le palier de 1,63 dB d’Effortful à Calling ne l’était pas (p = 0,450), ce qui suggère un schéma proche d’un plafond au niveau d’exigence le plus élevé. L’effet principal de Groupe était également significatif: les personnes avec dysphonie ont produit en moyenne environ 6,88 dB de SPL en moins que les locuteurs vocalement sains. L’interaction Groupe x Niveau était non significative et a donc été retirée du modèle SPL final - les deux groupes ont augmenté l’intensité en parallèle à mesure que les exigences de la tâche montaient.

f0 moyenne en parole. Un effet principal significatif de Niveau IVS: F(3, 45) = 17,63, p < 0,001. Augmentations par paliers par rapport à la Baseline (ordonnée à l’origine ≈ 201,8 Hz pour le groupe typique) d’environ 36 Hz à Normal (p = 0,008), 66,6 Hz à Effortful (p < 0,001) et 103,9 Hz à Calling (p < 0,001). L’effet principal de Groupe était significatif, mais l’interaction Niveau x Groupe l’était également: F(3, 45) = 3,94, p = 0,014. Décomposition de l’interaction: à la Baseline les groupes ne différaient pas en f0 moyenne (p = 0,102); à Normal la différence approchait sans atteindre la significativité (p = 0,055); à Effortful (p = 0,003) et Calling (p < 0,001) l’écart était significatif et croissait avec les exigences. Le groupe avec dysphonie a augmenté la hauteur avec les exigences, mais dans une moindre mesure que le groupe vocalement sain.

Faisabilité. Scores de domaine (sur 5): Utilisabilité et Interaction 3,9 (modéré-bon), Immersion et Réalisme 3,4 (modéré, le domaine le plus faible), Engagement et Bénéfice perçu 4,0 (bon), Confort et Sécurité 4,5 (excellent). Indice global de faisabilité 4,0 (bon). Aucun événement indésirable, aucun cybersickness, aucune interruption technique sur le protocole. Temps moyen de reconfiguration des paramètres entre essais d’environ 2 minutes. Durée totale de séance d’environ 20 minutes par participant.

Retours qualitatifs. Les participants ont décrit l’expérience comme “amusante,” “comme un jeu vidéo,” et “une façon réaliste de pratiquer l’usage vocal.” Ils ont mis en avant le comportement vivant et réactif du serveur comme l’élément le plus engageant. Le retour négatif le plus constant concernait le comportement interactionnel limité du serveur - les participants voulaient des réponses verbales, des expressions faciales et des gestes pendant les tours d’écoute pour rendre l’interaction plus naturelle.

Pourquoi cela compte

Pour l’Evidence Hub, trois choses sont importantes dans cet article:

Pour Therapy withVR spécifiquement: ce travail a testé IVS, pas Therapy withVR. Le principe plus large qu’il soutient (les exigences visuo-spatiales graduées suscitent une adaptation vocale fonctionnelle) est cohérent avec la rationale que les cliniciens utilisent déjà lorsqu’ils choisissent des scènes dans Therapy withVR pour le travail vocal. L’équivalence directe du mécanisme de déclenchement avatar-seuil entre plateformes n’a pas été étudiée.

Limites

L’article est explicite sur ce que cet essai établit et n’établit pas:

Comment cela s’inscrit dans l’Evidence Hub plus large

Cette étude fait partie d’un fil de plus en plus dense de travaux sur la voix en VR immersive centrés sur Mount Sinai / Daşdöğen et les laboratoires vocaux adjacents:

Le paysage plus large: la VR vocale passe de “la simulation paraît-elle assez réelle pour changer le comportement” (largement résolu: oui) à “la pratique dans la simulation se transfère-t-elle à l’usage vocal du monde réel” (en grande partie non résolu, en attente de travaux longitudinaux multiséances). Cette étude se situe à la frontière - la faisabilité et le signal comportemental immédiat sont établis pour une plateforme sur mesure répondant à la voix; le transfert est la prochaine épreuve.

Note sur la plateforme Immersive VoiceSpace. IVS est distinct de Therapy withVR. C’est un système à scène unique, répondant aux seuils vocaux, inventé et breveté par l’auteur de l’étude. Le rapport institutionnel de Mount Sinai (mai 2026, “Hypophonia”) décrit des travaux en cours étendant IVS aux personnes atteintes d’hypophonie parkinsonienne, avec des modules prévus pour la féminisation vocale et des contextes supplémentaires. Le statut de PI d’IVS n’a pas pu être vérifié indépendamment au moment de cette revue (voir le champ funding/COI).

Implications pour la pratique

Pour les cliniciens vocaux qui utilisent ou évaluent la VR immersive pour le travail vocal: cette étude prolonge les résultats antérieurs de VR vocale en laboratoire (Daşdöğen 2023, Daşdöğen 2026 chanteurs entraînés) en montrant que les mêmes effets de réalisme et de validité se maintiennent dans une population clinique (personnes avec dysphonie), et pas seulement chez des adultes vocalement sains. Les deux groupes ont augmenté l'intensité en accord avec les indices gradués de distance et de seuil; la mise à l'échelle tonale était plus contrainte chez les personnes avec dysphonie, en cohérence avec la flexibilité phonatoire réduite documentée dans la littérature vocale plus large. En pratique: la pratique contextualisée dans des environnements virtuels peut susciter une production vocale fonctionnelle sans guidage explicite du clinicien, ce qui répond au problème de généralisation et de transfert qui a longtemps limité le report de la clinique vers la communication quotidienne. Cette étude a testé spécifiquement Immersive VoiceSpace, pas Therapy withVR - les cliniciens qui utilisent Therapy withVR peuvent retenir de ce travail le même principe plus large (les exigences visuo-spatiales graduées suscitent une mise à l'échelle vocale) mais ne doivent pas supposer une équivalence directe du mécanisme de déclenchement avatar-seuil sans validation séparée. Les résultats sont cohérents avec le modèle social de la communication: les barrières à l'usage vocal fonctionnel résident dans les contextes où la voix est nécessaire, et c'est la pratique dans ces contextes (plutôt que dans des salles de consultation dépouillées) que les données soutiennent.

Implications pour la recherche

Une réplication et une extension sont nécessaires dans: (a) des échantillons plus larges avec une puissance suffisante pour l'analyse en sous-groupes par diagnostic vocal; (b) des protocoles multiséances qui testent l'apprentissage, la rétention et la généralisation au monde réel (la revendication centrale du cadre théorique IVS est le transfer-appropriate processing, qui exige des données longitudinales pour être testé); (c) des conditions comparatrices contrôlées, y compris des tâches contrôles basées sur l'imagerie pour isoler la contribution unique des indices visuo-spatiaux immersifs des effets de nouveauté liés à l'exposition VR; (d) l'hypophonie parkinsonienne, principale application clinique d'IVS selon la communication institutionnelle de Mount Sinai; (e) les soins vocaux d'affirmation de genre, où les modules de féminisation d'IVS seraient en développement; (f) la limitation de l'interaction avatar signalée par les participants - savoir si des réponses avatar verbales/non verbales plus riches (potentiellement pilotées par IA) améliorent matériellement les résultats. Une réplication indépendante en dehors de l'institution inventrice renforcerait substantiellement la base probante.

Citer cette étude

Si vous référencez cette étude dans votre travail, voici les formats de citation canoniques :

APA 7th
Daşdöğen Ü (2026). Immersive VoiceSpace: Development and Pilot Testing of a Virtual Reality System for Contextualized Vocal Training. Journal of Voice. https://doi.org/10.1016/j.jvoice.2026.04.047.
AMA 11th
Daşdöğen Ü. Immersive VoiceSpace: Development and Pilot Testing of a Virtual Reality System for Contextualized Vocal Training. Journal of Voice. 2026. doi:10.1016/j.jvoice.2026.04.047.
BibTeX
@article{daden2026,
  author = {Daşdöğen Ü},
  title = {Immersive VoiceSpace: Development and Pilot Testing of a Virtual Reality System for Contextualized Vocal Training},
  journal = {Journal of Voice},
  year = {2026},
  doi = {10.1016/j.jvoice.2026.04.047},
  url = {https://withvr.app/fr/evidence/studies/dasdogen-2026-ivs}
}
RIS
TY  - JOUR
AU  - Daşdöğen Ü
TI  - Immersive VoiceSpace: Development and Pilot Testing of a Virtual Reality System for Contextualized Vocal Training
JO  - Journal of Voice
PY  - 2026
DO  - 10.1016/j.jvoice.2026.04.047
UR  - https://withvr.app/fr/evidence/studies/dasdogen-2026-ivs
ER  - 

Vous connaissez des travaux qui auraient leur place dans cette base ? Si une étude pertinente évaluée par les pairs n'y figure pas, envoyez la référence à hello@withvr.app. La base est tenue à jour au fil de la littérature.

Financement et indépendance

Étude à auteur unique par Ümit Daşdöğen (Research Director, Speech and Language Pathology, The Grabscheid Voice and Swallowing Center; Assistant Professor of Otolaryngology, Icahn School of Medicine at Mount Sinai). Aucun financeur externe, subvention ou sponsor mentionné dans le manuscrit. Approbation IRB: Mount Sinai STUDY-25-01418. Conflit d'intérêts important: l'auteur a inventé la plateforme Immersive VoiceSpace (IVS) et est identifié dans le manuscrit publié comme titulaire d'une demande de brevet américain sur la technologie (USPTO Application No. 63/987 selon le manuscrit - il s'agit apparemment d'un numéro de demande provisoire tronqué; le numéro complet n'a pas été donné dans l'article publié, et n'a pu être localisé indépendamment au moment de cette revue via USPTO Patent Public Search ou Google Patents, en cohérence avec la confidentialité des demandes provisoires). La marque Immersive VoiceSpace® apparaît avec le symbole d'enregistrement fédéral dans la communication institutionnelle de Mount Sinai; une recherche de marque USPTO TESS n'a retourné aucun enregistrement actif correspondant au moment de la revue. Ces revendications de PI sont rapportées comme étant les déclarations propres de l'auteur et n'ont pas pu être vérifiées indépendamment. Ces rôles cumulés (investigateur, auteur, inventeur, titulaire de PI, concepteur du questionnaire) sont fréquents dans le développement académique de plateformes en phase précoce et sont signalés ici à des fins de transparence; les lecteurs devraient peser les résultats de faisabilité et d'acceptabilité spécifiquement dans ce contexte. Therapy withVR (withVR BV, Belgique) n'a joué aucun rôle dans le financement, la conception, la conduite, l'analyse ou le rapport de cette étude; cette entrée Evidence Hub a été préparée indépendamment à partir de l'article publié évalué par les pairs et du rapport institutionnel public de Mount Sinai. Daşdöğen a séparément publié en 2026 un article dans Journal of Voice utilisant le module Rooms de Therapy withVR (voir dasdogen-2026 dans ce Hub), et utilise Therapy withVR dans d'autres travaux de recherche.

Dernière évaluation : 2026-05-23 Prochaine évaluation prévue : 2027-05-23 Évalué par : Gareth Walkom