¿Qué encontraron Daşdöğen et al. (2026)?

17 adultos (10 vocalmente sanos, 7 con disfonía: presbifonía, pólipo de cuerdas vocales, paresia de cuerdas vocales, disfonía por tensión muscular y 2 mujeres trans en atención vocal de afirmación de género) completaron un protocolo intrasujeto de sesión única Equipo: casco Oculus Quest 3 ejecutando la aplicación IVS; micrófono de condensador AKG C520 a 7 cm de la boca (calibrado a una referencia de 30 cm); grabaciones a través de Computerized Speech Lab (CSL) a 44,1 kHz / 16 bits Cuatro condiciones en orden aleatorizado: Baseline (miembro del equipo de investigación como oyente a ~2 m en la sala clínica) más tres niveles de IVS en un restaurante virtual - Normal (camarero a 5 m, +3 dB sobre la línea de base propia de cada participante, tiempo de espera de 5 s), Effortful (10 m, +5 dB, 10 s), Calling (15 m, +10 dB, 20 s). El audio ambiente del restaurante se silenció para aislar los efectos visuoespaciales El efecto principal del Nivel IVS sobre la SPL fue significativo: F(3, 48) = 33,94, p < 0,001. Respecto a la Baseline, la SPL aumentó 3,83 dB (Normal), 7,41 dB (Effortful) y 9,04 dB (Calling), todos p < 0,001 El efecto principal del Nivel IVS sobre la f0 media de habla fue significativo: F(3, 45) = 17,63, p < 0,001. Aumentos escalonados desde la Baseline de aproximadamente 36 Hz (Normal, p = 0,008), 66,6 Hz (Effortful, p < 0,001) y 103,9 Hz (Calling, p < 0,001) Efectos principales de grupo: las personas con disfonía produjeron en general una SPL más baja (estimación -6,88 dB, p = 0,001) y una f0 media más baja (p = 0,002) que los hablantes vocalmente sanos Interacción Nivel IVS x Grupo significativa solo para la f0 media: F(3, 45) = 3,94, p = 0,014. El escalado tonal divergió en las condiciones más exigentes - la brecha entre grupos no fue significativa en Baseline (p = 0,102), se aproximó a la significancia en Normal (p = 0,055) y fue significativa en Effortful (p = 0,003) y Calling (p < 0,001). La interacción sobre la SPL no fue significativa y se eliminó del modelo final - ambos grupos aumentaron la intensidad en paralelo Viabilidad (Likert 1-5): Usabilidad e Interacción 3,9 (moderado-bueno), Inmersión y Realismo 3,4 (moderado, dominio más bajo), Implicación y Beneficio Percibido 4,0 (bueno), Comodidad y Seguridad 4,5 (excelente). Total 4,0 (bueno) Sin eventos adversos. Sin cinetosis reportada. Sin interrupciones técnicas durante el protocolo. Promedio de ~2 minutos para reconfigurar los parámetros de dificultad entre ensayos. Sesión completa, incluidas instrucciones y cuestionarios, ~20 minutos por participante La retroalimentación en texto libre señaló la reactividad limitada del avatar como una restricción clave - los participantes pidieron respuestas verbales, expresiones faciales y gestos conversacionales para profundizar el realismo de la interacción

¿Quiénes participaron en este estudio?

Este estudio incluyó 17 participantes: Diecisiete adultos reclutados en Mount Sinai. Grupo típico (n=10, todas mujeres, edad media 37,9, rango 29-57) reclutados de la clínica de otorrinolaringología y del personal hospitalario, estado vocalmente sano confirmado mediante una breve historia vocal y CAPE-V. Grupo atípico (n=7, edad media 41,1, rango 27-78) reclutados durante visitas rutinarias de evaluación vocal, con diagnósticos confirmados por evaluación laringoscópica y auditivo-perceptiva. Diagnósticos del grupo atípico: presbifonía (1), pólipo de cuerdas vocales (1), paresia de cuerdas vocales (2), disfonía por tensión muscular (1), atención vocal de afirmación de género (2 mujeres trans). Todas hablantes nativas de inglés americano; todas con visión y audición normales o corregidas.

Esta página fue traducida del inglés. Si algo suena extraño, cambia a la versión en inglés. Ver en inglés.

Piloto de Immersive VoiceSpace VR (N=17): los hablantes escalaron intensidad y tono en condiciones graduadas de restaurante virtual

Daşdöğen Ü · 2026 · Journal of Voice · Experimental · n = 17 · Diecisiete adultos reclutados en Mount Sinai... · DOI

Grado de certeza: Certeza baja

Cómo se ha evaluado

Revisado por pares en Journal of Voice (Elsevier), aprobado por IRB (Mount Sinai STUDY-25-01418), análisis lineal de efectos mixtos con intercepto aleatorio por sujeto y grados de libertad de Kenward-Roger - un marco analítico defendible para un piloto. Fortalezas: incluye una población clínica (disfonía) y no solo adultos vocalmente sanos; los umbrales en dB relativos a la línea de base por participante eliminan la confusión con la SPL absoluta; el patrón conductual fue consistente entre los dos grupos para la SPL. Limitaciones que mantienen baja la certeza: N total pequeño (17) con solo 7 en el grupo atípico; sesión única y contexto único (un restaurante virtual poco concurrido); sin grupo de control ni condición comparadora; línea de base recogida fuera del casco, lo que confunde la exposición a la RV con los efectos de las demandas de la tarea; el audio ambiente del restaurante se silenció deliberadamente, lo que limita el realismo ecológico y la validez externa; el instrumento principal de viabilidad fue desarrollado por el autor y aún no está validado; estudio de un único autor sin trabajo de fiabilidad entre evaluadores reportado; conflicto de intereses significativo - el autor inventó IVS y posee una solicitud de patente estadounidense sobre la tecnología (único inventor listado). El trabajo establece viabilidad y señal, no eficacia. Es necesaria una replicación en muestras multicéntricas más amplias con comparadores de control antes de su uso en la toma de decisiones clínicas.

Las valoraciones utilizan un esquema simplificado de cuatro niveles (Alta, Moderada, Baja, Muy baja), basado en el GRADE working group. Más información sobre cómo se evalúan los estudios.

Un piloto intrasujeto de Immersive VoiceSpace (IVS), una plataforma de RV a medida para entrenamiento vocal desarrollada por el único autor. Diecisiete adultos (10 hablantes vocalmente sanos y 7 personas con disfonía) completaron una tarea de pedido de menú en un restaurante virtual bajo cuatro condiciones - una línea de base más tres niveles graduados de IVS que manipulaban la distancia del avatar, los umbrales de activación vocal y los tiempos de espera de alejamiento. El nivel de presión sonora y la f0 media de habla aumentaron significativamente a través de los niveles de IVS en ambos grupos; la flexibilidad tonal fue más limitada en el grupo con disfonía. Las valoraciones de viabilidad fueron buenas en conjunto (4,0/5), con comodidad y seguridad excelentes (4,5/5) y sin casos de cinetosis reportados.

Mensaje clínico clave

Primera evidencia publicada de viabilidad y prueba de concepto para Immersive VoiceSpace (IVS), una plataforma de RV a medida sensible a la voz inventada y patentada por el único autor en Mount Sinai. En un piloto intrasujeto de sesión única con 17 adultos (10 vocalmente sanos más 7 personas con disfonía, incluidas 2 mujeres trans en atención vocal de afirmación de género), las condiciones graduadas de restaurante virtual produjeron aumentos sistemáticos y progresivos del nivel de presión sonora (SPL) y de la f0 media de habla. Ambos grupos siguieron el mismo patrón de SPL; el grupo con disfonía mostró un escalado tonal más aplanado a medida que aumentaban las demandas de la tarea. Los participantes calificaron la comodidad y la seguridad como excelentes; sin cinetosis, sin eventos adversos. El estudio está limitado por la pequeña muestra (N=17, atípicos n=7), un único contexto (restaurante), una única sesión, un único autor con un conflicto de intereses significativo como inventor y titular de la patente, y una escena audio deliberadamente silenciada que limita la validez ecológica. Los hallazgos apoyan la viabilidad y la validez de constructo preliminar de la RV sensible a la voz como herramienta de práctica contextualizada, pero aún no establecen eficacia terapéutica ni generalización al uso vocal del mundo real - ambas requieren estudios de seguimiento multisesión en poblaciones clínicas con comparadores de control.

Hallazgos principales

17 adultos (10 vocalmente sanos, 7 con disfonía: presbifonía, pólipo de cuerdas vocales, paresia de cuerdas vocales, disfonía por tensión muscular y 2 mujeres trans en atención vocal de afirmación de género) completaron un protocolo intrasujeto de sesión única
Equipo: casco Oculus Quest 3 ejecutando la aplicación IVS; micrófono de condensador AKG C520 a 7 cm de la boca (calibrado a una referencia de 30 cm); grabaciones a través de Computerized Speech Lab (CSL) a 44,1 kHz / 16 bits
Cuatro condiciones en orden aleatorizado: Baseline (miembro del equipo de investigación como oyente a ~2 m en la sala clínica) más tres niveles de IVS en un restaurante virtual - Normal (camarero a 5 m, +3 dB sobre la línea de base propia de cada participante, tiempo de espera de 5 s), Effortful (10 m, +5 dB, 10 s), Calling (15 m, +10 dB, 20 s). El audio ambiente del restaurante se silenció para aislar los efectos visuoespaciales
El efecto principal del Nivel IVS sobre la SPL fue significativo: F(3, 48) = 33,94, p < 0,001. Respecto a la Baseline, la SPL aumentó 3,83 dB (Normal), 7,41 dB (Effortful) y 9,04 dB (Calling), todos p < 0,001
El efecto principal del Nivel IVS sobre la f0 media de habla fue significativo: F(3, 45) = 17,63, p < 0,001. Aumentos escalonados desde la Baseline de aproximadamente 36 Hz (Normal, p = 0,008), 66,6 Hz (Effortful, p < 0,001) y 103,9 Hz (Calling, p < 0,001)
Efectos principales de grupo: las personas con disfonía produjeron en general una SPL más baja (estimación -6,88 dB, p = 0,001) y una f0 media más baja (p = 0,002) que los hablantes vocalmente sanos
Interacción Nivel IVS x Grupo significativa solo para la f0 media: F(3, 45) = 3,94, p = 0,014. El escalado tonal divergió en las condiciones más exigentes - la brecha entre grupos no fue significativa en Baseline (p = 0,102), se aproximó a la significancia en Normal (p = 0,055) y fue significativa en Effortful (p = 0,003) y Calling (p < 0,001). La interacción sobre la SPL no fue significativa y se eliminó del modelo final - ambos grupos aumentaron la intensidad en paralelo
Viabilidad (Likert 1-5): Usabilidad e Interacción 3,9 (moderado-bueno), Inmersión y Realismo 3,4 (moderado, dominio más bajo), Implicación y Beneficio Percibido 4,0 (bueno), Comodidad y Seguridad 4,5 (excelente). Total 4,0 (bueno)
Sin eventos adversos. Sin cinetosis reportada. Sin interrupciones técnicas durante el protocolo. Promedio de ~2 minutos para reconfigurar los parámetros de dificultad entre ensayos. Sesión completa, incluidas instrucciones y cuestionarios, ~20 minutos por participante
La retroalimentación en texto libre señaló la reactividad limitada del avatar como una restricción clave - los participantes pidieron respuestas verbales, expresiones faciales y gestos conversacionales para profundizar el realismo de la interacción

Antecedentes

El cambio vocal es un problema de aprendizaje motor, no solo un problema de conocimiento. La terapia vocal conductual es eficaz para muchas alteraciones de la voz, pero los avances logrados en la clínica a menudo no se trasladan a la comunicación cotidiana. La literatura de aprendizaje motor es clara en cuanto al porqué: el cambio duradero depende de practicar bajo condiciones que se asemejen al contexto objetivo, no solo de ejecutar la conducta en una sesión estructurada. El Specificity of Learning Principle, el Transfer-Appropriate Processing y el Encoding Specificity convergen en el mismo punto - cuando las demandas sensoriales y contextuales de la práctica coinciden con las del uso real, la transferencia es más fuerte.

El uso vocal del mundo real ocurre bajo demandas en capas: intención comunicativa, distancia al oyente, presión socioemocional, tamaño de la sala, acústica de fondo y señales visuoespaciales que indican cuánta voz se necesita antes de que la persona siquiera hable. Las salas clínicas convencionales minimizan intencionadamente estas variables, lo que sirve a la adquisición inicial pero infrarrepresenta justamente las señales de las que la teoría del aprendizaje dice que depende la generalización.

La realidad virtual inmersiva ofrece una forma controlada de reintroducir esas señales. El estudio multisensorial de Daşdöğen de 2023 (en este Hub) estableció que las señales visuales y audiovisuales en RV impulsan adaptaciones vocales medibles en adultos vocalmente sanos, más allá de lo que produce la simulación acústica por sí sola. El estudio de 2026 con cantantes formados (también en este Hub) extendió este trabajo comparando hablantes expertos y no formados. El presente estudio da el siguiente paso: se sostiene el mismo efecto en una población vocal clínica, y es viable usar una plataforma de RV sensible a la voz hecha a medida en esa población.

Lo que hicieron los investigadores

Un piloto intrasujeto en Mount Sinai con 17 adultos: 10 hablantes vocalmente sanos reclutados de la clínica de otorrinolaringología y del personal hospitalario, y 7 personas con disfonía reclutadas durante visitas rutinarias de evaluación vocal (los diagnósticos incluían presbifonía, pólipo de cuerdas vocales, paresia de cuerdas vocales, disfonía por tensión muscular y atención vocal de afirmación de género).

La intervención fue Immersive VoiceSpace (IVS) - una plataforma de RV a medida desarrollada por el único autor. IVS renderizaba un restaurante virtual poco concurrido en un casco Oculus Quest 3. Un personaje no jugador (camarero) servía como objetivo auditor. El camarero respondía en tiempo real a la voz del participante: si la intensidad vocal alcanzaba un umbral preestablecido, el camarero se acercaba y permanecía en postura de escucha; si caía por debajo del umbral durante más tiempo que el tiempo de espera fijado, el camarero se alejaba.

Tres parámetros se graduaron entre condiciones:

Distancia al oyente - 5 m (Normal), 10 m (Effortful), 15 m (Calling)
Umbral de activación vocal - +3 dB, +5 dB, +10 dB por encima de la SPL de la condición línea de base propia de cada participante
Tiempo de espera de alejamiento - 5 s, 10 s, 20 s

La tarea de habla en las cuatro condiciones fue la misma: “Pida una bebida, un entrante, un plato principal y un postre.” La condición Baseline se realizó con un miembro del equipo de investigación actuando como oyente en la sala clínica a ~2 m. Las tres condiciones IVS se realizaron en el restaurante virtual en orden aleatorizado.

Para aislar los efectos visuoespaciales, el audio ambiente del restaurante (conversaciones de fondo y ruidos de cubiertos, que IVS puede reproducir) se silenció en todas las condiciones experimentales. El registro acústico se realizó mediante un micrófono de condensador AKG C520 montado en la cabeza a 7 cm de la boca, calibrado a una referencia de 30 cm, capturado a 44,1 kHz / 16 bits mediante Computerized Speech Lab (CSL).

Resultados: nivel de presión sonora (SPL, dB) y frecuencia fundamental media de habla (f0 media, Hz), cada uno extraído de CSL y analizado en modelos lineales de efectos mixtos separados con intercepto aleatorio por sujeto. Los efectos fijos fueron Grupo (Típico, Atípico) y Condición de Tarea (Baseline, Normal, Effortful, Calling). La interacción Grupo x Condición de Tarea se mantuvo para la f0 media (significativa) y se eliminó del modelo SPL final (no significativa). Los efectos fijos se evaluaron con sumas de cuadrados de Tipo III y grados de libertad aproximados por Kenward-Roger; los contrastes por pares utilizaron medias marginales estimadas con corrección de Tukey.

Un cuestionario Likert de 5 puntos (desarrollado por el autor, todavía no validado) capturó cuatro dominios tras la sesión: Usabilidad e Interacción, Inmersión y Realismo, Implicación y Beneficio Percibido, Comodidad y Seguridad. Las puntuaciones por dominio se promediaron; un índice global de viabilidad fue la media de los cuatro dominios. La retroalimentación abierta se revisó de manera descriptiva.

Lo que encontraron

Nivel de presión sonora. Un efecto principal significativo de Nivel IVS: F(3, 48) = 33,94, p < 0,001. Respecto a la Baseline, la SPL aumentó 3,83 dB en Normal, 7,41 dB en Effortful y 9,04 dB en Calling (todos p < 0,001). Los contrastes por pares Normal-a-Effortful y Normal-a-Calling fueron significativos; el salto de 1,63 dB de Effortful a Calling no lo fue (p = 0,450), lo que sugiere un patrón cercano al techo en el nivel de exigencia más alto. El efecto principal de Grupo también fue significativo: las personas con disfonía produjeron en promedio unos 6,88 dB menos de SPL que los hablantes vocalmente sanos. La interacción Grupo x Nivel no fue significativa y, por tanto, se eliminó del modelo SPL final - ambos grupos aumentaron la intensidad en paralelo a medida que crecían las demandas de la tarea.

f0 media de habla. Un efecto principal significativo de Nivel IVS: F(3, 45) = 17,63, p < 0,001. Aumentos escalonados respecto a la Baseline (intercepto ≈ 201,8 Hz para el grupo típico) de aproximadamente 36 Hz en Normal (p = 0,008), 66,6 Hz en Effortful (p < 0,001) y 103,9 Hz en Calling (p < 0,001). El efecto principal de Grupo fue significativo, pero también lo fue la interacción Nivel x Grupo: F(3, 45) = 3,94, p = 0,014. Descomposición de la interacción: en Baseline los grupos no diferían en f0 media (p = 0,102); en Normal la diferencia se aproximó sin alcanzar la significancia (p = 0,055); en Effortful (p = 0,003) y Calling (p < 0,001) la brecha fue significativa y creció con las demandas. El grupo con disfonía elevó el tono con las demandas, pero en menor medida que el grupo vocalmente sano.

Viabilidad. Puntuaciones por dominio (sobre 5): Usabilidad e Interacción 3,9 (moderado-bueno), Inmersión y Realismo 3,4 (moderado, el dominio más bajo), Implicación y Beneficio Percibido 4,0 (bueno), Comodidad y Seguridad 4,5 (excelente). Índice global de viabilidad 4,0 (bueno). Sin eventos adversos, sin cinetosis, sin interrupciones técnicas durante el protocolo. Tiempo medio de reconfiguración de parámetros entre ensayos de unos 2 minutos. Duración total de la sesión de unos 20 minutos por participante.

Retroalimentación cualitativa. Los participantes describieron la experiencia como “divertida,” “como un videojuego” y “una forma realista de practicar el uso vocal.” Destacaron el comportamiento vivo y reactivo del camarero como el elemento más implicador. La retroalimentación negativa más constante fue el comportamiento interaccional limitado del camarero - los participantes deseaban respuestas verbales, expresiones faciales y gestos durante los turnos de escucha para que la interacción se sintiera más natural.

Por qué importa

Para el Evidence Hub, hay tres aspectos importantes de este artículo:

Primer uso publicado en población clínica de una plataforma de RV sensible a la voz a medida. Los trabajos previos de voz en RV inmersiva (incluidos Daşdöğen 2023 y Daşdöğen 2026 cantantes formados) se realizaron en gran medida en adultos vocalmente sanos. Este estudio se extiende a personas con disfonía, incluidos casos diagnósticamente diversos.
Evidencia directa de que la retroalimentación de avatar sensible a la voz puede provocar un escalado vocal graduado sin orientación explícita del clínico. Es la demostración publicada más cercana a un mecanismo de generalización y transferencia para la terapia vocal: el participante ajusta la salida vocal a demandas ambientales funcionales, en tiempo real, en respuesta a una retroalimentación contextual no verbal.
Patrón conductual comparable entre los grupos vocalmente sano y con disfonía para la intensidad, con flexibilidad tonal limitada en el grupo con disfonía. El hallazgo de SPL sugiere que el mecanismo contextual está intacto en los hablantes con trastorno vocal; el hallazgo de f0 es coherente con la literatura vocal más amplia sobre la flexibilidad fonatoria reducida en la fonación trastornada.

Específicamente para Therapy withVR: este trabajo probó IVS, no Therapy withVR. El principio más amplio que respalda (las demandas visuoespaciales graduadas provocan adaptación vocal funcional) es coherente con la lógica que los clínicos ya utilizan al elegir escenas en Therapy withVR para el trabajo vocal. La equivalencia directa del mecanismo de disparo avatar-umbral entre plataformas no se ha estudiado.

Limitaciones

El artículo es explícito sobre lo que este ensayo establece y lo que no:

El tamaño muestral es pequeño (N = 17; atípicos n = 7). El análisis por subgrupos por diagnóstico vocal no es viable con este N.
Solo una única sesión. La afirmación central del marco teórico de IVS es una transferencia mejorada a lo largo de sesiones de aprendizaje, lo que este diseño no puede probar.
Sin condición de control ni comparadora. No hay control basado en imaginería, ni comparador de tratamiento alternativo, ni brazo de lista de espera. Los efectos observados a través de los niveles de IVS son coherentes con la manipulación visuoespacial pero no pueden separarse limpiamente de los efectos de exposición a la RV o de novedad.
Línea de base recogida fuera del casco. La comparación Baseline-a-Normal confunde la demanda de la tarea con el acto de ponerse el casco y entrar en un entorno virtual por primera vez.
El audio estaba silenciado. El audio ambiente del restaurante (que IVS puede reproducir) se silenció deliberadamente para aislar los efectos visuoespaciales. Es una elección experimental limpia, pero limita la validez ecológica - los restaurantes reales son ruidosos y el ruido es un impulsor conocido del ajuste vocal.
Contexto virtual único. Solo se probó una escena (el restaurante). La hoja de ruta clínica requiere demostrar el mismo patrón en múltiples contextos (clínica, aula, lugar de trabajo, actuación, contextos médicos).
El cuestionario de viabilidad fue desarrollado por el autor y no está validado. La retroalimentación abierta es informativa, pero debería tratarse como descriptiva y no psicométrica.
Conflicto de intereses significativo. El único autor es el inventor de IVS, titular de una solicitud de patente estadounidense sobre la tecnología y único investigador de este estudio. No hay trabajo de fiabilidad entre evaluadores, ni control de calidad por coinvestigadores, ni replicación independiente.
Límites interaccionales del avatar. La retroalimentación de los participantes señaló la falta de respuesta avatar verbal y gestual como una limitación del realismo percibido. Esta es una prioridad de desarrollo para futuras versiones y también una amenaza significativa para la interpretación de las puntuaciones de Inmersión y Realismo en el piloto actual.

Cómo encaja en el Evidence Hub más amplio

Este estudio forma parte de una línea creciente de trabajo de voz en RV inmersiva centrada en Mount Sinai / Daşdöğen y laboratorios vocales adyacentes:

Daşdöğen et al. 2023 (Journal of Voice) - el trabajo fundacional de realismo y validez en 31 adultos vocalmente sanos a través de 18 condiciones de entrada sensorial. Estableció que las señales visuales y audiovisuales en RV, no solo las acústicas, modifican la producción vocal.
Daşdöğen y Hitchcock 2026 (Journal of Voice) - estudio de cantantes formados frente a hablantes no formados usando la situación Rooms en Therapy withVR. Demostró que las señales de distancia virtual impulsan el escalado vocal de manera diferente en voces formadas frente a no formadas.
Hoff 2026 (Journal of Voice) - breve meditación basada en RV antes de la terapia vocal. Mecanismo diferente (regulación de la ansiedad de estado en lugar de señalización vocal directa) pero la misma dirección de avance para la adopción de la RV en clínicas vocales.
Leyns et al. 2025 (Journal of Voice) - ECA de entrenamiento vocal de afirmación de género basado en RV utilizando Therapy withVR. Directamente relevante dado que IVS supuestamente está desarrollando módulos vocales de afirmación de género según la comunicación institucional de Mount Sinai.

El panorama más amplio: la voz en RV se está moviendo de “¿la simulación se siente lo suficientemente real para cambiar la conducta?” (en gran parte respondido: sí) a “¿la práctica en la simulación se transfiere al uso vocal del mundo real?” (en gran parte sin respuesta, a la espera de trabajo longitudinal multisesión). Este estudio se sitúa en la frontera - la viabilidad y la señal conductual inmediata están establecidas para una plataforma sensible a la voz a medida; la transferencia es el próximo examen.

Nota sobre la plataforma Immersive VoiceSpace. IVS es distinta de Therapy withVR. Es un sistema de escena única, sensible al umbral vocal, inventado y patentado por el autor del estudio. El informe institucional de Mount Sinai (mayo de 2026, “Hypophonia”) describe el trabajo en curso que extiende IVS a personas con hipofonía parkinsoniana, con módulos planificados para la feminización vocal y contextos adicionales. El estado de PI de IVS no pudo verificarse de forma independiente en el momento de esta revisión (véase el campo funding/COI).

Implicaciones para la práctica

Para clínicos de voz que utilizan o evalúan VR inmersiva para el trabajo vocal: este estudio amplía hallazgos previos de voz en RV en laboratorio (Daşdöğen 2023, Daşdöğen 2026 cantantes formados) mostrando que los mismos efectos de realismo y validez se sostienen en una población clínica (personas con disfonía), no solo en adultos vocalmente sanos. Ambos grupos aumentaron la intensidad en línea con las señales graduadas de distancia y umbral; el escalado tonal fue más limitado para las personas con disfonía, en consonancia con la flexibilidad fonatoria reducida documentada en la literatura vocal más amplia. En la práctica: la práctica contextualizada en entornos virtuales puede provocar una salida vocal funcional sin orientación explícita del clínico, lo que aborda el problema de generalización y transferencia que durante mucho tiempo ha limitado el traspaso de la clínica a la comunicación diaria. Este estudio probó específicamente Immersive VoiceSpace, no Therapy withVR - los clínicos que utilizan Therapy withVR pueden extraer de este trabajo el mismo principio más amplio (las demandas visuoespaciales graduadas provocan escalado vocal), pero no deben asumir una equivalencia directa del mecanismo de disparo avatar-umbral sin una validación separada. Los hallazgos son coherentes con el modelo social de la comunicación: las barreras al uso vocal funcional residen en los contextos en los que se necesita la voz, y la evidencia respalda la práctica en esos contextos (en lugar de en salas clínicas despojadas).

Implicaciones para la investigación

Se necesitan replicación y extensión en: (a) muestras más amplias con potencia suficiente para análisis de subgrupos por diagnóstico vocal; (b) protocolos multisesión que evalúen aprendizaje, retención y generalización al mundo real (la afirmación central del marco teórico de IVS es el transfer-appropriate processing, que requiere datos longitudinales para ser puesto a prueba); (c) condiciones comparadoras controladas, incluidas tareas de control basadas en imaginería, para aislar la contribución única de las señales visuoespaciales inmersivas de los efectos de novedad y exposición a la RV; (d) hipofonía parkinsoniana, principal aplicación clínica de IVS según la comunicación institucional de Mount Sinai; (e) atención vocal de afirmación de género, donde supuestamente se están desarrollando módulos de feminización de IVS; (f) la limitación de interacción del avatar señalada por los participantes - si respuestas avatar verbales/no verbales más ricas (potencialmente impulsadas por IA) mejoran sustancialmente los resultados. Una replicación independiente fuera de la institución inventora reforzaría sustancialmente la base de evidencia.

Cita este estudio

Si haces referencia a este estudio en tu trabajo, estos son los formatos de cita canónicos:

APA 7th

Daşdöğen Ü (2026). Immersive VoiceSpace: Development and Pilot Testing of a Virtual Reality System for Contextualized Vocal Training. Journal of Voice. https://doi.org/10.1016/j.jvoice.2026.04.047.

AMA 11th

Daşdöğen Ü. Immersive VoiceSpace: Development and Pilot Testing of a Virtual Reality System for Contextualized Vocal Training. Journal of Voice. 2026. doi:10.1016/j.jvoice.2026.04.047.

BibTeX

@article{daden2026,
  author = {Daşdöğen Ü},
  title = {Immersive VoiceSpace: Development and Pilot Testing of a Virtual Reality System for Contextualized Vocal Training},
  journal = {Journal of Voice},
  year = {2026},
  doi = {10.1016/j.jvoice.2026.04.047},
  url = {https://withvr.app/es/evidence/studies/dasdogen-2026-ivs}
}

RIS

TY  - JOUR
AU  - Daşdöğen Ü
TI  - Immersive VoiceSpace: Development and Pilot Testing of a Virtual Reality System for Contextualized Vocal Training
JO  - Journal of Voice
PY  - 2026
DO  - 10.1016/j.jvoice.2026.04.047
UR  - https://withvr.app/es/evidence/studies/dasdogen-2026-ivs
ER  -

¿Conoce alguna investigación que debería estar en esta base? Si un estudio relevante revisado por pares no figura aquí, envíe la referencia a hello@withvr.app. La base se mantiene actualizada a medida que crece la literatura.

Financiación e independencia

Estudio de autor único por Ümit Daşdöğen (Research Director, Speech and Language Pathology, The Grabscheid Voice and Swallowing Center; Assistant Professor of Otolaryngology, Icahn School of Medicine at Mount Sinai). No se mencionan financiadores externos, becas ni patrocinadores en el manuscrito. Aprobación IRB: Mount Sinai STUDY-25-01418. Conflicto de intereses significativo: el autor inventó la plataforma Immersive VoiceSpace (IVS) y está identificado en el manuscrito publicado como titular de una solicitud de patente estadounidense sobre la tecnología (USPTO Application No. 63/987 según el manuscrito - parece tratarse de un número de solicitud provisional truncado; el número completo no se proporcionó en el artículo publicado, y no fue posible localizarlo de forma independiente en el momento de esta revisión mediante USPTO Patent Public Search ni Google Patents, lo que es coherente con la confidencialidad de las solicitudes provisionales). La marca Immersive VoiceSpace® aparece con el símbolo de registro federal en la comunicación institucional de Mount Sinai; una búsqueda de marca en USPTO TESS no devolvió ningún registro activo coincidente en el momento de la revisión. Estas reivindicaciones de PI se reportan como declaraciones propias del autor y no fue posible verificarlas de forma independiente. Estos roles superpuestos (investigador, autor, inventor, titular de PI, autor del cuestionario) son comunes en el desarrollo académico de plataformas en etapas tempranas y se señalan aquí por transparencia; los lectores deberían sopesar los resultados de viabilidad y aceptabilidad teniendo específicamente en cuenta este contexto. Therapy withVR (withVR BV, Bélgica) no tuvo ningún papel en la financiación, diseño, ejecución, análisis o reporte de este estudio; esta entrada del Evidence Hub se preparó de forma independiente a partir del artículo publicado revisado por pares y del informe institucional público de Mount Sinai. Daşdöğen ha publicado por separado en 2026 un artículo en Journal of Voice que utiliza la situación Rooms en Therapy withVR (véase dasdogen-2026 en este Hub) y utiliza Therapy withVR en otros trabajos de investigación.

Última revisión: 2026-05-23 Próxima revisión prevista: 2027-05-23 Revisado por: Gareth Walkom

Piloto de Immersive VoiceSpace VR (N=17): los hablantes escalaron intensidad y tono en condiciones graduadas de restaurante virtual

Hallazgos principales

Antecedentes

Lo que hicieron los investigadores

Lo que encontraron

Por qué importa

Limitaciones

Cómo encaja en el Evidence Hub más amplio

Implicaciones para la práctica

Implicaciones para la investigación

Estudios relacionados

Estudio intrasujeto (n=31): las señales auditivas, visuales y audiovisuales de salas en RV alteran la sonoridad y la producción vocal

En RV, la distancia a la que aparece el oyente determina la sonoridad vocal más que el tamaño de la sala

El tamaño de la sala virtual y la distancia del oyente influyen en cómo las personas usan la voz

La meditación en RV redujo la ansiedad antes de la terapia de voz en un pequeño ECA exploratorio, con menor abandono en el grupo de RV

La práctica de habla en RV aumenta la disposición a comunicarse en el entrenamiento de voz afirmativo de género

Cita este estudio

Financiación e independencia