Esta página fue traducida del inglés. Si algo suena extraño, cambia a la versión en inglés. Ver en inglés.
Estudio de ingeniería + recepción por usuarios (Computers & Graphics 2025) de un sistema de RV controlado por voz para entrenamiento vocal y de oratoria: extrae tono / timbre / velocidad del habla de 529 enunciados de 15 estudiantes para la respuesta en tiempo real de un personaje virtual
Cómo se ha evaluado
Estudio de ingeniería / recepción por usuarios con un corpus de habla de 15 participantes y 6 anotadores expertos. Revisado por pares en Computers & Graphics (Elsevier, sección especial sobre XRIOS 2024). La contribución del artículo es diseño de sistema y evaluación de recepción por usuarios, no eficacia clínica. Limitaciones: no es un ensayo clínico; el corpus de habla es pequeño para la generalización a poblaciones clínicas; los parámetros vocales extraídos son características técnicas de ingeniería (tono, timbre, velocidad) en lugar de medidas de discapacidad vocal validadas clínicamente.
Las valoraciones utilizan un esquema simplificado de cuatro niveles (Alta, Moderada, Baja, Muy baja), basado en el GRADE working group. Más información sobre cómo se evalúan los estudios.
Un estudio de ingeniería y recepción por usuarios publicado en Computers & Graphics, sección especial sobre XRIOS 2024. Colaboración polaco-británica (AGH Cracovia, SWPS Varsovia, Academia Polaca de Ciencias, Universidad Tecnológica de Kielce, Universidad de Cambridge). El sistema se construye sobre un corpus de grabaciones de habla de 529 enunciados durante presentaciones de 15 estudiantes. Parámetros vocales extraídos: tono, timbre, velocidad del habla. Seis anotadores expertos evaluaron los niveles de estrés por presentación. El análisis multiparamétrico selecciona características para la animación en tiempo real de personajes virtuales que responden dinámicamente a los cambios en el habla. La contribución es de diseño y evaluación de recepción por usuarios, más que de eficacia clínica.
Un estudio de ingeniería / recepción por usuarios de un sistema de RV controlado por voz para entrenamiento vocal y de oratoria. La contribución es metodológica en cuanto al diseño (corpus de habla, extracción de parámetros, control de animación en tiempo real) más que evidencia clínica. Para clínicos de voz e investigadores, este artículo ilustra una posibilidad emergente en la RV: personajes virtuales que responden DINÁMICAMENTE a los parámetros vocales del hablante en tiempo real. No es apropiado como cita de eficacia clínica; útil como referencia de metodología y diseño para sistemas de RV de entrenamiento vocal de próxima generación.
Hallazgos principales
- Estudio de ingeniería + recepción por usuarios publicado en Computers & Graphics, sección especial sobre XRIOS 2024
- Sistema de RV controlado por voz: los personajes virtuales responden DINÁMICAMENTE a los parámetros vocales del hablante (tono, timbre, velocidad del habla) en tiempo real
- Corpus de grabaciones de habla: 529 enunciados emitidos durante presentaciones por 15 estudiantes
- Parámetros vocales extraídos mediante métodos de procesamiento del habla: tono, timbre, velocidad del habla — luego mapeados al control de animación en tiempo real de personajes virtuales
- Seis anotadores expertos evaluaron los niveles de estrés presentes en cada presentación — característica de método mixto para una respuesta del personaje modulada por el estrés
- Colaboración internacional polaco-británica: AGH Universidad de Ciencia y Tecnología (Cracovia), Universidad SWPS (Varsovia), Academia Polaca de Ciencias (Cracovia), Universidad Tecnológica de Kielce, Universidad de Cambridge
- Posibilidad emergente de la RV ilustrada: personajes virtuales que responden DINÁMICAMENTE al comportamiento del hablante — superando las animaciones de audiencia pregrabadas hacia auténticos sistemas sociales de RV con respuesta
Contexto
La mayoría de los sistemas de RV para entrenamiento vocal y de oratoria utilizan animaciones de audiencia pregrabadas — la audiencia virtual no responde a lo que el hablante realmente dice ni a cómo lo dice. Los personajes virtuales controlados por voz en tiempo real, que responden a los parámetros vocales y los niveles de estrés del hablante, son una dirección de diseño de próxima generación. Hacia 2024-2025, la canalización de ingeniería para esto estaba madurando.
Qué hicieron y qué encontraron
Se construyó un sistema de RV controlado por voz sobre un corpus de 529 enunciados de presentación de 15 estudiantes. Se extrajeron parámetros vocales (tono, timbre, velocidad del habla) mediante métodos de procesamiento del habla. Seis anotadores expertos evaluaron los niveles de estrés. El análisis multiparamétrico seleccionó características para el control de animación en tiempo real de personajes virtuales que responden dinámicamente a los cambios en el habla. A continuación, se realizó la evaluación de recepción por usuarios.
Por qué es importante
Para clínicos de voz e investigadores en logopedia, este artículo ilustra la trayectoria de ingeniería hacia personajes virtuales con respuesta en contextos de entrenamiento vocal en RV. Referencia de metodología y diseño para sistemas de RV clínicos de próxima generación.
Limitaciones
No es un ensayo clínico. Corpus de habla pequeño. Los parámetros vocales son características de ingeniería en lugar de medidas de discapacidad vocal validadas clínicamente.
Implicaciones para la práctica
Para clínicos de voz e investigadores en logopedia, este artículo ilustra la trayectoria de ingeniería hacia sistemas de RV con personajes virtuales que responden DINÁMICAMENTE a los parámetros vocales y de estrés del hablante. Esta es una dirección de diseño significativa para los sistemas de RV de próxima generación para entrenamiento vocal y de oratoria — superando las audiencias virtuales estáticas o pregrabadas hacia contextos sociales de RV con respuesta. No es apropiado como evidencia de eficacia clínica; úsese como referencia metodológica para la colaboración clínico-ingeniería. Para el diseño del producto Therapy withVR, la canalización de parámetros del habla a animación del personaje es una posibilidad emergente relevante.
Cita este estudio
Si haces referencia a este estudio en tu trabajo, estos son los formatos de cita canónicos:
@article{bartyzel2025,
author = {Bartyzel, P. and Igras-Cybulska, M. and Hekiert, D. and Majdak, M. and Łukawski, G. and Bohné, T. and Tadeja, S.},
title = {Exploring user reception of speech-controlled virtual reality environment for voice and public speaking training},
journal = {Computers & Graphics},
year = {2025},
doi = {10.1016/j.cag.2024.104104},
url = {https://withvr.app/es/evidence/studies/bartyzel-2025}
}TY - JOUR
AU - Bartyzel, P.
AU - Igras-Cybulska, M.
AU - Hekiert, D.
AU - Majdak, M.
AU - Łukawski, G.
AU - Bohné, T.
AU - Tadeja, S.
TI - Exploring user reception of speech-controlled virtual reality environment for voice and public speaking training
JO - Computers & Graphics
PY - 2025
DO - 10.1016/j.cag.2024.104104
UR - https://withvr.app/es/evidence/studies/bartyzel-2025
ER - ¿Conoce alguna investigación que debería estar en esta base? Si un estudio relevante revisado por pares no figura aquí, envíe la referencia a hello@withvr.app. La base se mantiene actualizada a medida que crece la literatura.
Financiación e independencia
Afiliaciones: AGH Universidad de Cracovia, Universidad SWPS Varsovia, Academia Polaca de Ciencias, Universidad Tecnológica de Kielce, Universidad de Cambridge. Fuentes de financiación reportadas en el artículo publicado. Revisado por pares en Computers & Graphics (Elsevier). Sin implicación de withVR BV.