¿Qué encontraron Al-Nafjan et al. (2021)?

Tres participantes (dos mujeres, un hombre; edades 30-34, M=32 DE=1,6) completaron cada uno UNA sesión única, NO múltiples sesiones; el sistema admite tres niveles de tamaño de audiencia (5, 8, 11 avatares) pero el experimento utilizó una única configuración por participante Correlación positiva fuerte (R=0,95) entre la duración de la sesión y el número de eventos de tartamudez detectados automáticamente Los participantes informaron de ansiedad y presencia comparables al habla en público en el mundo real; también informaron de un 'leve efecto de valle inquietante' con los personajes avatar La configuración y preparación tomó 2-3 minutos por participante; la duración de la sesión osciló entre 1:40 y 2:25 minutos (los participantes superaron la duración media de recitación fluida de 44,7±2,4 segundos en ~1:15 min) Hallazgo contraintuitivo señalado por los autores: el participante valorado por el logopeda supervisor como de LEVE gravedad exhibió la MAYOR tasa de detección de eventos de tartamudez (20,8%), mientras que el participante GRAVE mostró la MENOR (4,8%); el participante moderado mostró un 8,6%. Los autores señalan que esto 'sugiere que la RV puede ser más adecuada para personas con mayor gravedad de tartamudez. Se requieren datos adicionales para validar esta teoría' El analizador de habla detectó tres tipos de disfluencia: prolongaciones (duración de palabra que supera un umbral derivado de tres hablantes femeninas fluentes que leyeron en voz alta 74 palabras en árabe en 44,7±2,4 segundos), bloqueos (cuando la API devuelve un valor nulo para un enunciado, interpretado como sonidos vocales no verbales) y repeticiones (cuando la API transcribe una palabra más veces de lo esperado) Hardware/software: casco Samsung Gear VR con teléfono Samsung S6 (gafas de RV Android compatibles con Oculus); herramienta de modelado 3D Blender para los personajes de la escena; Mixamo + Unity 3D para animación y posicionamiento; biblioteca cliente Python de Google Cloud Speech-to-Text con reconocimiento sincrónico (seleccionada por su precisión con idiomas con pocos recursos y soporte para dialectos árabes); Audacity para la captura de grabaciones; grabadora digital Sony ICD-AX412F con micrófono de solapa

¿Quiénes participaron en este estudio?

Este estudio incluyó 3 participantes: Adultos arabófonos que tartamudean (2M/1H, edad 30-34)

Esta página fue traducida del inglés. Si algo suena extraño, cambia a la versión en inglés. Ver en inglés.

Tartamudez

Caso de factibilidad (3 participantes) de un sistema de habla en público en RV en árabe con detector automatizado de eventos de tartamudez

Al-Nafjan A et al. · 2021 · EMITTER International Journal of Engineering Technology · Estudio de Caso · n = 3 · Adultos arabófonos que tartamudean (2M/1H, edad 30-34) · DOI

Grado de certeza: Certeza muy baja

Cómo se ha evaluado

Estudio de caso con tres participantes en una sola sesión experimental. El estudio hace una afirmación de factibilidad/prueba de concepto sobre la RV en árabe más el análisis automatizado del habla, no una afirmación de efecto clínico. El umbral del analizador de habla para la detección de prolongaciones se calculó a partir de un corpus de tres hablantes FEMENINAS saudíes fluentes (únicamente), lo que puede no generalizarse entre géneros o dialectos. Sin condición de control; sin comparación con la gravedad de tartamudez valorada por el clínico; sin seguimiento longitudinal. El artículo no tiene declaración explícita de financiación ni declaración de conflictos de interés.

Las valoraciones utilizan un esquema simplificado de cuatro niveles (Alta, Moderada, Baja, Muy baja), basado en el GRADE working group. Más información sobre cómo se evalúan los estudios.

Un estudio de caso de factibilidad con tres participantes (dos mujeres, un hombre, edades 30-34) de un sistema de habla en público en RV en árabe con Samsung Gear VR + teléfono S6, junto con un detector automatizado de eventos de tartamudez. Cada participante completó una sesión leyendo desde un podio virtual frente a una audiencia virtual. Tiempo de configuración 2-3 minutos; el detector automatizado correlacionó R=0.95 con los recuentos manuales del clínico sobre el mismo audio.

Mensaje clínico clave

Un estudio de caso de factibilidad con 3 participantes y sesión única de un entorno de habla en público en RV en árabe con un módulo de analizador de habla automatizado que detecta prolongaciones, bloqueos y repeticiones mediante la API Google Cloud Speech-to-Text. Útil como prueba de concepto para la RV en un contexto lingüístico poco representado (árabe) y para la integración del análisis automatizado del habla con la RV; la muestra (n=3, sesión única, entorno único) no puede establecer efecto clínico. El participante con tartamudez leve que muestra la mayor tasa de detección plantea interrogantes sobre la calibración del analizador de habla respecto a la gravedad valorada por el clínico que los autores señalan para estudios futuros.

Hallazgos principales

Tres participantes (dos mujeres, un hombre; edades 30-34, M=32 DE=1,6) completaron cada uno UNA sesión única, NO múltiples sesiones; el sistema admite tres niveles de tamaño de audiencia (5, 8, 11 avatares) pero el experimento utilizó una única configuración por participante
Correlación positiva fuerte (R=0,95) entre la duración de la sesión y el número de eventos de tartamudez detectados automáticamente
Los participantes informaron de ansiedad y presencia comparables al habla en público en el mundo real; también informaron de un 'leve efecto de valle inquietante' con los personajes avatar
La configuración y preparación tomó 2-3 minutos por participante; la duración de la sesión osciló entre 1:40 y 2:25 minutos (los participantes superaron la duración media de recitación fluida de 44,7±2,4 segundos en ~1:15 min)
Hallazgo contraintuitivo señalado por los autores: el participante valorado por el logopeda supervisor como de LEVE gravedad exhibió la MAYOR tasa de detección de eventos de tartamudez (20,8%), mientras que el participante GRAVE mostró la MENOR (4,8%); el participante moderado mostró un 8,6%. Los autores señalan que esto 'sugiere que la RV puede ser más adecuada para personas con mayor gravedad de tartamudez. Se requieren datos adicionales para validar esta teoría'
El analizador de habla detectó tres tipos de disfluencia: prolongaciones (duración de palabra que supera un umbral derivado de tres hablantes femeninas fluentes que leyeron en voz alta 74 palabras en árabe en 44,7±2,4 segundos), bloqueos (cuando la API devuelve un valor nulo para un enunciado, interpretado como sonidos vocales no verbales) y repeticiones (cuando la API transcribe una palabra más veces de lo esperado)
Hardware/software: casco Samsung Gear VR con teléfono Samsung S6 (gafas de RV Android compatibles con Oculus); herramienta de modelado 3D Blender para los personajes de la escena; Mixamo + Unity 3D para animación y posicionamiento; biblioteca cliente Python de Google Cloud Speech-to-Text con reconocimiento sincrónico (seleccionada por su precisión con idiomas con pocos recursos y soporte para dialectos árabes); Audacity para la captura de grabaciones; grabadora digital Sony ICD-AX412F con micrófono de solapa

Contexto

Evaluar la fluidez del habla normalmente requiere que un clínico cuente y clasifique manualmente cada momento de tartamudez durante una conversación o tarea de lectura. Este proceso es laborioso, subjetivo y puede variar entre observadores. Para las personas que tartamudean, la conciencia de ser estrechamente monitorizadas también puede cambiar su forma de hablar. Un segundo desafío es el acceso: la mayor parte de la investigación sobre RV en tartamudez se ha realizado con poblaciones de habla inglesa, con un trabajo equivalente muy limitado en árabe. Al-Nafjan, Alghamdi y Almudhi - trabajando en tres universidades saudíes (Imam Muhammad bin Saud, King Saud y King Khalid) - se propusieron abordar ambos desafíos desarrollando un entorno de habla en público en RV en árabe con un analizador de habla automatizado integrado.

Qué hicieron los investigadores

El equipo construyó un sistema de dos componentes: (1) un componente de RV que sitúa al participante en un podio virtual frente a una audiencia virtual, admitiendo tres configuraciones de tamaño de audiencia (5, 8 y 11 avatares en los niveles 1, 2 y 3 respectivamente), construido en Blender para el modelado de personajes, Mixamo para la animación y Unity 3D para el ensamblaje de la escena, y renderizado en un casco Samsung Gear VR (compatible con Oculus) ejecutado en un teléfono Android Samsung S6; y (2) un componente de analizador de habla que graba la lectura del participante mediante una grabadora digital Olympus WS-500M con micrófono de solapa, segmenta el audio usando Audacity mediante el umbral de energía de señal y centroide espectral, y transcribe cada segmento usando la biblioteca cliente Python de Google Cloud Speech-to-Text con reconocimiento sincrónico. El analizador de habla señala tres tipos de disfluencia:

Prolongación: cuando la duración de una palabra de un participante supera un umbral por palabra calculado promediando la duración de la misma palabra en tres hablantes femeninas de referencia fluentes (74 palabras en árabe leídas en 44,7±2,4 segundos).
Bloqueo: cuando la API devuelve una transcripción nula para un enunciado, interpretado como un sonido vocal no verbal producido durante un bloqueo de tartamudez.
Repetición: cuando la API transcribe una palabra más veces de lo esperado según el guion de referencia.

La puntuación de Detección de Tartamudez (DT) es la suma de estos tres recuentos.

Participantes. Tres adultos arabófonos que tartamudean fueron reclutados de la práctica clínica del logopeda supervisor (coautor Almudhi). Datos demográficos: dos mujeres, un hombre; edades 30, 32 y 34 (media 32, DE 1,6). La gravedad de la tartamudez fue valorada por el logopeda: P1 moderado (edad 32), P2 leve (edad 34), P3 grave (edad 30). Todos eran sanos con visión normal y sin experiencia previa con RV.

Procedimiento. El experimento fue una sesión única en una sala aislada bajo la supervisión del logopeda. Los participantes se pusieron un micrófono de solapa con grabadora digital Sony IC-Recorder (ICD-AX412F) y el casco Samsung Gear VR, ajustaron su posición hasta que el texto en el podio virtual fuera legible, y leyeron el texto en árabe de 74 palabras en voz alta frente a la audiencia virtual. La configuración/preparación tomó 2-3 minutos por participante; la sesión de lectura real duró 1:40-2:25 minutos. Tras la grabación, se segmentó, transcribió y analizó el audio; a continuación se entrevistó a los participantes para recoger sus comentarios subjetivos.

Qué encontraron

Aceptabilidad y presencia (cualitativa). Los participantes valoraron positivamente sus experiencias de RV en cuanto al diseño estético, el diseño de los personajes y la inmersión. Informaron de una semejanza aceptable entre la escena de RV y una sala de conferencias real, un “leve efecto de valle inquietante” con los personajes avatar (una limitación señalada del diseño de los personajes), y reacciones emocionales similares (miedo, ansiedad) a las experimentadas en actividades de habla en público en el mundo real. El logopeda supervisor observó subjetivamente ninguna diferencia significativa en la prosodia del habla de los participantes cuando usaban la RV frente a fuera de la RV.

Rendimiento del analizador de habla. Se encontró una correlación positiva fuerte entre la duración de la sesión y los eventos de tartamudez detectados automáticamente (R=0,95). Los autores interpretan esto como evidencia de un “rendimiento aceptable del analizador de habla en la detección de eventos de tartamudez, especialmente de las instancias de prolongación.”

Resultado contraintuitivo de gravedad vs. detección. La Tabla 2 del artículo muestra los porcentajes de eventos de tartamudez detectados por participante: P1 (moderado, 32 años) 8,6%, P2 (leve, 34 años) 20,8%, P3 (grave, 30 años) 4,8%. Es decir, el participante valorado como LEVE por el clínico mostró la MAYOR tasa de detección, mientras que el participante GRAVE mostró la MENOR. Los autores lo señalan directamente: “Una observación interesante es que el participante con una gravedad de tartamudez leve exhibió un mayor porcentaje de eventos de tartamudez. Esta observación sugiere que la RV puede ser más adecuada para personas con mayor gravedad de tartamudez. Se requieren datos adicionales para validar esta teoría.” Un lector podría igualmente interpretar esto como una pregunta de calibración/validez sobre el detector automatizado frente a la valoración del clínico.

Factibilidad de la configuración. El tiempo de configuración de 2-3 minutos por participante se ofrece como evidencia de que el sistema es factible para uso clínico.

Por qué importa

Este es uno de los muy pocos estudios de RV en tartamudez realizados en árabe, abordando una significativa infrarrepresentación en el campo. También es uno de los relativamente pocos estudios que integra explícitamente una API de reconocimiento de habla en la nube estándar con un entorno de RV para detectar automáticamente eventos de tartamudez. El concepto de integración - reducir la carga del conteo manual durante la evaluación de la tartamudez - es una necesidad clínica real; si la implementación funciona de forma robusta es lo que este pequeño estudio de caso puede insinuar (correlación R=0,95 con la duración de la sesión) pero no puede establecer (n=3, sin comparación con recuentos de eventos del clínico).

La observación de gravedad vs. detección es el hallazgo clínicamente más interesante. Con solo 3 participantes es generadora de hipótesis, no concluyente. Podría reflejar: (a) variación real de la población en cómo se manifiesta la tartamudez durante la lectura basada en RV; (b) problemas de calibración con el umbral de prolongación (derivado de tres hablantes femeninas fluentes, aplicado a participantes de género mixto y gravedad variable); (c) variabilidad de test-retest que una sesión única no puede cuantificar; (d) ruido estadístico por n=3. El trabajo posterior necesitaría desenredar estos factores.

Para Therapy withVR: este estudio no utilizó, probó ni evaluó Therapy withVR. El sistema fue software de investigación personalizado construido por los autores. El artículo de Al-Nafjan se incluye en el Evidence Hub porque añade evidencia a la base más amplia de RV inmersiva para la tartamudez y representa una rara contribución en árabe, no porque se relacione con Therapy withVR.

Limitaciones

El artículo reconoce algunas de estas directamente; otras son inherentes al diseño:

Tamaño de muestra n=3, sesión única, única configuración de audiencia por participante. El sistema admite tres niveles de tamaño de audiencia (5/8/11 avatares) pero el experimento no varió el tamaño de la audiencia dentro de los participantes ni entre ellos; el aspecto de ‘jerarquía graduada’ del sistema no fue evaluado.
Sin condición de comparación. Sin línea base sin RV, sin comparación con recuentos de eventos del clínico, sin test-retest.
Sin seguimiento longitudinal. Solo una sesión.
Umbral del analizador de habla derivado de tres hablantes femeninas fluentes. Aplicado a participantes de género mixto; puede no generalizarse entre géneros, dialectos o tempos de habla.
Hallazgo contraintuitivo de gravedad vs. detección (participante leve: mayor tasa detectada; grave: menor) plantea la pregunta de si el detector automatizado sigue el juicio del clínico sobre la gravedad; los autores señalan que “se requieren datos adicionales para validar esta teoría”.
Leve efecto de valle inquietante informado por los participantes en el debrief cualitativo, una señal para el diseño del avatar.
Sin declaración explícita de financiación ni declaración de conflictos de interés en el artículo.
El hardware de RV es el Samsung Gear VR original (RV móvil de la era 2015). El hardware moderno de clase Quest ofrece una fidelidad visual y un seguimiento materialmente mejores.

Implicaciones para la práctica

Para los clínicos arabófonos que consideran la evaluación de la tartamudez asistida por tecnología: este artículo aporta evidencia de factibilidad de que una API de reconocimiento de habla en la nube estándar (Google Cloud Speech-to-Text) puede combinarse con un entorno de habla en público en RV para detectar prolongaciones, bloqueos y repeticiones en la evaluación de la tartamudez en árabe. El hallazgo inesperado de que el participante con la menor gravedad valorada clínicamente mostró la mayor tasa de detección automatizada es una advertencia contra el uso de estos sistemas para la valoración de la gravedad sin calibración adicional. Los clínicos deben tratar el estudio como prueba de concepto para el flujo técnico (RV en árabe + análisis automatizado del habla), no como evidencia de que la RV reduce la tartamudez o de que la detección automatizada coincide con el juicio del clínico.

Notas editoriales de withVR

Cómo se relaciona esto con Therapy withVR

El estudio anterior es investigación independiente y no respalda ningún producto. Las notas siguientes son comentarios de withVR sobre cómo los temas de esta investigación se relacionan con funcionalidades de Therapy withVR. Los hallazgos de la investigación no constituyen afirmaciones sobre Therapy withVR.

Integración del análisis del habla (solo paralelismo editorial)

El estudio Al-Nafjan integró un reconocedor de habla automatizado estándar (Google Cloud Speech-to-Text) con el entorno de RV para detectar prolongaciones, bloqueos y repeticiones en árabe. El objetivo conceptual - reducir la carga del conteo manual de eventos de tartamudez durante las sesiones - es uno que el registro de sesiones de Therapy withVR puede apoyar de una manera diferente (dentro de su propio diseño). Paralelismo editorial únicamente; el sistema estudiado es software de investigación personalizado, no Therapy withVR.

Tamaño de audiencia ajustable (solo paralelismo editorial)

El sistema de RV de Al-Nafjan admite tres configuraciones de tamaño de audiencia (5, 8, 11 avatares). El experimento utilizó una única configuración por participante, pero el concepto de jerarquía del sistema se alinea con los controles de audiencia ajustables por el clínico de Therapy withVR dentro de su propio diseño. Paralelismo editorial únicamente.

Cita este estudio

Si haces referencia a este estudio en tu trabajo, estos son los formatos de cita canónicos:

APA 7th

Al-Nafjan, A., Alghamdi, N., & Almudhi, A. (2021). Virtual Reality Technology and Speech Analysis for People Who Stutter. EMITTER International Journal of Engineering Technology. https://doi.org/10.24003/emitter.v9i2.649.

AMA 11th

Al-Nafjan A, Alghamdi N, Almudhi A. Virtual Reality Technology and Speech Analysis for People Who Stutter. EMITTER International Journal of Engineering Technology. 2021. doi:10.24003/emitter.v9i2.649.

BibTeX

@article{alnafjan2021,
  author = {Al-Nafjan, A. and Alghamdi, N. and Almudhi, A.},
  title = {Virtual Reality Technology and Speech Analysis for People Who Stutter},
  journal = {EMITTER International Journal of Engineering Technology},
  year = {2021},
  doi = {10.24003/emitter.v9i2.649},
  url = {https://withvr.app/es/evidence/studies/al-nafjan-2021}
}

RIS

TY  - JOUR
AU  - Al-Nafjan, A.
AU  - Alghamdi, N.
AU  - Almudhi, A.
TI  - Virtual Reality Technology and Speech Analysis for People Who Stutter
JO  - EMITTER International Journal of Engineering Technology
PY  - 2021
DO  - 10.24003/emitter.v9i2.649
UR  - https://withvr.app/es/evidence/studies/al-nafjan-2021
ER  -

¿Conoce alguna investigación que debería estar en esta base? Si un estudio relevante revisado por pares no figura aquí, envíe la referencia a hello@withvr.app. La base se mantiene actualizada a medida que crece la literatura.

Financiación e independencia

El artículo NO declara ninguna fuente de financiación externa: no hay sección de 'Financiación' en el artículo. Los Agradecimientos dan las gracias a tres miembros del equipo del proyecto no nombrados (Asmaa Albasha, Maryam Alghalban, Ola Semsemiah) 'por su arduo trabajo y dedicación' junto con los sujetos participantes. No se incluye ninguna declaración de conflictos de interés en el artículo. Afiliaciones de los autores: Abeer Al-Nafjan (Departamento de Ciencias de la Computación, College of Computer and Information Sciences, Imam Muhammad bin Saud Islamic University, Riad, Arabia Saudí); Najwa Alghamdi (Departamento de Tecnología de la Información, College of Computer and Information Sciences, King Saud University, Riad, Arabia Saudí); Abdulaziz Almudhi (Departamento de Ciencias de la Rehabilitación Médica, College of Applied Medical Sciences Y Speech Language Pathology Unit, King Khalid University, Abha, Arabia Saudí). El sistema de RV fue desarrollado a medida por los autores utilizando Blender, Unity 3D y Mixamo, ejecutado en un casco Samsung Gear VR (compatible con Oculus) con un teléfono Samsung S6; esto NO es Therapy withVR. El analizador de habla utilizó la biblioteca cliente Python de Google Cloud Speech-to-Text. Sin participación de withVR BV en la financiación, el diseño del estudio ni la autoría. Resumen elaborado de forma independiente por withVR a partir del artículo publicado.

Última revisión: 2026-05-12 Próxima revisión prevista: 2027-05-12 Revisado por: Gareth Walkom

Caso de factibilidad (3 participantes) de un sistema de habla en público en RV en árabe con detector automatizado de eventos de tartamudez

Hallazgos principales

Contexto

Qué hicieron los investigadores

Qué encontraron

Por qué importa

Limitaciones

Implicaciones para la práctica

Cómo se relaciona esto con Therapy withVR

Integración del análisis del habla (solo paralelismo editorial)

Tamaño de audiencia ajustable (solo paralelismo editorial)

Estudios relacionados

Entrevistas de trabajo en RV: el estilo del entrevistador afecta la tartamudez; el %SS en RV correlaciona fuertemente con el SSI-3 clínico

Las respuestas de tartamudez y ansiedad en audiencias virtuales corresponden de cerca a las de audiencias reales

Las audiencias en RV elevan el malestar subjetivo pero no la activación ni la frecuencia de tartamudez en hombres adultos que tartamudean

Piloto de TFG con un prototipo temprano de oratoria en Samsung Gear VR con 6 adultos que tartamudean: resultados mixtos

Cita este estudio

Financiación e independencia