O que descobriram Al-Nafjan et al. (2021)?

Três participantes (duas do sexo feminino, um do sexo masculino; idades 30-34, M=32 DP=1,6) completaram cada um UMA sessão única, NÃO múltiplas sessões; o sistema suporta três níveis de tamanho de audiência (5, 8, 11 avatars) mas a experiência utilizou uma configuração única por participante Forte correlação positiva (R=0,95) entre a duração da sessão e o número de eventos de gaguez automaticamente detetados Os participantes relataram ansiedade e presença comparáveis à fala em público no mundo real; relataram ainda um 'ligeiro efeito de uncanny valley' com os personagens avatar A configuração e preparação demoraram 2-3 minutos por participante; a duração da sessão variou de 1:40-2:25 minutos (os participantes excederam a duração média de recitação fluente de 44,7±2,4 segundos em ~1:15 min) Achado contraintuitivo assinalado pelos autores: o participante classificado como gravidade LIGEIRA de gaguez pelo terapeuta da fala supervisor exibiu a MAIOR taxa de deteção de eventos de gaguez (20,8%) enquanto o participante GRAVE mostrou a MENOR (4,8%); o participante moderado mostrou 8,6%. Os autores referem que isto 'sugere que a RV pode ser adequada apenas para indivíduos com maior gravidade de gaguez. São necessários dados adicionais para validar esta teoria' O analisador de fala detetou três tipos de disfluência: prolongamentos (duração da palavra excedendo um limiar derivado de três falantes femininas fluentes que leram em média 74 palavras árabes em 44,7±2,4 segundos), bloqueios (quando a API de fala devolve nulo para um enunciado, interpretado como sons vocais não-fala), e repetições (quando a API transcreve uma palavra mais vezes do que o esperado) Hardware/software: headset Samsung Gear VR num telemóvel Samsung S6 (óculos de RV Android compatíveis com Oculus); ferramenta de modelação 3D Blender para personagens da cena; Mixamo + Unity 3D para animação e colocação; biblioteca cliente Python Google Cloud Speech-to-Text com reconhecimento síncrono (selecionada pela sua precisão com línguas com poucos recursos e suporte de dialeto árabe); Audacity para captura de gravação; gravador digital Sony ICD-AX412F com microfone de lapela

Quem participou neste estudo?

Este estudo envolveu 3 participantes: Adultos arabófonos que gaguejam (1H/2M)

Esta página foi traduzida do inglês. Se algo parecer estranho, mude para a versão em inglês. Ver em inglês.

Gaguez

Estudo de caso de viabilidade com três participantes de um sistema de fala em público em RV em árabe com detetor automático de gaguez

Al-Nafjan A et al. · 2021 · EMITTER International Journal of Engineering Technology · Estudo de Caso · n = 3 · Adultos arabófonos que gaguejam (1H/2M) · DOI

Grau de certeza: Certeza muito baixa

Como foi avaliado

Estudo de caso com três participantes numa única sessão experimental. O estudo faz uma afirmação de viabilidade/prova de conceito sobre RV em língua árabe + análise automatizada de fala, não uma afirmação de efeito clínico. O limiar do analisador de fala para deteção de prolongamentos foi calculado a partir de um corpus de três falantes femininas fluentes sauditas (apenas), o que pode não generalizar entre géneros ou dialetos. Sem condição de controlo; sem comparação com gravidade de gaguez classificada pelo clínico; sem seguimento longitudinal. O artigo não tem divulgação explícita de financiamento nem declaração de COI.

As avaliações utilizam um esquema simplificado de quatro níveis (Elevada, Moderada, Baixa, Muito baixa), inspirado no GRADE working group. Saiba mais sobre como os estudos são avaliados.

Um estudo de caso de viabilidade com três participantes (duas do sexo feminino, um do sexo masculino, idades 30-34) de um sistema de fala em público em RV em língua árabe num Samsung Gear VR + telemóvel S6, emparelhado com um detetor automático de eventos de gaguez. Cada participante completou uma sessão a ler a partir de um pódio virtual voltado para uma audiência virtual. Tempo de configuração 2-3 minutos; o detetor automático correlacionou-se R=0,95 com as contagens manuais do clínico no mesmo áudio.

Mensagem clínica essencial

Estudo de caso de viabilidade com 3 participantes numa única sessão de um ambiente de fala em público em RV em língua árabe com um módulo analisador de fala automatizado que deteta prolongamentos, bloqueios e repetições via Google Cloud Speech-to-Text API. Útil como prova de conceito para a RV num contexto linguístico sub-servido (árabe) e para a integração de análise de fala automatizada com RV; a amostra (n=3, sessão única, ambiente único) não pode estabelecer efeito clínico. O participante com gaguez ligeira a mostrar a maior taxa de gaguez detetada levanta questões sobre a calibração do analisador de fala em relação à gravidade classificada pelo clínico que os autores assinalam para estudo futuro.

Principais conclusões

Três participantes (duas do sexo feminino, um do sexo masculino; idades 30-34, M=32 DP=1,6) completaram cada um UMA sessão única, NÃO múltiplas sessões; o sistema suporta três níveis de tamanho de audiência (5, 8, 11 avatars) mas a experiência utilizou uma configuração única por participante
Forte correlação positiva (R=0,95) entre a duração da sessão e o número de eventos de gaguez automaticamente detetados
Os participantes relataram ansiedade e presença comparáveis à fala em público no mundo real; relataram ainda um 'ligeiro efeito de uncanny valley' com os personagens avatar
A configuração e preparação demoraram 2-3 minutos por participante; a duração da sessão variou de 1:40-2:25 minutos (os participantes excederam a duração média de recitação fluente de 44,7±2,4 segundos em ~1:15 min)
Achado contraintuitivo assinalado pelos autores: o participante classificado como gravidade LIGEIRA de gaguez pelo terapeuta da fala supervisor exibiu a MAIOR taxa de deteção de eventos de gaguez (20,8%) enquanto o participante GRAVE mostrou a MENOR (4,8%); o participante moderado mostrou 8,6%. Os autores referem que isto 'sugere que a RV pode ser adequada apenas para indivíduos com maior gravidade de gaguez. São necessários dados adicionais para validar esta teoria'
O analisador de fala detetou três tipos de disfluência: prolongamentos (duração da palavra excedendo um limiar derivado de três falantes femininas fluentes que leram em média 74 palavras árabes em 44,7±2,4 segundos), bloqueios (quando a API de fala devolve nulo para um enunciado, interpretado como sons vocais não-fala), e repetições (quando a API transcreve uma palavra mais vezes do que o esperado)
Hardware/software: headset Samsung Gear VR num telemóvel Samsung S6 (óculos de RV Android compatíveis com Oculus); ferramenta de modelação 3D Blender para personagens da cena; Mixamo + Unity 3D para animação e colocação; biblioteca cliente Python Google Cloud Speech-to-Text com reconhecimento síncrono (selecionada pela sua precisão com línguas com poucos recursos e suporte de dialeto árabe); Audacity para captura de gravação; gravador digital Sony ICD-AX412F com microfone de lapela

Contexto

A avaliação da fluência da fala requer tipicamente que um clínico conte e classifique manualmente cada momento de gaguez durante uma conversa ou tarefa de leitura. Este processo é moroso, subjetivo e pode variar entre observadores. Para as pessoas que gaguejam, a consciência de estarem a ser monitorizadas de perto pode também alterar a forma como falam. Um segundo desafio é o acesso: a maior parte da investigação de RV em gaguez foi conduzida com populações anglófonas, com muito pouco trabalho equivalente em árabe. Al-Nafjan, Alghamdi e Almudhi - trabalhando em três universidades sauditas (Imam Muhammad bin Saud, King Saud e King Khalid) - propuseram-se abordar ambos os desafios desenvolvendo um ambiente de fala em público em RV em língua árabe com um analisador de fala automatizado integrado.

O que os investigadores fizeram

A equipa construiu um sistema de dois componentes: (1) um componente de RV que coloca o participante num pódio virtual voltado para uma audiência virtual, suportando três configurações de tamanho de audiência (5, 8 e 11 avatars nos níveis 1, 2 e 3 respetivamente), construído no Blender para modelação de personagens, Mixamo para animação e Unity 3D para montagem de cena, e renderizado num headset Samsung Gear VR (compatível com Oculus) a correr num telemóvel Android Samsung S6; e (2) um componente analisador de fala que grava a leitura do participante através de um gravador digital Olympus WS-500M com microfone de lapela, segmenta o áudio utilizando Audacity por limiarização da energia do sinal e centróide espectral, e transcreve cada segmento utilizando a biblioteca cliente Python Google Cloud Speech-to-Text com reconhecimento síncrono. O analisador de fala assinala três tipos de disfluência:

Prolongamento: quando a duração de uma palavra do participante excede um limiar por palavra calculado por média da duração da mesma palavra em três falantes femininas fluentes de referência (74 palavras árabes lidas em 44,7±2,4 segundos).
Bloqueio: quando a API de fala devolve uma transcrição nula para um enunciado, interpretado como um som vocal não-fala produzido durante um bloqueio de gaguez.
Repetição: quando a API transcreve uma palavra mais vezes do que o esperado a partir do guião de referência.

A pontuação de Rastreio de Gaguez (SS) é a soma destas três contagens.

Participantes. Três adultos arabófonos que gaguejam foram recrutados da prática clínica do terapeuta da fala supervisor (co-autor Almudhi). Características demográficas: duas do sexo feminino, um do sexo masculino; idades 30, 32 e 34 (média 32, DP 1,6). A gravidade da gaguez foi classificada pelo terapeuta da fala: P1 moderado (32 anos), P2 ligeiro (34 anos), P3 grave (30 anos). Todos eram saudáveis com visão normal e sem experiência prévia de RV.

Procedimento. A experiência foi uma sessão única numa sala isolada sob a supervisão do terapeuta da fala. Os participantes colocaram um microfone de lapela, o gravador digital Sony IC-Recorder (ICD-AX412F) e o headset Samsung Gear VR, ajustaram a sua posição até o texto no pódio virtual ser legível, e leram o guião árabe de 74 palavras em voz alta enquanto encaravam a audiência virtual. A configuração/preparação demorou 2-3 minutos por participante; a sessão de leitura real durou 1:40-2:25 minutos. Após a gravação, o áudio foi segmentado, transcrito e analisado; os participantes foram então entrevistados para obter feedback subjetivo.

O que encontraram

Aceitabilidade e presença (qualitativas). Os participantes classificaram positivamente as suas experiências de RV no design estético, design de personagens e imersão. Relataram semelhança aceitável entre a cena de RV e uma sala de conferências real, um “ligeiro efeito de uncanny valley” com os personagens avatar (uma limitação notada do design de personagens), e reações emocionais semelhantes (medo, ansiedade) às experienciadas em atividades de fala em público no mundo real. Subjetivamente, o terapeuta da fala supervisor não observou diferença significativa na prosódia da fala dos participantes ao usar RV vs. fora de RV.

Desempenho do analisador de fala. Encontrou-se uma forte correlação positiva entre a duração da sessão e os eventos de gaguez automaticamente detetados (R=0,95). Os autores interpretam isto como evidência de “desempenho aceitável do analisador de fala na deteção de eventos de gaguez, especialmente instâncias de prolongamento.”

Resultado contraintuitivo gravidade-vs-deteção. A Tabela 2 do artigo mostra as percentagens de eventos de gaguez detetados por participante: P1 (moderado, 32 anos) 8,6%, P2 (ligeiro, 34 anos) 20,8%, P3 (grave, 30 anos) 4,8%. Ou seja, o participante classificado como LIGEIRO pelo clínico mostrou a MAIOR taxa de gaguez detetada, enquanto o participante GRAVE mostrou a MENOR. Os autores assinalam isto diretamente: “Uma observação interessante é que o participante com gravidade de gaguez ligeira exibiu uma percentagem mais elevada de eventos de gaguez. Esta observação sugere que a RV pode ser adequada apenas para indivíduos com maior gravidade de gaguez. São necessários dados adicionais para validar esta teoria.” Um leitor poderia igualmente interpretar isto como uma questão de calibração/validade sobre o detetor automatizado vs. a classificação do clínico, mas os autores interpretam-no como uma questão de adequação da população.

Viabilidade da configuração. O tempo de configuração de 2-3 minutos por participante é oferecido como evidência de que o sistema é viável para uso clínico.

Porque é relevante

Este é um dos muito poucos estudos de RV em gaguez realizados em árabe, abordando uma sub-representação significativa neste campo. É também um dos relativamente poucos estudos que integra explicitamente uma API de reconhecimento de fala disponível no mercado com um ambiente de RV para detetar automaticamente eventos de gaguez. O conceito de integração - reduzir o fardo de contagem manual durante a avaliação da gaguez - é uma necessidade clínica real; se a implementação funciona de forma robusta é o que este pequeno estudo de caso pode sugerir (correlação R=0,95 com duração da sessão) mas não pode estabelecer (n=3, sem comparação com contagens de eventos pelo clínico).

A observação gravidade-vs-deteção é o achado mais clinicamente interessante. Com apenas 3 participantes é gerador de hipóteses, não conclusivo. Poderia refletir: (a) variação genuína da população na forma como a gaguez se manifesta durante a leitura baseada em RV; (b) problemas de calibração com o limiar de prolongamento (derivado de três falantes femininas fluentes, aplicado em participantes de género misto e gravidades variáveis); (c) variabilidade teste-reteste que uma sessão única não pode quantificar; (d) ruído estatístico de n=3. Trabalho subsequente precisaria de desembaraçar estas possibilidades.

Limitações

O artigo reconhece algumas diretamente; outras são inerentes ao design:

Tamanho de amostra n=3, sessão única, configuração de audiência única por participante. O sistema suporta três níveis de tamanho de audiência (5/8/11 avatars) mas a experiência não variou o tamanho da audiência dentro ou entre participantes; o aspeto de “hierarquia graduada” do sistema não foi testado.
Sem condição de comparação. Sem linha de base não-RV, sem comparação com contagens manuais de eventos pelo clínico, sem teste-reteste.
Sem seguimento longitudinal. Sessão única apenas.
Limiar do analisador de fala derivado de três falantes femininas FLUENTES. Aplicado em participantes de género misto; pode não generalizar entre géneros, dialetos ou tempos de fala.
Achado contraintuitivo gravidade-vs-deteção (participante ligeiro: maior taxa detetada; grave: menor) levanta a questão de se o detetor automatizado acompanha o julgamento de gravidade do clínico; os autores referem que “são necessários dados adicionais para validar esta teoria.”
Ligeiro efeito de uncanny valley relatado pelos participantes na sessão de debriefing qualitativo - um sinal para o design do avatar.
Sem divulgação explícita de financiamento nem declaração de COI no artigo.
O hardware de RV é o Samsung Gear VR original (RV móvel da era 2015). O hardware moderno da classe Quest oferece substancialmente melhor fidelidade visual e rastreamento.

Implicações para a prática

Para clínicos arabófonos que consideram avaliação da gaguez assistida por tecnologia: este artigo fornece evidência de viabilidade de que uma API de reconhecimento de fala disponível no mercado (Google Cloud Speech-to-Text) pode ser combinada com um ambiente de fala em público em RV para detetar prolongamentos, bloqueios e repetições na avaliação de gaguez em língua árabe. O achado inesperado de que o participante com menor gravidade classificada pelo clínico mostrou a maior taxa de deteção automatizada é um aviso contra a utilização de tais sistemas para classificação de gravidade sem calibração adicional. Os clínicos devem tratar o estudo como prova de conceito para o pipeline técnico (RV em língua árabe + análise de fala automatizada), não como evidência de que a RV reduz a gaguez ou de que a deteção automatizada corresponde ao julgamento clínico.

Notas editoriais da withVR

Como isto se relaciona com a Therapy withVR

O estudo acima é investigação independente e não emite qualquer juízo sobre produtos. As notas abaixo são comentários da withVR sobre a forma como os temas desta investigação se relacionam com funcionalidades da Therapy withVR. Os resultados da investigação não constituem afirmações sobre a Therapy withVR.

Integração de análise de fala (apenas paralelo editorial)

O estudo Al-Nafjan integrou um reconhecedor de fala automatizado disponível no mercado (Google Cloud Speech-to-Text) com o ambiente de RV para detetar prolongamentos, bloqueios e repetições em árabe. O objetivo conceptual - reduzir o fardo da contagem manual de eventos de gaguez durante as sessões - é uma necessidade clínica real que o registo de sessões do Therapy withVR pode apoiar de forma diferente (no seu próprio design). Apenas paralelo editorial; o sistema estudado é software de investigação personalizado, não Therapy withVR.

Dimensão de audiência ajustável (apenas paralelo editorial)

O sistema de RV Al-Nafjan suporta três configurações de tamanho de audiência (5, 8, 11 avatars). A experiência utilizou uma configuração única por participante, mas o conceito de hierarquia do sistema alinha-se com os controlos de audiência ajustáveis pelo clínico do Therapy withVR no seu próprio design. Apenas paralelo editorial.

Cite este estudo

Se referenciar este estudo no seu trabalho, estes são os formatos de citação canónicos:

APA 7th

Al-Nafjan, A., Alghamdi, N., & Almudhi, A. (2021). Virtual Reality Technology and Speech Analysis for People Who Stutter. EMITTER International Journal of Engineering Technology. https://doi.org/10.24003/emitter.v9i2.649.

AMA 11th

Al-Nafjan A, Alghamdi N, Almudhi A. Virtual Reality Technology and Speech Analysis for People Who Stutter. EMITTER International Journal of Engineering Technology. 2021. doi:10.24003/emitter.v9i2.649.

BibTeX

@article{alnafjan2021,
  author = {Al-Nafjan, A. and Alghamdi, N. and Almudhi, A.},
  title = {Virtual Reality Technology and Speech Analysis for People Who Stutter},
  journal = {EMITTER International Journal of Engineering Technology},
  year = {2021},
  doi = {10.24003/emitter.v9i2.649},
  url = {https://withvr.app/pt/evidence/studies/al-nafjan-2021}
}

RIS

TY  - JOUR
AU  - Al-Nafjan, A.
AU  - Alghamdi, N.
AU  - Almudhi, A.
TI  - Virtual Reality Technology and Speech Analysis for People Who Stutter
JO  - EMITTER International Journal of Engineering Technology
PY  - 2021
DO  - 10.24003/emitter.v9i2.649
UR  - https://withvr.app/pt/evidence/studies/al-nafjan-2021
ER  -

Conhece investigação que devesse constar nesta base? Se um estudo relevante revisto por pares não estiver aqui listado, envie a referência para hello@withvr.app. A base é mantida atualizada à medida que a literatura cresce.

Financiamento e independência

O artigo NÃO divulga nenhuma fonte de financiamento externo - não existe secção de 'Financiamento' no artigo. Os Agradecimentos agradecem a três membros da equipa do projeto não nomeados (Asmaa Albasha, Maryam Alghalban, Ola Semsemiah) 'pelo seu trabalho árduo e dedicação' juntamente com os participantes. Nenhuma declaração de COI é incluída no artigo. Afiliações dos autores: Abeer Al-Nafjan (Departamento de Ciências da Computação, Colégio de Ciências da Computação e Informação, Imam Muhammad bin Saud Islamic University, Riade, Arábia Saudita); Najwa Alghamdi (Departamento de Tecnologias de Informação, Colégio de Ciências da Computação e Informação, King Saud University, Riade, Arábia Saudita); Abdulaziz Almudhi (Departamento de Ciências de Reabilitação Médica, Colégio de Ciências Médicas Aplicadas E Unidade de Patologia da Fala e Linguagem, King Khalid University, Abha, Arábia Saudita). O sistema de RV foi desenvolvido à medida pelos autores utilizando Blender, Unity 3D e Mixamo, a correr num headset Samsung Gear VR (compatível com Oculus) com um telemóvel Samsung S6; NÃO é Therapy withVR. O analisador de fala utilizou a biblioteca cliente Python Google Cloud Speech-to-Text. Sem envolvimento da withVR BV no financiamento, na conceção do estudo ou na autoria. Resumo elaborado de forma independente pela withVR a partir do artigo publicado.

Última avaliação: 2026-05-12 Próxima avaliação prevista: 2027-05-12 Avaliado por: Gareth Walkom

Estudo de caso de viabilidade com três participantes de um sistema de fala em público em RV em árabe com detetor automático de gaguez

Principais conclusões

Contexto

O que os investigadores fizeram

O que encontraram

Porque é relevante

Limitações

Implicações para a prática

Como isto se relaciona com a Therapy withVR

Integração de análise de fala (apenas paralelo editorial)

Dimensão de audiência ajustável (apenas paralelo editorial)

Estudos relacionados

Entrevistas em RV: o estilo do entrevistador afeta a gaguez; %SS em RV correlaciona-se fortemente com %SS na entrevista clínica SSI-3

As respostas de gaguez e ansiedade em públicos virtuais correspondem estreitamente às de públicos reais

Os públicos em RV aumentam o distresse subjetivo mas não a excitação fisiológica nem a frequência da gaguez em homens adultos que gaguejam

Piloto de licenciatura de um protótipo inicial Samsung Gear VR de fala em público com 6 adultos que gaguejam: resultados mistos

Cite este estudo

Financiamento e independência