O que descobriram Daşdöğen et al. (2026)?

17 adultos (10 vocalmente saudáveis, 7 com disfonia: presbifonia, pólipo das pregas vocais, paresia das pregas vocais, disfonia por tensão muscular e 2 mulheres trans em cuidados vocais de afirmação de género) realizaram um protocolo intra-sujeitos de sessão única Equipamento: capacete Oculus Quest 3 a correr a aplicação IVS; microfone de condensador AKG C520 a 7 cm da boca (calibrado a referência de 30 cm); gravações via Computerized Speech Lab (CSL) a 44,1 kHz / 16 bits Quatro condições em ordem aleatorizada: Baseline (membro da equipa de investigação como ouvinte a ~2 m na sala clínica) e três níveis IVS num restaurante virtual - Normal (empregado a 5 m, +3 dB acima da linha de base própria de cada participante, tempo de espera 5 s), Effortful (10 m, +5 dB, 10 s), Calling (15 m, +10 dB, 20 s). O som ambiente do restaurante foi silenciado para isolar os efeitos visuoespaciais Efeito principal do Nível IVS sobre o SPL significativo: F(3, 48) = 33,94, p < 0,001. Em relação à Baseline, o SPL aumentou 3,83 dB (Normal), 7,41 dB (Effortful) e 9,04 dB (Calling), todos p < 0,001 Efeito principal do Nível IVS sobre a f0 média de fala significativo: F(3, 45) = 17,63, p < 0,001. Aumentos por patamares em relação à Baseline de aproximadamente 36 Hz (Normal, p = 0,008), 66,6 Hz (Effortful, p < 0,001) e 103,9 Hz (Calling, p < 0,001) Efeitos principais de grupo: as pessoas com disfonia produziram um SPL globalmente mais baixo (estimativa -6,88 dB, p = 0,001) e uma f0 média globalmente mais baixa (p = 0,002) do que os falantes vocalmente saudáveis Interação Nível IVS x Grupo significativa apenas para a f0 média: F(3, 45) = 3,94, p = 0,014. A escalada tonal divergiu nas condições mais exigentes - a diferença entre grupos não foi significativa na Baseline (p = 0,102), aproximou-se da significância em Normal (p = 0,055) e foi significativa em Effortful (p = 0,003) e Calling (p < 0,001). A interação sobre o SPL não foi significativa e foi removida do modelo final - ambos os grupos aumentaram a intensidade em paralelo Viabilidade (Likert 1-5): Usabilidade e Interação 3,9 (moderado-bom), Imersão e Realismo 3,4 (moderado, domínio mais baixo), Envolvimento e Benefício Percebido 4,0 (bom), Conforto e Segurança 4,5 (excelente). Total 4,0 (bom) Sem eventos adversos. Sem cybersickness reportada. Sem interrupções técnicas durante o protocolo. Em média, ~2 minutos para reconfigurar os parâmetros de dificuldade entre ensaios. Sessão completa, incluindo instruções e questionários, ~20 minutos por participante O feedback em texto livre sinalizou a reatividade limitada do avatar como uma limitação chave - os participantes pediram respostas verbais, expressões faciais e gestos conversacionais para aprofundar o realismo da interação

Quem participou neste estudo?

Este estudo envolveu 17 participantes: Dezassete adultos recrutados em Mount Sinai. Grupo típico (n=10, todas mulheres, idade média 37,9, intervalo 29-57) recrutados na clínica de otorrinolaringologia e no pessoal hospitalar, estado vocalmente saudável confirmado através de breve história vocal e CAPE-V. Grupo atípico (n=7, idade média 41,1, intervalo 27-78) recrutados durante consultas de rotina de avaliação vocal, com diagnósticos confirmados por avaliação laringoscópica e auditivoperceptiva. Diagnósticos do grupo atípico: presbifonia (1), pólipo das pregas vocais (1), paresia das pregas vocais (2), disfonia por tensão muscular (1), cuidados vocais de afirmação de género (2 mulheres trans). Todas falantes nativas de inglês americano; todas com visão e audição normais ou corrigidas.

Esta página foi traduzida do inglês. Se algo parecer estranho, mude para a versão em inglês. Ver em inglês.

Piloto do Immersive VoiceSpace VR (N=17): os falantes escalaram intensidade e altura através de condições graduadas de restaurante virtual

Daşdöğen Ü · 2026 · Journal of Voice · Experimental · n = 17 · Dezassete adultos recrutados em Mount Sinai... · DOI

Grau de certeza: Certeza baixa

Como foi avaliado

Avaliado por pares no Journal of Voice (Elsevier), aprovado pelo IRB (Mount Sinai STUDY-25-01418), análise linear de efeitos mistos com interceto aleatório por sujeito e graus de liberdade de Kenward-Roger - um quadro analítico defensável para um piloto. Pontos fortes: inclui uma população clínica (disfonia) e não apenas adultos vocalmente saudáveis; os limiares em dB relativos à linha de base por participante removem a confusão com o SPL absoluto; o padrão comportamental foi consistente entre os dois grupos para o SPL. Limitações que mantêm a certeza baixa: N total pequeno (17) com apenas 7 no grupo atípico; sessão e contexto únicos (um restaurante virtual pouco frequentado); ausência de grupo de controlo ou condição comparadora; linha de base recolhida fora do capacete, o que confunde a exposição a RV com efeitos da exigência da tarefa; o som ambiente do restaurante foi deliberadamente silenciado, o que limita o realismo ecológico e a validade externa; o instrumento principal de viabilidade foi desenvolvido pelo autor e ainda não foi validado; estudo de autor único sem trabalho de fiabilidade interavaliadores reportado; conflito de interesses significativo - o autor inventou o IVS e detém um pedido de patente nos EUA sobre a tecnologia (único inventor listado). O trabalho estabelece viabilidade e sinal, não eficácia. É necessária replicação em amostras multicêntricas mais amplas com comparadores controlados antes de qualquer uso em decisão clínica.

As avaliações utilizam um esquema simplificado de quatro níveis (Elevada, Moderada, Baixa, Muito baixa), inspirado no GRADE working group. Saiba mais sobre como os estudos são avaliados.

Um piloto intra-sujeitos do Immersive VoiceSpace (IVS), uma plataforma de RV personalizada para treino vocal desenvolvida pelo autor único. Dezassete adultos (10 falantes vocalmente saudáveis e 7 pessoas com disfonia) realizaram uma tarefa de encomenda de menu num restaurante virtual em quatro condições - uma linha de base mais três níveis IVS graduados que manipulavam a distância do avatar, os limiares de ativação vocal e os tempos de espera de afastamento. O nível de pressão sonora e a f0 média de fala aumentaram significativamente nos níveis IVS em ambos os grupos; a flexibilidade tonal foi mais limitada no grupo com disfonia. As classificações de viabilidade foram globalmente boas (4,0/5), com conforto e segurança excelentes (4,5/5) e sem casos de cybersickness reportados.

Mensagem clínica essencial

Primeira evidência publicada de viabilidade e prova de conceito para o Immersive VoiceSpace (IVS), uma plataforma de RV personalizada e responsiva à voz, inventada e patenteada pelo autor único em Mount Sinai. Num piloto intra-sujeitos de sessão única com 17 adultos (10 vocalmente saudáveis e 7 pessoas com disfonia, incluindo 2 mulheres trans em cuidados vocais de afirmação de género), condições graduadas de restaurante virtual produziram aumentos sistemáticos e progressivos do nível de pressão sonora (SPL) e da f0 média de fala. Ambos os grupos seguiram o mesmo padrão de SPL; o grupo com disfonia apresentou uma escalada tonal mais plana à medida que as exigências da tarefa aumentavam. Os participantes classificaram o conforto e a segurança como excelentes; sem cybersickness, sem eventos adversos. O estudo é limitado por uma pequena amostra (N=17, atípicos n=7), um contexto único (restaurante), uma sessão única, autor único com um conflito de interesses significativo enquanto inventor e titular da patente, e uma cena audio deliberadamente silenciada que limita a validade ecológica. Os achados apoiam a viabilidade e a validade de construto preliminar da RV responsiva à voz como ferramenta de prática contextualizada, mas ainda não estabelecem eficácia terapêutica nem generalização ao uso vocal no mundo real - ambas exigem estudos multissessão de seguimento em populações clínicas com comparadores controlados.

Principais conclusões

17 adultos (10 vocalmente saudáveis, 7 com disfonia: presbifonia, pólipo das pregas vocais, paresia das pregas vocais, disfonia por tensão muscular e 2 mulheres trans em cuidados vocais de afirmação de género) realizaram um protocolo intra-sujeitos de sessão única
Equipamento: capacete Oculus Quest 3 a correr a aplicação IVS; microfone de condensador AKG C520 a 7 cm da boca (calibrado a referência de 30 cm); gravações via Computerized Speech Lab (CSL) a 44,1 kHz / 16 bits
Quatro condições em ordem aleatorizada: Baseline (membro da equipa de investigação como ouvinte a ~2 m na sala clínica) e três níveis IVS num restaurante virtual - Normal (empregado a 5 m, +3 dB acima da linha de base própria de cada participante, tempo de espera 5 s), Effortful (10 m, +5 dB, 10 s), Calling (15 m, +10 dB, 20 s). O som ambiente do restaurante foi silenciado para isolar os efeitos visuoespaciais
Efeito principal do Nível IVS sobre o SPL significativo: F(3, 48) = 33,94, p < 0,001. Em relação à Baseline, o SPL aumentou 3,83 dB (Normal), 7,41 dB (Effortful) e 9,04 dB (Calling), todos p < 0,001
Efeito principal do Nível IVS sobre a f0 média de fala significativo: F(3, 45) = 17,63, p < 0,001. Aumentos por patamares em relação à Baseline de aproximadamente 36 Hz (Normal, p = 0,008), 66,6 Hz (Effortful, p < 0,001) e 103,9 Hz (Calling, p < 0,001)
Efeitos principais de grupo: as pessoas com disfonia produziram um SPL globalmente mais baixo (estimativa -6,88 dB, p = 0,001) e uma f0 média globalmente mais baixa (p = 0,002) do que os falantes vocalmente saudáveis
Interação Nível IVS x Grupo significativa apenas para a f0 média: F(3, 45) = 3,94, p = 0,014. A escalada tonal divergiu nas condições mais exigentes - a diferença entre grupos não foi significativa na Baseline (p = 0,102), aproximou-se da significância em Normal (p = 0,055) e foi significativa em Effortful (p = 0,003) e Calling (p < 0,001). A interação sobre o SPL não foi significativa e foi removida do modelo final - ambos os grupos aumentaram a intensidade em paralelo
Viabilidade (Likert 1-5): Usabilidade e Interação 3,9 (moderado-bom), Imersão e Realismo 3,4 (moderado, domínio mais baixo), Envolvimento e Benefício Percebido 4,0 (bom), Conforto e Segurança 4,5 (excelente). Total 4,0 (bom)
Sem eventos adversos. Sem cybersickness reportada. Sem interrupções técnicas durante o protocolo. Em média, ~2 minutos para reconfigurar os parâmetros de dificuldade entre ensaios. Sessão completa, incluindo instruções e questionários, ~20 minutos por participante
O feedback em texto livre sinalizou a reatividade limitada do avatar como uma limitação chave - os participantes pediram respostas verbais, expressões faciais e gestos conversacionais para aprofundar o realismo da interação

Enquadramento

A mudança vocal é um problema de aprendizagem motora, não apenas um problema de conhecimento. A terapia vocal comportamental é eficaz em muitas patologias da voz, mas os ganhos obtidos em contexto clínico falham frequentemente em transferir-se para a comunicação quotidiana. A literatura sobre aprendizagem motora é clara quanto ao porquê: a mudança duradoura depende da prática em condições que se aproximem do contexto-alvo, e não apenas da execução do comportamento numa sessão estruturada. O Specificity of Learning Principle, o Transfer-Appropriate Processing e o Encoding Specificity convergem todos para o mesmo ponto - quando as exigências sensoriais e contextuais da prática correspondem às do uso real, a transferência é mais forte.

O uso vocal no mundo real ocorre sob exigências em camadas: intenção comunicativa, distância ao ouvinte, pressão socioemocional, dimensão da sala, acústica de fundo e indicadores visuoespaciais que sinalizam quanta voz é necessária antes mesmo de a pessoa falar. As salas clínicas convencionais minimizam intencionalmente estas variáveis, o que serve a aquisição inicial mas sub-representa precisamente os indicadores de que a teoria da aprendizagem diz depender a generalização.

A realidade virtual imersiva oferece uma forma controlada de reintroduzir esses indicadores. O estudo multissensorial de Daşdöğen de 2023 (neste Hub) estabeleceu que os indicadores RV visuais e audiovisuais conduzem a adaptações vocais mensuráveis em adultos vocalmente saudáveis, para além do que a simulação acústica isolada produz. O estudo de 2026 sobre cantores treinados (também neste Hub) estendeu este trabalho à comparação entre falantes peritos e não treinados. O presente estudo dá o passo seguinte: o mesmo efeito mantém-se numa população vocal clínica, e é viável utilizar uma plataforma de RV personalizada e responsiva à voz nessa população.

O que os investigadores fizeram

Um piloto intra-sujeitos em Mount Sinai com 17 adultos: 10 falantes vocalmente saudáveis recrutados na clínica de otorrinolaringologia e no pessoal hospitalar, e 7 pessoas com disfonia recrutadas durante consultas de rotina de avaliação vocal (diagnósticos incluindo presbifonia, pólipo das pregas vocais, paresia das pregas vocais, disfonia por tensão muscular e cuidados vocais de afirmação de género).

A intervenção foi o Immersive VoiceSpace (IVS) - uma plataforma de RV personalizada desenvolvida pelo autor único. O IVS renderizava um restaurante virtual pouco frequentado num capacete Oculus Quest 3. Uma personagem não jogadora (empregado) servia como alvo de escuta. O empregado respondia em tempo real à voz do participante: se a intensidade vocal atingisse um limiar predefinido, o empregado aproximava-se e mantinha-se em postura de escuta; se ficasse abaixo do limiar durante mais tempo do que um tempo de espera definido, o empregado afastava-se.

Três parâmetros foram graduados entre as condições:

Distância ao ouvinte - 5 m (Normal), 10 m (Effortful), 15 m (Calling)
Limiar de ativação vocal - +3 dB, +5 dB, +10 dB acima do SPL da condição linha de base de cada participante
Tempo de espera de afastamento - 5 s, 10 s, 20 s

A tarefa de fala nas quatro condições foi a mesma: “Encomende uma bebida, uma entrada, um prato principal e uma sobremesa.” A condição Baseline foi realizada com um membro da equipa de investigação a atuar como ouvinte na sala clínica a ~2 m. As três condições IVS foram realizadas no restaurante virtual em ordem aleatorizada.

Para isolar os efeitos visuoespaciais, o som ambiente do restaurante (conversas de fundo e ruídos de talheres, que o IVS pode reproduzir) foi silenciado em todas as condições experimentais. A gravação acústica foi feita através de um microfone de condensador AKG C520 montado na cabeça, a 7 cm da boca, calibrado a uma referência de 30 cm, captado a 44,1 kHz / 16 bits via Computerized Speech Lab (CSL).

Resultados: nível de pressão sonora (SPL, dB) e frequência fundamental média de fala (f0 média, Hz), cada um extraído do CSL e analisado em modelos lineares de efeitos mistos separados com interceto aleatório por sujeito. Os efeitos fixos foram Grupo (Típico, Atípico) e Condição de Tarefa (Baseline, Normal, Effortful, Calling). A interação Grupo x Condição de Tarefa foi mantida para a f0 média (significativa) e removida do modelo SPL final (não significativa). Os efeitos fixos foram avaliados com somas dos quadrados de Tipo III e graus de liberdade aproximados por Kenward-Roger; os contrastes par a par utilizaram médias marginais estimadas com correção de Tukey.

Um questionário de Likert de 5 pontos (desenvolvido pelo autor, ainda não validado) captou quatro domínios após a sessão: Usabilidade e Interação, Imersão e Realismo, Envolvimento e Benefício Percebido, Conforto e Segurança. As pontuações por domínio foram promediadas; um índice global de viabilidade foi a média dos quatro domínios. O feedback aberto foi revisto de forma descritiva.

O que encontraram

Nível de pressão sonora. Um efeito principal significativo do Nível IVS: F(3, 48) = 33,94, p < 0,001. Em relação à Baseline, o SPL aumentou 3,83 dB em Normal, 7,41 dB em Effortful e 9,04 dB em Calling (todos p < 0,001). Os contrastes par a par Normal-para-Effortful e Normal-para-Calling foram significativos; o passo de 1,63 dB de Effortful para Calling não foi (p = 0,450), o que sugere um padrão próximo de teto no nível de exigência mais alto. O efeito principal de Grupo também foi significativo: as pessoas com disfonia produziram em média cerca de 6,88 dB a menos de SPL do que os falantes vocalmente saudáveis. A interação Grupo x Nível não foi significativa e foi, por isso, removida do modelo SPL final - ambos os grupos aumentaram a intensidade em paralelo à medida que as exigências da tarefa cresciam.

f0 média de fala. Um efeito principal significativo do Nível IVS: F(3, 45) = 17,63, p < 0,001. Aumentos por patamares em relação à Baseline (interceto ≈ 201,8 Hz para o grupo típico) de cerca de 36 Hz em Normal (p = 0,008), 66,6 Hz em Effortful (p < 0,001) e 103,9 Hz em Calling (p < 0,001). O efeito principal de Grupo foi significativo, mas a interação Nível x Grupo também foi: F(3, 45) = 3,94, p = 0,014. Decomposição da interação: na Baseline os grupos não diferiam na f0 média (p = 0,102); em Normal a diferença aproximou-se sem atingir a significância (p = 0,055); em Effortful (p = 0,003) e Calling (p < 0,001) a diferença foi significativa e cresceu com a exigência. O grupo com disfonia elevou a altura tonal com as exigências, mas em menor extensão do que o grupo vocalmente saudável.

Viabilidade. Pontuações por domínio (em 5): Usabilidade e Interação 3,9 (moderado-bom), Imersão e Realismo 3,4 (moderado, domínio mais baixo), Envolvimento e Benefício Percebido 4,0 (bom), Conforto e Segurança 4,5 (excelente). Índice global de viabilidade 4,0 (bom). Sem eventos adversos, sem cybersickness, sem interrupções técnicas durante o protocolo. Tempo médio de reconfiguração de parâmetros entre ensaios de cerca de 2 minutos. Duração total da sessão de cerca de 20 minutos por participante.

Feedback qualitativo. Os participantes descreveram a experiência como “divertida,” “como um videojogo” e “uma forma realista de praticar o uso vocal.” Destacaram o comportamento vivo e reativo do empregado como o elemento mais envolvente. O feedback negativo mais consistente referiu-se ao comportamento interacional limitado do empregado - os participantes desejavam respostas verbais, expressões faciais e gestos durante os turnos de escuta para que a interação fosse mais natural.

Porque é importante

Para o Evidence Hub, três aspetos deste artigo são importantes:

Primeira utilização publicada em população clínica de uma plataforma de RV personalizada e responsiva à voz. Os trabalhos anteriores em RV vocal imersiva (incluindo Daşdöğen 2023 e Daşdöğen 2026 sobre cantores treinados) foram largamente realizados em adultos vocalmente saudáveis. Este estudo estende-se a pessoas com disfonia, incluindo casos diagnosticamente diversos.
Evidência direta de que o feedback avatar responsivo à voz pode suscitar escalada vocal graduada sem orientação explícita do clínico. Esta é a demonstração publicada mais próxima de um mecanismo de generalização e transferência para a terapia vocal: o participante ajusta a saída vocal a exigências ambientais funcionais, em tempo real, em resposta a feedback contextual não verbal.
Padrão comportamental comparável entre os grupos vocalmente saudável e com disfonia para a intensidade, com flexibilidade tonal limitada no grupo com disfonia. O resultado do SPL sugere que o mecanismo contextual está intacto em falantes com perturbação vocal; o resultado da f0 é coerente com a literatura vocal mais ampla sobre flexibilidade fonatória reduzida na fonação perturbada.

Especificamente para a Therapy withVR: este trabalho testou o IVS, não a Therapy withVR. O princípio mais amplo que apoia (exigências visuoespaciais graduadas suscitam adaptação vocal funcional) é coerente com a lógica que os clínicos já utilizam ao escolher cenas na Therapy withVR para o trabalho vocal. A equivalência direta do mecanismo de gatilho avatar-limiar entre plataformas não foi estudada.

Limitações

O artigo é explícito sobre o que este ensaio estabelece e o que não estabelece:

A dimensão da amostra é pequena (N = 17; atípicos n = 7). A análise por subgrupos por diagnóstico vocal não é viável com este N.
Apenas uma única sessão. A afirmação central do quadro teórico do IVS é a transferência melhorada ao longo de sessões de aprendizagem, o que este desenho não consegue testar.
Sem condição de controlo ou comparadora. Não há controlo baseado em imaginação, comparador de tratamento alternativo nem braço de lista de espera. Os efeitos observados ao longo dos níveis de IVS são coerentes com a manipulação visuoespacial mas não podem ser separados de forma limpa dos efeitos de novidade ou exposição a RV.
Linha de base recolhida fora do capacete. A comparação Baseline-para-Normal confunde a exigência da tarefa com o ato de colocar o capacete e entrar pela primeira vez num ambiente virtual.
O som estava silenciado. O som ambiente do restaurante (que o IVS pode reproduzir) foi deliberadamente silenciado para isolar os efeitos visuoespaciais. É uma escolha experimental limpa mas limita a validade ecológica - restaurantes reais são ruidosos e o ruído é um conhecido motor de ajuste vocal.
Contexto virtual único. Apenas uma cena (o restaurante) foi testada. O roteiro clínico exige demonstrar o mesmo padrão em vários contextos (clínica, sala de aula, local de trabalho, atuação, contextos médicos).
O questionário de viabilidade foi desenvolvido pelo autor e não está validado. O feedback aberto é informativo, mas deve ser tratado como descritivo e não psicométrico.
Conflito de interesses significativo. O autor único é o inventor do IVS, titular de um pedido de patente nos EUA sobre a tecnologia e único investigador deste estudo. Não há trabalho de fiabilidade interavaliadores, controlo de qualidade por coinvestigadores nem replicação independente.
Limites interacionais do avatar. O feedback dos participantes sinalizou a ausência de resposta avatar verbal e gestual como uma limitação do realismo percebido. Esta é uma prioridade de desenvolvimento para versões futuras e também uma ameaça significativa à interpretação das pontuações de Imersão e Realismo no piloto atual.

Como se enquadra no Evidence Hub mais amplo

Este estudo faz parte de uma linha crescente de trabalho em RV vocal imersiva centrada em Mount Sinai / Daşdöğen e laboratórios vocais adjacentes:

Daşdöğen et al. 2023 (Journal of Voice) - o trabalho fundador de realismo e validade em 31 adultos vocalmente saudáveis em 18 condições de entrada sensorial. Estabeleceu que os indicadores RV visuais e audiovisuais, e não apenas os acústicos, alteram a produção vocal.
Daşdöğen e Hitchcock 2026 (Journal of Voice) - estudo com cantores treinados versus falantes não treinados utilizando a situação Rooms da Therapy withVR. Mostrou que os indicadores de distância virtual conduzem a escalada vocal de forma diferente em vozes treinadas versus não treinadas.
Hoff 2026 (Journal of Voice) - breve meditação baseada em RV antes da terapia vocal. Mecanismo diferente (regulação da ansiedade-estado em vez de cueing vocal direto), mas a mesma direção de avanço para a adoção da RV em clínicas vocais.
Leyns et al. 2025 (Journal of Voice) - ECR de treino vocal de afirmação de género baseado em RV utilizando a Therapy withVR. Diretamente relevante dado que o IVS estaria, segundo se relata, a desenvolver módulos vocais de afirmação de género conforme a comunicação institucional de Mount Sinai.

A paisagem mais ampla: a voz em RV está a mover-se de “a simulação parece suficientemente real para alterar o comportamento” (em grande medida respondido: sim) para “a prática na simulação transfere-se para o uso vocal no mundo real” (em grande medida sem resposta, à espera de trabalho longitudinal multissessão). Este estudo situa-se na fronteira - a viabilidade e o sinal comportamental imediato estão estabelecidos para uma plataforma personalizada responsiva à voz; a transferência é o próximo teste.

Nota sobre a plataforma Immersive VoiceSpace. O IVS é distinto da Therapy withVR. É um sistema de cena única, responsivo a limiar vocal, inventado e patenteado pelo autor do estudo. O relatório institucional de Mount Sinai (maio de 2026, “Hypophonia”) descreve trabalho em curso que estende o IVS a pessoas com hipofonia parkinsónica, com módulos planeados para feminização vocal e contextos adicionais. O estado de PI do IVS não foi possível verificar de forma independente no momento desta revisão (ver o campo funding/COI).

Implicações para a prática

Para os clínicos da voz que utilizam ou avaliam a RV imersiva no trabalho vocal: este estudo amplia os achados anteriores de RV vocal em laboratório (Daşdöğen 2023, Daşdöğen 2026 sobre cantores treinados) ao mostrar que os mesmos efeitos de realismo e validade se mantêm numa população clínica (pessoas com disfonia), e não apenas em adultos vocalmente saudáveis. Ambos os grupos aumentaram a intensidade em linha com os indicadores graduados de distância e limiar; a escalada tonal foi mais limitada para as pessoas com disfonia, em consonância com a flexibilidade fonatória reduzida documentada na literatura vocal mais ampla. Na prática: a prática contextualizada em ambientes virtuais pode suscitar uma saída vocal funcional sem orientação explícita do clínico, o que aborda o problema de generalização e transferência que há muito limita o transporte da clínica para a comunicação diária. Este estudo testou especificamente o Immersive VoiceSpace, não o Therapy withVR - os clínicos que utilizam o Therapy withVR podem retirar deste trabalho o mesmo princípio mais amplo (exigências visuoespaciais graduadas suscitam escalada vocal), mas não devem assumir equivalência direta do mecanismo de gatilho avatar-limiar sem validação separada. Os achados são coerentes com o modelo social da comunicação: as barreiras ao uso vocal funcional residem nos contextos em que a voz é necessária, e a evidência apoia a prática nesses contextos (em vez de em salas clínicas despojadas).

Implicações para a investigação

São necessárias replicação e extensão em: (a) amostras maiores com poder suficiente para análises de subgrupos por diagnóstico vocal; (b) protocolos multissessão que testem aprendizagem, retenção e generalização ao mundo real (a afirmação central do quadro teórico do IVS é o transfer-appropriate processing, que requer dados longitudinais); (c) condições comparadoras controladas, incluindo tarefas de controlo baseadas em imaginação para isolar a contribuição única dos indicadores visuoespaciais imersivos dos efeitos de novidade e exposição a RV; (d) hipofonia parkinsónica, principal aplicação clínica do IVS segundo a comunicação institucional de Mount Sinai; (e) cuidados vocais de afirmação de género, em que módulos de feminização do IVS estariam, segundo se relata, em desenvolvimento; (f) a limitação de interação do avatar sinalizada pelos participantes - se respostas avatar verbais/não verbais mais ricas (potencialmente conduzidas por IA) melhoram materialmente os resultados. Replicação independente fora da instituição inventora reforçaria substancialmente a base de evidência.

Cite este estudo

Se referenciar este estudo no seu trabalho, estes são os formatos de citação canónicos:

APA 7th

Daşdöğen Ü (2026). Immersive VoiceSpace: Development and Pilot Testing of a Virtual Reality System for Contextualized Vocal Training. Journal of Voice. https://doi.org/10.1016/j.jvoice.2026.04.047.

AMA 11th

Daşdöğen Ü. Immersive VoiceSpace: Development and Pilot Testing of a Virtual Reality System for Contextualized Vocal Training. Journal of Voice. 2026. doi:10.1016/j.jvoice.2026.04.047.

BibTeX

@article{daden2026,
  author = {Daşdöğen Ü},
  title = {Immersive VoiceSpace: Development and Pilot Testing of a Virtual Reality System for Contextualized Vocal Training},
  journal = {Journal of Voice},
  year = {2026},
  doi = {10.1016/j.jvoice.2026.04.047},
  url = {https://withvr.app/pt/evidence/studies/dasdogen-2026-ivs}
}

RIS

TY  - JOUR
AU  - Daşdöğen Ü
TI  - Immersive VoiceSpace: Development and Pilot Testing of a Virtual Reality System for Contextualized Vocal Training
JO  - Journal of Voice
PY  - 2026
DO  - 10.1016/j.jvoice.2026.04.047
UR  - https://withvr.app/pt/evidence/studies/dasdogen-2026-ivs
ER  -

Conhece investigação que devesse constar nesta base? Se um estudo relevante revisto por pares não estiver aqui listado, envie a referência para hello@withvr.app. A base é mantida atualizada à medida que a literatura cresce.

Financiamento e independência

Estudo de autor único por Ümit Daşdöğen (Research Director, Speech and Language Pathology, The Grabscheid Voice and Swallowing Center; Assistant Professor of Otolaryngology, Icahn School of Medicine at Mount Sinai). Não são mencionados financiadores externos, bolsas nem patrocinadores no manuscrito. Aprovação IRB: Mount Sinai STUDY-25-01418. Conflito de interesses significativo: o autor inventou a plataforma Immersive VoiceSpace (IVS) e está identificado no manuscrito publicado como titular de um pedido de patente nos EUA sobre a tecnologia (USPTO Application No. 63/987 segundo o manuscrito - aparenta ser um número de pedido provisional truncado; o número completo não foi indicado no artigo publicado e não foi possível localizá-lo de forma independente no momento desta revisão através do USPTO Patent Public Search nem do Google Patents, em consonância com a confidencialidade dos provisional applications). A marca Immersive VoiceSpace® aparece com o símbolo de registo federal na comunicação institucional de Mount Sinai; uma pesquisa de marca no USPTO TESS não devolveu qualquer registo ativo correspondente no momento da revisão. Estas reivindicações de PI são reportadas como declarações do próprio autor e não foi possível verificá-las independentemente. Estes papéis sobrepostos (investigador, autor, inventor, titular de PI, autor do questionário) são comuns no desenvolvimento académico de plataformas em fase inicial e são aqui sinalizados por transparência; os leitores devem ponderar os resultados de viabilidade e aceitabilidade especificamente neste contexto. A Therapy withVR (withVR BV, Bélgica) não teve qualquer papel no financiamento, conceção, condução, análise ou reporte deste estudo; esta entrada do Evidence Hub foi preparada de forma independente a partir do artigo publicado avaliado por pares e do relatório institucional publicamente disponível de Mount Sinai. Daşdöğen publicou separadamente em 2026 um artigo no Journal of Voice que utiliza a situação Rooms da Therapy withVR (ver dasdogen-2026 neste Hub) e utiliza a Therapy withVR noutros trabalhos de investigação.

Última avaliação: 2026-05-23 Próxima avaliação prevista: 2027-05-23 Avaliado por: Gareth Walkom

Piloto do Immersive VoiceSpace VR (N=17): os falantes escalaram intensidade e altura através de condições graduadas de restaurante virtual

Principais conclusões

Enquadramento

O que os investigadores fizeram

O que encontraram

Porque é importante

Limitações

Como se enquadra no Evidence Hub mais amplo

Implicações para a prática

Implicações para a investigação

Estudos relacionados

Estudo intra-sujeitos (n=31): pistas auditivas, visuais e audiovisuais de sala em RV alteram a intensidade vocal, o esforço e a produção

Em RV, a distância aparente do ouvinte determina a intensidade vocal mais do que a dimensão da sala

A dimensão da sala virtual e a distância do ouvinte influenciam a forma como as pessoas usam a voz

A meditação baseada em RV reduziu a ansiedade antes da terapia da voz num pequeno ECA exploratório, com menor abandono no braço de RV

A prática de fala baseada em RV aumenta a vontade de comunicar no treino vocal de afirmação de género

Cite este estudo

Financiamento e independência