Cosa ha rilevato Daşdöğen et al. (2026)?

17 adulti (10 vocalmente sani, 7 con disfonia: presbifonia, polipo delle corde vocali, paresi delle corde vocali, disfonia da tensione muscolare e 2 donne trans in cure vocali di affermazione di genere) hanno completato un protocollo within-subjects a sessione singola Strumentazione: visore Oculus Quest 3 con l'applicazione IVS; microfono a condensatore AKG C520 a 7 cm dalla bocca (calibrato a riferimento di 30 cm); registrazioni via Computerized Speech Lab (CSL) a 44,1 kHz / 16 bit Quattro condizioni in ordine randomizzato: Baseline (membro del team di ricerca come ascoltatore a ~2 m nella stanza clinica) più tre livelli IVS in un ristorante virtuale - Normal (cameriere a 5 m, +3 dB sopra la baseline di ogni partecipante, timeout 5 s), Effortful (10 m, +5 dB, 10 s), Calling (15 m, +10 dB, 20 s). L'audio ambientale del ristorante è stato silenziato per isolare gli effetti visuo-spaziali L'effetto principale del Livello IVS su SPL è stato significativo: F(3, 48) = 33,94, p < 0,001. Rispetto alla Baseline, l'SPL è aumentato di 3,83 dB (Normal), 7,41 dB (Effortful) e 9,04 dB (Calling), tutti p < 0,001 L'effetto principale del Livello IVS sulla f0 media di parlato è stato significativo: F(3, 45) = 17,63, p < 0,001. Incrementi a gradini rispetto alla Baseline di circa 36 Hz (Normal, p = 0,008), 66,6 Hz (Effortful, p < 0,001) e 103,9 Hz (Calling, p < 0,001) Effetti principali di gruppo: le persone con disfonia hanno prodotto un SPL complessivamente più basso (stima -6,88 dB, p = 0,001) e una f0 media complessivamente più bassa (p = 0,002) rispetto ai parlanti vocalmente sani Interazione Livello IVS x Gruppo significativa solo per la f0 media: F(3, 45) = 3,94, p = 0,014. La scalatura tonale è divergente nelle condizioni più impegnative - il divario tra gruppi non era significativo alla Baseline (p = 0,102), si avvicinava alla significatività a Normal (p = 0,055) ed era significativo a Effortful (p = 0,003) e Calling (p < 0,001). L'interazione su SPL non era significativa ed è stata rimossa dal modello finale - entrambi i gruppi hanno aumentato l'intensità in parallelo Fattibilità (Likert 1-5): Usabilità & Interazione 3,9 (moderato-buono), Immersione & Realismo 3,4 (moderato, dominio più basso), Coinvolgimento & Beneficio Percepito 4,0 (buono), Comfort & Sicurezza 4,5 (eccellente). Totale 4,0 (buono) Nessun evento avverso. Nessuna cybersickness segnalata. Nessuna interruzione tecnica durante il protocollo. Mediamente ~2 minuti per riconfigurare i parametri di difficoltà tra le prove. La sessione completa, comprese istruzioni e questionari, è durata ~20 minuti per partecipante Il feedback in testo libero ha segnalato la reattività limitata dell'avatar come vincolo chiave - i partecipanti hanno chiesto risposte verbali, espressioni facciali e gesti conversazionali per approfondire il realismo dell'interazione

Chi ha partecipato a questo studio?

Questo studio ha coinvolto 17 partecipanti: Diciassette adulti reclutati a Mount Sinai. Gruppo tipico (n=10, tutte donne, età media 37,9, intervallo 29-57) reclutati dalla clinica di otorinolaringoiatria e dal personale ospedaliero, con stato vocalmente sano confermato tramite breve storia vocale e CAPE-V. Gruppo atipico (n=7, età media 41,1, intervallo 27-78) reclutati durante visite di valutazione vocale di routine, diagnosi confermate da valutazione laringoscopica e uditivo-percettiva. Diagnosi del gruppo atipico: presbifonia (1), polipo delle corde vocali (1), paresi delle corde vocali (2), disfonia da tensione muscolare (1), cure vocali di affermazione di genere (2 donne trans). Tutte madrelingua di inglese americano; tutte con vista e udito normali o corretti.

Questa pagina è stata tradotta dall'inglese. Se qualcosa sembra strano, passa alla versione inglese. Visualizza in inglese.

Pilot di Immersive VoiceSpace VR (N=17): i parlanti hanno scalato sonorità e altezza tonale in condizioni graduate di ristorante virtuale

Daşdöğen Ü · 2026 · Journal of Voice · Sperimentale · n = 17 · Diciassette adulti reclutati a Mount Sinai... · DOI

Livello di certezza: Certezza bassa

Come è stato valutato

Sottoposto a peer review in Journal of Voice (Elsevier), approvato da IRB (Mount Sinai STUDY-25-01418), analisi lineare a effetti misti con intercetta casuale per soggetto e gradi di libertà di Kenward-Roger - un quadro analitico difendibile per un pilot. Punti di forza: include una popolazione clinica (disfonia) e non solo adulti vocalmente sani; le soglie in dB relative alla baseline per partecipante rimuovono il confondimento con l'SPL assoluto; il pattern comportamentale è stato coerente nei due gruppi per l'SPL. Limiti che tengono bassa la certezza: piccolo N totale (17) con solo 7 nel gruppo atipico; singola sessione e singolo contesto (un ristorante virtuale poco popolato); nessun gruppo di controllo o condizione di confronto; baseline raccolta fuori dal visore, il che confonde l'esposizione VR con gli effetti delle richieste del compito; l'audio ambientale del ristorante è stato volutamente silenziato, limitando il realismo ecologico e la validità esterna; lo strumento primario di fattibilità è stato sviluppato dall'autore e non è ancora validato; studio a singolo autore senza lavoro di affidabilità inter-valutatori riportato; significativo conflitto di interessi - l'autore ha inventato IVS e detiene una domanda di brevetto statunitense sulla tecnologia (unico inventore indicato). Il lavoro stabilisce fattibilità e segnale, non efficacia. La replicazione in campioni multisede più ampi con comparatori di controllo è necessaria prima dell'uso in decisione clinica.

Le valutazioni utilizzano uno schema semplificato a quattro livelli (Alta, Moderata, Bassa, Molto bassa), basato sul GRADE working group. Scopri di più su come vengono valutati gli studi.

Un pilot within-subjects di Immersive VoiceSpace (IVS), una piattaforma VR su misura per l'addestramento vocale sviluppata dall'unico autore. Diciassette adulti (10 parlanti vocalmente sani e 7 persone con disfonia) hanno completato un compito di ordinazione al menu in un ristorante virtuale in quattro condizioni - una baseline più tre livelli IVS graduati che manipolavano la distanza dell'avatar, le soglie di attivazione vocale e i timeout di allontanamento. Il livello di pressione sonora e la f0 media di parlato sono aumentati significativamente attraverso i livelli IVS in entrambi i gruppi; la flessibilità tonale era più limitata nel gruppo con disfonia. Le valutazioni di fattibilità erano complessivamente buone (4,0/5), con comfort e sicurezza eccellenti (4,5/5) e nessuna cybersickness segnalata.

Messaggio clinico chiave

Prima prova pubblicata di fattibilità e proof-of-concept per Immersive VoiceSpace (IVS), una piattaforma VR su misura voice-responsive inventata e brevettata dall'unico autore a Mount Sinai. In un pilot within-subjects a sessione singola con 17 adulti (10 vocalmente sani più 7 persone con disfonia, comprese 2 donne trans in cure vocali di affermazione di genere), condizioni di ristorante virtuale graduate hanno prodotto incrementi sistematici e progressivi del livello di pressione sonora (SPL) e della f0 media di parlato. Entrambi i gruppi hanno seguito lo stesso pattern SPL; il gruppo con disfonia ha mostrato una scalatura tonale più piatta all'aumentare delle richieste del compito. I partecipanti hanno giudicato comfort e sicurezza come eccellenti; nessuna cybersickness, nessun evento avverso. Lo studio è limitato dal piccolo campione (N=17, atipici n=7), un singolo contesto (ristorante), una singola sessione, un unico autore con significativo conflitto di interessi come inventore e titolare del brevetto, e una scena audio volutamente silenziata che limita la validità ecologica. I risultati supportano la fattibilità e una validità di costrutto preliminare per la VR voice-responsive come strumento di pratica contestualizzata, ma non stabiliscono ancora l'efficacia terapeutica o la generalizzazione all'uso vocale nel mondo reale - entrambe richiedono studi multisessione di follow-up in popolazioni cliniche con comparatori di controllo.

Risultati principali

17 adulti (10 vocalmente sani, 7 con disfonia: presbifonia, polipo delle corde vocali, paresi delle corde vocali, disfonia da tensione muscolare e 2 donne trans in cure vocali di affermazione di genere) hanno completato un protocollo within-subjects a sessione singola
Strumentazione: visore Oculus Quest 3 con l'applicazione IVS; microfono a condensatore AKG C520 a 7 cm dalla bocca (calibrato a riferimento di 30 cm); registrazioni via Computerized Speech Lab (CSL) a 44,1 kHz / 16 bit
Quattro condizioni in ordine randomizzato: Baseline (membro del team di ricerca come ascoltatore a ~2 m nella stanza clinica) più tre livelli IVS in un ristorante virtuale - Normal (cameriere a 5 m, +3 dB sopra la baseline di ogni partecipante, timeout 5 s), Effortful (10 m, +5 dB, 10 s), Calling (15 m, +10 dB, 20 s). L'audio ambientale del ristorante è stato silenziato per isolare gli effetti visuo-spaziali
L'effetto principale del Livello IVS su SPL è stato significativo: F(3, 48) = 33,94, p < 0,001. Rispetto alla Baseline, l'SPL è aumentato di 3,83 dB (Normal), 7,41 dB (Effortful) e 9,04 dB (Calling), tutti p < 0,001
L'effetto principale del Livello IVS sulla f0 media di parlato è stato significativo: F(3, 45) = 17,63, p < 0,001. Incrementi a gradini rispetto alla Baseline di circa 36 Hz (Normal, p = 0,008), 66,6 Hz (Effortful, p < 0,001) e 103,9 Hz (Calling, p < 0,001)
Effetti principali di gruppo: le persone con disfonia hanno prodotto un SPL complessivamente più basso (stima -6,88 dB, p = 0,001) e una f0 media complessivamente più bassa (p = 0,002) rispetto ai parlanti vocalmente sani
Interazione Livello IVS x Gruppo significativa solo per la f0 media: F(3, 45) = 3,94, p = 0,014. La scalatura tonale è divergente nelle condizioni più impegnative - il divario tra gruppi non era significativo alla Baseline (p = 0,102), si avvicinava alla significatività a Normal (p = 0,055) ed era significativo a Effortful (p = 0,003) e Calling (p < 0,001). L'interazione su SPL non era significativa ed è stata rimossa dal modello finale - entrambi i gruppi hanno aumentato l'intensità in parallelo
Fattibilità (Likert 1-5): Usabilità & Interazione 3,9 (moderato-buono), Immersione & Realismo 3,4 (moderato, dominio più basso), Coinvolgimento & Beneficio Percepito 4,0 (buono), Comfort & Sicurezza 4,5 (eccellente). Totale 4,0 (buono)
Nessun evento avverso. Nessuna cybersickness segnalata. Nessuna interruzione tecnica durante il protocollo. Mediamente ~2 minuti per riconfigurare i parametri di difficoltà tra le prove. La sessione completa, comprese istruzioni e questionari, è durata ~20 minuti per partecipante
Il feedback in testo libero ha segnalato la reattività limitata dell'avatar come vincolo chiave - i partecipanti hanno chiesto risposte verbali, espressioni facciali e gesti conversazionali per approfondire il realismo dell'interazione

Contesto

Il cambiamento vocale è un problema di apprendimento motorio, non solo un problema di conoscenza. La terapia vocale comportamentale è efficace per molte patologie vocali, ma i progressi in clinica spesso non si traducono nella comunicazione quotidiana. La letteratura sull’apprendimento motorio è chiara sul perché: il cambiamento duraturo dipende dalla pratica in condizioni che assomigliano al contesto target, non solo dall’esecuzione del comportamento in una sessione strutturata. Lo Specificity of Learning Principle, il Transfer-Appropriate Processing e l’Encoding Specificity convergono tutti sullo stesso punto - quando le richieste sensoriali e contestuali della pratica corrispondono alle richieste dell’uso reale, il transfer è più forte.

L’uso vocale nel mondo reale avviene sotto richieste stratificate: intenzione comunicativa, distanza dall’ascoltatore, pressione socio-emotiva, dimensioni della stanza, acustica di fondo e cue visuo-spaziali che segnalano quanta voce sia necessaria prima ancora che una persona parli. Le tradizionali stanze cliniche minimizzano intenzionalmente queste variabili, il che è utile per l’acquisizione iniziale ma sottorappresenta proprio quei cue da cui, secondo la teoria dell’apprendimento, dipende la generalizzazione.

La realtà virtuale immersiva offre un modo controllato per reintrodurre quei cue. Lo studio multisensoriale di Daşdöğen del 2023 (in questo Hub) ha stabilito che i cue VR visivi e audiovisivi guidano adattamenti vocali misurabili in adulti vocalmente sani, oltre a quanto produce la sola simulazione acustica. Lo studio del 2026 sui cantanti formati (anch’esso in questo Hub) ha esteso questo al confronto tra parlanti esperti e non formati. Il presente studio compie il passo successivo: lo stesso effetto regge in una popolazione vocale clinica, ed è fattibile usare una piattaforma VR voice-responsive su misura in quella popolazione.

Cosa hanno fatto i ricercatori

Un pilot within-subjects a Mount Sinai con 17 adulti: 10 parlanti vocalmente sani reclutati dalla clinica di otorinolaringoiatria e dal personale ospedaliero, e 7 persone con disfonia reclutate durante visite di valutazione vocale di routine (diagnosi comprendenti presbifonia, polipo delle corde vocali, paresi delle corde vocali, disfonia da tensione muscolare e cure vocali di affermazione di genere).

L’intervento era Immersive VoiceSpace (IVS) - una piattaforma VR su misura sviluppata dall’unico autore. IVS visualizzava un ristorante virtuale poco popolato su un visore Oculus Quest 3. Un personaggio non giocante (cameriere) fungeva da bersaglio di ascolto. Il cameriere rispondeva in tempo reale alla voce del partecipante: se l’intensità vocale raggiungeva una soglia preimpostata, il cameriere si avvicinava e restava in posizione di ascolto; se scendeva sotto la soglia per più di un timeout impostato, il cameriere si allontanava.

Tre parametri sono stati graduati nelle condizioni:

Distanza dall’ascoltatore - 5 m (Normal), 10 m (Effortful), 15 m (Calling)
Soglia di attivazione vocale - +3 dB, +5 dB, +10 dB sopra l’SPL della condizione baseline di ciascun partecipante
Timeout di allontanamento - 5 s, 10 s, 20 s

Il compito di parlato in tutte e quattro le condizioni era lo stesso: “Ordina una bevanda, un antipasto, un primo e un dessert.” La condizione Baseline è stata eseguita con un membro del team di ricerca che fungeva da ascoltatore nella stanza clinica a ~2 m. Le tre condizioni IVS sono state eseguite nel ristorante virtuale in ordine randomizzato.

Per isolare gli effetti visuo-spaziali, l’audio ambientale del ristorante (conversazioni di sfondo e rumori di stoviglie, che IVS può riprodurre) è stato silenziato in tutte le condizioni sperimentali. La registrazione acustica è stata effettuata tramite un microfono a condensatore AKG C520 montato sulla testa a 7 cm dalla bocca, calibrato a un riferimento di 30 cm, acquisito a 44,1 kHz / 16 bit via Computerized Speech Lab (CSL).

Esiti: livello di pressione sonora (SPL, dB) e frequenza fondamentale media di parlato (f0 media, Hz), ciascuno estratto da CSL e analizzato in modelli lineari a effetti misti separati con intercetta casuale per soggetto. Gli effetti fissi erano Gruppo (Tipico, Atipico) e Condizione di Compito (Baseline, Normal, Effortful, Calling). L’interazione Gruppo x Condizione di Compito è stata mantenuta per la f0 media (significativa) e rimossa dal modello finale SPL (non significativa). Gli effetti fissi sono stati valutati con somme dei quadrati di Tipo III e gradi di libertà approssimati con Kenward-Roger; i contrasti a coppie hanno usato medie marginali stimate con correzione di Tukey.

Un questionario Likert a 5 punti (sviluppato dall’autore, non ancora validato) ha catturato quattro domini dopo la sessione: Usabilità e Interazione, Immersione e Realismo, Coinvolgimento e Beneficio Percepito, Comfort e Sicurezza. I punteggi di dominio sono stati mediati; un indice complessivo di fattibilità era la media dei quattro domini. Il feedback in testo libero è stato esaminato in modo descrittivo.

Cosa hanno trovato

Livello di pressione sonora. Un effetto principale significativo del Livello IVS: F(3, 48) = 33,94, p < 0,001. Rispetto alla Baseline, l’SPL è aumentato di 3,83 dB a Normal, 7,41 dB a Effortful e 9,04 dB a Calling (tutti p < 0,001). I contrasti a coppie Normal-vs-Effortful e Normal-vs-Calling erano significativi; il salto di 1,63 dB da Effortful a Calling non lo era (p = 0,450), suggerendo un pattern di tipo soffitto al massimo livello di richiesta. Anche l’effetto principale di Gruppo era significativo: le persone con disfonia hanno prodotto in media circa 6,88 dB di SPL in meno rispetto ai parlanti vocalmente sani. L’interazione Gruppo x Livello non era significativa ed è stata quindi rimossa dal modello finale SPL - entrambi i gruppi hanno aumentato l’intensità in parallelo all’aumento delle richieste del compito.

f0 media di parlato. Un effetto principale significativo del Livello IVS: F(3, 45) = 17,63, p < 0,001. Incrementi a gradini rispetto alla Baseline (intercetta ≈ 201,8 Hz per il gruppo tipico) di circa 36 Hz a Normal (p = 0,008), 66,6 Hz a Effortful (p < 0,001) e 103,9 Hz a Calling (p < 0,001). L’effetto principale di Gruppo era significativo, ma anche l’interazione Livello x Gruppo lo era: F(3, 45) = 3,94, p = 0,014. Decomposizione dell’interazione: alla Baseline i gruppi non differivano nella f0 media (p = 0,102); a Normal la differenza si avvicinava senza raggiungere la significatività (p = 0,055); a Effortful (p = 0,003) e Calling (p < 0,001) il divario era significativo e cresceva con le richieste del compito. Il gruppo con disfonia ha alzato l’altezza con le richieste, ma in misura minore rispetto al gruppo vocalmente sano.

Fattibilità. Punteggi di dominio (su 5): Usabilità e Interazione 3,9 (moderato-buono), Immersione e Realismo 3,4 (moderato, il dominio più basso), Coinvolgimento e Beneficio Percepito 4,0 (buono), Comfort e Sicurezza 4,5 (eccellente). Indice complessivo di fattibilità 4,0 (buono). Nessun evento avverso, nessuna cybersickness, nessuna interruzione tecnica durante il protocollo. Tempo medio di riconfigurazione dei parametri tra le prove di circa 2 minuti. Durata totale della sessione di circa 20 minuti per partecipante.

Feedback qualitativo. I partecipanti hanno descritto l’esperienza come “divertente,” “come un videogioco” e “un modo realistico di esercitare l’uso vocale.” Hanno evidenziato il comportamento vivo e reattivo del cameriere come l’elemento più coinvolgente. Il feedback negativo più costante riguardava il comportamento interazionale limitato del cameriere - i partecipanti volevano risposte verbali, espressioni facciali e gesti durante i turni di ascolto per rendere l’interazione più naturale.

Perché tutto questo è importante

Per l’Evidence Hub, tre cose sono importanti in questo articolo:

Primo uso pubblicato in popolazione clinica di una piattaforma VR voice-responsive su misura. I precedenti lavori di voce in VR immersiva (compresi Daşdöğen 2023 e Daşdöğen 2026 cantanti formati) sono stati in gran parte su adulti vocalmente sani. Questo studio estende a persone con disfonia, inclusi casi diagnosticamente diversi.
Prova diretta che il feedback avatar voice-responsive può suscitare scalatura vocale graduata senza esplicita guida del clinico. Questa è la dimostrazione pubblicata più vicina a un meccanismo di generalizzazione e transfer per la terapia vocale: il partecipante adatta l’output vocale alle richieste ambientali funzionali, in tempo reale, in risposta a un feedback contestuale non verbale.
Pattern comportamentale comparabile tra gruppi vocalmente sani e con disfonia per l’intensità, con flessibilità tonale limitata nel gruppo con disfonia. Il risultato SPL suggerisce che il meccanismo contestuale è intatto nei parlanti con disturbi vocali; il risultato f0 è coerente con la più ampia letteratura sulla voce relativa alla ridotta flessibilità fonatoria nella fonazione disturbata.

Per Therapy withVR specificamente: questo lavoro ha testato IVS, non Therapy withVR. Il principio più ampio che supporta (richieste visuo-spaziali graduate suscitano adattamento vocale funzionale) è coerente con la logica che i clinici già usano quando scelgono scene in Therapy withVR per il lavoro vocale. L’equivalenza diretta del meccanismo di trigger avatar-soglia tra piattaforme non è stata studiata.

Limiti

L’articolo è esplicito su ciò che questo trial stabilisce e non stabilisce:

La dimensione del campione è piccola (N = 17; atipici n = 7). L’analisi di sottogruppo per diagnosi vocale non è fattibile a questo N.
Solo una singola sessione. L’affermazione centrale del quadro teorico IVS è il transfer migliorato attraverso sessioni di apprendimento, che questo design non può testare.
Nessuna condizione di controllo o di confronto. Non vi è alcun controllo basato sull’immaginario, nessun comparatore di trattamento alternativo e nessun braccio di lista d’attesa. Gli effetti osservati attraverso i livelli IVS sono coerenti con la manipolazione visuo-spaziale ma non possono essere separati nettamente dagli effetti di esposizione VR o novità.
Baseline raccolta fuori dal visore. Il confronto Baseline-vs-Normal confonde la richiesta del compito con l’atto di indossare il visore ed entrare per la prima volta in un ambiente virtuale.
L’audio era silenziato. L’audio ambientale del ristorante (che IVS può riprodurre) è stato volutamente silenziato per isolare gli effetti visuo-spaziali. È una scelta sperimentale pulita ma limita la validità ecologica - i ristoranti reali sono rumorosi, e il rumore è un noto driver di adattamento vocale.
Singolo contesto virtuale. È stata testata solo una scena (il ristorante). La roadmap clinica richiede di dimostrare lo stesso pattern in molteplici contesti (clinica, aula, posto di lavoro, performance, contesti medici).
Il questionario di fattibilità è stato sviluppato dall’autore e non è validato. Il feedback aperto è informativo ma dovrebbe essere trattato come descrittivo e non psicometrico.
Significativo conflitto di interessi. L’unico autore è l’inventore di IVS, il titolare di una domanda di brevetto statunitense sulla tecnologia e l’unico sperimentatore di questo studio. Non vi è alcun lavoro di affidabilità inter-valutatori, nessun controllo di qualità da co-sperimentatori e nessuna replicazione indipendente.
Limiti interazionali dell’avatar. Il feedback dei partecipanti ha segnalato la mancanza di risposta avatar verbale e gestuale come un vincolo sul realismo percepito. Questa è una priorità di sviluppo per le versioni future ed è anche una minaccia significativa all’interpretazione dei punteggi di Immersione e Realismo nel pilot attuale.

Come si inserisce nel più ampio Evidence Hub

Questo studio fa parte di un filone in crescita di lavoro vocale in VR immersiva centrato su Mount Sinai / Daşdöğen e laboratori vocali adiacenti:

Daşdöğen et al. 2023 (Journal of Voice) - il lavoro fondante di realismo e validità in 31 adulti vocalmente sani su 18 condizioni di input sensoriale. Ha stabilito che i cue VR visivi e audiovisivi, non solo quelli acustici, modificano l’output vocale.
Daşdöğen e Hitchcock 2026 (Journal of Voice) - studio su cantanti formati vs parlanti non formati usando la situazione Rooms di Therapy withVR. Ha mostrato che i cue di distanza virtuale guidano la scalatura vocale in modo diverso nelle voci formate rispetto a quelle non formate.
Hoff 2026 (Journal of Voice) - breve meditazione basata su VR prima della terapia vocale. Meccanismo diverso (regolazione dell’ansia di stato piuttosto che cueing vocale diretto), ma stessa direzione di marcia per l’adozione della VR nelle cliniche vocali.
Leyns et al. 2025 (Journal of Voice) - RCT di training vocale di affermazione di genere basato su VR usando Therapy withVR. Direttamente rilevante dato che IVS starebbe sviluppando moduli vocali di affermazione di genere secondo la rendicontazione istituzionale di Mount Sinai.

Il panorama più ampio: la VR vocale si sta spostando da “la simulazione è abbastanza reale da modificare il comportamento” (in gran parte risposto: sì) a “la pratica nella simulazione si trasferisce all’uso vocale reale” (in gran parte non risposto, in attesa di lavoro longitudinale multisessione). Questo studio si trova al confine - fattibilità e segnale comportamentale immediato sono stabiliti per una piattaforma voice-responsive su misura; il transfer è la prossima prova.

Nota sulla piattaforma Immersive VoiceSpace. IVS è distinta da Therapy withVR. È un sistema a scena singola, voice-threshold-responsive, inventato e brevettato dall’autore dello studio. Il rapporto istituzionale di Mount Sinai (maggio 2026, “Hypophonia”) descrive il lavoro in corso che estende IVS a persone con ipofonia da malattia di Parkinson, con moduli pianificati per la femminilizzazione vocale e ulteriori contesti. Lo stato di IP di IVS non è stato verificabile in modo indipendente al momento di questa revisione (si veda il campo funding/COI).

Implicazioni per la pratica

Per i clinici della voce che utilizzano o valutano la VR immersiva per il lavoro vocale: questo studio estende precedenti risultati di VR vocale in laboratorio (Daşdöğen 2023, Daşdöğen 2026 sui cantanti formati) mostrando che gli stessi effetti di realismo e validità reggono in una popolazione clinica (persone con disfonia), e non solo in adulti vocalmente sani. Entrambi i gruppi hanno aumentato l'intensità in linea con i cue graduati di distanza e soglia; la scalatura tonale era più limitata per le persone con disfonia, coerente con la ridotta flessibilità fonatoria documentata nella più ampia letteratura sulla voce. In pratica: la pratica contestualizzata in ambienti virtuali può suscitare un output vocale funzionale senza esplicita guida del clinico, il che affronta il problema della generalizzazione e del transfer che ha a lungo limitato il riporto dalla clinica alla comunicazione quotidiana. Questo studio ha testato specificamente Immersive VoiceSpace, non Therapy withVR - i clinici che usano Therapy withVR possono trarre da questo lavoro lo stesso principio più ampio (richieste visuo-spaziali graduate suscitano la scalatura vocale), ma non dovrebbero assumere equivalenza diretta del meccanismo di trigger avatar-soglia senza una validazione separata. I risultati sono coerenti con il modello sociale della comunicazione: le barriere all'uso vocale funzionale risiedono nei contesti in cui la voce è necessaria, e l'evidenza supporta la pratica in quei contesti (piuttosto che in stanze cliniche spogliate).

Implicazioni per la ricerca

Sono necessarie replicazione ed estensione in: (a) campioni più ampi con potenza sufficiente per analisi di sottogruppo per diagnosi vocale; (b) protocolli multisessione che testino apprendimento, ritenzione e generalizzazione al mondo reale (l'affermazione centrale del quadro teorico IVS è il transfer-appropriate processing, che richiede dati longitudinali per essere testato); (c) condizioni di confronto controllate, incluse attività di controllo basate sull'immaginario per isolare il contributo unico dei cue visuo-spaziali immersivi dagli effetti di novità ed esposizione VR; (d) ipofonia di Parkinson, che è la principale applicazione clinica di IVS secondo la rendicontazione istituzionale di Mount Sinai; (e) cure vocali di affermazione di genere, in cui moduli IVS di femminilizzazione sarebbero in sviluppo; (f) il limite di interazione dell'avatar segnalato dai partecipanti - se risposte avatar verbali/non verbali più ricche (potenzialmente guidate da IA) migliorino sostanzialmente i risultati. Una replicazione indipendente al di fuori dell'istituzione inventrice rafforzerebbe sostanzialmente la base evidenziale.

Cita questo studio

Se citi questo studio nel tuo lavoro, questi sono i formati di citazione canonici:

APA 7th

Daşdöğen Ü (2026). Immersive VoiceSpace: Development and Pilot Testing of a Virtual Reality System for Contextualized Vocal Training. Journal of Voice. https://doi.org/10.1016/j.jvoice.2026.04.047.

AMA 11th

Daşdöğen Ü. Immersive VoiceSpace: Development and Pilot Testing of a Virtual Reality System for Contextualized Vocal Training. Journal of Voice. 2026. doi:10.1016/j.jvoice.2026.04.047.

BibTeX

@article{daden2026,
  author = {Daşdöğen Ü},
  title = {Immersive VoiceSpace: Development and Pilot Testing of a Virtual Reality System for Contextualized Vocal Training},
  journal = {Journal of Voice},
  year = {2026},
  doi = {10.1016/j.jvoice.2026.04.047},
  url = {https://withvr.app/it/evidence/studies/dasdogen-2026-ivs}
}

RIS

TY  - JOUR
AU  - Daşdöğen Ü
TI  - Immersive VoiceSpace: Development and Pilot Testing of a Virtual Reality System for Contextualized Vocal Training
JO  - Journal of Voice
PY  - 2026
DO  - 10.1016/j.jvoice.2026.04.047
UR  - https://withvr.app/it/evidence/studies/dasdogen-2026-ivs
ER  -

Conosci ricerche che dovrebbero essere in questa base? Se uno studio peer-reviewed rilevante non è elencato qui, invia il riferimento a hello@withvr.app. La base è mantenuta aggiornata man mano che la letteratura cresce.

Finanziamento e indipendenza

Studio a singolo autore di Ümit Daşdöğen (Research Director, Speech and Language Pathology, The Grabscheid Voice and Swallowing Center; Assistant Professor of Otolaryngology, Icahn School of Medicine at Mount Sinai). Nessun finanziatore esterno, sovvenzione o sponsor indicato nel manoscritto. Approvazione IRB: Mount Sinai STUDY-25-01418. Significativo conflitto di interessi: l'autore ha inventato la piattaforma Immersive VoiceSpace (IVS) ed è identificato nel manoscritto pubblicato come titolare di una domanda di brevetto statunitense sulla tecnologia (USPTO Application No. 63/987 secondo il manoscritto - sembra trattarsi di un numero di provisional application troncato; il numero completo non è stato indicato nell'articolo pubblicato e non è stato possibile localizzarlo in modo indipendente al momento di questa revisione tramite USPTO Patent Public Search o Google Patents, coerentemente con la riservatezza delle provisional applications). Il marchio Immersive VoiceSpace® appare con il simbolo di registrazione federale nella rendicontazione istituzionale di Mount Sinai; una ricerca di marchio USPTO TESS non ha restituito alcuna registrazione attiva corrispondente al momento della revisione. Queste rivendicazioni di IP sono riportate come dichiarazioni dell'autore stesso e non è stato possibile verificarle in modo indipendente. Questi ruoli sovrapposti (sperimentatore, autore, inventore, titolare di IP, autore del questionario) sono comuni nello sviluppo accademico di piattaforme nelle fasi iniziali e sono segnalati qui per trasparenza; i lettori dovrebbero soppesare i risultati di fattibilità e accettabilità tenendo specificamente conto di questo contesto. Therapy withVR (withVR BV, Belgio) non ha avuto alcun ruolo nel finanziamento, design, conduzione, analisi o rendicontazione di questo studio; questa voce dell'Evidence Hub è stata preparata in modo indipendente dall'articolo pubblicato peer-reviewed e dal rapporto istituzionale pubblicamente disponibile di Mount Sinai. Daşdöğen ha pubblicato separatamente nel 2026 un articolo su Journal of Voice usando la situazione Rooms di Therapy withVR (si veda dasdogen-2026 in questo Hub), e usa Therapy withVR in altri lavori di ricerca.

Ultima revisione: 2026-05-23 Prossima revisione prevista: 2027-05-23 Revisionato da: Gareth Walkom

Pilot di Immersive VoiceSpace VR (N=17): i parlanti hanno scalato sonorità e altezza tonale in condizioni graduate di ristorante virtuale

Risultati principali

Contesto

Cosa hanno fatto i ricercatori

Cosa hanno trovato

Perché tutto questo è importante

Limiti

Come si inserisce nel più ampio Evidence Hub

Implicazioni per la pratica

Implicazioni per la ricerca

Studi correlati

Studio within-subjects (n=31): gli stimoli uditivi, visivi e audiovisivi di una stanza VR modificano sonorità, sforzo e output vocale

In VR, la distanza apparente dell'ascoltatore guida l'intensità della voce più delle dimensioni della stanza

Le dimensioni della stanza virtuale e la distanza dell'ascoltatore influenzano l'uso della voce

Meditazione in VR ha ridotto l'ansia prima della terapia vocale in un piccolo RCT esplorativo, con minore abbandono nel braccio VR

La pratica del parlato basata sulla VR aumenta la disponibilità a comunicare nel training vocale di affermazione di genere

Cita questo studio

Finanziamento e indipendenza