Denne siden er oversatt fra engelsk. Hvis noe virker rart, bytt til engelsk for originalen. Vis på engelsk.

Pilot av Immersive VoiceSpace VR (N=17, vokalt friske pluss personer med dysfoni) - deltakerne skalerte styrke og tonehøyde gjennom graderte virtuelle restaurantbetingelser

Daşdöğen Ü · 2026 · Journal of Voice · Eksperimentell · n = 17 · Sytten voksne rekruttert ved Mount Sinai... · DOI
Grad av sikkerhet: Lav sikkerhet
Hvordan dette er vurdert

Fagfellevurdert i Journal of Voice (Elsevier), IRB-godkjent (Mount Sinai STUDY-25-01418), lineær blandet-effekter-analyse med tilfeldig skjæringspunkt for individ og Kenward-Roger frihetsgrader - et forsvarlig analyseramme for en pilot. Styrker: inkluderer en klinisk populasjon (dysfoni) og ikke bare vokalt friske voksne; per deltaker baseline-relative dB-terskler fjerner forveksling med absolutt SPL; atferdsmønsteret var konsistent på tvers av begge gruppene for SPL. Begrensninger som holder sikkerheten lav: lite totalt N (17) med bare 7 i den atypiske gruppen; én sesjon og én kontekst (en lett befolket virtuell restaurant); ingen kontrollgruppe eller sammenligningsbetingelse; baseline samlet utenfor headsettet, noe som forveksler VR-eksponering med effekter av oppgavekrav; restaurantens omgivelseslyd ble bevisst dempet, noe som begrenser økologisk realisme og ekstern validitet; det primære gjennomførbarhetsinstrumentet ble utviklet av forfatteren og er ennå ikke validert; eneforfatterstudie uten rapportert inter-rater-reliabilitet; betydelig interessekonflikt - forfatteren oppfant IVS og innehar en amerikansk patentsøknad på teknologien (eneste oppførte oppfinner). Arbeidet etablerer gjennomførbarhet og signal, ikke effekt. Replikering i større flersenterutvalg med kontrollsammenligninger er nødvendig før klinisk beslutningsbruk.

Vurderingene bruker en forenklet firenivåskala (Høy, Moderat, Lav, Svært lav), basert på GRADE working group. Les mer om hvordan studier vurderes.

En within-subjects-pilot av Immersive VoiceSpace (IVS), en spesialbygd VR-plattform for stemmetrening utviklet av eneste forfatter. Sytten voksne (10 vokalt friske talere og 7 personer med dysfoni) gjennomførte en menybestillingsoppgave i en virtuell restaurant under fire betingelser - en baseline pluss tre graderte IVS-nivåer som manipulerte avataravstand, stemmeaktiveringsterskler og bortgangs-timeouts. Lydtrykknivå og gjennomsnittlig tale-f0 økte signifikant på tvers av IVS-nivåene i begge grupper; tonehøydefleksibiliteten var mer begrenset i dysfonigruppen. Gjennomførbarhetsvurderingene var samlet sett gode (4,0/5), med komfort og sikkerhet utmerket (4,5/5) og ingen rapportert cybersickness.

Klinisk kjernebudskap

Første publiserte bevis for gjennomførbarhet og proof-of-concept for Immersive VoiceSpace (IVS), en spesialbygd stemmeresponsiv VR-plattform oppfunnet og patentert av eneste forfatter ved Mount Sinai. I en ett-sesjons within-subjects-pilot med 17 voksne (10 vokalt friske pluss 7 personer med dysfoni, inkludert 2 trans kvinner i kjønnsbekreftende stemmebehandling) produserte graderte virtuelle restaurantbetingelser systematiske, progressive økninger i lydtrykknivå (SPL) og gjennomsnittlig tale-f0. Begge gruppene fulgte samme SPL-mønster; dysfonigruppen viste flatere tonehøydeskalering etter hvert som oppgavekravene økte. Deltakerne vurderte komfort og sikkerhet som utmerket; ingen cybersickness, ingen uønskede hendelser. Studien er begrenset av et lite utvalg (N=17, atypisk n=7), én enkelt kontekst (restaurant), én enkelt sesjon, eneforfatter med betydelig interessekonflikt som oppfinner og patentinnehaver, og en bevisst dempet lydscene som begrenser den økologiske validiteten. Funnene støtter gjennomførbarhet og foreløpig konstruktvaliditet for stemmeresponsiv VR som et kontekstualisert øvingsverktøy, men etablerer ennå ikke terapeutisk effekt eller generalisering til reell stemmebruk - begge krever oppfølgingsstudier med flere sesjoner i kliniske populasjoner med kontrollsammenligninger.

Viktigste funn

  • 17 voksne (10 vokalt friske, 7 med dysfoni: presbyfoni, stemmebåndspolypp, stemmebåndsparese, muskelspenningsdysfoni og 2 trans kvinner i kjønnsbekreftende stemmebehandling) gjennomførte en ett-sesjons within-subjects-protokoll
  • Utstyr: Oculus Quest 3 head-mounted display som kjørte IVS-applikasjonen; AKG C520 kondensatormikrofon 7 cm fra munnen (kalibrert til 30 cm referanse); opptak via Computerized Speech Lab (CSL) ved 44,1 kHz / 16 bit
  • Fire betingelser i randomisert rekkefølge: Baseline (forskningsteammedlem som lytter på ~2 m i klinikkrommet) pluss tre IVS-nivåer i en virtuell restaurant - Normal (servitør på 5 m, +3 dB over hver deltakers egen baseline, 5 s timeout), Effortful (10 m, +5 dB, 10 s), Calling (15 m, +10 dB, 20 s). Restaurantens omgivelseslyd ble dempet for å isolere visuelt-romlige effekter
  • Hovedeffekten av IVS-nivå på SPL var signifikant: F(3, 48) = 33,94, p < 0,001. Sammenlignet med Baseline økte SPL med 3,83 dB (Normal), 7,41 dB (Effortful) og 9,04 dB (Calling), alle p < 0,001
  • Hovedeffekten av IVS-nivå på gjennomsnittlig tale-f0 var signifikant: F(3, 45) = 17,63, p < 0,001. Trinnvise økninger fra Baseline på omtrent 36 Hz (Normal, p = 0,008), 66,6 Hz (Effortful, p < 0,001) og 103,9 Hz (Calling, p < 0,001)
  • Gruppehovedeffekter: personer med dysfoni produserte samlet sett lavere SPL (estimat -6,88 dB, p = 0,001) og lavere gjennomsnittlig f0 (p = 0,002) enn vokalt friske talere
  • Signifikant IVS-nivå x Gruppe-interaksjon kun for gjennomsnittlig f0: F(3, 45) = 3,94, p = 0,014. Tonehøydeskaleringen divergerte i de mer krevende betingelsene - gapet mellom gruppene var ikke-signifikant ved Baseline (p = 0,102), nærmet seg signifikans ved Normal (p = 0,055) og var signifikant ved Effortful (p = 0,003) og Calling (p < 0,001). SPL-interaksjonen var ikke-signifikant og ble fjernet fra den endelige modellen - begge gruppene økte styrken parallelt
  • Gjennomførbarhet (1-5 Likert): Brukbarhet & Interaksjon 3,9 (moderat-god), Innlevelse & Realisme 3,4 (moderat, laveste domene), Engasjement & Opplevd Nytte 4,0 (god), Komfort & Sikkerhet 4,5 (utmerket). Samlet 4,0 (god)
  • Ingen uønskede hendelser. Ingen rapportert cybersickness. Ingen tekniske avbrudd gjennom protokollen. Gjennomsnittlig ~2 minutter for å rekonfigurere vanskelighetsparametre mellom forsøk. Full sesjon inkludert instruksjoner og spørreskjemaer varte ~20 minutter per deltaker
  • Åpen tekstbasert tilbakemelding flagget den begrensede avatarresponsiviteten som en sentral begrensning - deltakerne ba om verbale svar, ansiktsuttrykk og samtalegester for å fordype interaksjonsrealismen

Bakgrunn

Stemmeendring er et motorisk læringsproblem, ikke bare et kunnskapsproblem. Atferdsbasert stemmebehandling er effektiv for mange stemmelidelser, men gevinstene i klinikken klarer ofte ikke å overføres til daglig kommunikasjon. Litteraturen om motorisk læring er klar på hvorfor: varig endring avhenger av å øve under betingelser som ligner målkonteksten, ikke bare på å utføre atferden i en strukturert sesjon. Specificity of Learning Principle, Transfer-Appropriate Processing og Encoding Specificity peker alle mot det samme - når de sensoriske og kontekstuelle kravene i øvingen samsvarer med kravene i den reelle bruken, blir overføringen sterkere.

Reell stemmebruk skjer under lagdelte krav: kommunikativ intensjon, lytteravstand, sosialt-emosjonelt press, romstørrelse, bakgrunnsakustikk og visuelt-romlige cues som signaliserer hvor mye stemme som trengs før en person engang taler. Konvensjonelle klinikkrom minimerer disse variablene bevisst, noe som tjener innledende tilegnelse, men underrepresenterer akkurat de cuesene som læringsteorien sier at generaliseringen avhenger av.

Immersiv virtuell virkelighet tilbyr en kontrollert måte å sette disse cuesene tilbake. Daşdöğens multisensoriske studie fra 2023 (i denne Hub) etablerte at visuelle og audiovisuelle VR-cues driver målbare stemmetilpasninger hos vokalt friske voksne, utover hva akustisk simulering alene gir. Studien fra 2026 om trente sangere (også i denne Hub) utvidet dette til å sammenligne ekspert- og utrente talere. Denne studien tar neste skritt: holder den samme effekten i en klinisk stemmepopulasjon, og er en spesialbygd stemmeresponsiv VR-plattform gjennomførbar å bruke i denne populasjonen.

Hva forskerne gjorde

En within-subjects-pilot ved Mount Sinai med 17 voksne: 10 vokalt friske talere rekruttert fra ØNH-klinikk og sykehuspersonell, og 7 personer med dysfoni rekruttert under rutinemessige stemmeutredninger (diagnoser inkluderte presbyfoni, stemmebåndspolypp, stemmebåndsparese, muskelspenningsdysfoni og kjønnsbekreftende stemmebehandling).

Intervensjonen var Immersive VoiceSpace (IVS) - en spesialbygd VR-plattform utviklet av eneste forfatter. IVS renderte en lett befolket virtuell restaurant på et Oculus Quest 3 headset. En servitør-NPC fungerte som lyttermål. Servitøren reagerte i sanntid på deltakerens stemme: hvis stemmeintensiteten nådde en forhåndsdefinert terskel, nærmet servitøren seg og ble stående i lytteposisjon; hvis den falt under terskelen lenger enn et fastsatt timeout, gikk servitøren bort.

Tre parametre ble gradert på tvers av betingelsene:

Taleoppgaven på tvers av alle fire betingelser var den samme: “Bestill en drikke, en forrett, en hovedrett og en dessert.” Baseline-betingelsen ble utført med et forskningsteammedlem som lytter i klinikkrommet på ~2 m. De tre IVS-betingelsene ble utført i den virtuelle restauranten i randomisert rekkefølge.

For å isolere visuelt-romlige effekter ble restaurantens omgivelseslyd (bakgrunnssamtaler og bestikklyder, som IVS kan spille av) dempet på tvers av alle eksperimentelle betingelser. Det akustiske opptaket ble gjort gjennom en hodemontert AKG C520 kondensatormikrofon 7 cm fra munnen, kalibrert til 30 cm referanse, fanget med 44,1 kHz / 16 bit via Computerized Speech Lab (CSL).

Utfall: lydtrykknivå (SPL, dB) og gjennomsnittlig grunnleggende talefrekvens (gjennomsnittlig f0, Hz), hver ekstrahert fra CSL og analysert i separate lineære blandet-effekter-modeller med et tilfeldig skjæringspunkt for individ. Faste effekter var Gruppe (Typisk, Atypisk) og Oppgavebetingelse (Baseline, Normal, Effortful, Calling). Gruppe x Oppgavebetingelse-interaksjonen ble beholdt for gjennomsnittlig f0 (signifikant) og fjernet fra den endelige SPL-modellen (ikke-signifikant). Faste effekter ble evaluert med Type III kvadratsummer og Kenward-Roger-tilnærmede frihetsgrader; parvise kontraster brukte estimerte marginale gjennomsnitt med Tukey-korreksjon.

Et 5-punkts Likert-spørreskjema (utviklet av forfatteren, ennå ikke validert) fanget fire domener etter sesjonen: Brukbarhet og Interaksjon, Innlevelse og Realisme, Engasjement og Opplevd Nytte, Komfort og Sikkerhet. Domenescorer ble gjennomsnittsberegnet; en samlet gjennomførbarhetsindeks var gjennomsnittet av de fire domenene. Åpen tilbakemelding ble gjennomgått deskriptivt.

Hva de fant

Lydtrykknivå. En signifikant hovedeffekt av IVS-nivå: F(3, 48) = 33,94, p < 0,001. Sammenlignet med Baseline økte SPL med 3,83 dB ved Normal, 7,41 dB ved Effortful og 9,04 dB ved Calling (alle p < 0,001). Parvise kontraster Normal-til-Effortful og Normal-til-Calling var signifikante; trinnet på 1,63 dB fra Effortful til Calling var det ikke (p = 0,450), noe som antyder et takmønster på det høyeste kravnivået. Gruppe-hovedeffekten var også signifikant: personer med dysfoni produserte i gjennomsnitt omtrent 6,88 dB lavere SPL enn vokalt friske talere. Gruppe x Nivå-interaksjonen var ikke-signifikant og ble derfor fjernet fra den endelige SPL-modellen - begge gruppene økte styrken parallelt etter hvert som oppgavekravene steg.

Gjennomsnittlig tale-f0. En signifikant hovedeffekt av IVS-nivå: F(3, 45) = 17,63, p < 0,001. Trinnvise økninger sammenlignet med Baseline (skjæringspunkt ≈ 201,8 Hz for den typiske gruppen) på omtrent 36 Hz ved Normal (p = 0,008), 66,6 Hz ved Effortful (p < 0,001) og 103,9 Hz ved Calling (p < 0,001). Gruppe-hovedeffekten var signifikant, men Nivå x Gruppe-interaksjonen var også signifikant: F(3, 45) = 3,94, p = 0,014. Dekomponering av interaksjonen: ved Baseline skilte gruppene seg ikke i gjennomsnittlig f0 (p = 0,102); ved Normal nærmet forskjellen seg uten å nå signifikans (p = 0,055); ved Effortful (p = 0,003) og Calling (p < 0,001) var gapet signifikant og økte med oppgavekravene. Dysfonigruppen hevet tonehøyden med oppgavekravene, men i mindre grad enn den vokalt friske gruppen.

Gjennomførbarhet. Domenescorer (av 5): Brukbarhet og Interaksjon 3,9 (moderat-god), Innlevelse og Realisme 3,4 (moderat, det laveste domenet), Engasjement og Opplevd Nytte 4,0 (god), Komfort og Sikkerhet 4,5 (utmerket). Samlet gjennomførbarhetsindeks 4,0 (god). Ingen uønskede hendelser, ingen cybersickness, ingen tekniske avbrudd gjennom protokollen. Gjennomsnittlig parameter-rekonfigurasjonstid mellom forsøk var omtrent 2 minutter. Total sesjonstid var omtrent 20 minutter per deltaker.

Kvalitativ tilbakemelding. Deltakerne beskrev opplevelsen som “morsom,” “som et videospill,” og “en realistisk måte å øve på stemmebruk.” De fremhevet servitørens levende, responsive atferd som det mest engasjerende elementet. Den mest konsistente negative tilbakemeldingen var servitørens begrensede interaksjonelle atferd - deltakerne ønsket verbale svar, ansiktsuttrykk og gester under lyttesekvensene for å gjøre interaksjonen mer naturlig.

Hvorfor dette betyr noe

For Evidence Hub er tre ting viktige ved denne artikkelen:

For Therapy withVR spesifikt: dette arbeidet testet IVS, ikke Therapy withVR. Det bredere prinsippet det støtter (graderte visuelt-romlige krav fremkaller funksjonell stemmetilpasning) er i samsvar med den begrunnelsen klinikere allerede bruker når de velger scener i Therapy withVR for stemmearbeid. Direkte ekvivalens av avatar-terskel-triggermekanismen mellom plattformer er ikke studert.

Begrensninger

Artikkelen er eksplisitt på hva denne studien etablerer og ikke etablerer:

Hvordan dette passer inn i den bredere Evidence Hub

Denne studien er del av en voksende tråd av immersivt VR-stemmearbeid sentrert rundt Mount Sinai / Daşdöğen og tilstøtende stemmelaboratorier:

Det bredere landskapet: stemme-VR beveger seg fra “føles simuleringen ekte nok til å endre atferd” (i stor grad besvart: ja) til “overføres øvingen i simuleringen til reell stemmebruk” (i stor grad ubesvart, i påvente av flersesjons longitudinelt arbeid). Denne studien sitter på grensen - gjennomførbarhet og umiddelbart atferdssignal er etablert for en spesialbygd stemmeresponsiv plattform; overføring er den neste testen.

Notat om Immersive VoiceSpace-plattformen. IVS skiller seg fra Therapy withVR. Det er et single-scene, stemmeterskel-responsivt system, oppfunnet og patentert av studieforfatteren. Mount Sinais institusjonelle rapport (mai 2026, “Hypophonia”) beskriver pågående arbeid som utvider IVS til personer med Parkinson-hypofoni, med planlagte moduler for stemmefeminisering og ytterligere kontekster. IP-statusen til IVS kunne ikke verifiseres uavhengig på tidspunktet for denne gjennomgangen (se funding/COI-feltet).

Implikasjoner for praksis

For stemmeklinikere som bruker eller vurderer immersiv VR til stemmearbeid: denne studien utvider tidligere laboratoriebaserte VR-stemmefunn (Daşdöğen 2023, Daşdöğen 2026 trente sangere-artikkelen) ved å vise at de samme realisme-og-validitet-effektene holder seg i en klinisk populasjon (personer med dysfoni), ikke bare hos vokalt friske voksne. Begge gruppene økte styrken i tråd med graderte avstands- og terskelcues; tonehøydeskaleringen var mer begrenset for personer med dysfoni, i samsvar med redusert fonatorisk fleksibilitet dokumentert i den bredere stemmelitteraturen. Praktisk: kontekstualisert øving i virtuelle miljøer kan fremkalle funksjonell stemmeproduksjon uten eksplisitt klinikerveiledning, noe som adresserer det generaliserings- og overføringsproblemet som lenge har begrenset overføringen fra klinikk til daglig kommunikasjon. Denne studien testet spesifikt Immersive VoiceSpace, ikke Therapy withVR - klinikere som bruker Therapy withVR kan ta med seg det samme bredere prinsippet fra dette arbeidet (graderte visuelt-romlige krav fremkaller stemmeskalering), men bør ikke anta direkte ekvivalens av avatar-terskel-triggermekanismen uten separat validering. Funnene er i samsvar med den sosiale modellen for kommunikasjon: barrierer for funksjonell stemmebruk ligger i kontekstene der stemmen trengs, og øving i disse kontekstene (i stedet for i avkledde klinikkrom) er det evidensen støtter.

Implikasjoner for forskning

Replikering og utvidelse er nødvendig i: (a) større utvalg med tilstrekkelig styrke for subgruppeanalyse etter stemmediagnose; (b) protokoller med flere sesjoner som tester læring, retensjon og generalisering til virkeligheten (den sentrale påstanden i det teoretiske IVS-rammeverket er transfer-appropriate processing, som krever longitudinelle data for å testes); (c) kontrollerte sammenligningsbetingelser, inkludert forestillingsbaserte kontrolloppgaver for å isolere det unike bidraget fra immersive visuelt-romlige cues fra nyhets- og eksponeringseffekter av VR; (d) Parkinson-hypofoni, som er hovedanvendelsen til IVS ifølge Mount Sinais institusjonelle rapportering; (e) kjønnsbekreftende stemmebehandling, der IVS-feminiseringsmoduler etter sigende er under utvikling; (f) avatar-interaksjonsbegrensningen som deltakerne flagget - om rikere verbale/non-verbale avatar-responser (potensielt KI-drevne) gir vesentlig bedre resultater. Uavhengig replikering utenfor den oppfinnende institusjonen ville styrke evidensgrunnlaget betydelig.

Siter denne studien

Hvis du refererer til denne studien i arbeidet ditt, er dette de kanoniske siteringsformatene:

APA 7th
Daşdöğen Ü (2026). Immersive VoiceSpace: Development and Pilot Testing of a Virtual Reality System for Contextualized Vocal Training. Journal of Voice. https://doi.org/10.1016/j.jvoice.2026.04.047.
AMA 11th
Daşdöğen Ü. Immersive VoiceSpace: Development and Pilot Testing of a Virtual Reality System for Contextualized Vocal Training. Journal of Voice. 2026. doi:10.1016/j.jvoice.2026.04.047.
BibTeX
@article{daden2026,
  author = {Daşdöğen Ü},
  title = {Immersive VoiceSpace: Development and Pilot Testing of a Virtual Reality System for Contextualized Vocal Training},
  journal = {Journal of Voice},
  year = {2026},
  doi = {10.1016/j.jvoice.2026.04.047},
  url = {https://withvr.app/no/evidence/studies/dasdogen-2026-ivs}
}
RIS
TY  - JOUR
AU  - Daşdöğen Ü
TI  - Immersive VoiceSpace: Development and Pilot Testing of a Virtual Reality System for Contextualized Vocal Training
JO  - Journal of Voice
PY  - 2026
DO  - 10.1016/j.jvoice.2026.04.047
UR  - https://withvr.app/no/evidence/studies/dasdogen-2026-ivs
ER  - 

Kjenner du til forskning som hører hjemme i denne kunnskapsbasen? Hvis en relevant fagfellevurdert studie ikke er oppført her, send referansen til hello@withvr.app. Kunnskapsbasen holdes oppdatert etter hvert som litteraturen vokser.

Finansiering og uavhengighet

Eneforfatterstudie av Ümit Daşdöğen (Research Director, Speech and Language Pathology, The Grabscheid Voice and Swallowing Center; Assistant Professor of Otolaryngology, Icahn School of Medicine at Mount Sinai). Ingen eksterne finansieringskilder, tilskudd eller sponsorer nevnt i manuskriptet. IRB-godkjenning: Mount Sinai STUDY-25-01418. Betydelig interessekonflikt: forfatteren oppfant Immersive VoiceSpace (IVS)-plattformen og er i det publiserte manuskriptet identifisert som innehaver av en amerikansk patentsøknad på teknologien (USPTO Application No. 63/987 ifølge manuskriptet - dette ser ut som et avkortet provisional-application-nummer; det fullstendige nummeret ble ikke oppgitt i den publiserte artikkelen, og kunne ikke uavhengig lokaliseres via USPTO Patent Public Search eller Google Patents på tidspunktet for denne gjennomgangen, i samsvar med konfidensialiteten til provisional applications). Merket Immersive VoiceSpace® opptrer med føderalt registreringssymbol i Mount Sinais institusjonelle rapportering; et USPTO TESS varemerkesøk returnerte ingen tilsvarende aktiv registrering på tidspunktet for gjennomgangen. Disse IP-påstandene er rapportert som forfatterens egne fremstillinger og kunne ikke verifiseres uavhengig. Disse overlappende rollene (utforsker, forfatter, oppfinner, IP-innehaver, spørreskjemautvikler) er vanlige i tidligfase akademisk plattformutvikling og flagges her av hensyn til åpenhet; lesere bør veie gjennomførbarhets- og aksepterbarhetsresultatene spesifikt i denne konteksten. Therapy withVR (withVR BV, Belgia) hadde ingen rolle i finansiering, design, gjennomføring, analyse eller rapportering av denne studien; denne Evidence Hub-oppføringen ble utarbeidet uavhengig fra det publiserte fagfellevurderte arbeidet og den offentlig tilgjengelige institusjonelle rapporten fra Mount Sinai. Daşdöğen har separat publisert en 2026 Journal of Voice-artikkel som bruker Rooms-modulen i Therapy withVR (se dasdogen-2026 i denne Hub), og bruker Therapy withVR i annet forskningsarbeid.

Sist vurdert: 2026-05-23 Neste vurdering planlagt: 2027-05-23 Vurdert av: Gareth Walkom