Wat heeft Daşdöğen et al. (2026) gevonden?

17 volwassenen (10 vocaal gezond, 7 met dysfonie: presbyfonie, stemplooipoliep, stemplooiparese, spierspanningsdysfonie, en 2 transvrouwen in genderbevestigende stemzorg) voltooiden een eenmalig within-subjects protocol Apparatuur: Oculus Quest 3 head-mounted display met de IVS-applicatie; AKG C520 condensatormicrofoon op 7 cm van de mond (gekalibreerd op 30 cm referentie); opnames via Computerized Speech Lab (CSL) op 44,1 kHz / 16 bit Vier condities in willekeurige volgorde: Baseline (lid van het onderzoeksteam als luisteraar op ~2 m in de behandelkamer) plus drie IVS-niveaus in een virtueel restaurant - Normal (kelner op 5 m, +3 dB boven de eigen baseline van elke deelnemer, 5 s time-out), Effortful (10 m, +5 dB, 10 s), Calling (15 m, +10 dB, 20 s). Restaurant achtergrondgeluid werd gedempt om visueel-ruimtelijke effecten te isoleren Hoofdeffect van IVS-niveau op SPL was significant: F(3, 48) = 33,94, p < 0,001. Ten opzichte van de Baseline steeg SPL met 3,83 dB (Normal), 7,41 dB (Effortful) en 9,04 dB (Calling), alle p < 0,001 Hoofdeffect van IVS-niveau op gemiddelde spreek-f0 was significant: F(3, 45) = 17,63, p < 0,001. Stapsgewijze stijgingen vanaf Baseline van circa 36 Hz (Normal, p = 0,008), 66,6 Hz (Effortful, p < 0,001) en 103,9 Hz (Calling, p < 0,001) Groepshoofdeffecten: personen met dysfonie produceerden in het algemeen lagere SPL (schatting -6,88 dB, p = 0,001) en lagere gemiddelde f0 (p = 0,002) dan vocaal gezonde sprekers Significante IVS-niveau x Groep interactie alleen voor gemiddelde f0: F(3, 45) = 3,94, p = 0,014. De toonhoogteschaling divergeerde in de veeleisendere condities - het verschil tussen groepen was niet-significant bij Baseline (p = 0,102), benaderde significantie bij Normal (p = 0,055) en was significant bij Effortful (p = 0,003) en Calling (p < 0,001). De SPL-interactie was niet-significant en werd uit het uiteindelijke model verwijderd - beide groepen verhoogden de luidheid parallel Haalbaarheid (1-5 Likert): Bruikbaarheid & Interactie 3,9 (matig-goed), Immersie & Realisme 3,4 (matig, laagste domein), Betrokkenheid & Waargenomen Voordeel 4,0 (goed), Comfort & Veiligheid 4,5 (uitstekend). Totaal 4,0 (goed) Geen ongewenste voorvallen. Geen gerapporteerde cybersickness. Geen technische onderbrekingen tijdens het protocol. Gemiddeld ~2 minuten om de moeilijkheidsparameters tussen trials opnieuw te configureren. Volledige sessie inclusief instructies en vragenlijsten duurde ~20 minuten per deelnemer Open feedback signaleerde de beperkte reactiviteit van de avatar als belangrijke beperking - deelnemers vroegen om verbale reacties, gezichtsuitdrukkingen en conversationele gebaren om het interactierealisme te verdiepen

Deze pagina is vertaald uit het Engels. Als iets vreemd leest, schakel dan over naar de Engelse versie. Bekijk in het Engels.

Pilot van Immersive VoiceSpace VR (N=17): sprekers schaalden luidheid en toonhoogte over gegradeerde virtuele restaurantcondities

Daşdöğen Ü · 2026 · Journal of Voice · Experimenteel · n = 17 · Zeventien volwassenen geworven bij Mount Sinai... · DOI

Mate van zekerheid: Lage zekerheid

Hoe dit is beoordeeld

Peer-reviewed in Journal of Voice (Elsevier), IRB-goedgekeurd (Mount Sinai STUDY-25-01418), lineaire mixed-effects analyse met willekeurig intercept voor subject en Kenward-Roger vrijheidsgraden - een verdedigbaar analytisch kader voor een pilot. Sterke punten: omvat een klinische populatie (dysfonie) en niet alleen vocaal gezonde volwassenen; per-deelnemer baseline-relatieve dB-drempels elimineren absolute-SPL confounding; het gedragspatroon was consistent over beide groepen voor SPL. Beperkingen die de zekerheid laag houden: kleine totale N (17) met slechts 7 in de atypische groep; één sessie en één context (een licht bevolkt virtueel restaurant); geen controlegroep of vergelijkingsconditie; baseline buiten de headset opgenomen, wat VR-blootstelling met taakeiseffecten verstrengelt; restaurant achtergrondgeluid werd bewust gedempt, wat ecologisch realisme en externe validiteit beperkt; het primaire haalbaarheidsinstrument was door de auteur ontwikkeld en nog niet gevalideerd; studie met één enige auteur zonder gerapporteerde inter-rater betrouwbaarheidswerk; aanzienlijk belangenconflict - de auteur heeft IVS uitgevonden en houdt een Amerikaanse octrooiaanvraag op de technologie (enige genoemde uitvinder). Het werk vestigt haalbaarheid en signaal, geen werkzaamheid. Replicatie in grotere multisite-steekproeven met controlevergelijkingen is nodig voor gebruik in klinische besluitvorming.

Beoordelingen gebruiken een vereenvoudigd vier-niveau-schema (Hoog, Gemiddeld, Laag, Zeer laag), gebaseerd op de GRADE working group. Lees meer over hoe studies worden beoordeeld.

Een within-subjects pilot van Immersive VoiceSpace (IVS), een op maat ontwikkeld VR-stemtrainingsplatform van de enige auteur. Zeventien volwassenen (10 vocaal gezonde sprekers en 7 personen met dysfonie) voltooiden een menubesteltaak in een virtueel restaurant onder vier condities - een baseline plus drie gegradeerde IVS-niveaus die avatarafstand, stemactivatiedrempels en wegloop-time-outs manipuleerden. Geluidsdrukniveau en gemiddelde spreek-f0 stegen significant over de IVS-niveaus in beide groepen; de toonhoogteflexibiliteit was beperkter in de dysfoniegroep. De haalbaarheidsbeoordelingen waren over het geheel goed (4,0/5), met comfort en veiligheid uitstekend (4,5/5) en geen gerapporteerde cybersickness.

Klinische kernboodschap

Eerste gepubliceerde bewijs van haalbaarheid en proof-of-concept voor Immersive VoiceSpace (IVS), een op maat gebouwd stem-responsief VR-platform uitgevonden en gepatenteerd door de enige auteur bij Mount Sinai. In een eenmalige within-subjects pilot met 17 volwassenen (10 vocaal gezond plus 7 personen met dysfonie, waaronder 2 transvrouwen in genderbevestigende stemzorg) produceerden gegradeerde virtuele restaurantcondities systematische, progressieve stijgingen in geluidsdrukniveau (SPL) en gemiddelde spreek-f0. Beide groepen volgden hetzelfde SPL-patroon; de dysfoniegroep toonde vlakkere toonhoogteschaling naarmate de taakeisen toenamen. Deelnemers beoordeelden comfort en veiligheid als uitstekend; geen cybersickness, geen ongewenste voorvallen. De studie wordt beperkt door een kleine steekproef (N=17, atypische n=7), één enkele context (restaurant), één enkele sessie, één enige auteur met een aanzienlijk belangenconflict als uitvinder en octrooihouder, en een bewust gedempte audioscène die de ecologische validiteit beperkt. De bevindingen ondersteunen haalbaarheid en voorlopige constructvaliditeit voor stem-responsieve VR als gecontextualiseerd oefeninstrument, maar vestigen nog geen therapeutische werkzaamheid of generalisatie naar stemgebruik in de echte wereld - beide vereisen vervolgstudies met meerdere sessies in klinische populaties met controlevergelijkingen.

Belangrijkste bevindingen

17 volwassenen (10 vocaal gezond, 7 met dysfonie: presbyfonie, stemplooipoliep, stemplooiparese, spierspanningsdysfonie, en 2 transvrouwen in genderbevestigende stemzorg) voltooiden een eenmalig within-subjects protocol
Apparatuur: Oculus Quest 3 head-mounted display met de IVS-applicatie; AKG C520 condensatormicrofoon op 7 cm van de mond (gekalibreerd op 30 cm referentie); opnames via Computerized Speech Lab (CSL) op 44,1 kHz / 16 bit
Vier condities in willekeurige volgorde: Baseline (lid van het onderzoeksteam als luisteraar op ~2 m in de behandelkamer) plus drie IVS-niveaus in een virtueel restaurant - Normal (kelner op 5 m, +3 dB boven de eigen baseline van elke deelnemer, 5 s time-out), Effortful (10 m, +5 dB, 10 s), Calling (15 m, +10 dB, 20 s). Restaurant achtergrondgeluid werd gedempt om visueel-ruimtelijke effecten te isoleren
Hoofdeffect van IVS-niveau op SPL was significant: F(3, 48) = 33,94, p < 0,001. Ten opzichte van de Baseline steeg SPL met 3,83 dB (Normal), 7,41 dB (Effortful) en 9,04 dB (Calling), alle p < 0,001
Hoofdeffect van IVS-niveau op gemiddelde spreek-f0 was significant: F(3, 45) = 17,63, p < 0,001. Stapsgewijze stijgingen vanaf Baseline van circa 36 Hz (Normal, p = 0,008), 66,6 Hz (Effortful, p < 0,001) en 103,9 Hz (Calling, p < 0,001)
Groepshoofdeffecten: personen met dysfonie produceerden in het algemeen lagere SPL (schatting -6,88 dB, p = 0,001) en lagere gemiddelde f0 (p = 0,002) dan vocaal gezonde sprekers
Significante IVS-niveau x Groep interactie alleen voor gemiddelde f0: F(3, 45) = 3,94, p = 0,014. De toonhoogteschaling divergeerde in de veeleisendere condities - het verschil tussen groepen was niet-significant bij Baseline (p = 0,102), benaderde significantie bij Normal (p = 0,055) en was significant bij Effortful (p = 0,003) en Calling (p < 0,001). De SPL-interactie was niet-significant en werd uit het uiteindelijke model verwijderd - beide groepen verhoogden de luidheid parallel
Haalbaarheid (1-5 Likert): Bruikbaarheid & Interactie 3,9 (matig-goed), Immersie & Realisme 3,4 (matig, laagste domein), Betrokkenheid & Waargenomen Voordeel 4,0 (goed), Comfort & Veiligheid 4,5 (uitstekend). Totaal 4,0 (goed)
Geen ongewenste voorvallen. Geen gerapporteerde cybersickness. Geen technische onderbrekingen tijdens het protocol. Gemiddeld ~2 minuten om de moeilijkheidsparameters tussen trials opnieuw te configureren. Volledige sessie inclusief instructies en vragenlijsten duurde ~20 minuten per deelnemer
Open feedback signaleerde de beperkte reactiviteit van de avatar als belangrijke beperking - deelnemers vroegen om verbale reacties, gezichtsuitdrukkingen en conversationele gebaren om het interactierealisme te verdiepen

Achtergrond

Stemverandering is een motorisch leerprobleem, niet alleen een kennisprobleem. Gedragsmatige stemtherapie is effectief voor veel stemaandoeningen, maar winst in de kliniek wordt vaak niet doorgetrokken naar de dagelijkse communicatie. De literatuur over motorisch leren is duidelijk over waarom: duurzame verandering hangt af van oefenen onder omstandigheden die lijken op de doelcontext, niet alleen van het uitvoeren van het gedrag in een gestructureerde sessie. Het Specificity of Learning Principle, Transfer-Appropriate Processing en Encoding Specificity komen op hetzelfde punt uit - wanneer de sensorische en contextuele eisen van de oefening overeenkomen met die van het werkelijke gebruik, is de transfer sterker.

Stemgebruik in de echte wereld gebeurt onder gelaagde eisen: communicatieve intentie, luisteraarsafstand, sociaal-emotionele druk, kamergrootte, achtergrondakoestiek en visueel-ruimtelijke cues die signaleren hoeveel stem nodig is voordat iemand spreekt. Conventionele behandelkamers minimaliseren deze variabelen bewust, wat de initiële verwerving dient maar precies die cues onderbelicht waarvan de leertheorie zegt dat generalisatie ervan afhangt.

Immersieve virtual reality biedt een gecontroleerde manier om die cues weer in te brengen. Daşdöğen’s studie uit 2023 over multisensorische input (in deze Hub) vestigde dat visuele en audiovisuele VR-cues meetbare vocale aanpassingen aandrijven bij vocaal gezonde volwassenen, voorbij wat akoestische simulatie alleen oplevert. De studie van 2026 over getrainde zangers (ook in deze Hub) breidde dat uit naar een vergelijking tussen experten en ongetrainde sprekers. De huidige studie zet de volgende stap: blijft hetzelfde effect overeind in een klinische stempopulatie, en is een op maat gemaakt stem-responsief VR-platform haalbaar voor gebruik in die populatie.

Wat de onderzoekers deden

Een within-subjects pilot bij Mount Sinai met 17 volwassenen: 10 vocaal gezonde sprekers geworven uit de KNO-kliniek en ziekenhuispersoneel, en 7 personen met dysfonie geworven tijdens routine stemonderzoekafspraken (diagnoses omvatten presbyfonie, stemplooipoliep, stemplooiparese, spierspanningsdysfonie en genderbevestigende stemzorg).

De interventie was Immersive VoiceSpace (IVS) - een op maat gebouwd VR-platform ontwikkeld door de enige auteur. IVS draaide een licht bevolkt virtueel restaurant op een Oculus Quest 3 headset. Een kelner-NPC fungeerde als luisteraardoel. De kelner reageerde in real time op de stem van de deelnemer: als de stemintensiteit een vooraf ingestelde drempel haalde, kwam de kelner dichterbij en bleef in luisterhouding staan; als ze langer dan een ingestelde time-out onder de drempel zakte, liep de kelner weg.

Drie parameters werden over de condities gegradeerd:

Luisteraarsafstand - 5 m (Normal), 10 m (Effortful), 15 m (Calling)
Stemactivatiedrempel - +3 dB, +5 dB, +10 dB boven de baseline-conditie SPL van elke deelnemer
Wegloop-time-out - 5 s, 10 s, 20 s

De spreektaak in alle vier condities was dezelfde: “Bestel een drankje, een voorgerecht, een hoofdgerecht en een dessert.” De Baseline-conditie werd uitgevoerd met een lid van het onderzoeksteam als luisteraar in de behandelkamer op ~2 m. De drie IVS-condities werden uitgevoerd in het virtuele restaurant in willekeurige volgorde.

Om visueel-ruimtelijke effecten te isoleren, werd het achtergrondgeluid van het restaurant (achtergrondgesprekken en bestek, die IVS kan afspelen) in alle experimentele condities gedempt. De akoestische opname werd gemaakt via een AKG C520 head-mounted condensatormicrofoon op 7 cm van de mond, gekalibreerd op een referentie van 30 cm, opgenomen op 44,1 kHz / 16 bit via Computerized Speech Lab (CSL).

Uitkomsten: geluidsdrukniveau (SPL, dB) en gemiddelde spreekfundamentele frequentie (gemiddelde f0, Hz), elk geëxtraheerd uit CSL en geanalyseerd in afzonderlijke lineaire mixed-effects modellen met een willekeurig intercept voor subject. Vaste effecten waren Groep (Typisch, Atypisch) en Taakconditie (Baseline, Normal, Effortful, Calling). De Groep x Taakconditie interactie werd behouden voor gemiddelde f0 (significant) en uit het uiteindelijke SPL-model verwijderd (niet-significant). Vaste effecten werden geëvalueerd met Type III sums of squares en Kenward-Roger benaderde vrijheidsgraden; paarsgewijze contrasten gebruikten geschatte marginale gemiddelden met Tukey-correctie.

Een 5-punts Likert-vragenlijst (door de auteur ontwikkeld, nog niet gevalideerd) registreerde vier domeinen na de sessie: Bruikbaarheid en Interactie, Immersie en Realisme, Betrokkenheid en Waargenomen Voordeel, Comfort en Veiligheid. Domeinscores werden gemiddeld; een totale haalbaarheidsindex was het gemiddelde van de vier domeinen. Open feedback werd descriptief beoordeeld.

Wat ze vonden

Geluidsdrukniveau. Een significant hoofdeffect van IVS-niveau: F(3, 48) = 33,94, p < 0,001. Ten opzichte van Baseline steeg SPL met 3,83 dB bij Normal, 7,41 dB bij Effortful en 9,04 dB bij Calling (alle p < 0,001). De paarsgewijze contrasten Normal-naar-Effortful en Normal-naar-Calling waren significant; de stap van 1,63 dB van Effortful naar Calling was dat niet (p = 0,450), wat suggereert dat er een plafondachtig patroon optreedt op het hoogste vraagniveau. Het hoofdeffect van Groep was ook significant: personen met dysfonie produceerden gemiddeld ongeveer 6,88 dB lagere SPL dan vocaal gezonde sprekers. De Groep x Niveau interactie was niet-significant en werd daarom uit het uiteindelijke SPL-model verwijderd - beide groepen verhoogden de luidheid parallel naarmate de taakeisen toenamen.

Gemiddelde spreek-f0. Een significant hoofdeffect van IVS-niveau: F(3, 45) = 17,63, p < 0,001. Stapsgewijze stijgingen ten opzichte van Baseline (intercept ≈ 201,8 Hz voor de typische groep) van ongeveer 36 Hz bij Normal (p = 0,008), 66,6 Hz bij Effortful (p < 0,001) en 103,9 Hz bij Calling (p < 0,001). Het hoofdeffect van Groep was significant, maar de Niveau x Groep interactie was ook significant: F(3, 45) = 3,94, p = 0,014. Decompositie van de interactie: bij Baseline verschilden de groepen niet in gemiddelde f0 (p = 0,102); bij Normal benaderde het verschil significantie maar bereikte het niet (p = 0,055); bij Effortful (p = 0,003) en Calling (p < 0,001) was de kloof significant en groeide met de taakeisen. De dysfoniegroep verhoogde de toonhoogte met de taakeisen, maar in mindere mate dan de vocaal gezonde groep.

Haalbaarheid. Domeinscores (op 5): Bruikbaarheid en Interactie 3,9 (matig-goed), Immersie en Realisme 3,4 (matig, het laagste domein), Betrokkenheid en Waargenomen Voordeel 4,0 (goed), Comfort en Veiligheid 4,5 (uitstekend). Totale haalbaarheidsindex 4,0 (goed). Geen ongewenste voorvallen, geen cybersickness, geen technische onderbrekingen tijdens het protocol. De gemiddelde herconfiguratietijd van parameters tussen trials was ongeveer 2 minuten. De totale sessieduur was ongeveer 20 minuten per deelnemer.

Kwalitatieve feedback. Deelnemers omschreven de ervaring als “leuk,” “als een videogame,” en “een realistische manier om stemgebruik te oefenen.” Ze benoemden het live, responsieve gedrag van de kelner als het meest betrokken element. De meest consistente negatieve feedback was het beperkte interactionele gedrag van de kelner - deelnemers wilden verbale reacties, gezichtsuitdrukkingen en gebaren tijdens luisterbeurten om de interactie natuurlijker te laten aanvoelen.

Waarom dit belangrijk is

Voor de Evidence Hub zijn drie zaken belangrijk aan dit paper:

Eerste gepubliceerd gebruik bij een klinische populatie van een op maat gebouwd stem-responsief VR-platform. Eerder immersief-VR-stemwerk (waaronder Daşdöğen 2023 en Daşdöğen 2026 over getrainde zangers) speelde zich grotendeels af bij vocaal gezonde volwassenen. Deze studie breidt uit naar personen met dysfonie, inclusief diagnostisch diverse gevallen.
Direct bewijs dat stem-responsieve avatarfeedback gegradeerde vocale schaling kan ontlokken zonder expliciete sturing van de clinicus. Dit is de dichtstbijzijnde gepubliceerde demonstratie van een generalisatie- en transfer-mechanisme voor stemtherapie: de deelnemer past de vocale output in real time aan op functionele omgevingseisen, als reactie op non-verbale contextuele feedback.
Vergelijkbaar gedragspatroon over vocaal gezonde en dysfoniegroepen voor luidheid, met beperkte toonhoogteflexibiliteit in de dysfoniegroep. De SPL-bevinding suggereert dat het contextuele mechanisme intact is bij sprekers met stemstoornissen; de f0-bevinding sluit aan bij de bredere stemliteratuur over verminderde fonatorische flexibiliteit bij verstoorde fonatie.

Voor Therapy withVR specifiek: dit werk testte IVS, niet Therapy withVR. Het bredere principe dat het ondersteunt (gegradeerde visueel-ruimtelijke eisen ontlokken functionele vocale aanpassing) komt overeen met de rationale die clinici al gebruiken bij de keuze van scènes in Therapy withVR voor stemwerk. Directe equivalentie van het avatar-drempel-triggermechanisme tussen platforms is niet bestudeerd.

Beperkingen

Het paper is expliciet over wat deze studie wel en niet aantoont:

De steekproef is klein (N = 17; atypische n = 7). Subgroepanalyse per stemdiagnose is bij dit N niet haalbaar.
Slechts één sessie. De centrale claim van het IVS-theoretische kader is verbeterde transfer over leersessies, wat dit ontwerp niet kan testen.
Geen controle- of vergelijkingsconditie. Er is geen op verbeelding gebaseerde controle, geen alternatieve-behandelingsvergelijking en geen wachtlijstarm. De waargenomen effecten over IVS-niveaus zijn consistent met de visueel-ruimtelijke manipulatie, maar kunnen niet zuiver gescheiden worden van VR-blootstellings- of nieuwheidseffecten.
Baseline opgenomen buiten de headset. De vergelijking van Baseline naar Normal verstrengelt de taakeisen met het opzetten van de headset en het voor het eerst betreden van een virtuele omgeving.
Audio werd gedempt. Restaurant achtergrondgeluid (dat IVS kan afspelen) werd bewust gedempt om visueel-ruimtelijke effecten te isoleren. Dit is een schone experimentele keuze maar beperkt de ecologische validiteit - echte restaurants zijn rumoerig, en lawaai is een bekende drijfveer van vocale aanpassing.
Eén virtuele context. Slechts één scène (het restaurant) werd getest. De klinische routekaart vraagt om aantoning van hetzelfde patroon over meerdere contexten (kliniek, klaslokaal, werkplek, optreden, medische settings).
De haalbaarheidsvragenlijst is door de auteur ontwikkeld en niet gevalideerd. De open feedback is informatief, maar moet als descriptief en niet als psychometrisch behandeld worden.
Aanzienlijk belangenconflict. De enige auteur is de uitvinder van IVS, houder van een Amerikaanse octrooiaanvraag op de technologie en de enige onderzoeker in deze studie. Er is geen inter-rater betrouwbaarheidswerk, geen kwaliteitscontrole door co-onderzoekers en geen onafhankelijke replicatie.
Interactionele beperkingen van de avatar. Deelnemersfeedback signaleerde het ontbreken van verbale en gestuele avatarrespons als beperking van het waargenomen realisme. Dit is een ontwikkelingsprioriteit voor toekomstige versies en is ook een belangrijke bedreiging voor de interpretatie van de Immersie en Realisme scores in de huidige pilot.

Hoe dit aansluit bij de bredere Evidence Hub

Deze studie maakt deel uit van een groeiende lijn van immersief-VR-stemwerk gecentreerd rond Mount Sinai / Daşdöğen en aangrenzende stemlabs:

Daşdöğen e.a. 2023 (Journal of Voice) - het funderende realisme-en-validiteit werk bij 31 vocaal gezonde volwassenen over 18 sensorische-inputcondities. Stelde vast dat visuele en audiovisuele VR-cues, niet alleen akoestische cues, de vocale output veranderen.
Daşdöğen en Hitchcock 2026 (Journal of Voice) - studie bij getrainde zangers versus ongetrainde sprekers met de Rooms-situatie in Therapy withVR. Toonde aan dat virtuele afstandscues de vocale schaling anders aansturen in getrainde versus ongetrainde stemmen.
Hoff 2026 (Journal of Voice) - VR-gebaseerde korte meditatie voorafgaand aan stemtherapie. Ander mechanisme (regulatie van toestandsangst in plaats van directe vocale cueing) maar dezelfde richting voor VR-adoptie in stemklinieken.
Leyns e.a. 2025 (Journal of Voice) - RCT van VR-gebaseerde genderbevestigende stemtraining met Therapy withVR. Direct relevant gezien dat IVS naar verluidt genderbevestigende stemmodules ontwikkelt volgens institutionele rapportage van Mount Sinai.

Het bredere landschap: stem-VR beweegt van “voelt de simulatie echt genoeg om gedrag te veranderen” (grotendeels beantwoord: ja) naar “zorgt het oefenen in de simulatie voor transfer naar stemgebruik in de echte wereld” (grotendeels onbeantwoord, in afwachting van longitudinaal werk over meerdere sessies). Deze studie ligt op de grens - haalbaarheid en onmiddellijk gedragssignaal zijn vastgesteld voor een op maat gebouwd stem-responsief platform; transfer is de volgende toets.

Opmerking over het Immersive VoiceSpace platform. IVS is onderscheiden van Therapy withVR. Het is een single-scene, stem-drempel-responsief systeem, uitgevonden en gepatenteerd door de auteur van de studie. Het institutionele rapport van Mount Sinai (mei 2026, “Hypophonia”) beschrijft lopend werk dat IVS uitbreidt naar personen met hypofonie bij de ziekte van Parkinson, met geplande modules voor vocale feminisatie en aanvullende contexten. De IP-status van IVS kon op het moment van deze review niet onafhankelijk worden geverifieerd (zie funding/COI-veld).

Implicaties voor de praktijk

Voor stemclinici die immersieve VR voor stemwerk gebruiken of evalueren: deze studie breidt eerdere lab-gebaseerde VR-stembevindingen uit (Daşdöğen 2023, Daşdöğen 2026 paper over getrainde zangers) door te tonen dat dezelfde realisme-en-validiteit-effecten standhouden in een klinische populatie (personen met dysfonie), niet alleen bij vocaal gezonde volwassenen. Beide groepen verhoogden de luidheid in lijn met gegradeerde afstand- en drempelcues; de toonhoogteschaling was beperkter voor personen met dysfonie, consistent met verminderde fonatorische flexibiliteit zoals gedocumenteerd in de bredere stemliteratuur. Praktisch: gecontextualiseerd oefenen in virtuele omgevingen kan functionele vocale output ontlokken zonder expliciete sturing van de clinicus, wat aansluit bij het generalisatie- en transferprobleem dat de overdracht van kliniek naar dagelijkse communicatie al lang beperkt. Deze studie testte specifiek Immersive VoiceSpace, niet Therapy withVR - clinici die Therapy withVR gebruiken kunnen uit dit werk hetzelfde bredere principe meenemen (gegradeerde visueel-ruimtelijke eisen ontlokken vocale schaling) maar mogen niet aannemen dat het avatar-drempel-triggermechanisme direct equivalent is zonder afzonderlijke validatie. De bevindingen sluiten aan bij het sociale model van communicatie: barrières voor functioneel stemgebruik zitten in de contexten waar stem nodig is, en het is het oefenen in die contexten (en niet in kale behandelkamers) wat het bewijs ondersteunt.

Implicaties voor onderzoek

Replicatie en uitbreiding zijn nodig in: (a) grotere steekproeven met voldoende power voor subgroepanalyse per stemdiagnose; (b) protocollen met meerdere sessies die leren, retentie en generalisatie naar de echte wereld testen (de centrale claim van het IVS-theoretische kader is transfer-appropriate processing, wat longitudinale data vereist); (c) gecontroleerde vergelijkingscondities, inclusief op verbeelding gebaseerde controletaken om de unieke bijdrage van immersieve visueel-ruimtelijke cues te isoleren van VR-blootstellings-/nieuwheidseffecten; (d) hypofonie bij de ziekte van Parkinson, de belangrijkste klinische toepassing van IVS volgens institutionele rapportage van Mount Sinai; (e) genderbevestigende stemzorg, waar IVS-feminisatiemodules naar verluidt in ontwikkeling zijn; (f) de avatar-interactiebeperking die door deelnemers werd gesignaleerd - of rijkere verbale/non-verbale avatarresponsen (mogelijk AI-aangedreven) de uitkomsten wezenlijk verbeteren. Onafhankelijke replicatie buiten de uitvindende instelling zou de bewijsbasis aanzienlijk versterken.

Citeer deze studie

Als u naar deze studie verwijst in uw werk, zijn dit de canonieke citatieformaten:

APA 7th

Daşdöğen Ü (2026). Immersive VoiceSpace: Development and Pilot Testing of a Virtual Reality System for Contextualized Vocal Training. Journal of Voice. https://doi.org/10.1016/j.jvoice.2026.04.047.

AMA 11th

Daşdöğen Ü. Immersive VoiceSpace: Development and Pilot Testing of a Virtual Reality System for Contextualized Vocal Training. Journal of Voice. 2026. doi:10.1016/j.jvoice.2026.04.047.

BibTeX

@article{daden2026,
  author = {Daşdöğen Ü},
  title = {Immersive VoiceSpace: Development and Pilot Testing of a Virtual Reality System for Contextualized Vocal Training},
  journal = {Journal of Voice},
  year = {2026},
  doi = {10.1016/j.jvoice.2026.04.047},
  url = {https://withvr.app/nl/evidence/studies/dasdogen-2026-ivs}
}

RIS

TY  - JOUR
AU  - Daşdöğen Ü
TI  - Immersive VoiceSpace: Development and Pilot Testing of a Virtual Reality System for Contextualized Vocal Training
JO  - Journal of Voice
PY  - 2026
DO  - 10.1016/j.jvoice.2026.04.047
UR  - https://withvr.app/nl/evidence/studies/dasdogen-2026-ivs
ER  -

Kent u onderzoek dat in deze hub thuishoort? Als een relevante peer-reviewed studie hier niet vermeld staat, stuur de referentie naar hello@withvr.app. De hub wordt actueel gehouden naarmate de literatuur groeit.

Financiering & onafhankelijkheid

Studie door één enige auteur, Ümit Daşdöğen (Research Director, Speech and Language Pathology, The Grabscheid Voice and Swallowing Center; Assistant Professor of Otolaryngology, Icahn School of Medicine at Mount Sinai). Geen externe financiers, beurzen of sponsoren genoemd in het manuscript. IRB-goedkeuring: Mount Sinai STUDY-25-01418. Aanzienlijk belangenconflict: de auteur heeft het Immersive VoiceSpace (IVS) platform uitgevonden en wordt in het gepubliceerde manuscript geïdentificeerd als houder van een Amerikaanse octrooiaanvraag op de technologie (USPTO Application No. 63/987 volgens het manuscript - dit lijkt een afgekapt provisional-application nummer; het volledige nummer werd niet vermeld in het gepubliceerde paper, en kon op het moment van deze review niet onafhankelijk worden gelokaliseerd via USPTO Patent Public Search of Google Patents, consistent met de vertrouwelijkheid van provisional-applications). Het merk Immersive VoiceSpace® verschijnt met het federale-registratiesymbool in de institutionele rapportage van Mount Sinai; een USPTO TESS merkonderzoek leverde op het moment van deze review geen overeenkomende actieve registratie op. Deze IP-claims worden gerapporteerd als verklaringen van de auteur zelf en konden niet onafhankelijk worden geverifieerd. Deze overlappende rollen (onderzoeker, auteur, uitvinder, IP-houder, ontwerper van vragenlijsten) zijn gangbaar in vroeg-stadium academische platformontwikkeling en worden hier vermeld voor transparantie; lezers moeten de haalbaarheids- en acceptatieuitkomsten specifiek met deze context in gedachten wegen. Therapy withVR (withVR BV, België) had geen rol in financiering, ontwerp, uitvoering, analyse of rapportage van deze studie; deze Evidence Hub-vermelding is onafhankelijk opgesteld op basis van het gepubliceerde peer-reviewed paper en het openbaar beschikbare institutionele rapport van Mount Sinai. Daşdöğen heeft afzonderlijk in 2026 een Journal of Voice-paper gepubliceerd met gebruik van de Rooms-situatie in Therapy withVR (zie dasdogen-2026 in deze Hub), en gebruikt Therapy withVR in ander onderzoekswerk.

Laatst beoordeeld: 2026-05-23 Volgende beoordeling gepland: 2027-05-23 Beoordeeld door: Gareth Walkom

Pilot van Immersive VoiceSpace VR (N=17): sprekers schaalden luidheid en toonhoogte over gegradeerde virtuele restaurantcondities

Belangrijkste bevindingen

Achtergrond

Wat de onderzoekers deden

Wat ze vonden

Waarom dit belangrijk is

Beperkingen

Hoe dit aansluit bij de bredere Evidence Hub

Implicaties voor de praktijk

Implicaties voor onderzoek

Gerelateerde studies

Within-subjects-studie (n=31): auditieve, visuele en audiovisuele VR-ruimtecues verschuiven allemaal vocale luidheid, inspanning en output

In VR bepaalt hoe ver de luisteraar lijkt te staan de stemluidheid sterker dan de kamergrootte

Virtuele kamergrootte en luisteraarafstand beïnvloeden hoe mensen hun stem gebruiken

VR-gebaseerde meditatie verminderde angst vóór stemtherapie in een kleine verkennende RCT, met minder uitval in de VR-arm

VR-gebaseerde spreekoefening verhoogt bereidheid tot communiceren bij genderbevestigende stemtraining

Citeer deze studie

Financiering & onafhankelijkheid