Was hat Daşdöğen et al. (2026) herausgefunden?

17 Erwachsene (10 stimmgesund, 7 mit Dysphonie: Presbyphonie, Stimmlippenpolyp, Stimmlippenparese, muskuläre Verspannungsdysphonie und 2 trans Frauen in geschlechtsbestätigender Stimmtherapie) absolvierten ein einzelnes Within-Subject-Protokoll Ausrüstung: Oculus Quest 3 Head-Mounted Display mit der IVS-Anwendung; AKG C520 Kondensatormikrofon in 7 cm Mundabstand (kalibriert auf 30 cm Referenz); Aufnahmen über Computerized Speech Lab (CSL) mit 44,1 kHz / 16 Bit Vier Bedingungen in randomisierter Reihenfolge: Baseline (Mitglied des Forschungsteams als Zuhörer:in in ca. 2 m im Behandlungsraum) plus drei IVS-Stufen in einem virtuellen Restaurant - Normal (Kellner:in in 5 m, +3 dB über der eigenen Baseline jedes Teilnehmenden, 5 s Timeout), Effortful (10 m, +5 dB, 10 s), Calling (15 m, +10 dB, 20 s). Das Umgebungsaudio des Restaurants wurde stumm geschaltet, um visuell-räumliche Effekte zu isolieren Haupteffekt der IVS-Stufe auf SPL war signifikant: F(3, 48) = 33,94, p < 0,001. Gegenüber Baseline stieg SPL um 3,83 dB (Normal), 7,41 dB (Effortful) und 9,04 dB (Calling), alle p < 0,001 Haupteffekt der IVS-Stufe auf die mittlere Sprech-f0 war signifikant: F(3, 45) = 17,63, p < 0,001. Stufenweise Anstiege gegenüber Baseline um etwa 36 Hz (Normal, p = 0,008), 66,6 Hz (Effortful, p < 0,001) und 103,9 Hz (Calling, p < 0,001) Gruppenhaupteffekte: Personen mit Dysphonie produzierten insgesamt einen niedrigeren SPL (Schätzung -6,88 dB, p = 0,001) und eine niedrigere mittlere f0 (p = 0,002) als stimmgesunde Sprecher:innen Signifikante Interaktion IVS-Stufe x Gruppe nur für die mittlere f0: F(3, 45) = 3,94, p = 0,014. Die Tonhöhenskalierung divergierte in den anspruchsvolleren Bedingungen - der Gruppenunterschied war bei Baseline nicht signifikant (p = 0,102), näherte sich der Signifikanz bei Normal (p = 0,055) und war signifikant bei Effortful (p = 0,003) und Calling (p < 0,001). Die SPL-Interaktion war nicht signifikant und wurde aus dem finalen Modell entfernt - beide Gruppen erhöhten die Lautstärke parallel Machbarkeit (1-5 Likert): Usability & Interaktion 3,9 (mäßig-gut), Immersion & Realismus 3,4 (mäßig, niedrigste Domäne), Engagement & wahrgenommener Nutzen 4,0 (gut), Komfort & Sicherheit 4,5 (ausgezeichnet). Gesamt 4,0 (gut) Keine unerwünschten Ereignisse. Keine berichtete Cybersickness. Keine technischen Unterbrechungen im Protokoll. Durchschnittlich ca. 2 Minuten zur Neukonfiguration der Schwierigkeitsparameter zwischen Trials. Gesamte Sitzung inkl. Anweisungen und Fragebögen dauerte ca. 20 Minuten pro Teilnehmer:in Freitextrückmeldungen hoben die begrenzte Reaktionsfähigkeit des Avatars als zentrale Einschränkung hervor - die Teilnehmenden wünschten verbale Antworten, Mimik und Gesprächsgesten, um den Interaktionsrealismus zu vertiefen

Wer hat an dieser Studie teilgenommen?

Diese Studie umfasste 17 Teilnehmende: Siebzehn Erwachsene rekrutiert bei Mount Sinai. Typische Gruppe (n=10, alle Frauen, Durchschnittsalter 37,9, Range 29-57) rekrutiert aus der HNO-Klinik und dem Klinikpersonal, stimmgesunder Status bestätigt durch kurze Stimmanamnese und CAPE-V. Atypische Gruppe (n=7, Durchschnittsalter 41,1, Range 27-78) rekrutiert bei routinemäßigen Stimmuntersuchungen, Diagnosen bestätigt durch laryngoskopische und auditiv-perzeptive Evaluation. Diagnosen der atypischen Gruppe: Presbyphonie (1), Stimmlippenpolyp (1), Stimmlippenparese (2), muskuläre Verspannungsdysphonie (1), geschlechtsbestätigende Stimmtherapie (2 trans Frauen). Alle waren amerikanische Englisch-Muttersprachlerinnen; alle mit normalem oder korrigiertem Seh- und Hörvermögen.

Diese Seite wurde aus dem Englischen übersetzt. Wenn etwas seltsam klingt, wechseln Sie zur englischen Version. Auf Englisch ansehen.

Pilot von Immersive VoiceSpace VR (N=17): Sprechende skalierten Lautstärke und Tonhöhe über abgestufte virtuelle Restaurantbedingungen

Daşdöğen Ü · 2026 · Journal of Voice · Experimentell · n = 17 · Siebzehn Erwachsene rekrutiert bei Mount Sinai... · DOI

Sicherheit der Evidenz: Niedrige Sicherheit

Wie dies bewertet wurde

Peer-Review im Journal of Voice (Elsevier), IRB-genehmigt (Mount Sinai STUDY-25-01418), lineare gemischte Modelle mit zufälligem Intercept je Proband:in und Kenward-Roger-Freiheitsgraden - ein vertretbarer analytischer Rahmen für eine Pilotstudie. Stärken: bezieht eine klinische Population (Dysphonie) ein und nicht nur stimmgesunde Erwachsene; auf die individuelle Baseline jedes Teilnehmenden bezogene dB-Schwellen entfernen Störeinflüsse durch den absoluten SPL; das Verhaltensmuster war über beide Gruppen hinweg für den SPL konsistent. Limitationen, die die Sicherheit niedrig halten: kleine Gesamt-N (17) mit nur 7 in der atypischen Gruppe; einzelne Sitzung und einzelner Kontext (ein leicht besetztes virtuelles Restaurant); keine Kontrollgruppe oder Vergleichsbedingung; Baseline außerhalb des Headsets erhoben, was VR-Exposition mit Aufgabenanforderungseffekten vermengt; Restaurant-Umgebungsaudio wurde bewusst stumm geschaltet, was den ökologischen Realismus und die externe Validität einschränkt; das primäre Machbarkeitsinstrument wurde vom Autor entwickelt und ist noch nicht validiert; Alleinautorenstudie ohne berichtete Inter-Rater-Reliabilität; erheblicher Interessenkonflikt - der Autor hat IVS erfunden und hält eine US-Patentanmeldung auf die Technologie (einziger gelisteter Erfinder). Die Arbeit etabliert Machbarkeit und Signal, keine Wirksamkeit. Replikationen in größeren multizentrischen Stichproben mit Kontrollvergleichern sind nötig, bevor klinische Entscheidungsanwendung infrage kommt.

Die Bewertungen verwenden ein vereinfachtes vierstufiges Schema (Hoch, Mittel, Niedrig, Sehr niedrig), angelehnt an die GRADE working group. Mehr darüber erfahren, wie Studien bewertet werden.

Eine Within-Subject-Pilotstudie zu Immersive VoiceSpace (IVS), einer maßgeschneiderten VR-Plattform für Stimmtraining, entwickelt vom Alleinautor. Siebzehn Erwachsene (10 stimmgesunde Sprecher:innen und 7 Personen mit Dysphonie) absolvierten eine Menü-Bestellaufgabe in einem virtuellen Restaurant unter vier Bedingungen - eine Baseline plus drei abgestufte IVS-Stufen, die Avatar-Distanz, Stimmaktivierungsschwellen und Weggeh-Timeouts manipulierten. Schalldruckpegel und mittlere Sprech-f0 stiegen über die IVS-Stufen in beiden Gruppen signifikant; die Tonhöhenflexibilität war in der Dysphonie-Gruppe stärker eingeschränkt. Die Machbarkeitsbewertungen waren insgesamt gut (4,0/5), Komfort und Sicherheit ausgezeichnet (4,5/5), keine Cybersickness berichtet.

Klinische Kernaussage

Erster veröffentlichter Machbarkeits- und Proof-of-Concept-Nachweis für Immersive VoiceSpace (IVS), eine maßgeschneiderte stimmreaktive VR-Plattform, erfunden und patentiert vom Alleinautor an Mount Sinai. In einer einzelnen Within-Subject-Pilotstudie mit 17 Erwachsenen (10 stimmgesund plus 7 Personen mit Dysphonie, darunter 2 trans Frauen in geschlechtsbestätigender Stimmtherapie) erzeugten abgestufte virtuelle Restaurantbedingungen systematische, progressive Anstiege des Schalldruckpegels (SPL) und der mittleren Sprech-f0. Beide Gruppen folgten demselben SPL-Muster; die Dysphonie-Gruppe zeigte eine flachere Tonhöhenskalierung mit steigenden Aufgabenanforderungen. Die Teilnehmenden bewerteten Komfort und Sicherheit als ausgezeichnet; keine Cybersickness, keine unerwünschten Ereignisse. Die Studie ist eingeschränkt durch eine kleine Stichprobe (N=17, atypisch n=7), einen einzigen Kontext (Restaurant), eine einzelne Sitzung, einen Alleinautor mit erheblichem Interessenkonflikt als Erfinder und Patentinhaber sowie eine bewusst stumm geschaltete Audioszene, die die ökologische Validität einschränkt. Die Befunde stützen die Machbarkeit und die vorläufige Konstruktvalidität für stimmreaktive VR als kontextualisiertes Übungswerkzeug, etablieren aber noch keine therapeutische Wirksamkeit oder Generalisierung auf den realen Stimmgebrauch - beides erfordert nachfolgende mehrsitzige Studien in klinischen Populationen mit Kontrollvergleichern.

Wichtigste Ergebnisse

17 Erwachsene (10 stimmgesund, 7 mit Dysphonie: Presbyphonie, Stimmlippenpolyp, Stimmlippenparese, muskuläre Verspannungsdysphonie und 2 trans Frauen in geschlechtsbestätigender Stimmtherapie) absolvierten ein einzelnes Within-Subject-Protokoll
Ausrüstung: Oculus Quest 3 Head-Mounted Display mit der IVS-Anwendung; AKG C520 Kondensatormikrofon in 7 cm Mundabstand (kalibriert auf 30 cm Referenz); Aufnahmen über Computerized Speech Lab (CSL) mit 44,1 kHz / 16 Bit
Vier Bedingungen in randomisierter Reihenfolge: Baseline (Mitglied des Forschungsteams als Zuhörer:in in ca. 2 m im Behandlungsraum) plus drei IVS-Stufen in einem virtuellen Restaurant - Normal (Kellner:in in 5 m, +3 dB über der eigenen Baseline jedes Teilnehmenden, 5 s Timeout), Effortful (10 m, +5 dB, 10 s), Calling (15 m, +10 dB, 20 s). Das Umgebungsaudio des Restaurants wurde stumm geschaltet, um visuell-räumliche Effekte zu isolieren
Haupteffekt der IVS-Stufe auf SPL war signifikant: F(3, 48) = 33,94, p < 0,001. Gegenüber Baseline stieg SPL um 3,83 dB (Normal), 7,41 dB (Effortful) und 9,04 dB (Calling), alle p < 0,001
Haupteffekt der IVS-Stufe auf die mittlere Sprech-f0 war signifikant: F(3, 45) = 17,63, p < 0,001. Stufenweise Anstiege gegenüber Baseline um etwa 36 Hz (Normal, p = 0,008), 66,6 Hz (Effortful, p < 0,001) und 103,9 Hz (Calling, p < 0,001)
Gruppenhaupteffekte: Personen mit Dysphonie produzierten insgesamt einen niedrigeren SPL (Schätzung -6,88 dB, p = 0,001) und eine niedrigere mittlere f0 (p = 0,002) als stimmgesunde Sprecher:innen
Signifikante Interaktion IVS-Stufe x Gruppe nur für die mittlere f0: F(3, 45) = 3,94, p = 0,014. Die Tonhöhenskalierung divergierte in den anspruchsvolleren Bedingungen - der Gruppenunterschied war bei Baseline nicht signifikant (p = 0,102), näherte sich der Signifikanz bei Normal (p = 0,055) und war signifikant bei Effortful (p = 0,003) und Calling (p < 0,001). Die SPL-Interaktion war nicht signifikant und wurde aus dem finalen Modell entfernt - beide Gruppen erhöhten die Lautstärke parallel
Machbarkeit (1-5 Likert): Usability & Interaktion 3,9 (mäßig-gut), Immersion & Realismus 3,4 (mäßig, niedrigste Domäne), Engagement & wahrgenommener Nutzen 4,0 (gut), Komfort & Sicherheit 4,5 (ausgezeichnet). Gesamt 4,0 (gut)
Keine unerwünschten Ereignisse. Keine berichtete Cybersickness. Keine technischen Unterbrechungen im Protokoll. Durchschnittlich ca. 2 Minuten zur Neukonfiguration der Schwierigkeitsparameter zwischen Trials. Gesamte Sitzung inkl. Anweisungen und Fragebögen dauerte ca. 20 Minuten pro Teilnehmer:in
Freitextrückmeldungen hoben die begrenzte Reaktionsfähigkeit des Avatars als zentrale Einschränkung hervor - die Teilnehmenden wünschten verbale Antworten, Mimik und Gesprächsgesten, um den Interaktionsrealismus zu vertiefen

Hintergrund

Stimmveränderung ist ein motorisches Lernproblem, nicht nur ein Wissensproblem. Verhaltensbezogene Stimmtherapie ist für viele Stimmstörungen wirksam, aber Fortschritte in der Klinik gelingen den Übertrag in die Alltagskommunikation oft nicht. Die Literatur zum motorischen Lernen ist klar, warum: Dauerhafte Veränderung hängt vom Üben unter Bedingungen ab, die dem Zielkontext gleichen, nicht nur vom Ausführen des Verhaltens in einer strukturierten Sitzung. Das Specificity of Learning Principle, Transfer-Appropriate Processing und Encoding Specificity laufen alle auf denselben Punkt hinaus - wenn die sensorischen und kontextuellen Anforderungen des Übens den Anforderungen des tatsächlichen Gebrauchs entsprechen, ist der Transfer stärker.

Realer Stimmgebrauch geschieht unter geschichteten Anforderungen: kommunikative Absicht, Zuhörerdistanz, sozial-emotionaler Druck, Raumgröße, Hintergrundakustik und visuell-räumliche Hinweise, die signalisieren, wie viel Stimme nötig ist, bevor eine Person überhaupt spricht. Konventionelle Behandlungsräume minimieren diese Variablen bewusst, was der initialen Aneignung dient, aber genau jene Hinweise unterrepräsentiert, von denen die Lerntheorie sagt, dass die Generalisierung von ihnen abhängt.

Immersive Virtual Reality bietet einen kontrollierten Weg, diese Hinweise wieder einzuführen. Daşdöğens multisensorische Studie 2023 (in diesem Hub) hat festgestellt, dass visuelle und audiovisuelle VR-Hinweise messbare Stimmanpassungen bei stimmgesunden Erwachsenen vorantreiben, über das hinaus, was akustische Simulation allein hervorbringt. Die Studie 2026 mit ausgebildeten Sänger:innen (ebenfalls in diesem Hub) erweiterte dies auf den Vergleich von expert:innenhaften und ungeübten Sprecher:innen. Die vorliegende Studie macht den nächsten Schritt: Hält derselbe Effekt in einer klinischen Stimmpopulation stand, und ist eine maßgeschneiderte stimmreaktive VR-Plattform in dieser Population praktikabel einsetzbar.

Was die Forschenden taten

Eine Within-Subject-Pilotstudie an Mount Sinai mit 17 Erwachsenen: 10 stimmgesunde Sprecher:innen rekrutiert aus der HNO-Klinik und dem Krankenhauspersonal sowie 7 Personen mit Dysphonie rekrutiert bei routinemäßigen Stimmuntersuchungen (Diagnosen einschließlich Presbyphonie, Stimmlippenpolyp, Stimmlippenparese, muskulärer Verspannungsdysphonie und geschlechtsbestätigender Stimmtherapie).

Die Intervention war Immersive VoiceSpace (IVS) - eine maßgeschneiderte VR-Plattform, entwickelt vom Alleinautor. IVS renderte ein leicht besetztes virtuelles Restaurant auf einem Oculus Quest 3 Headset. Ein Kellner-NPC diente als Zuhörerziel. Der Kellner reagierte in Echtzeit auf die Stimme der Teilnehmenden: Erreichte die Stimmintensität eine voreingestellte Schwelle, näherte sich der Kellner und blieb in Zuhörhaltung; fiel sie länger als ein eingestelltes Timeout unter die Schwelle, ging der Kellner weg.

Drei Parameter wurden über die Bedingungen abgestuft:

Zuhörerdistanz - 5 m (Normal), 10 m (Effortful), 15 m (Calling)
Stimmaktivierungsschwelle - +3 dB, +5 dB, +10 dB über dem eigenen Baseline-SPL jedes Teilnehmenden
Weggeh-Timeout - 5 s, 10 s, 20 s

Die Sprechaufgabe in allen vier Bedingungen war dieselbe: “Bestelle ein Getränk, eine Vorspeise, ein Hauptgericht und ein Dessert.” Die Baseline-Bedingung wurde mit einem Mitglied des Forschungsteams als Zuhörer:in im Behandlungsraum in ca. 2 m durchgeführt. Die drei IVS-Bedingungen wurden im virtuellen Restaurant in randomisierter Reihenfolge durchgeführt.

Um visuell-räumliche Effekte zu isolieren, wurde das Umgebungsaudio des Restaurants (Hintergrundgespräche und Besteckgeräusche, die IVS abspielen kann) in allen Versuchsbedingungen stumm geschaltet. Die akustische Aufnahme erfolgte über ein kopfgetragenes AKG C520 Kondensatormikrofon in 7 cm Mundabstand, kalibriert auf eine 30-cm-Referenz, erfasst mit 44,1 kHz / 16 Bit über Computerized Speech Lab (CSL).

Endpunkte: Schalldruckpegel (SPL, dB) und mittlere Sprechgrundfrequenz (mittlere f0, Hz), jeweils aus CSL extrahiert und in getrennten linearen gemischten Modellen mit zufälligem Intercept je Proband:in analysiert. Feste Effekte waren Gruppe (Typisch, Atypisch) und Aufgabenbedingung (Baseline, Normal, Effortful, Calling). Die Interaktion Gruppe x Aufgabenbedingung wurde für die mittlere f0 beibehalten (signifikant) und aus dem finalen SPL-Modell entfernt (nicht signifikant). Feste Effekte wurden mit Typ-III-Quadratsummen und Kenward-Roger-approximierten Freiheitsgraden bewertet; paarweise Kontraste verwendeten geschätzte marginale Mittelwerte mit Tukey-Korrektur.

Ein 5-Punkt-Likert-Fragebogen (vom Autor entwickelt, noch nicht validiert) erfasste nach der Sitzung vier Domänen: Usability und Interaktion, Immersion und Realismus, Engagement und wahrgenommener Nutzen, Komfort und Sicherheit. Domänenwerte wurden gemittelt; ein Gesamt-Machbarkeitsindex war der Mittelwert der vier Domänen. Freitextrückmeldungen wurden deskriptiv ausgewertet.

Was sie fanden

Schalldruckpegel. Ein signifikanter Haupteffekt der IVS-Stufe: F(3, 48) = 33,94, p < 0,001. Gegenüber Baseline stieg SPL um 3,83 dB bei Normal, 7,41 dB bei Effortful und 9,04 dB bei Calling (alle p < 0,001). Die paarweisen Kontraste Normal-zu-Effortful und Normal-zu-Calling waren signifikant; der Schritt von 1,63 dB von Effortful zu Calling nicht (p = 0,450), was ein deckenartiges Muster auf der höchsten Anforderungsstufe nahelegt. Der Gruppen-Haupteffekt war ebenfalls signifikant: Personen mit Dysphonie produzierten im Durchschnitt etwa 6,88 dB weniger SPL als stimmgesunde Sprecher:innen. Die Interaktion Gruppe x Stufe war nicht signifikant und wurde daher aus dem finalen SPL-Modell entfernt - beide Gruppen erhöhten die Lautstärke parallel, während die Aufgabenanforderungen stiegen.

Mittlere Sprech-f0. Ein signifikanter Haupteffekt der IVS-Stufe: F(3, 45) = 17,63, p < 0,001. Stufenweise Anstiege gegenüber Baseline (Intercept ≈ 201,8 Hz für die typische Gruppe) von etwa 36 Hz bei Normal (p = 0,008), 66,6 Hz bei Effortful (p < 0,001) und 103,9 Hz bei Calling (p < 0,001). Der Gruppen-Haupteffekt war signifikant, aber auch die Interaktion Stufe x Gruppe war signifikant: F(3, 45) = 3,94, p = 0,014. Zerlegung der Interaktion: Bei Baseline unterschieden sich die Gruppen nicht in der mittleren f0 (p = 0,102); bei Normal näherte sich der Unterschied der Signifikanz, ohne sie zu erreichen (p = 0,055); bei Effortful (p = 0,003) und Calling (p < 0,001) war die Lücke signifikant und wuchs mit den Anforderungen. Die Dysphonie-Gruppe hob die Tonhöhe mit den Anforderungen an, jedoch in geringerem Ausmaß als die stimmgesunde Gruppe.

Machbarkeit. Domänenwerte (von 5): Usability und Interaktion 3,9 (mäßig-gut), Immersion und Realismus 3,4 (mäßig, niedrigste Domäne), Engagement und wahrgenommener Nutzen 4,0 (gut), Komfort und Sicherheit 4,5 (ausgezeichnet). Gesamt-Machbarkeitsindex 4,0 (gut). Keine unerwünschten Ereignisse, keine Cybersickness, keine technischen Unterbrechungen im Protokoll. Die durchschnittliche Parameter-Neukonfigurationszeit zwischen Trials betrug etwa 2 Minuten. Die gesamte Sitzungsdauer lag bei etwa 20 Minuten pro Teilnehmer:in.

Qualitatives Feedback. Die Teilnehmenden beschrieben die Erfahrung als “spaßig,” “wie ein Videospiel” und “eine realistische Art, Stimmgebrauch zu üben.” Sie hoben das live, reaktive Verhalten des Kellners als das engagierendste Element hervor. Die konsistenteste negative Rückmeldung betraf das begrenzte interaktionale Verhalten des Kellners - die Teilnehmenden wünschten verbale Antworten, Mimik und Gesten in den Hörphasen, damit sich die Interaktion natürlicher anfühlt.

Warum das wichtig ist

Für den Evidence Hub sind drei Aspekte dieses Beitrags wichtig:

Erste veröffentlichte klinische Anwendung einer maßgeschneiderten stimmreaktiven VR-Plattform. Vorherige Arbeiten zur immersiven VR-Stimme (einschließlich Daşdöğen 2023 und Daşdöğen 2026 ausgebildete Sänger:innen) fanden weitgehend bei stimmgesunden Erwachsenen statt. Diese Studie erweitert auf Personen mit Dysphonie, einschließlich diagnostisch diverser Fälle.
Direkter Nachweis, dass stimmreaktives Avatar-Feedback eine abgestufte Stimmskalierung ohne explizite klinische Anleitung hervorrufen kann. Dies ist die bisher klarste veröffentlichte Demonstration eines Generalisierungs- und Transfermechanismus für Stimmtherapie: Die teilnehmende Person passt die Stimmproduktion in Echtzeit an funktionale Umweltanforderungen an, in Reaktion auf nonverbales kontextuelles Feedback.
Vergleichbares Verhaltensmuster zwischen stimmgesunden und Dysphonie-Gruppen für die Lautstärke, bei eingeschränkter Tonhöhenflexibilität in der Dysphonie-Gruppe. Der SPL-Befund legt nahe, dass der kontextuelle Mechanismus bei Sprecher:innen mit Stimmstörung intakt ist; der f0-Befund ist konsistent mit der breiteren Stimmliteratur zur reduzierten phonatorischen Flexibilität bei gestörter Phonation.

Für Therapy withVR speziell: Diese Arbeit testete IVS, nicht Therapy withVR. Das breitere Prinzip, das sie stützt (abgestufte visuell-räumliche Anforderungen rufen funktionale Stimmanpassung hervor), entspricht der Rationale, die Therapeut:innen bereits beim Auswählen von Szenen in Therapy withVR für Stimmarbeit nutzen. Eine direkte Äquivalenz des Avatar-Schwellen-Triggermechanismus zwischen den Plattformen wurde nicht untersucht.

Limitationen

Der Beitrag ist explizit darin, was diese Studie etabliert und was nicht:

Die Stichprobe ist klein (N = 17; atypisch n = 7). Subgruppenanalysen nach Stimmdiagnose sind bei diesem N nicht möglich.
Nur eine einzige Sitzung. Die zentrale Behauptung des theoretischen IVS-Rahmens ist verbesserter Transfer über Lernsitzungen, was dieses Design nicht testen kann.
Keine Kontroll- oder Vergleichsbedingung. Es gibt keine vorstellungsbasierte Kontrolle, keinen alternativen Behandlungsvergleich und keinen Wartelistenarm. Die beobachteten Effekte über die IVS-Stufen sind konsistent mit der visuell-räumlichen Manipulation, lassen sich aber nicht sauber von VR-Expositions- oder Neuheitseffekten trennen.
Baseline außerhalb des Headsets erhoben. Der Vergleich Baseline-zu-Normal vermengt die Aufgabenanforderung mit dem Aufsetzen des Headsets und dem erstmaligen Betreten einer virtuellen Umgebung.
Audio war stumm. Restaurant-Umgebungsaudio (das IVS abspielen kann) wurde bewusst stumm geschaltet, um visuell-räumliche Effekte zu isolieren. Das ist eine saubere experimentelle Wahl, schränkt aber die ökologische Validität ein - reale Restaurants sind laut, und Lärm ist ein bekannter Treiber stimmlicher Anpassung.
Einzelner virtueller Kontext. Nur eine Szene (das Restaurant) wurde getestet. Die klinische Roadmap erfordert den Nachweis desselben Musters in mehreren Kontexten (Klinik, Klassenzimmer, Arbeitsplatz, Auftritt, medizinische Settings).
Der Machbarkeitsfragebogen wurde vom Autor entwickelt und ist nicht validiert. Offenes Feedback ist informativ, sollte aber als deskriptiv und nicht als psychometrisch behandelt werden.
Erheblicher Interessenkonflikt. Der Alleinautor ist Erfinder von IVS, Inhaber einer US-Patentanmeldung auf die Technologie und einziger Untersucher dieser Studie. Es gibt keine Inter-Rater-Reliabilitätsarbeit, keine Qualitätsprüfung durch Co-Untersucher und keine unabhängige Replikation.
Avatar-Interaktionsgrenzen. Die Teilnehmer-Rückmeldungen markierten das Fehlen verbaler und gestischer Avatar-Antworten als Einschränkung des wahrgenommenen Realismus. Dies ist eine Entwicklungspriorität für zukünftige Versionen und zugleich eine bedeutsame Bedrohung für die Interpretation der Immersions- und Realismus-Scores im aktuellen Pilot.

Wie das in den breiteren Evidence Hub passt

Diese Studie ist Teil eines wachsenden Stranges immersiver VR-Stimmarbeit rund um Mount Sinai / Daşdöğen und angrenzende Stimmlabore:

Daşdöğen et al. 2023 (Journal of Voice) - die fundierende Realismus-und-Validitäts-Arbeit bei 31 stimmgesunden Erwachsenen über 18 sensorische Eingangsbedingungen. Etablierte, dass visuelle und audiovisuelle VR-Hinweise, nicht nur akustische, die Stimmproduktion verändern.
Daşdöğen und Hitchcock 2026 (Journal of Voice) - Studie zu ausgebildeten Sänger:innen vs. ungeschulten Sprecher:innen mit der Rooms-Situation von Therapy withVR. Zeigte, dass virtuelle Distanzhinweise die Stimmskalierung bei geschulten und ungeschulten Stimmen unterschiedlich antreiben.
Hoff 2026 (Journal of Voice) - VR-basierte Kurzmeditation vor der Stimmtherapie. Anderer Mechanismus (Regulation von Zustandsangst statt direkter Stimm-Cueing), aber dieselbe Stoßrichtung für VR-Adoption in Stimmkliniken.
Leyns et al. 2025 (Journal of Voice) - RCT zu VR-basiertem geschlechtsbestätigendem Stimmtraining mit Therapy withVR. Direkt relevant, da IVS laut institutioneller Berichterstattung von Mount Sinai geschlechtsbestätigende Stimmmodule entwickelt.

Die breitere Landschaft: Stimm-VR bewegt sich von “fühlt sich die Simulation real genug an, um Verhalten zu ändern” (weitgehend beantwortet: ja) zu “überträgt sich das Üben in der Simulation auf den realen Stimmgebrauch” (weitgehend unbeantwortet, ausstehend longitudinaler mehrsitziger Arbeit). Diese Studie steht an der Grenze - Machbarkeit und unmittelbares Verhaltenssignal sind für eine maßgeschneiderte stimmreaktive Plattform etabliert; der Transfer ist der nächste Test.

Hinweis zur Immersive VoiceSpace Plattform. IVS unterscheidet sich von Therapy withVR. Es ist ein Single-Scene-, stimmschwellenreaktives System, erfunden und patentiert vom Studienautor. Der institutionelle Bericht von Mount Sinai (Mai 2026, “Hypophonia”) beschreibt laufende Arbeiten, die IVS auf Personen mit Parkinson-Hypophonie ausweiten, mit geplanten Modulen für Stimm-Feminisierung und weitere Kontexte. Der IP-Status von IVS konnte zum Zeitpunkt dieser Bewertung nicht unabhängig verifiziert werden (siehe funding/COI-Feld).

Implikationen für die Praxis

Für Stimmtherapeut:innen, die immersive VR für Stimmarbeit nutzen oder bewerten: Diese Studie erweitert frühere laborbasierte VR-Stimmbefunde (Daşdöğen 2023, Daşdöğen 2026 Studie mit ausgebildeten Sänger:innen), indem sie zeigt, dass dieselben Realismus- und Validitätseffekte in einer klinischen Population (Personen mit Dysphonie) bestehen bleiben, nicht nur bei stimmgesunden Erwachsenen. Beide Gruppen erhöhten die Lautstärke im Einklang mit abgestuften Distanz- und Schwellenhinweisen; die Tonhöhenskalierung war für Personen mit Dysphonie stärker eingeschränkt, konsistent mit der in der breiteren Stimmliteratur dokumentierten reduzierten phonatorischen Flexibilität. Praktisch: Kontextualisiertes Üben in virtuellen Umgebungen kann funktionale Stimmproduktion ohne explizite klinische Anleitung hervorrufen, was das Problem von Generalisierung und Transfer adressiert, das den Übertrag von der Klinik in die Alltagskommunikation lange begrenzt hat. Diese Studie testete spezifisch Immersive VoiceSpace, nicht Therapy withVR - Therapeut:innen, die Therapy withVR nutzen, können das breitere Prinzip mitnehmen (abgestufte visuell-räumliche Anforderungen rufen Stimmskalierung hervor), sollten aber ohne separate Validierung keine direkte Äquivalenz des Avatar-Schwellen-Triggermechanismus annehmen. Die Befunde sind mit dem sozialen Modell von Kommunikation konsistent: Barrieren für funktionalen Stimmgebrauch liegen in den Kontexten, in denen die Stimme gebraucht wird, und das Üben in diesen Kontexten (statt in entkernten Behandlungsräumen) wird durch die Evidenz gestützt.

Implikationen für die Forschung

Replikation und Erweiterung sind nötig in: (a) größeren Stichproben mit ausreichender Power für Subgruppenanalysen nach Stimmdiagnose; (b) mehrsitzigen Protokollen, die Lernen, Retention und reale Generalisierung testen (die zentrale Behauptung des theoretischen IVS-Rahmens ist Transfer-Appropriate Processing, was longitudinale Daten erfordert); (c) kontrollierten Vergleichsbedingungen einschließlich vorstellungsbasierter Kontrollaufgaben, um den einzigartigen Beitrag immersiver visuell-räumlicher Hinweise von Neuheits-/Expositionseffekten der VR zu isolieren; (d) Parkinson-Hypophonie, der laut institutioneller Berichterstattung von Mount Sinai zentralen klinischen IVS-Anwendung; (e) geschlechtsbestätigender Stimmtherapie, wo IVS-Feminisierungsmodule sich Berichten zufolge in Entwicklung befinden; (f) der von Teilnehmenden markierten Avatar-Interaktionsgrenze - ob reichhaltigere verbale/nonverbale Avatar-Antworten (potenziell KI-gesteuert) die Ergebnisse substantiell verbessern. Eine unabhängige Replikation außerhalb der erfindenden Institution würde die Evidenzbasis erheblich stärken.

Diese Studie zitieren

Wenn Sie diese Studie in Ihrer Arbeit zitieren, sind dies die kanonischen Zitierformate:

APA 7th

Daşdöğen Ü (2026). Immersive VoiceSpace: Development and Pilot Testing of a Virtual Reality System for Contextualized Vocal Training. Journal of Voice. https://doi.org/10.1016/j.jvoice.2026.04.047.

AMA 11th

Daşdöğen Ü. Immersive VoiceSpace: Development and Pilot Testing of a Virtual Reality System for Contextualized Vocal Training. Journal of Voice. 2026. doi:10.1016/j.jvoice.2026.04.047.

BibTeX

@article{daden2026,
  author = {Daşdöğen Ü},
  title = {Immersive VoiceSpace: Development and Pilot Testing of a Virtual Reality System for Contextualized Vocal Training},
  journal = {Journal of Voice},
  year = {2026},
  doi = {10.1016/j.jvoice.2026.04.047},
  url = {https://withvr.app/de/evidence/studies/dasdogen-2026-ivs}
}

RIS

TY  - JOUR
AU  - Daşdöğen Ü
TI  - Immersive VoiceSpace: Development and Pilot Testing of a Virtual Reality System for Contextualized Vocal Training
JO  - Journal of Voice
PY  - 2026
DO  - 10.1016/j.jvoice.2026.04.047
UR  - https://withvr.app/de/evidence/studies/dasdogen-2026-ivs
ER  -

Kennen Sie Forschung, die in diese Evidenzbasis gehört? Wenn eine relevante peer-reviewte Studie hier nicht aufgeführt ist, senden Sie die Quellenangabe an hello@withvr.app. Die Evidenzbasis wird aktuell gehalten, während die Literatur wächst.

Finanzierung & Unabhängigkeit

Alleinautorenstudie von Ümit Daşdöğen (Research Director, Speech and Language Pathology, The Grabscheid Voice and Swallowing Center; Assistant Professor of Otolaryngology, Icahn School of Medicine at Mount Sinai). Keine externen Geldgeber, Förderer oder Sponsoren im Manuskript genannt. IRB-Zustimmung: Mount Sinai STUDY-25-01418. Erheblicher Interessenkonflikt: Der Autor hat die Plattform Immersive VoiceSpace (IVS) erfunden und ist im veröffentlichten Manuskript als Inhaber einer US-Patentanmeldung auf die Technologie ausgewiesen (USPTO Application No. 63/987 laut Manuskript - dies erscheint als gekürzte Provisional-Application-Nummer; die vollständige Nummer wurde im veröffentlichten Beitrag nicht angegeben und konnte zum Zeitpunkt dieser Bewertung nicht unabhängig über USPTO Patent Public Search oder Google Patents lokalisiert werden, konsistent mit der Vertraulichkeit von Provisional Applications). Die Marke Immersive VoiceSpace® erscheint mit dem Symbol der föderalen Registrierung in der institutionellen Berichterstattung von Mount Sinai; eine Markenrecherche über USPTO TESS ergab zum Zeitpunkt der Bewertung keine passende aktive Registrierung. Diese IP-Ansprüche werden als eigene Angaben des Autors berichtet und konnten nicht unabhängig verifiziert werden. Diese sich überlappenden Rollen (Untersucher, Autor, Erfinder, IP-Inhaber, Fragebogenautor) sind in der frühphasigen akademischen Plattformentwicklung üblich und werden hier aus Transparenzgründen markiert; Lesende sollten die Machbarkeits- und Akzeptanzergebnisse spezifisch unter diesem Aspekt abwägen. Therapy withVR (withVR BV, Belgien) hatte keine Rolle bei Finanzierung, Design, Durchführung, Analyse oder Berichterstattung dieser Studie; dieser Evidence-Hub-Eintrag wurde unabhängig anhand des veröffentlichten peer-reviewten Beitrags und des öffentlich verfügbaren institutionellen Berichts von Mount Sinai erstellt. Daşdöğen hat 2026 separat einen Beitrag im Journal of Voice veröffentlicht, der die Rooms-Situation von Therapy withVR verwendet (siehe dasdogen-2026 in diesem Hub), und nutzt Therapy withVR in weiteren Forschungsarbeiten.

Zuletzt geprüft: 2026-05-23 Nächste Überprüfung geplant: 2027-05-23 Geprüft von: Gareth Walkom

Pilot von Immersive VoiceSpace VR (N=17): Sprechende skalierten Lautstärke und Tonhöhe über abgestufte virtuelle Restaurantbedingungen

Wichtigste Ergebnisse

Hintergrund

Was die Forschenden taten

Was sie fanden

Warum das wichtig ist

Limitationen

Wie das in den breiteren Evidence Hub passt

Implikationen für die Praxis

Implikationen für die Forschung

Verwandte Studien

Within-Subjects-Studie (n=31): auditive, visuelle und audiovisuelle VR-Raumhinweise verändern Stimmlautstärke, -anstrengung und -ausgabe

In VR steuert die scheinbare Entfernung der zuhörenden Person die Stimmlautstärke stärker als die Raumgröße

Virtuelle Raumgröße und Zuhörerentfernung beeinflussen den Stimmgebrauch

VR-basierte Meditation reduzierte Angst vor der Stimmtherapie in einer kleinen explorativen RCT, mit niedrigerer Abbruchquote im VR-Arm

VR-basiertes Sprechtraining erhöht die Kommunikationsbereitschaft im geschlechtsangleichenden Stimmtraining

Diese Studie zitieren

Finanzierung & Unabhängigkeit