„Fühlt es sich real genug an, um etwas zu bedeuten?” ist eine berechtigte Frage zu jeder virtuellen Umgebung, die für Kommunikationspraxis verwendet wird. Wenn ein virtuelles Café nicht die Reaktionen hervorruft, die ein reales Café hervorruft, wird die Praxis im virtuellen wahrscheinlich nicht übertragen. Wenn doch, eröffnet es einen Übungsraum, der sonst schwer zu arrangieren ist.

In den letzten zehn Jahren hat ein kleiner, aber wachsender Bestand an peer-reviewter Forschung versucht, diese Frage zu beantworten. Nicht abstrakt - sondern mit Messungen von Angst, Herzfrequenz, Stimmakustik und anderen Sprechverhalten in vergleichbaren realen und virtuellen Bedingungen. Dieser Beitrag fasst zusammen, was fünf dieser Studien uns sagen und was die Evidenz für die alltägliche Praxis nahelegt.

Die Frage

Ökologische Validität ist das Ausmaß, in dem eine Forschungssituation das Verhalten und die Reaktionen erzeugt, die in der realen Situation auftreten würden, die sie repräsentieren soll. Ein virtuelles Café, das plausibel aussieht, aber überhaupt keine Angst auslöst, hat geringe ökologische Validität für die Untersuchung von Sprechangst. Ein virtuelles Café, das die gleichen Arten von Reaktionen auslöst wie ein reales, hat hohe ökologische Validität.

Validität ist keine einzelne Eigenschaft einer VR-Umgebung. Sie hängt davon ab, was man untersuchen oder üben möchte. Ein VR-Setup mag für das Halten von Vorträgen Erwachsener ökologisch valide sein und für Klassenzimmerteilnahme von Kindern nicht, oder für Sprechangst und nicht für Stimmproduktion, oder für manche Personen und für andere nicht.

Was fünf Studien zeigen

Die fünf Studien im Überblick

Evidenz zur ökologischen Validität für VR-Sprechumgebungen

  1. 2015n = 10 · within-subjects

    Brundage & Hancock - virtuelles und reales Publikum erzeugen nahezu identisches Sprechen

    Primäres Sprechmaß korrelierte mit r = 0,99 zwischen virtueller und realer Bedingung. Kommunikationsangst und Selbstvertrauensbewertungen stimmten eng überein.

  2. 2026n = 60 · 3-Bedingungen

    Bettahi et al. - virtuelles Publikum löst echte Angst und echte Stimmveränderungen aus

    Antizipatorische Angst (SUDS), Herzfrequenz und Stimm-Maße (F0, F0-Variabilität) waren zwischen realen und virtuellen Publikumsbedingungen vergleichbar. Höher berichtete Präsenz = engere Reaktionen.

  3. 2026n = 8 · within-subjects

    Dasdogen & Hitchcock - virtuelle Distanz allein verändert das Stimmverhalten

    Visuelle Distanzhinweise beeinflussten signifikant Lautstärke und Tonhöhe der Stimme, selbst bei konstanter Akustik. Geschulte Sänger:innen passten sich systematischer an als ungeschulte Sprecher:innen.

  4. 2016n = 6 · Pilot

    Walkom - früher Prototyp, ehrlicher Pilot

    Selbstberichtete Angst nahm über Sitzungen ab; physiologische Erregung trat während der Exposition auf; Beobachtende berichteten von Verschiebungen der Sprechmuster bis Sitzung 2. Machbarkeit, kein Effekt.

  5. 2024n = 5 · Machbarkeit

    Kumar, Cecil & Tetnowski - Machbarkeit von VR-Übung zu Hause

    Stotterhäufigkeit fiel von 18,67 % auf 9,71 % der Silben über eine Woche; auch die Herzfrequenz sank. Keine Vergleichsbedingung - Machbarkeitsevidenz, kein kausaler Effekt.

Jede Studie wird unten zusammengefasst. Stichprobengrößen sind klein; die Konvergenz über mehrere Maßtypen hinweg zählt mehr als ein einzelnes Ergebnis.

Brundage und Hancock, 2015: virtuelles und reales Publikum erzeugen nahezu identische Stotterreaktionen

Brundage und Hancock (2015) ließen zehn stotternde Erwachsene sowohl in einer realen als auch in einer virtuellen Publikumsbedingung sprechen. Das primäre Sprechmaß zeigte eine nahezu perfekte Korrelation zwischen virtueller und realer Bedingung (r = 0,99). Kommunikationsangst- und Selbstvertrauensbewertungen waren über beide Bedingungen hinweg eng abgestimmt.

Diese Studie wird häufig als grundlegende Demonstration zitiert, dass virtuelle Publika ökologisch valide sind, um Stottern unter Publikumsdruck zu untersuchen. Die Stichprobe ist klein, aber die Korrelation ist stark, und das Design verglich einzelne Teilnehmende über beide Bedingungen hinweg.

Bettahi und Kolleg:innen, 2026: virtuelles Publikum löst echte Angst und echte Stimmveränderungen aus

Bettahi et al. (2026) erweiterten die Validierungsfrage auf Stimme und Physiologie. Sechzig Studierende präsentierten vor einem realen Publikum, einem virtuellen Publikum und einem leeren virtuellen Raum. Das virtuelle Publikum erzeugte antizipatorische Angst (gemessen mit SUDS) und Herzfrequenzanstiege, die mit dem realen Publikum vergleichbar waren. Stimm-Maße (Grundfrequenz und ihre Variabilität) waren über die realen und virtuellen Publikumsbedingungen hinweg weitgehend äquivalent.

Ein bemerkenswertes Ergebnis: Teilnehmende, die ein stärkeres Präsenzgefühl in VR berichteten, zeigten Reaktionen, die ihren Reaktionen vor realem Publikum am nächsten kamen. Präsenz scheint eine der Variablen zu sein, die bestimmen, ob eine bestimmte Umgebung für eine bestimmte Person ökologisch valide ist.

Dasdogen und Hitchcock, 2026: virtuelle Distanz allein verändert, wie Menschen ihre Stimme einsetzen

Dasdogen und Hitchcock (2026) untersuchten eine andere Frage: ob visuelle Eigenschaften der virtuellen Umgebung (Raumgröße, Distanz Sprecher:in zu Hörer:in) das Stimmverhalten verändern, selbst wenn die akustische Umgebung konstant gehalten wurde. Mithilfe der Rooms-Situation von Therapy withVR fanden sie, dass Distanzhinweise die Stimmintensität und Tonhöhe signifikant beeinflussten. Geschulte Sänger:innen passten ihre Stimme systematischer an als ungeschulte Sprecher:innen.

Dies ist eine kleinere Studie (acht erwachsene weibliche Teilnehmende), aber konzeptionell wichtig. Sie zeigt, dass die visuelle virtuelle Umgebung das Stimmverhalten allein steuern kann - die Stimme reagiert auf den wahrgenommenen Sprechkontext, nicht nur auf die physische Akustik.

Walkom, 2016: früher Prototyp, ehrlicher Pilot

Der früheste Pilot in dieser Gruppe testete ein maßgeschneidertes VR-Tool für öffentliches Sprechen mit sechs stotternden Erwachsenen. Selbstberichtete Angst nahm über Sitzungen ab, physiologische Erregung trat während der Exposition auf, und Beobachtende berichteten von sichtbaren Verschiebungen der Sprechmuster bis zu Sitzung 2. Sechs Teilnehmende sind kein Effektnachweis - aber der Pilot stützte die Machbarkeit und warf nützliche Fragen für spätere Arbeiten auf.

Kumar und Kolleg:innen, 2024: Machbarkeit von VR-Übung zu Hause

Kumar, Cecil und Tetnowski (2024) gingen den nächsten Schritt, VR aus dem Labor zu holen. Fünf stotternde Jugendliche und junge Erwachsene nutzten kommerzielle VR-Headsets eine Woche lang zu Hause mit gestuften Sprechszenarien. Die Stotterhäufigkeit sank von 18,67 % auf 9,71 % der Silben, auch die Herzfrequenz sank. Wieder gilt: Fünf Teilnehmende ohne Vergleichsbedingung sind kein Effektnachweis, aber die Studie zeigt, dass VR-Programme zu Hause machbar sind und es wert sind, im größeren Maßstab getestet zu werden.

Eine Forest-Plot-Ansicht der Konvergenz

Forest Plot der Konvergenzstatistiken aus den drei Direktvergleichsstudien

Wie eng VR-Reaktionen realen Äquivalenten folgten, nach berichteter Korrelation und Effekt

Brundage & Hancock 2015 (n = 10 Stotternde)Korrelation zwischen VR- und realer Publikumsbedingung, nach Maß00.250.50.751.0Korrelationskoeffizient (Spearman ρ oder Pearson r)Sprechverhalten - herausforderndes VPρ = 0.99Sprechverhalten - neutrales VPρ = 0.82PRCS - Selbstvertrauenr = 0.88PRCA-24 - Befürchtungr = 0.82Bettahi et al. 2026 (n = 60)Effekt der Bedingung (3-Weg-ANOVA: reales / virtuelles Publikum / leeres virtuelles), partielles η²00.050.100.150.20Partielles η² (kleiner = ähnlicher über Bedingungen)Gesamt-Unflüssigkeitenη²ₓ = 0.05 (n.s.)Gefüllte Pausenη²ₓ = 0.11, p=.001Mittlere F0 (Tonhöhe)η²ₓ = 0.12, p=.002Daşdöğen & Hitchcock 2026 (n = 8)F-Statistik für Hörer-Distanz-Effekt (Akustik konstant gehalten)0510152025F-WertSPL (Intensität)F=21.74, p<.001F0 (Tonhöhe)F=7.86, p<.001

Die drei Direktvergleichsstudien konvergieren: Brundage zeigt nahezu perfekte Rangordnungs-Entsprechung zwischen VR- und realen Publika bei Stottern und Befürchtung. Bettahi zeigt kleine bis mittlere Effekte der Bedingung (d. h. reales vs. virtuelles Publikum sind ähnlich) bei den meisten Stimm-Maßen. Daşdöğen zeigt, dass visuelle Hinweise allein die Stimmproduktion signifikant verschieben, selbst bei konstanter Akustik. Walkom 2016 (n=6 gemischter Pilot) und Kumar 2024 (n=5 Heim-Machbarkeit) sind hier nicht abgebildet, weil sie die Entsprechung zwischen virtuellem und realem Publikum nicht direkt testen.

Quellen: Brundage & Hancock 2015 (American Journal of Speech-Language Pathology, DOI); Bettahi et al. 2026 (Frontiers in Virtual Reality); Daşdöğen & Hitchcock 2026 (Journal of Voice). Niedrigeres partielles η² bei Bettahi bedeutet, dass die VR- und realen Bedingungen ähnlichere Reaktionen erzeugten; beim Unflüssigkeits-Maß war der Bedingungseffekt nach Bonferroni-Korrektur nicht signifikant (d. h. vergleichbare Leistung über die Bedingungen hinweg). Daşdöğens signifikante F-Werte für die Hörer-Distanz zeigen, dass visuelle Distanzhinweise allein die Stimmintensität und Tonhöhe zuverlässig verschieben. Hinweis: %SS-artige Häufigkeitszählungen werden hier so berichtet, wie die Originalstudien sie gemessen haben; das Feld bewegt sich zunehmend in Richtung selbstbewertetes Selbstvertrauen, Kommunikationsbereitschaft und partizipationsorientierter Maße.

Was die Evidenz nahelegt

Über diese fünf Studien hinweg, und den breiteren Evidence Hub, in dem sie sich befinden, treten mehrere Muster hervor.

Gut gestaltete virtuelle Publika erzeugen Reaktionen, die realen Publikumsreaktionen ähneln. Das zeigten sowohl Brundage und Hancock als auch Bettahi und Kolleg:innen mit unterschiedlichen Outcome-Maßen (Herzfrequenz, Stimme, Angst und Verhaltensbeobachtung). Die Konvergenz über Maße hinweg ist überzeugender als ein einzelnes Ergebnis.

Präsenz ist wichtig und variiert zwischen Personen. Präsenz ist das subjektive Gefühl, in einer virtuellen Umgebung zu sein. Höhere Präsenz ist mit Reaktionen verbunden, die realen Äquivalenten näher kommen. Das legt nahe, dass ökologische Validität teils eine Eigenschaft der Person ist, die die Umgebung nutzt, nicht nur der Umgebung selbst.

Visueller Kontext allein kann Stimm- und Kommunikationsverhalten formen. Die Dasdogen-und-Hitchcock-Studie zeigt, dass Menschen ihre Stimme auf den wahrgenommenen virtuellen Kontext anpassen, selbst wenn die Akustik konstant ist. Das ist relevant für Stimmarbeit und für jede Frage dazu, wie Sprecher:innen ihre Ausgabe an Publika kalibrieren.

Die Evidenzbasis ist noch klein. Die Stichprobengrößen liegen meist unter zwanzig. Populationen sind oft nicht-klinisch oder eng. Langfristiger Transfer in alltägliche Situationen ist weitgehend ungetestet. Das sind reale Einschränkungen, die prägen sollten, wie zuversichtlich ein Ergebnis angewendet wird.

Was das für die alltägliche Praxis bedeutet

Einige vorläufige Erkenntnisse für sprachtherapeutische Fachkräfte, die VR-Übung als Teil ihrer Arbeit erwägen:

Redaktionelle Anmerkungen von withVR

Die Themen in dieser Forschung haben das Design von Therapy withVR geprägt. Die Auditorium-Situation existiert wegen Arbeiten wie Brundage und Hancock und Bettahi. Die Room-Situation existiert wegen Studien wie Dasdogen und Hitchcock. Die Goal-Funktion existiert, um die Generalisierungsfrage zu unterstützen - sie lässt Personen vor und nach einer Sitzung ihr eigenes Selbstvertrauen bewerten, statt sich auf Produktionsziele zu stützen.

Nichts davon bedeutet, dass Forschungsergebnisse aus Studien zu anderen VR-Systemen direkt auf Therapy withVR übertragbar sind. Sind sie nicht. Was Therapy withVR zu tun versucht, ist, eine Übungsumgebung bereitzustellen, die mit den von der Evidenz aufgeworfenen Themen konsistent ist: gestufte Situationen, Echtzeit-Steuerung durch klinisch tätige Personen, selbstbewertetes Selbstvertrauen über die Zeit und Umgebungen, in denen Personen Präsenz berichten.

Weiterführende Lektüre