Was hat Delangle et al. (2026) herausgefunden?

Systemakzeptabilität und Präsenz waren hoch: ITC-SOPI Räumliche Präsenz M=3,60/5 (SD=0,70), Engagement M=3,87/5 (SD=0,78), Ökologische Validität M=3,27/5 (SD=1,53), Negative Effekte M=1,58/5 (SD=0,60). IWA-Items: 'hatte das Gefühl, mit einer echten Person zu sprechen' M=8,43/10, 'geübte Situationen waren relevant' M=9,29/10, 'würde dieses Werkzeug für stressige Situationen nutzen wollen' M=9,57/10 Die meisten Teilnehmenden erkannten ihre eigene Logopädin NICHT hinter dem Avatar (IWA-Item 2 M=2,86/10; niedrigere Werte sind hier besser). Stimmmodulation (Clownfish Voice Changer) plus Live Link Face Motion Capture war wirksam, außer bei den zwei ältesten Teilnehmenden (16 und 18 Jahre), die die Prosodie ihrer Logopädin erkannten (Werte 10 bzw. 8) Der Hautleitwert (SCL) der Experimentalgruppe war gegenüber dem Ausgangswert signifikant erhöht: in virtuo (Sitzung 1) p=,006 und p=,009 sowie in vivo (Sitzung 2) p<,001 und p=,008. Die Logopädie-Rollenspiel-Kontrollgruppe zeigte in keiner Phase einer der Sitzungen eine signifikante SCL-Erhöhung Hautleitreaktionen (SCRs) auf angstauslösende Stimuli traten in der Rollenspielgruppe signifikant HÄUFIGER auf als in der VR-Gruppe in Sitzung 1, insbesondere beim Stirnrunzeln (t=-3,79, p<,05) und bei allen Stimuli zusammen (t=-3,76, p<,05). Innerhalb der Experimentalgruppe waren die SCR-Raten zwischen in virtuo (Sitzung 1) und in vivo (Sitzung 2) vergleichbar (t(4)=-1,07, p=,35) Die selbstberichteten SUDS der VR-Gruppe unterschieden sich während des In-virtuo-Gesprächs NICHT signifikant vom Ausgangswert, während die SUDS der Rollenspielgruppe signifikant erhöht waren (p<,001 zu Beginn und Ende des Gesprächs). Der Zwischen-Gruppen-Effekt am Gesprächsende war groß (d=1,35, 95% KI [-2,77, -0,67], p=,031) Unerwartet nahm die Herzfrequenz in beiden Gruppen in den meisten Phasen vom Ausgangswert ab (z.B. Experimentalgruppe Sitzung 1 Gespräch HR 95% KI [-9,828, -2,325], p=,002; Kontrollgruppe Sitzung 1 Gespräch HR 95% KI [-6,038, -2,029], p ,58) und veränderte sich innerhalb keiner Gruppe signifikant von Sitzung 1 zu Sitzung 2 (Experimental Z=-1,36, p=,17, r=,60; Kontrolle Z=-0,94, p=,345, r=,39). Moderate Innergruppen-Effektgrößen (r=0,36-0,60) deuten auf mögliche Trends hin, die größere Stichproben aufdecken könnten Eine einzelne Trainingssitzung in keiner der Bedingungen reduzierte die Angst während des anschließenden In-vivo-Gesprächs - beide Gruppen zeigten zu Beginn des Gesprächs in Sitzung 2 erhöhte SUDS (Experimental p=,003; Kontrolle p=,002), die bis zum Ende auf nahezu Ausgangsniveau zurückgingen

Wer hat an dieser Studie teilgenommen?

Diese Studie umfasste 12 Teilnehmende: Kinder und Jugendliche 9-18 Jahre, die stottern (6 Mädchen)

Diese Seite wurde aus dem Englischen übersetzt. Wenn etwas seltsam klingt, wechseln Sie zur englischen Version. Auf Englisch ansehen.

Pilot-RCT bei jungen Stotternden: live gesteuertes fotorealistisches VR-Avatar wurde gut akzeptiert, schlug aber kein Logopädie-Rollenspiel

Delangle M et al. · 2026 · Journal of Fluency Disorders · RCT · n = 12 · Kinder und Jugendliche 9-18 Jahre, die stottern (6 Mädchen) · DOI

Sicherheit der Evidenz: Niedrige Sicherheit

Wie dies bewertet wurde

Pilot-RCT mit randomisierter Zuteilung (n=12; 6 pro Gruppe), Bootstrap-Inferenz (10.000 Resamples) geeignet für kleine Stichproben und vorab festgelegten Zielen. Ziel 1 (Akzeptabilität, Präsenz) wurde unterstützt; Ziel 2 (Auslösung physiologischer Reaktionen) wurde teilweise unterstützt, mit einem unerwarteten HR-Abfall in beiden Gruppen; Ziel 3 (Mehrwert von VR gegenüber Logopädie-Rollenspiel nach einer einzelnen Sitzung) wurde NICHT unterstützt. Einschränkende Faktoren: sehr kleine Stichprobe, einzelne Trainingssitzung, zwei verschiedene Schauspieler-Lehrpersonen in Sitzung 2, retrospektive SUDS-Erhebung, kein Maß für immersive Tendenzen und eine relevante Industrie-Akademie-Beziehung - Mitautor Stephane Bouchard ist Berater und Anteilseigner von Cliniques et Developpement In Virtuo (einem VR-Entwicklungsunternehmen), obwohl der Artikel anmerkt, dass dieses Unternehmen die in der Studie verwendeten Umgebungen nicht erstellt hat.

Die Bewertungen verwenden ein vereinfachtes vierstufiges Schema (Hoch, Mittel, Niedrig, Sehr niedrig), angelehnt an die GRADE working group. Mehr darüber erfahren, wie Studien bewertet werden.

Pilot-RCT: 12 stotternde Kinder/Jugendliche (9-18 J.) wurden vor einem Gespräch mit einer unbekannten Schauspieler-Lehrkraft randomisiert auf entweder VR-Gespräch mit fotorealistischer Lehrkraft, live gesteuert von der eigenen Logopädin per Gesichts-Motion-Capture (n=6), oder Face-to-Face-Rollenspiel mit der Logopädin (n=6). Das VR-System wurde gut akzeptiert (hohe Präsenz, geringe Cybersickness). Der Hautleitwert war in der VR-Gruppe erhöht; das Rollenspiel erhöhte selbstberichtete Angst stärker. Eine Sitzung schlug das Rollenspiel weder bei Selbstwirksamkeit noch bei In-vivo-Angst.

Klinische Kernaussage

Ein Pilot-RCT mit kleiner Stichprobe (n=12, 6 pro Gruppe), das zeigt, dass ein fotorealistisches Echtzeit-Avatar-VR-System, gesteuert von der Logopädin per Gesichts-Motion-Capture, für Jugendliche mit Stottern akzeptabel und durchführbar ist und während des Face-to-Face-Gesprächs physiologische Erregung hervorruft. Die Studie hat KEINEN Mehrwert einer VR-Sitzung gegenüber einer Logopädie-Rollenspiel-Sitzung für Selbstwirksamkeit oder Angstreduktion bei einem anschließenden In-vivo-Gespräch nachgewiesen. Am besten als Machbarkeitsstudie und Signal für Mehrfach-Sitzungs-Forschung zu interpretieren - nicht als Evidenz für klinische Wirksamkeit.

Wichtigste Ergebnisse

Systemakzeptabilität und Präsenz waren hoch: ITC-SOPI Räumliche Präsenz M=3,60/5 (SD=0,70), Engagement M=3,87/5 (SD=0,78), Ökologische Validität M=3,27/5 (SD=1,53), Negative Effekte M=1,58/5 (SD=0,60). IWA-Items: 'hatte das Gefühl, mit einer echten Person zu sprechen' M=8,43/10, 'geübte Situationen waren relevant' M=9,29/10, 'würde dieses Werkzeug für stressige Situationen nutzen wollen' M=9,57/10
Die meisten Teilnehmenden erkannten ihre eigene Logopädin NICHT hinter dem Avatar (IWA-Item 2 M=2,86/10; niedrigere Werte sind hier besser). Stimmmodulation (Clownfish Voice Changer) plus Live Link Face Motion Capture war wirksam, außer bei den zwei ältesten Teilnehmenden (16 und 18 Jahre), die die Prosodie ihrer Logopädin erkannten (Werte 10 bzw. 8)
Der Hautleitwert (SCL) der Experimentalgruppe war gegenüber dem Ausgangswert signifikant erhöht: in virtuo (Sitzung 1) p=,006 und p=,009 sowie in vivo (Sitzung 2) p<,001 und p=,008. Die Logopädie-Rollenspiel-Kontrollgruppe zeigte in keiner Phase einer der Sitzungen eine signifikante SCL-Erhöhung
Hautleitreaktionen (SCRs) auf angstauslösende Stimuli traten in der Rollenspielgruppe signifikant HÄUFIGER auf als in der VR-Gruppe in Sitzung 1, insbesondere beim Stirnrunzeln (t=-3,79, p<,05) und bei allen Stimuli zusammen (t=-3,76, p<,05). Innerhalb der Experimentalgruppe waren die SCR-Raten zwischen in virtuo (Sitzung 1) und in vivo (Sitzung 2) vergleichbar (t(4)=-1,07, p=,35)
Die selbstberichteten SUDS der VR-Gruppe unterschieden sich während des In-virtuo-Gesprächs NICHT signifikant vom Ausgangswert, während die SUDS der Rollenspielgruppe signifikant erhöht waren (p<,001 zu Beginn und Ende des Gesprächs). Der Zwischen-Gruppen-Effekt am Gesprächsende war groß (d=1,35, 95% KI [-2,77, -0,67], p=,031)
Unerwartet nahm die Herzfrequenz in beiden Gruppen in den meisten Phasen vom Ausgangswert ab (z.B. Experimentalgruppe Sitzung 1 Gespräch HR 95% KI [-9,828, -2,325], p=,002; Kontrollgruppe Sitzung 1 Gespräch HR 95% KI [-6,038, -2,029], p<,001), und RMSSD nahm häufig zu - von den Autoren als autonome Adaptation/Habituation bei sozialem Stress interpretiert
Die Selbstwirksamkeit unterschied sich zu keinem Messzeitpunkt signifikant zwischen den Gruppen (alle p>,58) und veränderte sich innerhalb keiner Gruppe signifikant von Sitzung 1 zu Sitzung 2 (Experimental Z=-1,36, p=,17, r=,60; Kontrolle Z=-0,94, p=,345, r=,39). Moderate Innergruppen-Effektgrößen (r=0,36-0,60) deuten auf mögliche Trends hin, die größere Stichproben aufdecken könnten
Eine einzelne Trainingssitzung in keiner der Bedingungen reduzierte die Angst während des anschließenden In-vivo-Gesprächs - beide Gruppen zeigten zu Beginn des Gesprächs in Sitzung 2 erhöhte SUDS (Experimental p=,003; Kontrolle p=,002), die bis zum Ende auf nahezu Ausgangsniveau zurückgingen

Hintergrund

Stottern bei Schulkindern und Jugendlichen geht häufig mit sozialer Angst einher. Iverach et al. (2016) berichteten, dass Kinder mit Stottern etwa sechsmal häufiger als nicht-stotternde Gleichaltrige eine soziale Angststörung entwickeln; die soziale Angst in dieser Population nimmt tendenziell durch die Adoleszenz zu. KVT mit abgestufter Exposition ist wirksam bei der Reduktion sozialer Angst bei Erwachsenen mit Stottern, aber nur wenige empirische Interventionen haben sich spezifisch mit Angst bei Jugendlichen mit Stottern befasst.

Expositionstherapie stützt sich traditionell auf In-vivo-Erfahrungen oder Rollenspiel in der Praxis mit der Klinikerin. Beide haben Einschränkungen: In-vivo-Exposition ist logistisch schwierig und gibt der Therapeutin wenig Kontrolle über die Situation, während Rollenspiel durch das Bewusstsein der Teilnehmenden begrenzt wird, dass die Klinikerin eine vertraute, sichere Person und keine Fremde ist. Virtuelle Realität wurde als kontrollierbarer Mittelweg vorgeschlagen, aber die meisten bisherigen VR-Stotterstudien verwendeten Gruppen- oder Publikumsszenarien (Brundage et al. 2006, 2016; Brundage & Hancock 2015; Moise-Richard et al. 2021) anstatt naturalistischer Eins-zu-Eins-Gespräche und stützten sich auf vorab geskriptetes oder statisches Avatar-Verhalten anstatt auf dynamische Echtzeit-Reaktionen.

Delangle und Kolleg:innen (dasselbe Forschungsteam wie Moise-Richard et al. 2021) setzten sich zum Ziel, zwei Lücken zu schließen: das Fehlen physiologischer Messungen in den früheren virtuellen Klassenzimmer-Studien des Teams sowie das Fehlen eines Echtzeit-Face-to-Face-VR-Szenarios, das die naturalistischen, reziproken Dynamiken alltäglicher Gespräche simuliert.

Was die Forscher:innen taten

Dreizehn Kinder und Jugendliche mit Stottern wurden aus dem Marie Enfant Rehabilitation Centre (CHU Sainte-Justine), dem Raymond-Dewar Institute und privaten Logopädie-Praxen in Montreal, Quebec, rekrutiert. Eine Jugendliche wurde ausgeschlossen (vorherige ähnliche VR-Exposition während einer Fernsehaufzeichnung), sodass zwölf Teilnehmende in der Analyse verblieben (6 Mädchen; Alter 9-18 Jahre, M=13,1, SD=3,0). Alle waren von einer zertifizierten Logopädin professionell als stotternd diagnostiziert worden, befanden sich in therapeutischer Behandlung und hatten mindestens drei Sitzungen mit ihrer eigenen Therapeutin absolviert. Die Zuteilung per Zufallszahlengenerator ergab zwei ausgewogene Gruppen (n=6 pro Arm). Ausgangsmessungen der sozialen Angst (LSAS-CA) und des Redeangst-Vertrauens (PRCS Kurzform) zeigten keine signifikanten Zwischen-Gruppen-Unterschiede.

Das VR-System. Eine fotorealistische virtuelle Lehrerin wurde mit MetaHuman erstellt und auf einem Meta Quest 2 in Unreal Engine 5.03 gerendert. Aus einem angrenzenden Raum steuerte die Logopädin den Avatar in Echtzeit: Ein iPhone 11 mit Live Link Face erfasste die Lippen-, Mund-, Augen-, Augenbrauen- und Kopfbewegungen der Therapeutin und übertrug sie auf den Avatar; Clownfish Voice Changer wendete einen konsistenten männlichen Stimmeffekt an (die Logopädinnen waren überwiegend weiblich, und ein männlicher Avatar von etwa 40-50 Jahren wurde gewählt, um die Wiedererkennung zu erschweren). Die Logopädin sah eine Live-Spiegelung der Ansicht der Teilnehmenden auf einem Laptop, was eine dynamische verbale und nonverbale Reaktionsfähigkeit ermöglichte. Eine subtile Avatar-Körperanimation (leichtes Wiegen, neutrale Armbewegung), angetrieben durch Adobe Mixamo, verhinderte ein unnatürlich statisches Erscheinungsbild. Der virtuelle Klassenraum und der Versuchsraum nutzten aufeinander abgestimmte Schreibtischgeometrie, um das Embodiment-Erleben zu verstärken.

Ablauf. Jede:r Teilnehmende absolvierte zwei Sitzungen im Abstand von etwa zwei Wochen (M=12 Tage, SD=11,3, Spanne 3-42). Jede Sitzung bestand aus drei Phasen:

Ausgangswert - ein 3-minütiges Gespräch mit einem unbekannten Forschungsteammitglied über neutrale Themen (Hobbys, Musik, Reiseziele) zur Erfassung der sprechbezogenen Erregung.
Sprechvorbereitung - eine 3-minütige Diskussion mit demselben Teammitglied über mögliche Unterrichtsanpassungen, die die Teilnehmenden bezüglich ihres Stotterns beantragen könnten.
Gesprächsaufgabe - ein 5-minütiges Gespräch (M=4,7 min, SD=1,6) mit dem “Lehrer”, in dem die Teilnehmenden ihr Stottern offenbarten und Unterrichtsanpassungen aushandelten. Die Lehrperson führte drei Kategorien angstauslösender Stimuli ein, von denen jede mindestens einmal präsentiert wurde: Stirnrunzeln, Gähnen und skriptierte unangenehme Phrasen (“Das ist nicht fair gegenüber den anderen Schüler:innen”, “Warum sollte ich besondere Anpassungen für Sie machen?”). Logopädinnen wurden angewiesen, zwischen den Stimuli mindestens 20 Sekunden zu warten und nicht zwei gleichzeitig einzusetzen; sie durften beruhigungsuchendes oder vermeidendes Verhalten nicht verstärken.

In Sitzung 1 fand die Gesprächsaufgabe der Experimentalgruppe in virtuo statt (die eigene Logopädin steuerte den Avatar aus dem angrenzenden Raum); die der Kontrollgruppe war ein In-Person-Rollenspiel mit der Logopädin. In Sitzung 2 (in vivo für beide Gruppen) fand die Gesprächsaufgabe mit einer unbekannten Schauspieler-Lehrperson in Person statt.

Messinstrumente. Akzeptabilität und Präsenz wurden mit dem ITC-SOPI (44 Items: Räumliche Präsenz, Engagement, Ökologische Validität, Negative Effekte) und einem maßgeschneiderten Fragebogen zur Interaktion mit Avataren (IWA) erfasst. Physiologische Angstmaße umfassten elektroderamalte Aktivität (Hautleitwert SCL, Hautleitreaktionen SCR) und EKG (Herzfrequenz HR, Herzratenvariabilität via RMSSD), aufgezeichnet mit einem Biopac MP36R-System. Selbstberichtete Angst wurde mit einem modifizierten 0-10 SUDS nach jeder Gesprächsphase erhoben. Selbstwirksamkeit wurde mit einem 14-Item-Fragebogen (1-5) gemessen (Cronbachs Alpha = 0,87).

Statistische Analyse. Aufgrund der kleinen Stichprobe nutzten die Autoren parametrisches und nicht-parametrisches Bootstrap-Resampling mit 10.000 Iterationen in IBM SPSS Statistics 29 und Python. Signifikanz wurde aus 95%-Konfidenzintervallen (Nicht-Überschneidung mit Null-Ausgangswert oder mit dem Intervall der anderen Gruppe) und Bootstrap-p-Werten abgeleitet. Effektgrößen (Cohen’s d, Pearson’s r) wurden berichtet. Keine Korrekturen für multiple Vergleiche wurden angewendet, da Bootstrap-Resampling empirische Signifikanzschätzungen ohne parametrische Annahmen liefert.

Was sie fanden

Ziel 1 - Akzeptabilität und Präsenz. ITC-SOPI-Subskalen zeigten gute Präsenz: Räumliche Präsenz M=3,60 (SD=0,70), Engagement M=3,87 (SD=0,78), Ökologische Validität M=3,27 (SD=1,53; ein Teilnehmender bewertete diese als 1/5, was den größeren SD erklärt), Negative Effekte M=1,58 (SD=0,60). Im IWA hatten die Teilnehmenden das Gefühl, mit einer echten Person zu sprechen (M=8,43/10), fühlten NICHT, mit ihrer eigenen Logopädin zu sprechen (M=2,86/10; niedrigere Werte zeigen, dass die Verkörperung der Logopädin erfolgreich verborgen wurde), fanden die simulierten Szenarien relevant (M=9,29/10) und wünschten sich stark Zugang zu dem Werkzeug, um stressige Situationen zu üben (M=9,57/10). Die zwei ältesten Teilnehmenden (16 und 18 Jahre) erkannten die Prosodie und Intonation ihrer Logopädin trotz Stimmmodulation (Werte 10 und 8).

Ziel 2 - Physiologische und subjektive Angstreaktionen. Der SCL der VR-Experimentalgruppe war sowohl während der Sprechvorbereitung als auch während des Gesprächs in Sitzung 1 (95% KI [0,404, 2,578], p=,006 und 95% KI [0,351, 2,142], p=,009) und in Sitzung 2 (95% KI [0,215, 0,935], p<,001 und 95% KI [0,859, 4,471], p=,008) signifikant gegenüber dem Ausgangswert erhöht. Die Rollenspiel-Kontrollgruppe zeigte in keiner Phase einer der Sitzungen eine signifikante SCL-Erhöhung (alle p>.05). Zwischen-Gruppen-SCL-Effekte waren im Allgemeinen klein (d=0,06-0,41), mit einem mittleren Effekt für die Gesprächsaufgabe in Sitzung 2 (d=0,80).

Die Hautleitreaktionen zeigten in Sitzung 1 ein unerwartetes Muster: Die Kontrollgruppe zeigte signifikant MEHR SCRs als die Experimentalgruppe, insbesondere beim Stirnrunzeln (t=-3,79, p<,05) und bei allen Stimuli zusammen (t=-3,76, p<,05). Die Autoren interpretieren dies dahingehend, dass Stirnrunzeln von einem fotorealistischen Avatar schwerer wahrzunehmen sein könnte als von einer echten Person. Innerhalb der Experimentalgruppe waren die SCR-Raten zwischen der in-virtuo- (Sitzung 1) und der in-vivo-Bedingung (Sitzung 2) vergleichbar (t(4)=-1,07, p=,35).

Herzfrequenz und RMSSD zeigten ein unerwartetes Muster in beiden Gruppen. Anstatt des vorhergesagten HR-Anstiegs nahm die HR in den meisten Phasen vom Ausgangswert ab (z.B. Experimentalgruppe Sitzung 1 Gespräch HR 95% KI [-9,828, -2,325], p=,002; Kontrollgruppe Sitzung 1 Gespräch HR 95% KI [-6,038, -2,029], p<,001), und RMSSD stieg während des Gesprächs der Experimentalgruppe in Sitzung 1 an (95% KI [4,699, 12,030], p<,001). Die Autoren interpretieren dies als autonome Adaptation oder Habituation bei sozialem Stress (Kreibig, 2010).

Die selbstberichteten SUDS zeigten eine klare Dissoziation von der physiologischen Erregung. Die SUDS der VR-Gruppe während des In-virtuo-Gesprächs unterschieden sich NICHT signifikant vom Ausgangswert (Beginn 95% KI [-1,167, 2,833], p=,40; Ende 95% KI [-2,667, 1,833], p=1,0). Die SUDS der Rollenspielgruppe waren sowohl zu Beginn (95% KI [2,00, 4,33], p<,001) als auch am Ende des Gesprächs (95% KI [2,16, 5,16], p<,001) signifikant erhöht. Der Zwischen-Gruppen-Effekt am Gesprächsende war groß (d=1,35, 95% KI [-2,77, -0,67], p=,031).

In Sitzung 2 (in vivo für beide Gruppen) zeigten beide Gruppen zu Beginn des Gesprächs erhöhte SUDS (Experimental p=,003; Kontrolle p=,002), die bis zum Ende auf nahezu Ausgangsniveau zurückgingen; Zwischen-Gruppen-Effektgrößen wurden klein (d=0,25-0,30).

Ziel 3 - Mehrwert von VR gegenüber Logopädie-Rollenspiel. Die Selbstwirksamkeit zeigte zu keinem Messzeitpunkt signifikante Zwischen-Gruppen-Unterschiede (Mann-Whitney-U-Tests, alle p>,58) und keine signifikanten Innergruppen-Veränderungen von vor Sitzung 1 bis nach Sitzung 2 (Experimental Wilcoxon Z=-1,36, p=,17, r=,60; Kontrolle Z=-0,94, p=,345, r=,39). Die Autoren schließen, dass eine einzelne Trainingssitzung in keiner Bedingung zu signifikanten Selbstwirksamkeitsgewinnen führte oder die Angst beim anschließenden In-vivo-Gespräch reduzierte. Moderate Innergruppen-Effektgrößen (r=0,36-0,60) deuten auf mögliche Trends hin, die eine größere oder längere Studie möglicherweise aufdecken könnte.

Warum das wichtig ist

Dies ist die erste Stotterstudie, die eine Echtzeit-Face-to-Face-VR-Umgebung mit einem fotorealistischen Avatar implementiert, dessen verbales und nonverbales Verhalten live von einer Klinikerin per Gesichts-Motion-Capture gesteuert wird, kombiniert mit gepaarten physiologischen und subjektiven Maßen. Sie erweitert die frühere virtuelle Klassenzimmer-Forschung desselben Teams (Moise-Richard et al. 2021) von Gruppen-Publikumsszenarien auf Eins-zu-Eins-Gespräche und adressiert das Fehlen physiologischer Messungen in der früheren Studie.

Der zentrale interpretative Beitrag ist die Dissoziation zwischen erhöhter physiologischer Erregung (SCL) und unveränderter subjektiver Belastung (SUDS) in der VR-Bedingung - ein Muster, das mit Langs Drei-Ebenen-Modell der Angst und mit Brundage et al. (2016) bei Erwachsenen mit Stottern übereinstimmt. Wenn ein zukünftiges Mehrfach-Sitzungs-Protokoll diese Dissoziation zuverlässig bestätigt, könnte VR als Einstiegspunkt für vermeidende Jugendliche dienen, die In-vivo-Exposition ansonsten ablehnen würden: Der Körper aktiviert den für Furchtextinktion relevanten Erregungsmechanismus, während das bewusste Bedrohungserleben handhabbar bleibt. Die Autoren betonen ausdrücklich, dass dies eine Schlussfolgerung aus dem Dissoziationsmuster ist, kein demonstrierter Behandlungseffekt dieser Studie.

Ebenso wichtig ist, was die Studie NICHT gezeigt hat: Eine einzelne VR-Trainingssitzung war einer einzelnen Logopädie-Rollenspiel-Sitzung bei der Angstreduktion oder Selbstwirksamkeitsverbesserung nicht überlegen, wenn die Teilnehmenden anschließend einer unbekannten Schauspieler-Lehrperson begegneten. Die Autoren sind klar: Mehrfach-Sitzungs-Protokolle innerhalb eines vollständigen KVT-Rahmens sind erforderlich, bevor klinische Empfehlungen zum Mehrwert von VR gegeben werden können.

Limitationen

Die Autoren nennen folgende Einschränkungen ausdrücklich:

Sehr kleine Stichprobe. N=12, 6 pro Gruppe. Erhebliche individuelle Variabilität wurde beobachtet. Eine größere Stichprobe ist erforderlich.
Nur eine einzige Trainingssitzung. Die Autoren sind klar: Eine Sitzung reicht nicht aus, um Trainingseffekte auf Selbstwirksamkeit und Angst zu beurteilen; Mehrfach-Sitzungs-Protokolle sind notwendig.
Inkonsistenz der Schauspieler-Lehrpersonen in Sitzung 2. Zwei verschiedene Schauspieler:innen spielten die In-vivo-Lehrperson über die Stichprobe hinweg (nach Altersbereich und Körpertyp abgestimmt, beide engagiert gegenüber beiden Gruppen), hatten aber naturgemäß unterschiedliche prosodische Merkmale.
Dieselbe Logopädin spielte beide Rollen. Die eigene Logopädin jedes Teilnehmenden spielte in der Experimentalgruppe manchmal den Avatar und in der Kontrollgruppe den In-Person-Rollenspielpartner.
Erkennung der Logopädin durch ältere Teilnehmende. Die zwei ältesten Teilnehmenden (16 und 18 Jahre) erkannten die Prosodie und den Sprechstil ihrer Logopädin trotz Stimmmodulation.
Retrospektive SUDS-Messung. SUDS wurde nach dem Gespräch erhoben, um die Aufgabe nicht zu unterbrechen. Teilnehmende, die ihre Angst während des Gesprächs natürlich regulierten, könnten die Spitzenangst im Nachhinein unterschätzt haben.
Kein Maß für immersive Tendenzen. Der Immersive Tendencies Questionnaire (Witmer & Singer, 1998) wurde ausgeschlossen, um die kognitive Belastung jüngerer Teilnehmender zu reduzieren.
Kein Eye-Tracking. Einige Kinder schienen den Augenkontakt mit der virtuellen Lehrperson zu vermeiden; Eye-Tracking würde Vermeidungsverhalten quantifizieren.
Unbekannte:r Schauspieler:in anstelle einer echten Lehrperson. Sitzung 2 verwendete eine unbekannte Schauspielperson, was die experimentelle Kontrolle verbesserte, aber die persönlichen Einsätze (keine realen akademischen oder sozialen Konsequenzen) reduzierte.
Kein vollständiger KVT-Expositionsrahmen. Das Verfahren ist eher als “Trainingssitzung” denn als formelle Expositionstherapie einzustufen; ein vollständiges KVT-basiertes Protokoll mit abgestufter Hierarchie, Erwartungsverletzungs-Framing und Nachkonsolidierung wurde nicht umgesetzt.
Offenzulegender Interessenkonflikt. Mitautor Stephane Bouchard ist Berater und Anteilseigner von Cliniques et Developpement In Virtuo, einem VR-Entwicklungsunternehmen. Der Artikel stellt ausdrücklich fest, dass dieses Unternehmen die in der Studie verwendeten Umgebungen nicht erstellt hat.

Implikationen für die Praxis

Für Kliniker:innen, die immersive VR für Jugendliche mit Stottern in Betracht ziehen: Diese Pilotstudie unterstützt die Akzeptabilität und Durchführbarkeit eines fotorealistischen Echtzeit-Avatar-VR-Systems, liefert aber KEINE Evidenz dafür, dass eine VR-Sitzung die Angst stärker reduziert oder die Selbstwirksamkeit mehr verbessert als eine Logopädie-Rollenspiel-Sitzung vor einer realen Sprechaufgabe. Der interpretative Vorschlag der Autoren - dass erhöhte physiologische Erregung kombiniert mit unveränderter subjektiver Belastung VR zu einem nützlichen Einstiegspunkt für vermeidende Jugendliche machen könnte - ist eine Schlussfolgerung aus dem Dissoziationsmuster, kein demonstrierter Behandlungseffekt dieser Studie. Die Autoren betonen ausdrücklich, dass VR innerhalb eines Mehrfach-Sitzungs-KVT-Rahmens zusammen mit traditionellen Ansätzen eingesetzt werden sollte, nicht als eigenständige Einzelsitzungsintervention.

Implikationen für die Forschung

Replikation in größeren Stichproben und über mehrere Trainingssitzungen hinweg ist erforderlich, bevor ein klinischer Mehrwert von VR gegenüber Logopädie-Rollenspiel beansprucht werden kann. Zukünftige Studien sollten ein validiertes Maß für immersive Tendenzen (z.B. Witmer & Singers ITQ), Eye-Tracking für Vermeidungsverhalten, einen Vergleich von Einzelgespräch- mit Gruppen-/Publikums-VR-Szenarien sowie ein vollständiges KVT-basiertes Expositionsprotokoll mit Erwartungsverletzungs-Framing und abgestufter Sitzungshierarchie einschließen. Die prosodische Wiedererkennung der eigenen Logopädin durch ältere Jugendliche (16-18 Jahre) hinter dem Avatar bedarf weiterer Untersuchung.

Redaktionelle Anmerkungen von withVR

Anknüpfungspunkte zu Therapy withVR

Die oben genannte Studie ist unabhängige Forschung und enthält keine Aussage über ein bestimmtes Produkt. Die folgenden Anmerkungen sind Kommentare von withVR dazu, wie die Themen dieser Forschung an Funktionen von Therapy withVR anknüpfen. Die Forschungsergebnisse stellen keine Aussagen über Therapy withVR dar.

Kliniker-gesteuerter Avatar in Echtzeit (andere Plattform)

Diese Studie verwendete ein benutzerdefiniertes Unreal Engine 5.03 / MetaHuman-System auf einem Meta Quest 2, bei dem die Logopädin die Gesichtsausdrücke der virtuellen Lehrerin in Echtzeit per Live Link Face auf einem iPhone 11 steuerte, mit Stimmmodulation über Clownfish Voice Changer. Therapy withVR nutzt ein anderes Steuerungsmodell: die Kliniker:in passt Umgebungsparameter, Avatar-Emotionen und Publikumsverhalten über eine Webanwendung an, statt einen einzelnen Avatar per Gesichts-Motion-Capture zu verkörpern. Nur redaktionelle Parallele - das untersuchte Werkzeug ist vom Forschungsteam entwickelte Forschungssoftware, kein kommerzielles Produkt.

Anpassbarer Gesprächsschwierigkeitsgrad

Die Delangle-Studie führte abgestufte angstauslösende Stimuli (Stirnrunzeln, Gähnen, skriptierte unangenehme Phrasen wie 'Das ist nicht fair gegenüber den anderen Schüler:innen') während des Gesprächs ein, wobei die Logopädin jeden Stimulus basierend auf den Reaktionen der Teilnehmenden timte. Therapy withVRs Kliniker-Steuerungsmöglichkeiten erlauben analoge Echtzeitanpassungen von Avatar-Emotionen und Gesprächsdynamiken im eigenen Design. Nur redaktionelle Parallele.

Flexibilität über mehrere Sitzungen

Die Autoren von Delangle et al. merken ausdrücklich an, dass eine einzige Trainingssitzung nicht ausreichte, um Effekte auf Selbstwirksamkeit oder Angst-Transfer zu erkennen, und empfehlen Mehrfach-Sitzungs-Protokolle innerhalb eines vollständigen KVT-Rahmens. Therapy withVRs Sitzungsprofile und gespeicherte Konfigurationen ermöglichen die Art von wiederholter, abgestufter Übungspraxis, die die Mehrfach-Sitzungs-Forschung einfordert. Nur redaktionelle Parallele.

Diese Studie zitieren

Wenn Sie diese Studie in Ihrer Arbeit zitieren, sind dies die kanonischen Zitierformate:

APA 7th

Delangle, M., Moise-Richard, A., Leclercq A-L, Labbe, D., Bouchard, S., Andrews, S., & Menard, L. (2026). Speaking face-to-face with a virtual avatar to reduce anxiety in students who stutter: Tool development and pilot study results. Journal of Fluency Disorders. https://doi.org/10.1016/j.jfludis.2026.106194.

AMA 11th

Delangle M, Moise-Richard A, Leclercq A-L, Labbe D, Bouchard S, Andrews S, Menard L. Speaking face-to-face with a virtual avatar to reduce anxiety in students who stutter: Tool development and pilot study results. Journal of Fluency Disorders. 2026. doi:10.1016/j.jfludis.2026.106194.

BibTeX

@article{delangle2026,
  author = {Delangle, M. and Moise-Richard, A. and Leclercq A-L and Labbe, D. and Bouchard, S. and Andrews, S. and Menard, L.},
  title = {Speaking face-to-face with a virtual avatar to reduce anxiety in students who stutter: Tool development and pilot study results},
  journal = {Journal of Fluency Disorders},
  year = {2026},
  doi = {10.1016/j.jfludis.2026.106194},
  url = {https://withvr.app/de/evidence/studies/delangle-2026}
}

RIS

TY  - JOUR
AU  - Delangle, M.
AU  - Moise-Richard, A.
AU  - Leclercq A-L
AU  - Labbe, D.
AU  - Bouchard, S.
AU  - Andrews, S.
AU  - Menard, L.
TI  - Speaking face-to-face with a virtual avatar to reduce anxiety in students who stutter: Tool development and pilot study results
JO  - Journal of Fluency Disorders
PY  - 2026
DO  - 10.1016/j.jfludis.2026.106194
UR  - https://withvr.app/de/evidence/studies/delangle-2026
ER  -

Kennen Sie Forschung, die in diese Evidenzbasis gehört? Wenn eine relevante peer-reviewte Studie hier nicht aufgeführt ist, senden Sie die Quellenangabe an hello@withvr.app. Die Evidenzbasis wird aktuell gehalten, während die Literatur wächst.

Finanzierung & Unabhängigkeit

Keine Beteiligung von withVR BV an Finanzierung, Studiendesign oder Autorenschaft. Zusammenfassung unabhängig von withVR auf Basis des veröffentlichten Artikels erstellt.

Zuletzt geprüft: 2026-05-12 Nächste Überprüfung geplant: 2027-05-12 Geprüft von: Gareth Walkom

Pilot-RCT bei jungen Stotternden: live gesteuertes fotorealistisches VR-Avatar wurde gut akzeptiert, schlug aber kein Logopädie-Rollenspiel

Wichtigste Ergebnisse

Hintergrund

Was die Forscher:innen taten

Was sie fanden

Warum das wichtig ist

Limitationen

Implikationen für die Praxis

Implikationen für die Forschung

Anknüpfungspunkte zu Therapy withVR

Kliniker-gesteuerter Avatar in Echtzeit (andere Plattform)

Anpassbarer Gesprächsschwierigkeitsgrad

Flexibilität über mehrere Sitzungen

Verwandte Studien

Stotter- und Angstreaktionen bei virtuellen Publikumsgruppen entsprechen eng denjenigen bei Live-Publikumsgruppen

VR-Publikum erhöht subjektive Belastung, nicht aber physiologische Erregung oder Stotterhäufigkeit bei erwachsenen Männern, die stottern

Pilot-RCT selbstgesteuerter Smartphone-VR-Expositionstherapie bei sozialer Angst bei Stotternden (Nullergebnis primär)

Bei zehn stotternden Kindern/Jugendlichen erzeugten virtuelle Klassenzimmer Angst und Stotterschwere vergleichbar mit einem Live-Publikum

Diese Studie zitieren

Finanzierung & Unabhängigkeit