Diese Seite wurde aus dem Englischen übersetzt. Wenn etwas seltsam klingt, wechseln Sie zur englischen Version. Auf Englisch ansehen.
Drei-Personen-Machbarkeits-Fallstudie eines arabischsprachigen VR-Sprechsystems mit automatischem Stotter-Ereignis-Detektor
Wie dies bewertet wurde
Fallstudie mit drei Teilnehmenden in einer einzigen experimentellen Sitzung. Die Studie erhebt einen Machbarkeits-/Machbarkeitsnachweis-Anspruch für arabischsprachige VR + automatisierte Sprachanalyse, keinen klinischen Effektanspruch. Der Prolongations-Erkennungsschwellenwert des Sprachanalysators wurde aus einem Korpus von drei flüssigen WEIBLICHEN saudiarabischen Sprecherinnen (nur) berechnet, was möglicherweise nicht auf Geschlechter oder Dialekte verallgemeinert werden kann. Keine Kontrollbedingung; kein Vergleich mit klinisch bewertetem Stotterschweregrad; keine Längsschnitt-Nachbeobachtung. Das Papier hat keine explizite Finanzierungserklärung oder Interessenkonflikt-Erklärung.
Die Bewertungen verwenden ein vereinfachtes vierstufiges Schema (Hoch, Mittel, Niedrig, Sehr niedrig), angelehnt an die GRADE working group. Mehr darüber erfahren, wie Studien bewertet werden.
Eine Drei-Personen-Machbarkeits-Fallstudie (zwei weiblich, eine männlich; Alter 30-34) eines arabischsprachigen VR-Sprechsystems auf Samsung Gear VR + S6-Telefon, gepaart mit einem automatisierten Stotter-Ereignis-Detektor. Jede:r Teilnehmende absolvierte eine Sitzung mit Lesen von einem virtuellen Rednerpult vor einem virtuellen Publikum. Aufbauzeit 2-3 Minuten; der automatisierte Detektor korrelierte mit R=0,95 mit manuellen Klinikerzählungen derselben Audiodaten.
Eine 3-Personen-Einzelsitzungs-Machbarkeits-Fallstudie eines arabischsprachigen VR-Öffentlichkeitsrede-Systems mit einem automatisierten Sprachanalysemodul, das Prolongationen, Blockaden und Wiederholungen über die Google Cloud Speech-to-Text API erkennt. Nützlich als Machbarkeitsnachweis für VR in einem unterversorgten Sprachkontext (Arabisch) und für die Integration automatisierter Sprachanalyse mit VR; die Stichprobe (n=3, eine Sitzung, eine Umgebung) kann keine klinischen Effekte etablieren. Der Befund, dass die Teilnehmende mit mildstem Schweregrad die höchste erkannte Stotterrate zeigte, wirft Fragen zur Kalibrierung des Sprachanalysators bezüglich des klinisch bewerteten Schweregrads auf.
Wichtigste Ergebnisse
- Drei Teilnehmende (zwei weiblich, eine männlich; Alter 30-34, M=32 SD=1,6) absolvierten jeweils EINE einzelne Sitzung, KEINE mehreren Sitzungen; das System unterstützt drei Publikumsgrößen (5, 8, 11 Avatare), aber das Experiment verwendete eine einzelne Konfiguration pro Teilnehmenden
- Starke positive Korrelation (R=0,95) zwischen Sitzungslänge und der Anzahl automatisch erkannter Stotterereignisse
- Teilnehmende berichteten Angst und Präsenz, die realen öffentlichen Sprechsituationen vergleichbar waren; sie berichteten auch einen 'milden Uncanny-Valley-Effekt' bei den Avatar-Figuren
- Aufbau und Vorbereitung dauerten 2-3 Minuten pro Teilnehmenden; Sitzungslänge reichte von 1:40-2:25 Minuten
- Kontraintuitiver Befund: Die vom SLP als LEICHT bewertete Teilnehmende zeigte die HÖCHSTE erkannte Stotterereignisrate (20,8%), während die SCHWERE Teilnehmende die niedrigste (4,8%) zeigte; die mittelschwere Teilnehmende zeigte 8,6%. Die Autoren merken an: 'Dies legt nahe, dass VR möglicherweise nur für Personen mit höherem Stotterschweregrad geeignet ist. Weitere Daten sind erforderlich, um diese Theorie zu validieren'
- Sprachanalysator erkannte drei Unflüssigkeitstypen: Prolongationen, Blockaden (wenn die Sprach-API null zurückgibt) und Wiederholungen (wenn die API ein Wort öfter als erwartet transkribiert)
- Hardware/Software: Samsung Gear VR auf Samsung S6; Blender 3D-Modellierungswerkzeug für Szenencharaktere; Mixamo + Unity 3D für Animation und Platzierung; Google Cloud Speech-to-Text Python-Client-Bibliothek mit synchroner Erkennung; Audacity für Aufnahmeerfassung
Hintergrund
Die Beurteilung der Sprachflüssigkeit erfordert typischerweise, dass eine Klinikerin jeden Stottermoment während eines Gesprächs oder einer Leseaufgabe manuell zählt und klassifiziert. Dieser Prozess ist zeitaufwendig, subjektiv und kann zwischen Beobachter:innen variieren. Für Menschen mit Stottern kann das Bewusstsein, genau beobachtet zu werden, auch das Sprechen verändern. Eine zweite Herausforderung ist der Zugang: Der Großteil der Stotter-VR-Forschung wurde mit englischsprachigen Populationen durchgeführt, mit sehr begrenzter äquivalenter Arbeit auf Arabisch. Al-Nafjan, Alghamdi und Almudhi - arbeitend an drei saudiarabischen Universitäten (Imam Muhammad bin Saud, King Saud und King Khalid) - setzten sich zum Ziel, beide Herausforderungen zu adressieren, indem sie eine arabischsprachige VR-Öffentlichkeitsrede-Umgebung mit einem integrierten automatisierten Sprachanalysator entwickelten.
Was die Forscher:innen taten
Das Team baute ein zweikomponentiges System: (1) eine VR-Komponente, die den Teilnehmenden an einem virtuellen Rednerpult vor einem virtuellen Publikum platziert und drei Publikumsgrößen (5, 8 und 11 Avatare auf den Niveaus 1, 2 und 3) unterstützt, gebaut in Blender für die Charaktermodellierung, Mixamo für die Animation und Unity 3D für die Szenengestaltung, und gerendert auf einem Samsung Gear VR-Headset (Oculus-kompatibel) auf einem Samsung S6-Android-Telefon; und (2) eine Sprachanalysekomponente, die die Leseleistung der Teilnehmenden über ein digitales Aufnahmegerät mit Lavalier-Mikrofon aufzeichnet, das Audio mit Audacity segmentiert und jeden Abschnitt mit der Google Cloud Speech-to-Text Python-Client-Bibliothek mit synchroner Erkennung transkribiert. Der Sprachanalysator markiert drei Unflüssigkeitstypen:
- Prolongation: wenn die Wortdauer einer Teilnehmenden den wortspezifischen Schwellenwert überschreitet, der aus dem Durchschnitt der Wortdauer über drei flüssige weibliche Referenzsprecher:innen berechnet wurde (74 arabische Wörter in 44,7±2,4 Sekunden gelesen).
- Blockade: wenn die Sprach-API eine Null-Transkription für eine Äußerung zurückgibt, interpretiert als nicht-sprachlicher Vokalklang während eines Stotterblocks.
- Wiederholung: wenn die API ein Wort öfter transkribiert als aus dem Referenzskript erwartet.
Der Stuttering Screening (SS)-Score ist die Summe dieser drei Zählungen.
Teilnehmende. Drei arabischsprachige Erwachsene mit Stottern wurden aus der klinischen Praxis des betreuenden SLP (Mitautor Almudhi) rekrutiert. Demographische Daten: zwei weiblich, eine männlich; Alter 30, 32 und 34 (Mittelwert 32, SD 1,6). Stotterschweregrad wurde vom SLP bewertet: P1 mittelschwer (Alter 32), P2 leicht (Alter 34), P3 schwer (Alter 30). Alle waren gesund mit normalem Sehvermögen und ohne Vorerfahrung mit VR.
Ablauf. Das Experiment war eine einzelne Sitzung in einem isolierten Raum unter Aufsicht. Teilnehmende legten ein Lavalier-Mikrofon-Digital-Rekorder und das Samsung Gear VR-Headset an und lasen den 74-Wörter-arabischen Text laut vor, während sie dem virtuellen Publikum gegenüberstanden. Aufbau/Vorbereitung dauerte 2-3 Minuten; die eigentliche Lesesitzung dauerte 1:40-2:25 Minuten. Nach der Aufnahme wurde das Audio segmentiert, transkribiert und analysiert; danach wurden Teilnehmende für subjektives Feedback interviewt.
Was sie fanden
Akzeptabilität und Präsenz (qualitativ). Teilnehmende bewerteten ihre VR-Erfahrungen positiv hinsichtlich ästhetischem Design, Charakterdesign und Immersion. Sie berichteten akzeptable Ähnlichkeit zwischen der VR-Szene und einem realen Konferenzraum, einen “milden Uncanny-Valley-Effekt” bei den Avatar-Figuren (eine bemerkte Einschränkung des Charakterdesigns), und ähnliche emotionale Reaktionen (Angst, Besorgnis) wie in realen öffentlichen Sprechaktivitäten.
Sprachanalysator-Leistung. Eine starke positive Korrelation wurde zwischen Sitzungslänge und automatisch erkannten Stotterereignissen gefunden (R=0,95). Die Autoren interpretieren dies als Evidenz für “akzeptable Leistung des Sprachanalysators bei der Erkennung von Stotterereignissen, insbesondere Prolongationsinstanzen.”
Kontraintuitives Schweregrad-vs.-Erkennungsergebnis. Tabelle 2 des Papiers zeigt die teilnehmerweise erkannten Stotterereignis-Prozentsätze: P1 (mittelschwer, 32J) 8,6%, P2 (leicht, 34J) 20,8%, P3 (schwer, 30J) 4,8%. Das heißt, die vom Kliniker als LEICHT eingestufte Teilnehmende zeigte die HÖCHSTE erkannte Stotterrate, während die SCHWERE Teilnehmende die NIEDRIGSTE zeigte. Die Autoren merken dies direkt an: “Eine interessante Beobachtung ist, dass die Teilnehmende mit leichtem Stotterschweregrad einen höheren Prozentsatz an Stotterereignissen aufwies. Diese Beobachtung legt nahe, dass VR möglicherweise nur für Personen mit höherem Stotterschweregrad geeignet ist. Weitere Daten sind erforderlich, um diese Theorie zu validieren.”
Machbarkeit des Aufbaus. Die 2-3 Minuten Aufbauzeit pro Teilnehmenden wird als Evidenz für die klinische Machbarkeit des Systems angeboten.
Warum das wichtig ist
Dies ist eine der sehr wenigen VR-Stotter-Studien, die auf Arabisch durchgeführt wurden, und adressiert eine erhebliche Unterrepräsentation in diesem Bereich. Es ist auch eine der relativ wenigen Studien, die explizit eine handelsübliche Cloud-Spracherkennungs-API mit einer VR-Umgebung integriert, um Stotterereignisse automatisch zu erkennen. Das Integrationskonzept - Reduzierung der manuellen Zählbelastung während der Stotterbewertung - ist ein echter klinischer Bedarf.
Der Schweregrad-vs.-Erkennungs-Befund ist der klinisch interessanteste Befund. Mit nur 3 Teilnehmenden ist er hypothesengenerierend, nicht schlüssig. Er könnte reflektieren: (a) echte Populationsvariation bei der Manifestation des Stotterns während VR-basierter Lesung; (b) Kalibrierungsprobleme mit dem Prolongationsschwellenwert; (c) Test-Retest-Variabilität, die eine einzelne Sitzung nicht quantifizieren kann; (d) statistisches Rauschen bei n=3.
Limitationen
Das Papier erkennt einige davon direkt an; andere sind dem Design inhärent:
- Stichprobengröße n=3, einzelne Sitzung, einzelne Publikumskonfiguration pro Teilnehmenden. Das System unterstützt drei Publikumsgrößen (5/8/11 Avatare), aber das Experiment variierte die Publikumsgröße nicht innerhalb oder zwischen Teilnehmenden.
- Keine Vergleichsbedingung. Keine Nicht-VR-Ausgangswert, kein Vergleich mit manuellen klinischen Ereigniszählungen, kein Test-Retest.
- Keine Längsschnitt-Nachbeobachtung. Nur eine Sitzung.
- Sprachanalysator-Schwellenwert aus drei flüssigen WEIBLICHEN Sprecherinnen abgeleitet. Auf gemischtgeschlechtliche Teilnehmende angewendet; kann möglicherweise nicht auf Geschlechter, Dialekte oder Sprechtempis verallgemeinert werden.
- Kontraintuitiver Schweregrad-vs.-Erkennungs-Befund wirft die Frage auf, ob der automatische Detektor das klinische Schweregrad-Urteil widerspiegelt.
- Milder Uncanny-Valley-Effekt von Teilnehmenden im qualitativen Abschluss berichtet - ein Hinweis für das Avatar-Design.
- Keine explizite Finanzierungserklärung oder Interessenkonflikt-Erklärung im Papier.
- VR-Hardware ist das originale Samsung Gear VR (mobile VR aus dem Jahr 2015). Moderne Quest-Klasse-Hardware bietet materiell bessere visuelle Wiedergabetreue und Tracking.
Implikationen für die Praxis
Für arabischsprachige Kliniker:innen, die technologiegestützte Stotterbewertung in Betracht ziehen: Dieses Papier liefert Machbarkeitsevidenz, dass eine handelsübliche Cloud-Spracherkennungs-API (Google Cloud Speech-to-Text) mit einer VR-Öffentlichkeitsrede-Umgebung kombiniert werden kann, um Prolongationen, Blockaden und Wiederholungen bei arabischsprachiger Stotterbewertung zu erkennen. Der unerwartete Befund, dass die Teilnehmende mit dem niedrigsten klinisch bewerteten Schweregrad die höchste automatisch erkannte Rate zeigte, ist eine Warnung vor der Verwendung solcher Systeme für Schweregradbewertungen ohne weitere Kalibrierung. Kliniker:innen sollten die Studie als Machbarkeitsnachweis für die technische Pipeline (arabischsprachige VR + automatisierte Sprachanalyse) behandeln, nicht als Evidenz, dass VR das Stottern reduziert oder automatische Erkennung dem klinischen Urteil entspricht.
Anknüpfungspunkte zu Therapy withVR
Die oben genannte Studie ist unabhängige Forschung und enthält keine Aussage über ein bestimmtes Produkt. Die folgenden Anmerkungen sind Kommentare von withVR dazu, wie die Themen dieser Forschung an Funktionen von Therapy withVR anknüpfen. Die Forschungsergebnisse stellen keine Aussagen über Therapy withVR dar.
Speech analysis integration (editorial parallel only)
Die Al-Nafjan-Studie integrierte eine handelsübliche automatische Spracherkennung (Google Cloud Speech-to-Text) in die VR-Umgebung, um Prolongationen, Blockaden und Wiederholungen auf Arabisch zu erkennen. Das konzeptuelle Ziel - die Belastung durch manuelles Zählen von Stotterereignissen während Sitzungen zu reduzieren - ist eines, das Therapy withVRs Sitzungsprotokollierung auf andere Weise (im eigenen Design) unterstützen kann. Nur redaktionelle Parallele; das untersuchte System ist benutzerdefinierte Forschungssoftware, nicht Therapy withVR.
Adjustable audience size (editorial parallel only)
Das Al-Nafjan-VR-System unterstützt drei Publikumsgrößen (5, 8, 11 Avatare). Das Experiment verwendete eine einzelne Konfiguration pro Teilnehmenden, aber das Hierarchiekonzept des Systems stimmt mit Therapy withVRs klinisch anpassbaren Publikumskontrollen im eigenen Design überein. Nur redaktionelle Parallele.
Diese Studie zitieren
Wenn Sie diese Studie in Ihrer Arbeit zitieren, sind dies die kanonischen Zitierformate:
@article{alnafjan2021,
author = {Al-Nafjan, A. and Alghamdi, N. and Almudhi, A.},
title = {Virtual Reality Technology and Speech Analysis for People Who Stutter},
journal = {EMITTER International Journal of Engineering Technology},
year = {2021},
doi = {10.24003/emitter.v9i2.649},
url = {https://withvr.app/de/evidence/studies/al-nafjan-2021}
}TY - JOUR
AU - Al-Nafjan, A.
AU - Alghamdi, N.
AU - Almudhi, A.
TI - Virtual Reality Technology and Speech Analysis for People Who Stutter
JO - EMITTER International Journal of Engineering Technology
PY - 2021
DO - 10.24003/emitter.v9i2.649
UR - https://withvr.app/de/evidence/studies/al-nafjan-2021
ER - Kennen Sie Forschung, die in diese Evidenzbasis gehört? Wenn eine relevante peer-reviewte Studie hier nicht aufgeführt ist, senden Sie die Quellenangabe an hello@withvr.app. Die Evidenzbasis wird aktuell gehalten, während die Literatur wächst.
Finanzierung & Unabhängigkeit
Das Papier legt KEINE externe Finanzierungsquelle offen - es gibt keinen 'Finanzierung'-Abschnitt. Die Danksagungen danken drei namentlich nicht genannten Projektteammitgliedern (Asmaa Albasha, Maryam Alghalban, Ola Semsemiah) 'für ihre harte Arbeit und Hingabe' sowie den teilnehmenden Probanden. Es ist keine Interessenkonflikt-Erklärung im Papier enthalten. Autorenaffiliationen: Abeer Al-Nafjan (Department of Computer Sciences, College of Computer and Information Sciences, Imam Muhammad bin Saud Islamic University, Riad, Saudi-Arabien); Najwa Alghamdi (Department of Information Technology, College of Computer and Information Sciences, King Saud University, Riad, Saudi-Arabien); Abdulaziz Almudhi (Department of Medical Rehabilitation Sciences, College of Applied Medical Sciences AND Speech Language Pathology Unit, King Khalid University, Abha, Saudi-Arabien). Das VR-System wurde von den Autoren mit Blender, Unity 3D und Mixamo benutzerdefiniert entwickelt und lief auf einem Samsung Gear VR-Headset (Oculus-kompatibel) mit einem Samsung S6-Telefon; dies ist NICHT Therapy withVR. Der Sprachanalysator verwendete die Google Cloud Speech-to-Text Python-Client-Bibliothek. Keine Beteiligung der withVR BV an Finanzierung, Studiendesign oder Autorschaft. Die Zusammenfassung wurde unabhängig von withVR auf Grundlage des veröffentlichten Artikels erstellt.