Deze pagina is vertaald uit het Engels. Als iets vreemd leest, schakel dan over naar de Engelse versie. Bekijk in het Engels.
Drie-deelnemer haalbaarheidscasestudie van een Arabisch VR-spreeksysteem met geautomatiseerde stottergebeurtenis-detector
Hoe dit is beoordeeld
Casestudie met drie deelnemers in één experimentele sessie. De studie doet een haalbaarheidsclaim over Arabisch VR + geautomatiseerde spraakanalyse, geen klinisch-effectclaim. De drempel voor verlengingsdetectie van de spraakanalyse was berekend uit een corpus van drie vloeiende VROUWELIJKE Saoedische sprekers (alleen), wat mogelijk niet generaliseert over geslachten of dialecten. Geen controleconditie; geen vergelijking met klinisch beoordeelde stotterernst; geen longitudinale follow-up. Het artikel heeft geen expliciete financieringsvermelding of COI-verklaring.
Beoordelingen gebruiken een vereenvoudigd vier-niveau-schema (Hoog, Gemiddeld, Laag, Zeer laag), gebaseerd op de GRADE working group. Lees meer over hoe studies worden beoordeeld.
Een haalbaarheidscasestudie met drie deelnemers (twee vrouwelijk, een mannelijk; leeftijden 30-34) van een Arabisch VR-spreeksysteem op een Samsung Gear VR + S6-telefoon, gekoppeld aan een geautomatiseerde stottergebeurtenis-detector. Elke deelnemer voltooide een sessie waarbij ze vanaf een virtueel podium lazen tegenover een virtueel publiek. Installatietijd 2-3 minuten; de geautomatiseerde detector correleerde R=0,95 met handmatige clinicus-tellingen op dezelfde audio.
Een casestudie met 3 deelnemers en één sessie van een Arabisch VR-openbaar-spreekdomein met een geautomatiseerde spraakanalysermodule die verlengingen, blokkades en herhalingen detecteert via de Google Cloud Speech-to-Text API. Nuttig als proof-of-concept voor VR in een ondervertegenwoordigde taalcontext (Arabisch) en voor de integratie van geautomatiseerde spraakanalyse met VR; de steekproef (n=3, één sessie, één omgeving) kan geen klinisch effect vaststellen. De licht-stotteren-deelnemer die de hoogste gedetecteerde stotterrate vertoont, roept vragen op over de kalibratie van de spraakanalyse ten opzichte van klinisch beoordeelde ernst.
Belangrijkste bevindingen
- Drie deelnemers (twee vrouwelijk, één mannelijk; leeftijden 30-34, M=32 SD=1,6) voltooiden elk ÉÉN enkele sessie, GEEN meerdere sessies; het systeem ondersteunt drie publiek-omvangsniveaus (5, 8, 11 avatars) maar het experiment gebruikte één configuratie per deelnemer
- Sterke positieve correlatie (R=0,95) tussen sessieduur en het aantal automatisch gedetecteerde stottergebeurtenissen
- Deelnemers rapporteerden angst en aanwezigheid vergelijkbaar met real-world openbaar spreken; ze rapporteerden ook een 'mild uncanny valley-effect' bij de avatarfiguren
- Installatie en voorbereiding namen 2-3 minuten per deelnemer in beslag; sessieduur varieerde van 1:40-2:25 minuten (deelnemers overschreden de gemiddelde vloeiende voordrachtsduurtijd van 44,7±2,4 seconden met ~1:15 min)
- Tegenintuïtieve bevinding die door de auteurs is aangegeven: de deelnemer beoordeeld als LICHTE stotterernst door de superviserende logopedist vertoonde de HOOGSTE gedetecteerde stottergebeurtenis-percentage (20,8%), terwijl de ERNSTIGE deelnemer de LAAGSTE vertoonde (4,8%); de matige deelnemer vertoonde 8,6%. De auteurs merken op dat dit 'suggereert dat VR mogelijk alleen geschikt is voor personen met hogere stotterernst. Aanvullende gegevens zijn vereist om deze theorie te valideren'
- De spraakanalyse detecteerde drie haperingstypen: verlengingen (woordduur die een drempel overschrijdt afgeleid van drie vloeiende vrouwelijke sprekers), blokkades (wanneer de spraak-API null retourneert voor een uiting, geïnterpreteerd als niet-spraak vocale klanken) en herhalingen (wanneer de API een woord vaker transcribeert dan verwacht)
- Hardware/software: Samsung Gear VR-headset op een Samsung S6-telefoon (Oculus-compatibele Android VR-bril); Blender 3D-modelleertool voor scènekarakters; Mixamo + Unity 3D voor animatie en plaatsing; Google Cloud Speech-to-Text Python-clientbibliotheek met synchrone herkenning; Audacity voor opname-opname; Sony ICD-AX412F digitale recorder met lavalier-microfoon
Achtergrond
Bij het beoordelen van spraakvloeiendheid moet een clinicus doorgaans elk stottermoment handmatig tellen en classificeren tijdens een gesprek of voorleestaken. Dit proces is tijdrovend, subjectief en kan variëren tussen waarnemers. Voor mensen die stotteren kan het bewustzijn van nauwlettend toezicht ook veranderen hoe ze spreken. Een tweede uitdaging is toegang: het meeste stotter-VR-onderzoek is uitgevoerd met Engelssprekende populaties, met zeer beperkt equivalent werk in het Arabisch. Al-Nafjan, Alghamdi en Almudhi - werkzaam aan drie Saoedische universiteiten (Imam Muhammad bin Saud, King Saud en King Khalid) - beoogden beide uitdagingen aan te pakken door een Arabisch VR-openbaar-spreekdomein te ontwikkelen met een geïntegreerde geautomatiseerde spraakanalyse.
Wat de onderzoekers deden
Het team bouwde een tweecomponentensysteem: (1) een VR-component die de deelnemer op een virtueel podium plaatst tegenover een virtueel publiek, met ondersteuning voor drie publiek-omvangsconfiguraties (5, 8 en 11 avatars op niveaus 1, 2 en 3 respectievelijk), gebouwd in Blender voor karaktermodellering, Mixamo voor animatie en Unity 3D voor scène-assemblage, en gerenderd op een Samsung Gear VR-headset (Oculus-compatibel) op een Samsung S6 Android-telefoon; en (2) een spraakanalysecomponent die de voorlezing van de deelnemer registreert via een digitale recorder met lavalier-microfoon, het audio segmenteert met Audacity en elk segment transcribeert met de Google Cloud Speech-to-Text Python-clientbibliotheek. De spraakanalyse markeert drie haperingstypen:
- Verlenging: wanneer de woordduur van een deelnemer een per-woorddrempel overschrijdt berekend door het gemiddelde van dezelfde woord-duur over drie vloeiende vrouwelijke referentiesprekers.
- Blokkade: wanneer de spraak-API een nultranscriptie retourneert voor een uiting, geïnterpreteerd als een niet-spraak vocaal geluid geproduceerd tijdens een stotterblokkade.
- Herhaling: wanneer de API een woord vaker transcribeert dan verwacht van het referentiescript.
De Stotterscreeningsscore (SS) is de som van deze drie tellingen.
Deelnemers. Drie Arabisch sprekende volwassenen die stotteren werden gerekruteerd uit de klinische praktijk van de superviserende logopedist (co-auteur Almudhi). Demografische gegevens: twee vrouwelijk, één mannelijk; leeftijden 30, 32 en 34 (gemiddeld 32, SD 1,6). Stotterernst werd beoordeeld door de logopedist: P1 matig (leeftijd 32), P2 licht (leeftijd 34), P3 ernstig (leeftijd 30). Allen waren gezond met normaal gezichtsvermogen en geen eerdere VR-ervaring.
Procedure. Het experiment was één sessie in een geïsoleerde ruimte onder toezicht van de begeleider. Deelnemers deden een lavalier-microfoon-digitale recorder en de Samsung Gear VR-headset om, stelden hun positie af totdat de tekst op het virtuele podium leesbaar was, en lazen het 74-woorden-Arabische script hardop voor terwijl ze het virtuele publiek onder ogen zagen. Installatie/voorbereiding nam 2-3 minuten per deelnemer in beslag; de eigenlijke leessessie duurde 1:40-2:25 minuten.
Wat ze vonden
Acceptabiliteit en aanwezigheid (kwalitatief). Deelnemers beoordeelden hun VR-ervaringen positief op esthetisch ontwerp, karakterontwerp en immersie. Ze rapporteerden aanvaardbare gelijkenis tussen de VR-scène en een echte conferentiezaal, een “mild uncanny valley-effect” bij de avatarfiguren, en vergelijkbare emotionele reacties (angst, angst) als die tijdens real-world openbare spreekactiviteiten werden ervaren.
Prestatie van de spraakanalyse. Er werd een sterke positieve correlatie gevonden tussen sessieduur en automatisch gedetecteerde stottergebeurtenissen (R=0,95). De auteurs interpreteren dit als bewijs van “aanvaardbare prestatie van de spraakanalyse bij het detecteren van stottergebeurtenissen, met name verlengingsinstanties.”
Tegenintuïtief ernst-vs-detectiereesultaat. Tabel 2 van het artikel toont de per-deelnemer gedetecteerde stottergebeurtenis-percentages: P1 (matig, 32j) 8,6%, P2 (licht, 34j) 20,8%, P3 (ernstig, 30j) 4,8%. Dat wil zeggen: de deelnemer beoordeeld als LICHT door de clinicus vertoonde de HOOGSTE gedetecteerde stotterrate, terwijl de ERNSTIGE deelnemer de LAAGSTE vertoonde. De auteurs merken dit direct op: de bevinding “suggereert dat VR mogelijk alleen geschikt is voor personen met hogere stotterernst. Aanvullende gegevens zijn vereist om deze theorie te valideren.” Een lezer kan dit ook interpreteren als een kalibratie/validiteitsvraag over de geautomatiseerde detector ten opzichte van de klinische beoordeling van ernst, maar de auteurs interpreteren het als een populatiegeschiktheidsvraag.
Haalbaarheidvan installatie. De installatietijd van 2-3 minuten per deelnemer wordt aangeboden als bewijs dat het systeem haalbaar is voor klinisch gebruik.
Waarom dit ertoe doet
Dit behoort tot de weinige VR-stotterstudies uitgevoerd in het Arabisch, wat een significante ondervertegenwoordiging in het veld aanpakt. Het is ook een van de relatief weinige studies die expliciet een kant-en-klare cloud spraakherkennings-API integreert met een VR-omgeving om stottergebeurtenissen automatisch te detecteren. Het integratieconcept - het verminderen van de handmatige telbast tijdens stotterbeoordeling - is een echte klinische behoefte.
De ernst-vs-detectie-observatie is de klinisch meest interessante bevinding. Met slechts 3 deelnemers is het hypothesegenerend, niet conclusief. Het kan weerspiegelen: (a) echte populatievariatie in hoe stotteren zich manifesteert tijdens VR-gebaseerd lezen; (b) kalibratieproblemen met de verlengingsdrempel; (c) test-hertestsvariabiliteit die één sessie niet kan kwantificeren; (d) statistische ruis van n=3. Vervolgwerk zou nodig zijn om deze factoren te onderscheiden.
Beperkingen
- Steekproefgrootte n=3, één sessie, één publieksconfiguratie per deelnemer. Het systeem ondersteunt drie publiek-omvangsniveaus (5/8/11 avatars) maar het experiment varieerde de publieksgrootte niet; het gegradueerde hiërarchiëaspect van het systeem werd niet getest.
- Geen vergelijkingsconditie. Geen niet-VR-baseline, geen vergelijking met handmatige clinicustelling van stottergebeurtenissen, geen test-hertestonderzoek.
- Geen longitudinale follow-up. Slechts één sessie.
- Drempel van spraakanalyse afgeleid van drie vloeiende VROUWELIJKE sprekers. Toegepast op deelnemers van gemengd geslacht; kan niet generaliseren over geslachten, dialecten of spreektempi.
- Tegenintuïtief ernst-vs-detectieresultaat (lichte deelnemer: hoogste gedetecteerde rate; ernstige: laagste) roept de vraag op of de geautomatiseerde detector het klinisch oordeel over ernst volgt.
- Mild uncanny valley-effect gerapporteerd door deelnemers in de kwalitatieve debriefing - een signaal voor het avatardesign.
- Geen expliciete financieringsvermelding of COI-verklaring in het artikel.
- VR-hardware is de originele Samsung Gear VR (mobiele VR uit 2015-era). Moderne Quest-klasse hardware biedt materieel betere visuele getrouwheid en tracking.
Implicaties voor de praktijk
Voor Arabisch sprekende clinici die technologieondersteunde stotterdiagnose overwegen: dit artikel biedt haalbaarheidsbewijs dat een kant-en-klare cloud spraakherkennings-API (Google Cloud Speech-to-Text) kan worden gecombineerd met een VR-openbaar-spreekdomein om verlengingen, blokkades en herhalingen te detecteren bij Arabisch-talige stotterbeoordeling. De onverwachte bevinding dat de deelnemer met de laagste klinisch beoordeelde ernst de hoogste automatisch-detectierate toonde, is een waarschuwing tegen het gebruik van dergelijke systemen voor ernstigheidsclassificatie zonder verdere kalibratie. Clinici dienen de studie te behandelen als proof-of-concept voor de technische pipeline (Arabisch-talig VR + geautomatiseerde spraakanalyse), niet als bewijs dat VR stotteren vermindert of dat geautomatiseerde detectie het klinisch oordeel weerspiegelt.
Hoe dit aansluit op Therapy withVR
De bovenstaande studie is onafhankelijk onderzoek en spreekt geen oordeel uit over enig product. De onderstaande opmerkingen zijn commentaar van withVR over hoe de thema's in dit onderzoek aansluiten bij functies van Therapy withVR. De onderzoeksresultaten zijn geen claims over Therapy withVR.
Speech analysis integration (editorial parallel only)
De studie van Al-Nafjan integreerde een kant-en-klare geautomatiseerde spraakherkenner (Google Cloud Speech-to-Text) met de VR-omgeving om verlengingen, blokkades en herhalingen in het Arabisch te detecteren. Het conceptuele doel - het verminderen van de last van handmatig tellen van stottergebeurtenissen tijdens sessies - is er één dat de sessieregistratie van Therapy withVR op een andere manier kan ondersteunen binnen het eigen ontwerp. Enkel redactionele parallel; het bestudeerde systeem is op maat gemaakte onderzoekssoftware, niet Therapy withVR.
Adjustable audience size (editorial parallel only)
Het VR-systeem van Al-Nafjan ondersteunt drie publiek-omvangsconfiguraties (5, 8, 11 avatars). Het experiment gebruikte één configuratie per deelnemer, maar het hiërarchieconcept van het systeem sluit aan bij de door de clinicus aanpasbare publiekcontroles van Therapy withVR binnen het eigen ontwerp. Enkel redactionele parallel.
Citeer deze studie
Als u naar deze studie verwijst in uw werk, zijn dit de canonieke citatieformaten:
@article{alnafjan2021,
author = {Al-Nafjan, A. and Alghamdi, N. and Almudhi, A.},
title = {Virtual Reality Technology and Speech Analysis for People Who Stutter},
journal = {EMITTER International Journal of Engineering Technology},
year = {2021},
doi = {10.24003/emitter.v9i2.649},
url = {https://withvr.app/nl/evidence/studies/al-nafjan-2021}
}TY - JOUR
AU - Al-Nafjan, A.
AU - Alghamdi, N.
AU - Almudhi, A.
TI - Virtual Reality Technology and Speech Analysis for People Who Stutter
JO - EMITTER International Journal of Engineering Technology
PY - 2021
DO - 10.24003/emitter.v9i2.649
UR - https://withvr.app/nl/evidence/studies/al-nafjan-2021
ER - Kent u onderzoek dat in deze hub thuishoort? Als een relevante peer-reviewed studie hier niet vermeld staat, stuur de referentie naar hello@withvr.app. De hub wordt actueel gehouden naarmate de literatuur groeit.
Financiering & onafhankelijkheid
Het artikel vermeldt GEEN externe financieringsbron - er is geen 'Financiering'-sectie in het artikel. De Dankbetuigingen bedanken drie niet bij name genoemde projectteamleden (Asmaa Albasha, Maryam Alghalban, Ola Semsemiah) 'voor hun harde werk en toewijding' samen met de deelnemende proefpersonen. Geen COI-verklaring is opgenomen in het artikel. Auteursaanduidingen: Abeer Al-Nafjan (Department of Computer Sciences, College of Computer and Information Sciences, Imam Muhammad bin Saud Islamic University, Riyadh, Saudi-Arabië); Najwa Alghamdi (Department of Information Technology, College of Computer and Information Sciences, King Saud University, Riyadh, Saudi-Arabië); Abdulaziz Almudhi (Department of Medical Rehabilitation Sciences, College of Applied Medical Sciences EN Speech Language Pathology Unit, King Khalid University, Abha, Saudi-Arabië). Het VR-systeem was op maat ontwikkeld door de auteurs met Blender, Unity 3D en Mixamo, draaiend op een Samsung Gear VR-headset (Oculus-compatibel) met een Samsung S6-telefoon; dit is NIET Therapy withVR. De spraakanalyse gebruikte de Google Cloud Speech-to-Text Python-clientbibliotheek. Geen betrokkenheid van withVR BV bij financiering, onderzoeksopzet of auteurschap. Samenvatting onafhankelijk opgesteld door withVR op basis van het gepubliceerde artikel.