Wat heeft Al-Nafjan et al. (2021) gevonden?

Drie deelnemers (twee vrouwelijk, één mannelijk; leeftijden 30-34, M=32 SD=1,6) voltooiden elk ÉÉN enkele sessie, GEEN meerdere sessies; het systeem ondersteunt drie publiek-omvangsniveaus (5, 8, 11 avatars) maar het experiment gebruikte één configuratie per deelnemer Sterke positieve correlatie (R=0,95) tussen sessieduur en het aantal automatisch gedetecteerde stottergebeurtenissen Deelnemers rapporteerden angst en aanwezigheid vergelijkbaar met real-world openbaar spreken; ze rapporteerden ook een 'mild uncanny valley-effect' bij de avatarfiguren Installatie en voorbereiding namen 2-3 minuten per deelnemer in beslag; sessieduur varieerde van 1:40-2:25 minuten (deelnemers overschreden de gemiddelde vloeiende voordrachtsduurtijd van 44,7±2,4 seconden met ~1:15 min) Tegenintuïtieve bevinding die door de auteurs is aangegeven: de deelnemer beoordeeld als LICHTE stotterernst door de superviserende logopedist vertoonde de HOOGSTE gedetecteerde stottergebeurtenis-percentage (20,8%), terwijl de ERNSTIGE deelnemer de LAAGSTE vertoonde (4,8%); de matige deelnemer vertoonde 8,6%. De auteurs merken op dat dit 'suggereert dat VR mogelijk alleen geschikt is voor personen met hogere stotterernst. Aanvullende gegevens zijn vereist om deze theorie te valideren' De spraakanalyse detecteerde drie haperingstypen: verlengingen (woordduur die een drempel overschrijdt afgeleid van drie vloeiende vrouwelijke sprekers), blokkades (wanneer de spraak-API null retourneert voor een uiting, geïnterpreteerd als niet-spraak vocale klanken) en herhalingen (wanneer de API een woord vaker transcribeert dan verwacht) Hardware/software: Samsung Gear VR-headset op een Samsung S6-telefoon (Oculus-compatibele Android VR-bril); Blender 3D-modelleertool voor scènekarakters; Mixamo + Unity 3D voor animatie en plaatsing; Google Cloud Speech-to-Text Python-clientbibliotheek met synchrone herkenning; Audacity voor het bewerken van de opnames; Sony ICD-AX412F digitale recorder met lavalier-microfoon

Wie nam deel aan deze studie?

Deze studie omvatte 3 deelnemers: Arabisch sprekende volwassenen die stotteren (2V/1M, leeftijd 30-34)

Deze pagina is vertaald uit het Engels. Als iets vreemd leest, schakel dan over naar de Engelse versie. Bekijk in het Engels.

Stotteren

Drie-deelnemer haalbaarheidscasestudie van een Arabisch VR-spreeksysteem met geautomatiseerde stottergebeurtenis-detector

Al-Nafjan A et al. · 2021 · EMITTER International Journal of Engineering Technology · Casestudy · n = 3 · Arabisch sprekende volwassenen die stotteren (2V/1M, leeftijd 30-34) · DOI

Mate van zekerheid: Zeer lage zekerheid

Hoe dit is beoordeeld

Casestudie met drie deelnemers in één experimentele sessie. De studie doet een haalbaarheidsclaim over Arabisch VR + geautomatiseerde spraakanalyse, geen klinisch-effectclaim. De drempel voor verlengingsdetectie van de spraakanalyse was berekend uit een corpus van drie vloeiende VROUWELIJKE Saoedische sprekers (alleen), wat mogelijk niet generaliseert over geslachten of dialecten. Geen controleconditie; geen vergelijking met klinisch beoordeelde stotterernst; geen longitudinale follow-up. Het artikel heeft geen expliciete financieringsvermelding of COI-verklaring.

Beoordelingen gebruiken een vereenvoudigd vier-niveau-schema (Hoog, Gemiddeld, Laag, Zeer laag), gebaseerd op de GRADE working group. Lees meer over hoe studies worden beoordeeld.

Een haalbaarheidscasestudie met drie deelnemers (twee vrouwelijk, een mannelijk; leeftijden 30-34) van een Arabisch VR-spreeksysteem op een Samsung Gear VR + S6-telefoon, gekoppeld aan een geautomatiseerde stottergebeurtenis-detector. Elke deelnemer voltooide een sessie waarbij ze vanaf een virtueel podium lazen tegenover een virtueel publiek. Installatietijd 2-3 minuten; de geautomatiseerde detector correleerde R=0,95 met handmatige clinicus-tellingen op dezelfde audio.

Klinische kernboodschap

Een casestudie met 3 deelnemers en één sessie van een Arabisch VR-openbaar-spreekdomein met een geautomatiseerde spraakanalysermodule die verlengingen, blokkades en herhalingen detecteert via de Google Cloud Speech-to-Text API. Nuttig als proof-of-concept voor VR in een ondervertegenwoordigde taalcontext (Arabisch) en voor de integratie van geautomatiseerde spraakanalyse met VR; de steekproef (n=3, één sessie, één omgeving) kan geen klinisch effect vaststellen. De licht-stotteren-deelnemer die de hoogste gedetecteerde stotterrate vertoont, roept vragen op over de kalibratie van de spraakanalyse ten opzichte van klinisch beoordeelde ernst.

Belangrijkste bevindingen

Drie deelnemers (twee vrouwelijk, één mannelijk; leeftijden 30-34, M=32 SD=1,6) voltooiden elk ÉÉN enkele sessie, GEEN meerdere sessies; het systeem ondersteunt drie publiek-omvangsniveaus (5, 8, 11 avatars) maar het experiment gebruikte één configuratie per deelnemer
Sterke positieve correlatie (R=0,95) tussen sessieduur en het aantal automatisch gedetecteerde stottergebeurtenissen
Deelnemers rapporteerden angst en aanwezigheid vergelijkbaar met real-world openbaar spreken; ze rapporteerden ook een 'mild uncanny valley-effect' bij de avatarfiguren
Installatie en voorbereiding namen 2-3 minuten per deelnemer in beslag; sessieduur varieerde van 1:40-2:25 minuten (deelnemers overschreden de gemiddelde vloeiende voordrachtsduurtijd van 44,7±2,4 seconden met ~1:15 min)
Tegenintuïtieve bevinding die door de auteurs is aangegeven: de deelnemer beoordeeld als LICHTE stotterernst door de superviserende logopedist vertoonde de HOOGSTE gedetecteerde stottergebeurtenis-percentage (20,8%), terwijl de ERNSTIGE deelnemer de LAAGSTE vertoonde (4,8%); de matige deelnemer vertoonde 8,6%. De auteurs merken op dat dit 'suggereert dat VR mogelijk alleen geschikt is voor personen met hogere stotterernst. Aanvullende gegevens zijn vereist om deze theorie te valideren'
De spraakanalyse detecteerde drie haperingstypen: verlengingen (woordduur die een drempel overschrijdt afgeleid van drie vloeiende vrouwelijke sprekers), blokkades (wanneer de spraak-API null retourneert voor een uiting, geïnterpreteerd als niet-spraak vocale klanken) en herhalingen (wanneer de API een woord vaker transcribeert dan verwacht)
Hardware/software: Samsung Gear VR-headset op een Samsung S6-telefoon (Oculus-compatibele Android VR-bril); Blender 3D-modelleertool voor scènekarakters; Mixamo + Unity 3D voor animatie en plaatsing; Google Cloud Speech-to-Text Python-clientbibliotheek met synchrone herkenning; Audacity voor het bewerken van de opnames; Sony ICD-AX412F digitale recorder met lavalier-microfoon

Achtergrond

Bij het beoordelen van spraakvloeiendheid moet een clinicus doorgaans elk stottermoment handmatig tellen en classificeren tijdens een gesprek of voorleestaken. Dit proces is tijdrovend, subjectief en kan variëren tussen waarnemers. Voor mensen die stotteren kan het bewustzijn van nauwlettend toezicht ook veranderen hoe ze spreken. Een tweede uitdaging is toegang: het meeste stotter-VR-onderzoek is uitgevoerd met Engelssprekende populaties, met zeer beperkt equivalent werk in het Arabisch. Al-Nafjan, Alghamdi en Almudhi - werkzaam aan drie Saoedische universiteiten (Imam Muhammad bin Saud, King Saud en King Khalid) - beoogden beide uitdagingen aan te pakken door een Arabisch VR-openbaar-spreekdomein te ontwikkelen met een geïntegreerde geautomatiseerde spraakanalyse.

Wat de onderzoekers deden

Het team bouwde een tweecomponentensysteem: (1) een VR-component die de deelnemer op een virtueel podium plaatst tegenover een virtueel publiek, met ondersteuning voor drie publiek-omvangsconfiguraties (5, 8 en 11 avatars op niveaus 1, 2 en 3 respectievelijk), gebouwd in Blender voor karaktermodellering, Mixamo voor animatie en Unity 3D voor scène-assemblage, en gerenderd op een Samsung Gear VR-headset (Oculus-compatibel) op een Samsung S6 Android-telefoon; en (2) een spraakanalysecomponent die de voorlezing van de deelnemer registreert via een digitale recorder met lavalier-microfoon, het audio segmenteert met Audacity en elk segment transcribeert met de Google Cloud Speech-to-Text Python-clientbibliotheek. De spraakanalyse markeert drie haperingstypen:

Verlenging: wanneer de woordduur van een deelnemer een per-woorddrempel overschrijdt berekend door het gemiddelde van dezelfde woord-duur over drie vloeiende vrouwelijke referentiesprekers.
Blokkade: wanneer de spraak-API een nultranscriptie retourneert voor een uiting, geïnterpreteerd als een niet-spraak vocaal geluid geproduceerd tijdens een stotterblokkade.
Herhaling: wanneer de API een woord vaker transcribeert dan verwacht van het referentiescript.

De Stotterscreeningsscore (SS) is de som van deze drie tellingen.

Deelnemers. Drie Arabisch sprekende volwassenen die stotteren werden gerekruteerd uit de klinische praktijk van de superviserende logopedist (co-auteur Almudhi). Demografische gegevens: twee vrouwelijk, één mannelijk; leeftijden 30, 32 en 34 (gemiddeld 32, SD 1,6). Stotterernst werd beoordeeld door de logopedist: P1 matig (leeftijd 32), P2 licht (leeftijd 34), P3 ernstig (leeftijd 30). Allen waren gezond met normaal gezichtsvermogen en geen eerdere VR-ervaring.

Procedure. Het experiment was één sessie in een geïsoleerde ruimte onder toezicht van de begeleider. Deelnemers deden een lavalier-microfoon-digitale recorder en de Samsung Gear VR-headset om, stelden hun positie af totdat de tekst op het virtuele podium leesbaar was, en lazen het 74-woorden-Arabische script hardop voor terwijl ze het virtuele publiek onder ogen zagen. Installatie/voorbereiding nam 2-3 minuten per deelnemer in beslag; de eigenlijke leessessie duurde 1:40-2:25 minuten.

Wat ze vonden

Acceptabiliteit en aanwezigheid (kwalitatief). Deelnemers beoordeelden hun VR-ervaringen positief op esthetisch ontwerp, karakterontwerp en immersie. Ze rapporteerden aanvaardbare gelijkenis tussen de VR-scène en een echte conferentiezaal, een “mild uncanny valley-effect” bij de avatarfiguren, en vergelijkbare emotionele reacties (angst, angst) als die tijdens real-world openbare spreekactiviteiten werden ervaren.

Prestatie van de spraakanalyse. Er werd een sterke positieve correlatie gevonden tussen sessieduur en automatisch gedetecteerde stottergebeurtenissen (R=0,95). De auteurs interpreteren dit als bewijs van “aanvaardbare prestatie van de spraakanalyse bij het detecteren van stottergebeurtenissen, met name verlengingsinstanties.”

Tegenintuïtief ernst-vs-detectiereesultaat. Tabel 2 van het artikel toont de per-deelnemer gedetecteerde stottergebeurtenis-percentages: P1 (matig, 32j) 8,6%, P2 (licht, 34j) 20,8%, P3 (ernstig, 30j) 4,8%. Dat wil zeggen: de deelnemer beoordeeld als LICHT door de clinicus vertoonde de HOOGSTE gedetecteerde stotterrate, terwijl de ERNSTIGE deelnemer de LAAGSTE vertoonde. De auteurs merken dit direct op: de bevinding “suggereert dat VR mogelijk alleen geschikt is voor personen met hogere stotterernst. Aanvullende gegevens zijn vereist om deze theorie te valideren.” Een lezer kan dit ook interpreteren als een kalibratie/validiteitsvraag over de geautomatiseerde detector ten opzichte van de klinische beoordeling van ernst, maar de auteurs interpreteren het als een populatiegeschiktheidsvraag.

Haalbaarheidvan installatie. De installatietijd van 2-3 minuten per deelnemer wordt aangeboden als bewijs dat het systeem haalbaar is voor klinisch gebruik.

Waarom dit ertoe doet

Dit behoort tot de weinige VR-stotterstudies uitgevoerd in het Arabisch, wat een significante ondervertegenwoordiging in het veld aanpakt. Het is ook een van de relatief weinige studies die expliciet een kant-en-klare cloud spraakherkennings-API integreert met een VR-omgeving om stottergebeurtenissen automatisch te detecteren. Het integratieconcept - het verlichten van de handmatige tellast tijdens stotterbeoordeling - sluit aan bij een reële klinische behoefte.

De ernst-vs-detectie-observatie is de klinisch meest interessante bevinding. Met slechts 3 deelnemers is het hypothesegenerend, niet conclusief. Het kan weerspiegelen: (a) echte populatievariatie in hoe stotteren zich manifesteert tijdens VR-gebaseerd lezen; (b) kalibratieproblemen met de verlengingsdrempel; (c) test-hertestsvariabiliteit die één sessie niet kan kwantificeren; (d) statistische ruis van n=3. Vervolgwerk zou nodig zijn om deze factoren te onderscheiden.

Beperkingen

Steekproefgrootte n=3, één sessie, één publieksconfiguratie per deelnemer. Het systeem ondersteunt drie publiek-omvangsniveaus (5/8/11 avatars) maar het experiment varieerde de publieksgrootte niet; het gegradueerde hiërarchiëaspect van het systeem werd niet getest.
Geen vergelijkingsconditie. Geen niet-VR-baseline, geen vergelijking met handmatige clinicustelling van stottergebeurtenissen, geen test-hertestonderzoek.
Geen longitudinale follow-up. Slechts één sessie.
Drempel van spraakanalyse afgeleid van drie vloeiende VROUWELIJKE sprekers. Toegepast op deelnemers van gemengd geslacht; kan niet generaliseren over geslachten, dialecten of spreektempi.
Tegenintuïtief ernst-vs-detectieresultaat (lichte deelnemer: hoogste gedetecteerde rate; ernstige: laagste) roept de vraag op of de geautomatiseerde detector het klinisch oordeel over ernst volgt.
Mild uncanny valley-effect gerapporteerd door deelnemers in de kwalitatieve debriefing - een signaal voor het avatardesign.
Geen expliciete financieringsvermelding of COI-verklaring in het artikel.
VR-hardware is de originele Samsung Gear VR (mobiele VR uit 2015-era). Moderne Quest-klasse hardware biedt materieel betere visuele getrouwheid en tracking.

Implicaties voor de praktijk

Voor Arabisch sprekende clinici die technologieondersteunde stotterdiagnose overwegen: dit artikel biedt haalbaarheidsbewijs dat een kant-en-klare cloud spraakherkennings-API (Google Cloud Speech-to-Text) kan worden gecombineerd met een VR-openbaar-spreekdomein om verlengingen, blokkades en herhalingen te detecteren bij Arabisch-talige stotterbeoordeling. De onverwachte bevinding dat de deelnemer met de laagste klinisch beoordeelde ernst de hoogste automatisch-detectierate toonde, is een waarschuwing tegen het gebruik van dergelijke systemen voor ernstigheidsclassificatie zonder verdere kalibratie. Clinici dienen de studie te behandelen als proof-of-concept voor de technische pipeline (Arabisch-talig VR + geautomatiseerde spraakanalyse), niet als bewijs dat VR stotteren vermindert of dat geautomatiseerde detectie het klinisch oordeel weerspiegelt.

Redactionele opmerkingen van withVR

Hoe dit aansluit op Therapy withVR

De bovenstaande studie is onafhankelijk onderzoek en spreekt geen oordeel uit over enig product. De onderstaande opmerkingen zijn commentaar van withVR over hoe de thema's in dit onderzoek aansluiten bij functies van Therapy withVR. De onderzoeksresultaten zijn geen claims over Therapy withVR.

Speech analysis integration (editorial parallel only)

De studie van Al-Nafjan integreerde een kant-en-klare geautomatiseerde spraakherkenner (Google Cloud Speech-to-Text) met de VR-omgeving om verlengingen, blokkades en herhalingen in het Arabisch te detecteren. Het conceptuele doel - het verminderen van de last van handmatig tellen van stottergebeurtenissen tijdens sessies - is er één dat de sessieregistratie van Therapy withVR op een andere manier kan ondersteunen binnen het eigen ontwerp. Enkel redactionele parallel; het bestudeerde systeem is op maat gemaakte onderzoekssoftware, niet Therapy withVR.

Adjustable audience size (editorial parallel only)

Het VR-systeem van Al-Nafjan ondersteunt drie publiek-omvangsconfiguraties (5, 8, 11 avatars). Het experiment gebruikte één configuratie per deelnemer, maar het hiërarchieconcept van het systeem sluit aan bij de door de clinicus aanpasbare publiekcontroles van Therapy withVR binnen het eigen ontwerp. Enkel redactionele parallel.

Citeer deze studie

Als u naar deze studie verwijst in uw werk, zijn dit de canonieke citatieformaten:

APA 7th

Al-Nafjan, A., Alghamdi, N., & Almudhi, A. (2021). Virtual Reality Technology and Speech Analysis for People Who Stutter. EMITTER International Journal of Engineering Technology. https://doi.org/10.24003/emitter.v9i2.649.

AMA 11th

Al-Nafjan A, Alghamdi N, Almudhi A. Virtual Reality Technology and Speech Analysis for People Who Stutter. EMITTER International Journal of Engineering Technology. 2021. doi:10.24003/emitter.v9i2.649.

BibTeX

@article{alnafjan2021,
  author = {Al-Nafjan, A. and Alghamdi, N. and Almudhi, A.},
  title = {Virtual Reality Technology and Speech Analysis for People Who Stutter},
  journal = {EMITTER International Journal of Engineering Technology},
  year = {2021},
  doi = {10.24003/emitter.v9i2.649},
  url = {https://withvr.app/nl/evidence/studies/al-nafjan-2021}
}

RIS

TY  - JOUR
AU  - Al-Nafjan, A.
AU  - Alghamdi, N.
AU  - Almudhi, A.
TI  - Virtual Reality Technology and Speech Analysis for People Who Stutter
JO  - EMITTER International Journal of Engineering Technology
PY  - 2021
DO  - 10.24003/emitter.v9i2.649
UR  - https://withvr.app/nl/evidence/studies/al-nafjan-2021
ER  -

Kent u onderzoek dat in deze hub thuishoort? Als een relevante peer-reviewed studie hier niet vermeld staat, stuur de referentie naar hello@withvr.app. De hub wordt actueel gehouden naarmate de literatuur groeit.

Financiering & onafhankelijkheid

Het artikel vermeldt GEEN externe financieringsbron - er is geen 'Financiering'-sectie in het artikel. De Dankbetuigingen bedanken drie niet bij name genoemde projectteamleden (Asmaa Albasha, Maryam Alghalban, Ola Semsemiah) 'voor hun harde werk en toewijding' samen met de deelnemende proefpersonen. Geen COI-verklaring is opgenomen in het artikel. Auteursaanduidingen: Abeer Al-Nafjan (Department of Computer Sciences, College of Computer and Information Sciences, Imam Muhammad bin Saud Islamic University, Riyadh, Saudi-Arabië); Najwa Alghamdi (Department of Information Technology, College of Computer and Information Sciences, King Saud University, Riyadh, Saudi-Arabië); Abdulaziz Almudhi (Department of Medical Rehabilitation Sciences, College of Applied Medical Sciences EN Speech Language Pathology Unit, King Khalid University, Abha, Saudi-Arabië). Het VR-systeem was op maat ontwikkeld door de auteurs met Blender, Unity 3D en Mixamo, draaiend op een Samsung Gear VR-headset (Oculus-compatibel) met een Samsung S6-telefoon; dit is NIET Therapy withVR. De spraakanalyse gebruikte de Google Cloud Speech-to-Text Python-clientbibliotheek. Geen betrokkenheid van withVR BV bij financiering, onderzoeksopzet of auteurschap. Samenvatting onafhankelijk opgesteld door withVR op basis van het gepubliceerde artikel.

Laatst beoordeeld: 2026-05-12 Volgende beoordeling gepland: 2027-05-12 Beoordeeld door: Gareth Walkom

Drie-deelnemer haalbaarheidscasestudie van een Arabisch VR-spreeksysteem met geautomatiseerde stottergebeurtenis-detector

Belangrijkste bevindingen

Achtergrond

Wat de onderzoekers deden

Wat ze vonden

Waarom dit ertoe doet

Beperkingen

Implicaties voor de praktijk

Hoe dit aansluit op Therapy withVR

Speech analysis integration (editorial parallel only)

Adjustable audience size (editorial parallel only)

Gerelateerde studies

VR-sollicitatie: interviewerstijl beïnvloedt stotterfrequentie; %SS in VR correleert sterk met %SS in klinisch SSI-3

Stotteren en angstreacties in virtueel publiek komen sterk overeen met die bij een live publiek

VR-publiek verhoogt subjectieve stress maar niet fysiologische opwinding of stotterfrequentie bij volwassen mannen die stotteren

Bachelorscriptie-pilot van vroege Samsung Gear VR-spreekprototype met 6 volwassenen die stotteren - gemengde angstresultaten

Citeer deze studie

Financiering & onafhankelijkheid