Hva fant Al-Nafjan et al. (2021)?

Tre deltakere (to kvinner, én mann; alder 30–34, M=32 SD=1,6) gjennomførte HVER ÉN enkelt sesjon, IKKE flere sesjoner; systemet støtter tre publikumsstørrelses-nivåer (5, 8, 11 avatarer) men eksperimentet brukte én enkelt konfigurasjon per deltaker Sterk positiv korrelasjon (R=0,95) mellom sesjonslengde og antall automatisk oppdagede stammehendelser Deltakerne rapporterte angst og tilstedeværelse sammenlignbart med offentlig tale i virkeligheten; de rapporterte også en 'mild uncanny valley-effekt' med avatar-karakterene Oppsett og forberedelse tok 2–3 minutter per deltaker; sesjonslengde varierte 1:40–2:25 minutter (deltakerne oversteg gjennomsnittlig flytende resitasjonsvarighet på 44,7±2,4 sekunder med ca. 1:15 min) Kontraintuitivt funn flagget av forfatterne: deltakeren vurdert som MIL stamme-alvorlighetsgrad av den veiledende logopeden viste den HØYESTE oppdagede stamme-hendelse-raten (20,8 %) mens ALVORLIG deltakeren viste den LAVESTE (4,8 %); moderat deltaker viste 8,6 %. Forfatterne bemerker dette 'antyder at VR kanskje passer bare individer med høyere stamme-alvorlighetsgrad. Ytterligere data er nødvendig for å validere denne teorien' Taleanalysatoren oppdaget tre dysfluens-typer: forlengelser (ordvarighet som overskrider en terskel utledet fra tre flytende kvinnelige talere i gjennomsnitt 74 arabiske ord lest høyt på 44,7±2,4 sekunder), blokkeringer (når tale-API returnerer null for en ytring, tolket som ikke-tale vokale lyder), og repetisjoner (når API transkriberer et ord flere ganger enn forventet) Maskinvare/programvare: Samsung Gear VR hodesett på en Samsung S6-telefon (Oculus-kompatibel Android VR-briller); Blender 3D-modelleringsverktøy for scene-karakterer; Mixamo + Unity 3D for animasjon og plassering; Google Cloud Speech-to-Text Python-klientbibliotek med synkron gjenkjenning; Audacity for opptak; Sony ICD-AX412F digital opptaker med lavalier-mikrofon

Hvem deltok i denne studien?

Denne studien omfattet 3 deltakere: Arabisktalende voksne som stammer (2K/1M, alder 30-34)

Denne siden er oversatt fra engelsk. Hvis noe virker rart, bytt til engelsk for originalen. Vis på engelsk.

Stamming

Tre-deltaker gjennomførbarhetscasestudie av arabiskspråklig VR offentlig-tale-system med automatisert stammehendelsesdetektor

Al-Nafjan A et al. · 2021 · EMITTER International Journal of Engineering Technology · Kasusstudie · n = 3 · Arabisktalende voksne som stammer (2K/1M, alder 30-34) · DOI

Grad av sikkerhet: Svært lav sikkerhet

Hvordan dette er vurdert

Casestudie med tre deltakere i én enkelt eksperimentell sesjon. Studien fremsetter et gjennomførbarhets-/proof-of-concept-krav om arabiskspråklig VR + automatisert taleanalyse, ikke et klinisk-effekt-krav. Taleanalysatorterskelen for forlengelse-deteksjon ble beregnet fra et korpus av tre flytende KVINNELIGE saudiarabiske talere (bare), noe som kanskje ikke generaliserer på tvers av kjønn eller dialekter. Ingen kontrollbetingelse; ingen sammenligning med kliniker-vurdert stamme-alvorlighetsgrad; ingen longitudinell oppfølging. Artikkelen har ingen eksplisitt finansieringsopplysning eller COI-erklæring.

Vurderingene bruker en forenklet firenivåskala (Høy, Moderat, Lav, Svært lav), basert på GRADE working group. Les mer om hvordan studier vurderes.

En tre-deltaker gjennomførbarhetscasestudie (to kvinner, én mann, alder 30-34) av et arabiskspråklig VR offentlig-tale-system på Samsung Gear VR + S6-telefon, paret med en automatisert stammehendelsesdetektor. Hver deltaker fullførte én økt og leste fra en virtuell talerstol vendt mot et virtuelt publikum. Oppsettstid 2-3 minutter; den automatiserte detektoren korrelerte R=0,95 med manuelle klinikertellinger på samme lyd.

Klinisk kjernebudskap

En 3-deltaker enkeltsesjon gjennomførbarhets-casestudie av et arabiskspråklig VR offentlig-tale-miljø med et automatisert taleananalyse-modul som oppdager forlengelser, blokkeringer og repetisjoner via Google Cloud Speech-to-Text API. Nyttig som proof-of-concept for VR i en underservert språk-kontekst (arabisk) og for integrasjonen av automatisert taleanalyse med VR; utvalget (n=3, én sesjon, ett miljø) kan ikke etablere klinisk effekt. Mild-stamme-deltakeren som viste den høyeste oppdagede stamme-raten reiser spørsmål om taleanalyserasens kalibrering med hensyn til kliniker-vurdert alvorlighetsgrad, noe forfatterne flagget for fremtidig forskning.

Viktigste funn

Tre deltakere (to kvinner, én mann; alder 30–34, M=32 SD=1,6) gjennomførte HVER ÉN enkelt sesjon, IKKE flere sesjoner; systemet støtter tre publikumsstørrelses-nivåer (5, 8, 11 avatarer) men eksperimentet brukte én enkelt konfigurasjon per deltaker
Sterk positiv korrelasjon (R=0,95) mellom sesjonslengde og antall automatisk oppdagede stammehendelser
Deltakerne rapporterte angst og tilstedeværelse sammenlignbart med offentlig tale i virkeligheten; de rapporterte også en 'mild uncanny valley-effekt' med avatar-karakterene
Oppsett og forberedelse tok 2–3 minutter per deltaker; sesjonslengde varierte 1:40–2:25 minutter (deltakerne oversteg gjennomsnittlig flytende resitasjonsvarighet på 44,7±2,4 sekunder med ca. 1:15 min)
Kontraintuitivt funn flagget av forfatterne: deltakeren vurdert som MIL stamme-alvorlighetsgrad av den veiledende logopeden viste den HØYESTE oppdagede stamme-hendelse-raten (20,8 %) mens ALVORLIG deltakeren viste den LAVESTE (4,8 %); moderat deltaker viste 8,6 %. Forfatterne bemerker dette 'antyder at VR kanskje passer bare individer med høyere stamme-alvorlighetsgrad. Ytterligere data er nødvendig for å validere denne teorien'
Taleanalysatoren oppdaget tre dysfluens-typer: forlengelser (ordvarighet som overskrider en terskel utledet fra tre flytende kvinnelige talere i gjennomsnitt 74 arabiske ord lest høyt på 44,7±2,4 sekunder), blokkeringer (når tale-API returnerer null for en ytring, tolket som ikke-tale vokale lyder), og repetisjoner (når API transkriberer et ord flere ganger enn forventet)
Maskinvare/programvare: Samsung Gear VR hodesett på en Samsung S6-telefon (Oculus-kompatibel Android VR-briller); Blender 3D-modelleringsverktøy for scene-karakterer; Mixamo + Unity 3D for animasjon og plassering; Google Cloud Speech-to-Text Python-klientbibliotek med synkron gjenkjenning; Audacity for opptak; Sony ICD-AX412F digital opptaker med lavalier-mikrofon

Bakgrunn

Vurdering av taleflyt krever vanligvis at en kliniker manuelt teller og klassifiserer hvert stammemoment under en samtale eller leseoppgave. Denne prosessen er tidkrevende, subjektiv og kan variere mellom observatører. For personer som stammer kan bevisstheten om å bli nøye overvåket også endre måten de snakker på. En annen utfordring er tilgang: det meste av stamme-VR-forskning har blitt gjennomført med engelsktalende populasjoner, med svært begrenset tilsvarende arbeid på arabisk. Al-Nafjan, Alghamdi og Almudhi - som arbeider på tvers av tre saudiarabiske universiteter (Imam Muhammad bin Saud, King Saud og King Khalid) - satte seg fore å adressere begge utfordringene ved å utvikle et arabiskspråklig VR offentlig-tale-miljø med en integrert automatisert taleanalysator.

Hva forskerne gjorde

Teamet bygde et to-komponent-system: (1) en VR-komponent som plasserer deltakeren ved et virtuelt podium foran et virtuelt publikum, som støtter tre publikumsstørrelses-konfigurasjoner (5, 8 og 11 avatarer på nivå 1, 2 og 3 henholdsvis), bygget i Blender for karaktermodellering, Mixamo for animasjon og Unity 3D for scene-sammensetting, og gjengitt på et Samsung Gear VR hodesett (Oculus-kompatibelt) som kjørte på en Samsung S6 Android-telefon; og (2) en taleanalysator-komponent som registrerer deltakernes lesing via en Olympus WS-500M digital opptaker med lavalier-mikrofon, segmenterer lyden ved hjelp av Audacity og transkriberer hvert segment ved bruk av Google Cloud Speech-to-Text Python-klientbiblioteket med synkron gjenkjenning. Taleanalysatoren flagget tre dysfluens-typer:

Forlengelse: når en deltakers ordvarighet overskrider en per-ord-terskel beregnet ved å midtle det samme ordets varighet på tvers av tre flytende kvinnelige referansetalere (74 arabiske ord lest på 44,7±2,4 sekunder).
Blokkering: når tale-API returnerer en null-transkripsjon for en ytring, tolket som en ikke-tale vokal lyd produsert under en stammeblokkering.
Repetisjon: når API transkriberer et ord flere ganger enn forventet fra referansemanus.

Stuttering Screening (SS)-skåren er summen av disse tre tellingene.

Deltakere. Tre arabisktalende voksne som stammer ble rekruttert fra den veiledende SLPs (medforfatter Almudhi) kliniske praksis. Demografi: to kvinner, én mann; alder 30, 32 og 34 (gjennomsnitt 32, SD 1,6). Stamme-alvorlighetsgrad ble vurdert av SLP: P1 moderat (alder 32), P2 mild (alder 34), P3 alvorlig (alder 30). Alle var friske med normalt syn og ingen tidligere VR-erfaring.

Prosedyre. Eksperimentet var én enkelt sesjon i et isolert rom under veilederens tilsyn. Deltakerne tok på seg en lavalier-mikrofon digital Sony IC-Recorder (ICD-AX412F) og Samsung Gear VR hodesettet, justerte posisjonen til teksten på det virtuelle podiet var lesbar, og leste det 74-ords arabiske manus høyt mens de stod foran det virtuelle publikummet. Oppsett/forberedelse tok 2–3 minutter per deltaker; den faktiske lesesesjonen varte 1:40–2:25 minutter. Etter opptaket ble lyden segmentert, transkribert og analysert; deltakerne ble deretter intervjuet for subjektiv tilbakemelding.

Hva de fant

Akseptabilitet og tilstedeværelse (kvalitativ). Deltakerne vurderte positivt sine VR-opplevelser på tvers av estetisk design, karakterdesign og innlevelse. De rapporterte akseptabel likhet mellom VR-scenen og et ekte konferanserom, en “mild uncanny valley-effekt” med avatar-karakterene (en bemerket begrensning av karakterdesignet), og lignende emosjonelle reaksjoner (frykt, angst) som de opplever i virkelige offentlige taleaktiviteter.

Taleanalysator-ytelse. En sterk positiv korrelasjon ble funnet mellom sesjonslengde og automatisk oppdagede stammehendelser (R=0,95). Forfatterne tolker dette som evidens for “akseptabel ytelse av taleanalysatoren i å oppdage stammehendelser, særlig forlengelsesinstanser.”

Kontraintuitivt alvorlighetsgrad-mot-oppdagelse-resultat. Tabell 2 i artikkelen viser deltaker-for-deltaker oppdagede stamme-hendelse-prosentandeler: P1 (moderat, 32år) 8,6 %, P2 (mild, 34år) 20,8 %, P3 (alvorlig, 30år) 4,8 %. Det vil si at deltakeren vurdert som MIL av klinikeren viste den HØYESTE oppdagede stamme-raten, mens ALVORLIG deltakeren viste den LAVESTE. Forfatterne flagget dette direkte: “En interessant observasjon er at deltakeren med mild stamme-alvorlighetsgrad viste en høyere prosentandel av stammehendelser. Denne observasjonen antyder at VR kanskje passer bare individer med høyere stamme-alvorlighetsgrad. Ytterligere data er nødvendig for å validere denne teorien.” En leser kan like gjerne tolke dette som et kalibrerings-/validitetsspørsmål om den automatiserte detektoren kontra kliniker-vurderingen, men forfatterne tolker det som et befolkningsegnethetsspørsmål.

Gjennomførbarhets-oppsett. 2–3 minutters oppsettstid per deltaker tilbys som evidens for at systemet er gjennomførbart for klinisk bruk.

Hvorfor dette er viktig

Dette er blant de svært få VR-stamme-studiene gjennomført på arabisk, noe som adresserer en betydelig underrepresentasjon i feltet. Det er også en av de relativt få studiene som eksplisitt integrerer et hyllevare sky-tale-gjenkjennings-API med et VR-miljø for automatisk å oppdage stammehendelser. Integrasjonskonseptet - å redusere den manuelle telle-byrden under stamme-vurdering - er et reelt klinisk behov; om implementeringen fungerer robust er hva denne lille casestudien kan antyde (R=0,95 korrelasjon med sesjonslengde) men ikke kan etablere (n=3, ingen sammenligning med kliniker hendelse-tellinger).

Alvorlighetsgrad-mot-oppdagelse-observasjonen er det mest klinisk interessante funnet. Med bare 3 deltakere er det hypotese-genererende, ikke konklusivt. Det kunne gjenspeile: (a) ekte populasjonsvariasjon i hvordan stamming manifesterer seg under VR-basert lesing; (b) kalibreringstroubls med forlengelse-terskelen (utledet fra tre flytende kvinnelige talere, brukt på tvers av blandede-kjønns-deltakere og varierende alvorlighetsgrader); (c) test-retest-variabilitet som én enkelt sesjon ikke kan kvantifisere; (d) statistisk støy fra n=3.

Begrensninger

Artikkelen erkjenner noen av disse direkte; andre er iboende i designet:

Utvalgs-størrelse n=3, enkelt sesjon, enkelt publikumskonfigurasjon per deltaker. Systemet støtter tre publikumsstørrelses-nivåer (5/8/11 avatarer) men eksperimentet varierte ikke publikumsstørrelse; det graderte hierarki-aspektet av systemet ble ikke testet.
Ingen sammenligning-betingelse. Ingen ikke-VR-baseline, ingen sammenligning med manuell kliniker hendelse-telling, ingen test-retest.
Ingen longitudinell oppfølging. Enkelt sesjon bare.
Taleanalysator-terskel utledet fra tre flytende KVINNELIGE talere. Brukt på tvers av blandede-kjønns-deltakere; kan ikke generalisere på tvers av kjønn, dialekter eller tale-tempo.
Kontraintuitivt alvorlighetsgrad-mot-oppdagelse-funn (mild deltaker: høyest oppdaget rate; alvorlig: lavest) reiser spørsmålet om den automatiserte detektoren sporer kliniker-vurdering av alvorlighetsgrad.
Mild uncanny valley-effekt rapportert av deltakere i den kvalitative debriefingen - et flagg for avatar-designet.
Ingen eksplisitt finansieringsopplysning eller COI-erklæring i artikkelen.
VR-maskinvare er den originale Samsung Gear VR (2015-æra mobil-VR). Moderne Quest-klasse maskinvare tilbyr materielt bedre visuell troverdighet og sporing.

Implikasjoner for praksis

For arabisktalende klinikere som vurderer teknologi-assistert stamme-vurdering: dette papiret gir gjennomførbarhets-evidens for at et hyllevare sky-tale-gjenkjennings-API (Google Cloud Speech-to-Text) kan kombineres med et VR offentlig-tale-miljø for å oppdage forlengelser, blokkeringer og repetisjoner i arabiskspråklig stamme-vurdering. Det uventede funnet at deltakeren med lavest kliniker-vurdert alvorlighetsgrad viste den høyeste automatiserte-oppdagelsesraten er en advarsel mot å bruke slike systemer for alvorlighetsgradering uten ytterligere kalibrering. Klinikere bør behandle studien som proof-of-concept for den tekniske pipelinen (arabiskspråklig VR + automatisert taleanalyse), ikke som evidens for at VR reduserer stamming eller at automatisert oppdagelse samsvarer med kliniker-vurdering.

Redaksjonelle merknader fra withVR

Hvordan dette knyttes til Therapy withVR

Studien ovenfor er uavhengig forskning og uttaler seg ikke om noe produkt. Merknadene nedenfor er kommentarer fra withVR om hvordan temaene i denne forskningen knytter seg til funksjoner i Therapy withVR. Forskningsresultatene er ikke påstander om Therapy withVR.

Integrasjon av taleanalyse (kun redaksjonell parallell)

Al-Nafjan-studien integrerte en hyllevare automatisert tale-gjenkjenner (Google Cloud Speech-to-Text) med VR-miljøet for å oppdage forlengelser, blokkeringer og repetisjoner på arabisk. Det konseptuelle målet - å redusere byrden av manuell stamme-hendelse-telling under sesjoner - er ett som Therapy withVRs sesjonslogging kan støtte på en annen måte (innenfor sitt eget design). Kun en redaksjonell parallell; det studerte systemet er egenutviklet forskningsprogramvare, ikke Therapy withVR.

Justerbar publikumsstørrelse (kun redaksjonell parallell)

Al-Nafjan VR-systemet støtter tre publikumsstørrelses-konfigurasjoner (5, 8, 11 avatarer). Eksperimentet brukte én enkelt konfigurasjon per deltaker, men systemets hierarki-konsept samsvarer med Therapy withVRs kliniker-justerbare publikumskontroller innenfor sitt eget design. Kun en redaksjonell parallell.

Siter denne studien

Hvis du refererer til denne studien i arbeidet ditt, er dette de kanoniske siteringsformatene:

APA 7th

Al-Nafjan, A., Alghamdi, N., & Almudhi, A. (2021). Virtual Reality Technology and Speech Analysis for People Who Stutter. EMITTER International Journal of Engineering Technology. https://doi.org/10.24003/emitter.v9i2.649.

AMA 11th

Al-Nafjan A, Alghamdi N, Almudhi A. Virtual Reality Technology and Speech Analysis for People Who Stutter. EMITTER International Journal of Engineering Technology. 2021. doi:10.24003/emitter.v9i2.649.

BibTeX

@article{alnafjan2021,
  author = {Al-Nafjan, A. and Alghamdi, N. and Almudhi, A.},
  title = {Virtual Reality Technology and Speech Analysis for People Who Stutter},
  journal = {EMITTER International Journal of Engineering Technology},
  year = {2021},
  doi = {10.24003/emitter.v9i2.649},
  url = {https://withvr.app/no/evidence/studies/al-nafjan-2021}
}

RIS

TY  - JOUR
AU  - Al-Nafjan, A.
AU  - Alghamdi, N.
AU  - Almudhi, A.
TI  - Virtual Reality Technology and Speech Analysis for People Who Stutter
JO  - EMITTER International Journal of Engineering Technology
PY  - 2021
DO  - 10.24003/emitter.v9i2.649
UR  - https://withvr.app/no/evidence/studies/al-nafjan-2021
ER  -

Kjenner du til forskning som hører hjemme i denne kunnskapsbasen? Hvis en relevant fagfellevurdert studie ikke er oppført her, send referansen til hello@withvr.app. Kunnskapsbasen holdes oppdatert etter hvert som litteraturen vokser.

Finansiering og uavhengighet

Artikkelen oppgir INGEN ekstern finansieringskilde - det er ingen 'Finansiering'-seksjon i artikkelen. Takksigelsene takker tre unavngitte prosjektteammedlemmer (Asmaa Albasha, Maryam Alghalban, Ola Semsemiah) 'for sitt harde arbeid og dedikasjon' sammen med deltakende fag. Ingen COI-erklæring er inkludert i artikkelen. Forfatter-tilhørigheter: Abeer Al-Nafjan (Department of Computer Sciences, College of Computer and Information Sciences, Imam Muhammad bin Saud Islamic University, Riyadh, Saudi-Arabia); Najwa Alghamdi (Department of Information Technology, College of Computer and Information Sciences, King Saud University, Riyadh, Saudi-Arabia); Abdulaziz Almudhi (Department of Medical Rehabilitation Sciences, College of Applied Medical Sciences OG Speech Language Pathology Unit, King Khalid University, Abha, Saudi-Arabia). VR-systemet ble egenutviklet av forfatterne ved hjelp av Blender, Unity 3D og Mixamo, kjørende på et Samsung Gear VR hodesett (Oculus-kompatibelt) med en Samsung S6-telefon; dette er IKKE Therapy withVR. Taleanalysatoren brukte Google Cloud Speech-to-Text Python-klientbiblioteket. Ingen involvering fra withVR BV i finansiering, studiedesign eller forfatterskap. Sammendrag utarbeidet uavhengig av withVR ved bruk av den publiserte artikkelen.

Sist vurdert: 2026-05-12 Neste vurdering planlagt: 2027-05-12 Vurdert av: Gareth Walkom

Tre-deltaker gjennomførbarhetscasestudie av arabiskspråklig VR offentlig-tale-system med automatisert stammehendelsesdetektor

Viktigste funn

Bakgrunn

Hva forskerne gjorde

Hva de fant

Hvorfor dette er viktig

Begrensninger

Implikasjoner for praksis

Hvordan dette knyttes til Therapy withVR

Integrasjon av taleanalyse (kun redaksjonell parallell)

Justerbar publikumsstørrelse (kun redaksjonell parallell)

Relaterte studier

VR-jobbintervjuer viser at intervjuerstil påvirker stammefrekvens; %SS i VR korrelerer sterkt med %SS i et klinisk SSI-3-intervju

Stamme- og angstresponser i virtuelle publikum samsvarer nær perfekt med responser i levende publikum

VR-publikum øker subjektivt ubehag, men ikke fysiologisk arousal eller stammefrekvens hos voksne menn som stammer

Bacheloroppgavepilot av en tidlig Samsung Gear VR presentasjonsprototype med 6 voksne som stammer: blandede resultater

Siter denne studien

Finansiering og uavhengighet