Tato stránka byla přeložena z angličtiny. Pokud něco zní zvláštně, přepněte na anglickou verzi. Zobrazit v angličtině.

Studie případů proveditelnosti se třemi účastníky arabského VR systému pro veřejný projev s automatizovaným detektorem koktavých událostí

Al-Nafjan A et al. · 2021 · EMITTER International Journal of Engineering Technology · Případová studie · n = 3 · Arabsky mluvící dospělí, kteří koktají · DOI
Míra jistoty důkazů: Velmi nízká míra jistoty
Jak bylo toto hodnocení provedeno

Případová studie se třemi účastníky v jediném experimentálním sezení. Studie podává tvrzení o proveditelnosti/proof-of-concept ohledně arabsko-jazykového VR + automatizované analýzy řeči, nikoli o klinickém efektu. Práh automatizovaného analyzátoru pro detekci prolongace byl vypočítán z korpusu tří plynulých ŽENSKÝCH saúdských mluvčích (pouze), což nemusí zobecňovat napříč pohlavími nebo dialekty. Žádná kontrolní podmínka; žádné srovnání s mírou koktavosti hodnocenou klinikem; žádné longitudinální sledování. Práce neobsahuje žádné explicitní prohlášení o financování ani deklaraci COI.

Hodnocení používají zjednodušené čtyřúrovňové schéma (Vysoká, Střední, Nízká, Velmi nízká), které vychází z metodiky GRADE working group. Přečtěte si více o tom, jak jsou studie hodnoceny.

Studie případů proveditelnosti se třemi účastníky (dvě ženy, jeden muž, věk 30-34) arabského VR systému pro veřejný projev na Samsung Gear VR + telefonu S6, spojeného s automatizovaným detektorem koktavých událostí. Každý účastník dokončil jednu relaci s předčítáním z virtuálního pódia tváří v tvář virtuálnímu publiku. Doba nastavení 2-3 minuty; automatizovaný detektor koreloval R=0,95 s ručním počítáním logopeda na stejné nahrávce.

Klinické sdělení v kostce

Třísúčastnická jednorázová studie proveditelnosti arabsko-jazykového VR prostředí pro veřejné mluvení s modulem automatizovaného analyzátoru řeči detekujícím prolongace, blokády a opakování prostřednictvím Google Cloud Speech-to-Text API. Užitečná jako proof-of-concept pro VR v nedostatečně zastoupeném jazykovém kontextu (arabština) a pro integraci automatizované analýzy řeči s VR; vzorek (n=3, jedno sezení, jedno prostředí) nemůže stanovit klinický efekt. Mírně koktající účastník vykazující nejvyšší detekovanou míru koktavosti vyvolává otázky ohledně kalibrace analyzátoru řeči ve vztahu k závažnosti hodnocené klinikem, které autoři uvádějí jako téma pro budoucí výzkum.

Klíčová zjištění

  • Tři účastníci (dvě ženy, jeden muž; věk 30–34, M=32 SD=1,6) každý absolvovali JEDNO sezení, NIKOLI více sezení; systém podporuje tři úrovně velikosti publika (5, 8, 11 avatarů), ale experiment použil jednu konfiguraci na účastníka
  • Silná pozitivní korelace (R=0,95) mezi délkou sezení a počtem automaticky detekovaných událostí koktavosti
  • Účastníci hlásili úzkost a přítomnost srovnatelnou s veřejným mluvením v reálném světě; rovněž hlásili 'mírný efekt neklidného údolí' s avatary postavami
  • Instalace a příprava trvaly 2–3 minuty na účastníka; délka sezení se pohybovala od 1:40 do 2:25 minut
  • Protiintuitivní nález označený autory: účastník hodnocený jako MÍRNÁ závažnost koktavosti supervizujícím logopedem vykazoval NEJVYŠŠÍ detekovanou míru (20,8 %), zatímco ZÁVAŽNÝ účastník vykazoval NEJNIŽŠÍ (4,8 %); střední účastník vykazoval 8,6 %. Autoři poznamenávají, že toto 'naznačuje, že VR může vyhovovat pouze jedincům s vyšší závažností koktavosti. K validaci této teorie jsou zapotřebí dodatečná data'
  • Analyzátor řeči detekoval tři typy neplynulostí: prolongace (délka slova přesahující práh odvozený od tří plynulých ženských mluvčích), blokády (když API vrátí pro výpověď nulu, interpretováno jako neřečové vokální zvuky) a opakování (když API přepíše slovo vícekrát, než se očekává)
  • Hardware/software: náhlavní souprava Samsung Gear VR na telefonu Samsung S6 (Oculus-kompatibilní Android VR brýle); nástroj 3D modelování Blender pro postavy scény; Mixamo + Unity 3D pro animaci a umístění; Python klientská knihovna Google Cloud Speech-to-Text se synchronním rozpoznáváním; Audacity pro zachytávání nahrávek; digitální záznamník Sony ICD-AX412F s lavalier mikrofonem

Pozadí

Hodnocení plynulosti řeči typicky vyžaduje, aby klinik ručně počítal a klasifikoval každý moment koktavosti během rozhovoru nebo čtenářské úlohy. Tento proces je časově náročný, subjektivní a může se mezi pozorovateli lišit. Pro osoby, které koktají, může vědomí toho, že jsou zblízka sledovány, rovněž změnit způsob, jakým mluví. Druhá výzva se týká přístupu: většina výzkumu VR pro koktavost byla prováděna s anglicky mluvícími populacemi, s velmi omezenou ekvivalentní prací v arabštině. Al-Nafjan, Alghamdi a Almudhi – pracující napříč třemi saúdskými univerzitami (Imam Muhammad bin Saud, King Saud a King Khalid) – si dali za cíl obě výzvy řešit vytvořením arabsko-jazykového VR prostředí pro veřejné mluvení s integrovaným automatizovaným analyzátorem řeči.

Co výzkumníci udělali

Tým postavil dvousložkový systém: (1) VR složku, která umístí účastníka na virtuální řečniště čelem k virtuálnímu publiku, podporující tři konfigurace velikosti publika (5, 8 a 11 avatarů na úrovních 1, 2 a 3), postavena v Blender pro modelování postav, Mixamo pro animaci a Unity 3D pro sestavení scény, a vykreslenou na náhlavní soupravě Samsung Gear VR (Oculus-kompatibilní) běžící na telefonu Samsung S6; a (2) složku analyzátoru řeči, která nahrává čtení účastníka prostřednictvím digitálního záznamníku Sony ICD-AX412F s lavalier mikrofonem, segmentuje audio pomocí Audacity a přepisuje každý segment pomocí Python klientské knihovny Google Cloud Speech-to-Text. Analyzátor řeči označuje tři typy neplynulostí:

Skóre Stuttering Screening (SS) je součtem těchto tří počtů.

Účastníci. Tři arabsky mluvící dospělí, kteří koktají, byli rekrutováni z klinické praxe supervizujícího logopeda (spoluautora Almudhi). Demografické údaje: dvě ženy, jeden muž; věk 30, 32 a 34 let (průměr 32, SD 1,6). Závažnost koktavosti hodnocená logopedem: P1 střední (věk 32), P2 mírná (věk 34), P3 závažná (věk 30). Všichni byli zdraví s normálním zrakem a bez předchozích zkušeností s VR.

Postup. Experiment byl jediné sezení v izolované místnosti pod dohledem supervizora. Účastníci si nasadili lavalier mikrofon a náhlavní soupravu Samsung Gear VR, upravili svou polohu, dokud text na virtuálním řečništi byl čitelný, a četli 74slovný arabský skript nahlas čelem k virtuálnímu publiku. Instalace/příprava trvala 2–3 minuty na účastníka; samotné čtecí sezení trvalo 1:40–2:25 minut.

Co zjistili

Přijatelnost a přítomnost (kvalitativní). Účastníci pozitivně hodnotili své VR zkušenosti napříč estetickým designem, designem postav a imerzí. Hlásili přijatelnou podobnost mezi VR scénou a skutečnou konferenční místností, „mírný efekt neklidného údolí“ s avatary postavami a podobné emocionální reakce (strach, úzkost) jako ty prožívané při aktivitách veřejného mluvení v reálném světě.

Výkon analyzátoru řeči. Byla nalezena silná pozitivní korelace mezi délkou sezení a automaticky detekovanými událostmi koktavosti (R=0,95). Autoři to interpretují jako důkaz „přijatelného výkonu analyzátoru řeči při detekci událostí koktavosti, zejména případů prolongace.“

Protiintuitivní výsledek závažnosti vs. detekce. Tabulka 2 v práci ukazuje procentuální podíly detekovaných událostí koktavosti na účastníka: P1 (střední, 32 let) 8,6 %, P2 (mírná, 34 let) 20,8 %, P3 (závažná, 30 let) 4,8 %. To znamená, že účastník hodnocený klinikem jako MÍRNÝ vykazoval NEJVYŠŠÍ detekovanou míru koktavosti, zatímco ZÁVAŽNÝ účastník vykazoval NEJNIŽŠÍ. Autoři to přímo označují a poznamenávají, že „jsou zapotřebí dodatečná data k validaci této teorie.“ Čtenář by mohl stejně tak interpretovat to jako kalibrační/validační otázku ohledně automatizovaného detektoru vs. hodnocení klinika.

Proveditelnost instalace. 2–3minutová doba instalace na účastníka je nabízena jako důkaz, že systém je proveditelný pro klinické použití.

Proč je to důležité

Jde o jednu z mála VR-koktavost studií provedených v arabštině, která řeší výrazné underreprezentaci v oboru. Jde rovněž o jednu z relativně mála studií, které explicitně integrují komerčně dostupné cloud API pro rozpoznávání řeči s VR prostředím pro automatickou detekci událostí koktavosti. Integrační koncept – snížení zátěže manuálního počítání během hodnocení koktavosti – je skutečnou klinickou potřebou; zda implementace funguje robustně, je to, na co tato malá případová studie může naznačovat (korelace R=0,95 s délkou sezení), ale nemůže stanovit (n=3, žádné srovnání s počty události klinikem).

Pozorování závažnosti vs. detekce je nejklinicky zajímavějším nálezem. S pouhými 3 účastníky je to generování hypotézy, nikoli závěrečné. Mohlo by odrážet: (a) skutečnou variaci populace v tom, jak se koktavost projevuje při VR-based čtení; (b) kalibrační problémy s prahem prolongace (odvozeny od tří plynulých ženských mluvčích, aplikovány napříč účastníky smíšeného pohlaví a různé závažnosti); (c) variabilita test-retest, kterou jedno sezení nemůže kvantifikovat; (d) statistický šum z n=3.

Omezení

Práce uznává některá z těchto omezení přímo; jiná jsou vlastní designu:

Implikace pro praxi

Pro arabsky mluvící kliniky zvažující technologicky asistované hodnocení koktavosti: tato práce poskytuje důkaz proveditelnosti, že komerčně dostupné cloud API pro rozpoznávání řeči (Google Cloud Speech-to-Text) lze kombinovat s VR prostředím pro veřejné mluvení k detekci prolongací, blokád a opakování při hodnocení koktavosti v arabštině. Neočekávaný nález, že účastník s nejnižší závažností hodnocenou klinikem vykazoval nejvyšší míru automatické detekce, je varováním před používáním takových systémů pro hodnocení závažnosti bez další kalibrace. Klinici by měli studii přistupovat jako proof-of-concept technického potrubí (arabsko-jazykové VR + automatizovaná analýza řeči), nikoli jako důkaz, že VR snižuje koktavost nebo že automatická detekce odpovídá posudku klinika.

Redakční poznámky withVR

Jak to souvisí s Therapy withVR

Výše uvedená studie je nezávislý výzkum a nevyjadřuje žádné stanovisko k jakémukoli produktu. Následující poznámky představují komentář withVR k tomu, jak témata tohoto výzkumu souvisejí s funkcemi Therapy withVR. Výsledky výzkumu nejsou tvrzeními o Therapy withVR.

Speech analysis integration (editorial parallel only)

Studie Al-Nafjan et al. integrovala komerčně dostupný automatizovaný rozpoznávač řeči (Google Cloud Speech-to-Text) s VR prostředím pro detekci prolongací, blokád a opakování v arabštině. Koncepčním cílem – snížení zátěže manuálního počítání událostí koktavosti během sezení – je něco, co záznam sezení v Therapy withVR může podporovat jiným způsobem (v rámci vlastního designu). Pouze redakční paralela; studovaný systém je vlastní výzkumný software, nikoli Therapy withVR.

Adjustable audience size (editorial parallel only)

VR systém Al-Nafjan et al. podporuje tři konfigurace velikosti publika (5, 8, 11 avatarů). Experiment použil jednu konfiguraci na účastníka, ale hierarchická koncepce systému se shoduje s klinicky nastavitelnou kontrolou publika v Therapy withVR v rámci vlastního designu. Pouze redakční paralela.

Citujte tuto studii

Pokud na tuto studii odkazujete ve své práci, kanonické citační formáty jsou:

APA 7th
Al-Nafjan, A., Alghamdi, N., & Almudhi, A. (2021). Virtual Reality Technology and Speech Analysis for People Who Stutter. EMITTER International Journal of Engineering Technology. https://doi.org/10.24003/emitter.v9i2.649.
AMA 11th
Al-Nafjan A, Alghamdi N, Almudhi A. Virtual Reality Technology and Speech Analysis for People Who Stutter. EMITTER International Journal of Engineering Technology. 2021. doi:10.24003/emitter.v9i2.649.
BibTeX
@article{alnafjan2021,
  author = {Al-Nafjan, A. and Alghamdi, N. and Almudhi, A.},
  title = {Virtual Reality Technology and Speech Analysis for People Who Stutter},
  journal = {EMITTER International Journal of Engineering Technology},
  year = {2021},
  doi = {10.24003/emitter.v9i2.649},
  url = {https://withvr.app/cs/evidence/studies/al-nafjan-2021}
}
RIS
TY  - JOUR
AU  - Al-Nafjan, A.
AU  - Alghamdi, N.
AU  - Almudhi, A.
TI  - Virtual Reality Technology and Speech Analysis for People Who Stutter
JO  - EMITTER International Journal of Engineering Technology
PY  - 2021
DO  - 10.24003/emitter.v9i2.649
UR  - https://withvr.app/cs/evidence/studies/al-nafjan-2021
ER  - 

Víte o výzkumu, který by měl být v této databázi? Pokud zde není uvedena relevantní recenzovaná studie, zašlete referenci na hello@withvr.app. Databáze je průběžně aktualizována, jak literatura roste.

Financování a nezávislost

Práce NEZVEŘEJŇUJE žádný zdroj externího financování – v práci není sekce 'Financování'. Poděkování děkuje třem nejmenovaným členům projektového týmu (Asmaa Albasha, Maryam Alghalban, Ola Semsemiah) 'za jejich tvrdou práci a oddanost' spolu s účastnícími se subjekty. V práci není zahrnuto žádné prohlášení o COI. Afiliace autorů: Abeer Al-Nafjan (Department of Computer Sciences, College of Computer and Information Sciences, Imam Muhammad bin Saud Islamic University, Rijád, Saúdská Arábie); Najwa Alghamdi (Department of Information Technology, College of Computer and Information Sciences, King Saud University, Rijád, Saúdská Arábie); Abdulaziz Almudhi (Department of Medical Rehabilitation Sciences, College of Applied Medical Sciences A Speech Language Pathology Unit, King Khalid University, Abha, Saúdská Arábie). VR systém byl vyvinut autory vlastními silami pomocí Blender, Unity 3D a Mixamo, provozovaný na náhlavní soupravě Samsung Gear VR (Oculus-kompatibilní) s telefonem Samsung S6; TOTO NENÍ Therapy withVR. Analyzátor řeči využíval Python klientskou knihovnu Google Cloud Speech-to-Text. Bez zapojení withVR BV ve financování, návrhu studie nebo autorství. Souhrn byl nezávisle vypracován společností withVR na základě publikovaného článku.

Naposledy přezkoumáno: 2026-05-12 Plánované další přezkoumání: 2027-05-12 Přezkoumal: Gareth Walkom