Tato stránka byla přeložena z angličtiny. Pokud něco zní zvláštně, přepněte na anglickou verzi. Zobrazit v angličtině.

Studie případů proveditelnosti se třemi účastníky arabského VR systému pro veřejný projev s automatizovaným detektorem koktavých událostí

Al-Nafjan A et al. · 2021 · EMITTER International Journal of Engineering Technology · Případová studie · n = 3 · Arabsky mluvící dospělí, kteří koktají · DOI
Míra jistoty důkazů: Velmi nízká míra jistoty
Jak bylo toto hodnocení provedeno

Případová studie se třemi účastníky v jediném experimentálním sezení. Studie podává tvrzení o proveditelnosti/proof-of-concept ohledně arabsko-jazykového VR + automatizované analýzy řeči, nikoli o klinickém efektu. Práh automatizovaného analyzátoru pro detekci prolongace byl vypočítán z korpusu tří plynulých ŽENSKÝCH saúdských mluvčích (pouze), což nemusí zobecňovat napříč pohlavími nebo dialekty. Žádná kontrolní podmínka; žádné srovnání s mírou koktavosti hodnocenou klinikem; žádné longitudinální sledování. Práce neobsahuje žádné explicitní prohlášení o financování ani deklaraci COI.

Hodnocení používají zjednodušené čtyřúrovňové schéma (Vysoká, Střední, Nízká, Velmi nízká), které vychází z metodiky GRADE working group. Přečtěte si více o tom, jak jsou studie hodnoceny.

Studie případů proveditelnosti se třemi účastníky (dvě ženy, jeden muž, věk 30-34) arabského VR systému pro veřejný projev na Samsung Gear VR + telefonu S6, spojeného s automatizovaným detektorem koktavých událostí. Každý účastník dokončil jednu relaci s předčítáním z virtuálního pódia tváří v tvář virtuálnímu publiku. Doba nastavení 2-3 minuty; automatizovaný detektor koreloval R=0,95 s ručním počítáním logopeda na stejné nahrávce.

Klinické sdělení v kostce

Třísúčastnická jednorázová studie proveditelnosti arabsko-jazykového VR prostředí pro veřejné mluvení s modulem automatizovaného analyzátoru řeči detekujícím prolongace, blokády a opakování prostřednictvím Google Cloud Speech-to-Text API. Užitečná jako proof-of-concept pro VR v nedostatečně zastoupeném jazykovém kontextu (arabština) a pro integraci automatizované analýzy řeči s VR; vzorek (n=3, jedno sezení, jedno prostředí) nemůže stanovit klinický efekt. Mírně koktající účastník vykazující nejvyšší detekovanou míru koktavosti vyvolává otázky ohledně kalibrace analyzátoru řeči ve vztahu k závažnosti hodnocené klinikem, které autoři uvádějí jako téma pro budoucí výzkum.

Klíčová zjištění

  • Tři účastníci (dvě ženy, jeden muž; věk 30-34, M=32 SD=1,6) každý absolvovali JEDNO sezení, NIKOLI více sezení; systém podporuje tři úrovně velikosti publika (5, 8, 11 avatarů), ale experiment použil jednu konfiguraci na účastníka
  • Silná pozitivní korelace (R=0,95) mezi délkou sezení a počtem automaticky detekovaných událostí koktavosti
  • Účastníci hlásili úzkost a přítomnost srovnatelnou s veřejným mluvením v reálném světě; rovněž hlásili 'mírný efekt neklidného údolí' s avatary postavami
  • Instalace a příprava trvaly 2-3 minuty na účastníka; délka sezení se pohybovala od 1:40 do 2:25 minut
  • Protiintuitivní nález označený autory: účastník hodnocený jako MÍRNÁ závažnost koktavosti supervizujícím logopedem vykazoval NEJVYŠŠÍ detekovanou míru (20,8 %), zatímco ZÁVAŽNÝ účastník vykazoval NEJNIŽŠÍ (4,8 %); střední účastník vykazoval 8,6 %. Autoři poznamenávají, že toto 'naznačuje, že VR může vyhovovat pouze jedincům s vyšší závažností koktavosti. K validaci této teorie jsou zapotřebí dodatečná data'
  • Analyzátor řeči detekoval tři typy neplynulostí: prolongace (délka slova přesahující práh odvozený od tří plynulých ženských mluvčích), blokády (když API vrátí pro výpověď nulu, interpretováno jako neřečové vokální zvuky) a opakování (když API přepíše slovo vícekrát, než se očekává)
  • Hardware/software: náhlavní souprava Samsung Gear VR na telefonu Samsung S6 (Oculus-kompatibilní Android VR brýle); nástroj 3D modelování Blender pro postavy scény; Mixamo + Unity 3D pro animaci a umístění; Python klientská knihovna Google Cloud Speech-to-Text se synchronním rozpoznáváním; Audacity pro zachytávání nahrávek; digitální záznamník Sony ICD-AX412F s lavalier mikrofonem

Pozadí

Hodnocení plynulosti řeči typicky vyžaduje, aby klinik ručně počítal a klasifikoval každý moment koktavosti během rozhovoru nebo čtenářské úlohy. Tento proces je časově náročný, subjektivní a může se mezi pozorovateli lišit. Pro osoby, které koktají, může vědomí toho, že jsou zblízka sledovány, rovněž změnit způsob, jakým mluví. Druhá výzva se týká přístupu: většina výzkumu VR pro koktavost byla prováděna s anglicky mluvícími populacemi, s velmi omezenou ekvivalentní prací v arabštině. Al-Nafjan, Alghamdi a Almudhi - pracující napříč třemi saúdskými univerzitami (Imam Muhammad bin Saud, King Saud a King Khalid) - si dali za cíl obě výzvy řešit vytvořením arabsko-jazykového VR prostředí pro veřejné mluvení s integrovaným automatizovaným analyzátorem řeči.

Co výzkumníci udělali

Tým postavil dvousložkový systém: (1) VR složku, která umístí účastníka na virtuální řečniště čelem k virtuálnímu publiku, podporující tři konfigurace velikosti publika (5, 8 a 11 avatarů na úrovních 1, 2 a 3), postavena v Blender pro modelování postav, Mixamo pro animaci a Unity 3D pro sestavení scény, a vykreslenou na náhlavní soupravě Samsung Gear VR (Oculus-kompatibilní) běžící na telefonu Samsung S6; a (2) složku analyzátoru řeči, která nahrává čtení účastníka prostřednictvím digitálního záznamníku Sony ICD-AX412F s lavalier mikrofonem, segmentuje audio pomocí Audacity a přepisuje každý segment pomocí Python klientské knihovny Google Cloud Speech-to-Text. Analyzátor řeči označuje tři typy neplynulostí:

Skóre Stuttering Screening (SS) je součtem těchto tří počtů.

Účastníci. Tři arabsky mluvící dospělí, kteří koktají, byli rekrutováni z klinické praxe supervizujícího logopeda (spoluautora Almudhi). Demografické údaje: dvě ženy, jeden muž; věk 30, 32 a 34 let (průměr 32, SD 1,6). Závažnost koktavosti hodnocená logopedem: P1 střední (věk 32), P2 mírná (věk 34), P3 závažná (věk 30). Všichni byli zdraví s normálním zrakem a bez předchozích zkušeností s VR.

Postup. Experiment byl jediné sezení v izolované místnosti pod dohledem supervizora. Účastníci si nasadili lavalier mikrofon a náhlavní soupravu Samsung Gear VR, upravili svou polohu, dokud text na virtuálním řečništi byl čitelný, a četli 74slovný arabský skript nahlas čelem k virtuálnímu publiku. Instalace/příprava trvala 2-3 minuty na účastníka; samotné čtecí sezení trvalo 1:40-2:25 minut.

Co zjistili

Přijatelnost a přítomnost (kvalitativní). Účastníci pozitivně hodnotili své VR zkušenosti napříč estetickým designem, designem postav a imerzí. Hlásili přijatelnou podobnost mezi VR scénou a skutečnou konferenční místností, „mírný efekt neklidného údolí“ s avatary postavami a podobné emocionální reakce (strach, úzkost) jako ty prožívané při aktivitách veřejného mluvení v reálném světě.

Výkon analyzátoru řeči. Byla nalezena silná pozitivní korelace mezi délkou sezení a automaticky detekovanými událostmi koktavosti (R=0,95). Autoři to interpretují jako důkaz „přijatelného výkonu analyzátoru řeči při detekci událostí koktavosti, zejména případů prolongace.“

Protiintuitivní výsledek závažnosti vs. detekce. Tabulka 2 v práci ukazuje procentuální podíly detekovaných událostí koktavosti na účastníka: P1 (střední, 32 let) 8,6 %, P2 (mírná, 34 let) 20,8 %, P3 (závažná, 30 let) 4,8 %. To znamená, že účastník hodnocený klinikem jako MÍRNÝ vykazoval NEJVYŠŠÍ detekovanou míru koktavosti, zatímco ZÁVAŽNÝ účastník vykazoval NEJNIŽŠÍ. Autoři to přímo označují a poznamenávají, že „jsou zapotřebí dodatečná data k validaci této teorie.“ Čtenář by mohl stejně tak interpretovat to jako kalibrační/validační otázku ohledně automatizovaného detektoru vs. hodnocení klinika.

Proveditelnost instalace. 2-3minutová doba instalace na účastníka je nabízena jako důkaz, že systém je proveditelný pro klinické použití.

Proč je to důležité

Jde o jednu z mála VR-koktavost studií provedených v arabštině, která řeší výrazné underreprezentaci v oboru. Jde rovněž o jednu z relativně mála studií, které explicitně integrují komerčně dostupné cloud API pro rozpoznávání řeči s VR prostředím pro automatickou detekci událostí koktavosti. Integrační koncept - snížení zátěže manuálního počítání během hodnocení koktavosti - je skutečnou klinickou potřebou; zda implementace funguje robustně, je to, na co tato malá případová studie může naznačovat (korelace R=0,95 s délkou sezení), ale nemůže stanovit (n=3, žádné srovnání s počty události klinikem).

Pozorování závažnosti vs. detekce je nejklinicky zajímavějším nálezem. S pouhými 3 účastníky je to generování hypotézy, nikoli závěrečné. Mohlo by odrážet: (a) skutečnou variaci populace v tom, jak se koktavost projevuje při VR čtení; (b) kalibrační problémy s prahem prolongace (odvozeny od tří plynulých ženských mluvčích, aplikovány napříč účastníky smíšeného pohlaví a různé závažnosti); (c) variabilita test-retest, kterou jedno sezení nemůže kvantifikovat; (d) statistický šum z n=3.

Omezení

Práce uznává některá z těchto omezení přímo; jiná jsou vlastní designu:

Implikace pro praxi

Pro arabsky mluvící kliniky zvažující technologicky asistované hodnocení koktavosti: tato práce poskytuje důkaz proveditelnosti, že komerčně dostupné cloud API pro rozpoznávání řeči (Google Cloud Speech-to-Text) lze kombinovat s VR prostředím pro veřejné mluvení k detekci prolongací, blokád a opakování při hodnocení koktavosti v arabštině. Neočekávaný nález, že účastník s nejnižší závažností hodnocenou klinikem vykazoval nejvyšší míru automatické detekce, je varováním před používáním takových systémů pro hodnocení závažnosti bez další kalibrace. Klinici by měli studii přistupovat jako proof-of-concept technického potrubí (arabsko-jazykové VR + automatizovaná analýza řeči), nikoli jako důkaz, že VR snižuje koktavost nebo že automatická detekce odpovídá posudku klinika.

Redakční poznámky withVR

Jak to souvisí s Therapy withVR

Výše uvedená studie je nezávislý výzkum a nevyjadřuje žádné stanovisko k jakémukoli produktu. Následující poznámky představují komentář withVR k tomu, jak témata tohoto výzkumu souvisejí s funkcemi Therapy withVR. Výsledky výzkumu nejsou tvrzeními o Therapy withVR.

Integrace analýzy řeči (pouze redakční paralela)

Studie Al-Nafjan et al. integrovala komerčně dostupný automatizovaný rozpoznávač řeči (Google Cloud Speech-to-Text) s VR prostředím pro detekci prolongací, blokád a opakování v arabštině. Koncepčním cílem - snížení zátěže manuálního počítání událostí koktavosti během sezení - je něco, co záznam sezení v Therapy withVR může podporovat jiným způsobem (v rámci vlastního designu). Pouze redakční paralela; studovaný systém je vlastní výzkumný software, nikoli Therapy withVR.

Nastavitelná velikost publika (pouze redakční paralela)

VR systém Al-Nafjan et al. podporuje tři konfigurace velikosti publika (5, 8, 11 avatarů). Experiment použil jednu konfiguraci na účastníka, ale hierarchická koncepce systému se shoduje s klinicky nastavitelnou kontrolou publika v Therapy withVR v rámci vlastního designu. Pouze redakční paralela.

Citujte tuto studii

Pokud na tuto studii odkazujete ve své práci, kanonické citační formáty jsou:

APA 7th
Al-Nafjan, A., Alghamdi, N., & Almudhi, A. (2021). Virtual Reality Technology and Speech Analysis for People Who Stutter. EMITTER International Journal of Engineering Technology. https://doi.org/10.24003/emitter.v9i2.649.
AMA 11th
Al-Nafjan A, Alghamdi N, Almudhi A. Virtual Reality Technology and Speech Analysis for People Who Stutter. EMITTER International Journal of Engineering Technology. 2021. doi:10.24003/emitter.v9i2.649.
BibTeX
@article{alnafjan2021,
  author = {Al-Nafjan, A. and Alghamdi, N. and Almudhi, A.},
  title = {Virtual Reality Technology and Speech Analysis for People Who Stutter},
  journal = {EMITTER International Journal of Engineering Technology},
  year = {2021},
  doi = {10.24003/emitter.v9i2.649},
  url = {https://withvr.app/cs/evidence/studies/al-nafjan-2021}
}
RIS
TY  - JOUR
AU  - Al-Nafjan, A.
AU  - Alghamdi, N.
AU  - Almudhi, A.
TI  - Virtual Reality Technology and Speech Analysis for People Who Stutter
JO  - EMITTER International Journal of Engineering Technology
PY  - 2021
DO  - 10.24003/emitter.v9i2.649
UR  - https://withvr.app/cs/evidence/studies/al-nafjan-2021
ER  - 

Víte o výzkumu, který by měl být v této databázi? Pokud zde není uvedena relevantní recenzovaná studie, zašlete referenci na hello@withvr.app. Databáze je průběžně aktualizována, jak literatura roste.

Financování a nezávislost

Práce NEZVEŘEJŇUJE žádný zdroj externího financování - v práci není sekce 'Financování'. Poděkování děkuje třem nejmenovaným členům projektového týmu (Asmaa Albasha, Maryam Alghalban, Ola Semsemiah) 'za jejich tvrdou práci a oddanost' spolu s účastnícími se subjekty. V práci není zahrnuto žádné prohlášení o COI. Afiliace autorů: Abeer Al-Nafjan (Department of Computer Sciences, College of Computer and Information Sciences, Imam Muhammad bin Saud Islamic University, Rijád, Saúdská Arábie); Najwa Alghamdi (Department of Information Technology, College of Computer and Information Sciences, King Saud University, Rijád, Saúdská Arábie); Abdulaziz Almudhi (Department of Medical Rehabilitation Sciences, College of Applied Medical Sciences A Speech Language Pathology Unit, King Khalid University, Abha, Saúdská Arábie). VR systém byl vyvinut autory vlastními silami pomocí Blender, Unity 3D a Mixamo, provozovaný na náhlavní soupravě Samsung Gear VR (Oculus-kompatibilní) s telefonem Samsung S6; TOTO NENÍ Therapy withVR. Analyzátor řeči využíval Python klientskou knihovnu Google Cloud Speech-to-Text. Bez zapojení withVR BV ve financování, návrhu studie nebo autorství. Souhrn byl nezávisle vypracován společností withVR na základě publikovaného článku.

Naposledy přezkoumáno: 2026-05-12 Plánované další přezkoumání: 2027-05-12 Přezkoumal: Gareth Walkom