Tato stránka byla přeložena z angličtiny. Pokud něco zní zvláštně, přepněte na anglickou verzi. Zobrazit v angličtině.
Studie případů proveditelnosti se třemi účastníky arabského VR systému pro veřejný projev s automatizovaným detektorem koktavých událostí
Jak bylo toto hodnocení provedeno
Případová studie se třemi účastníky v jediném experimentálním sezení. Studie podává tvrzení o proveditelnosti/proof-of-concept ohledně arabsko-jazykového VR + automatizované analýzy řeči, nikoli o klinickém efektu. Práh automatizovaného analyzátoru pro detekci prolongace byl vypočítán z korpusu tří plynulých ŽENSKÝCH saúdských mluvčích (pouze), což nemusí zobecňovat napříč pohlavími nebo dialekty. Žádná kontrolní podmínka; žádné srovnání s mírou koktavosti hodnocenou klinikem; žádné longitudinální sledování. Práce neobsahuje žádné explicitní prohlášení o financování ani deklaraci COI.
Hodnocení používají zjednodušené čtyřúrovňové schéma (Vysoká, Střední, Nízká, Velmi nízká), které vychází z metodiky GRADE working group. Přečtěte si více o tom, jak jsou studie hodnoceny.
Studie případů proveditelnosti se třemi účastníky (dvě ženy, jeden muž, věk 30-34) arabského VR systému pro veřejný projev na Samsung Gear VR + telefonu S6, spojeného s automatizovaným detektorem koktavých událostí. Každý účastník dokončil jednu relaci s předčítáním z virtuálního pódia tváří v tvář virtuálnímu publiku. Doba nastavení 2-3 minuty; automatizovaný detektor koreloval R=0,95 s ručním počítáním logopeda na stejné nahrávce.
Třísúčastnická jednorázová studie proveditelnosti arabsko-jazykového VR prostředí pro veřejné mluvení s modulem automatizovaného analyzátoru řeči detekujícím prolongace, blokády a opakování prostřednictvím Google Cloud Speech-to-Text API. Užitečná jako proof-of-concept pro VR v nedostatečně zastoupeném jazykovém kontextu (arabština) a pro integraci automatizované analýzy řeči s VR; vzorek (n=3, jedno sezení, jedno prostředí) nemůže stanovit klinický efekt. Mírně koktající účastník vykazující nejvyšší detekovanou míru koktavosti vyvolává otázky ohledně kalibrace analyzátoru řeči ve vztahu k závažnosti hodnocené klinikem, které autoři uvádějí jako téma pro budoucí výzkum.
Klíčová zjištění
- Tři účastníci (dvě ženy, jeden muž; věk 30-34, M=32 SD=1,6) každý absolvovali JEDNO sezení, NIKOLI více sezení; systém podporuje tři úrovně velikosti publika (5, 8, 11 avatarů), ale experiment použil jednu konfiguraci na účastníka
- Silná pozitivní korelace (R=0,95) mezi délkou sezení a počtem automaticky detekovaných událostí koktavosti
- Účastníci hlásili úzkost a přítomnost srovnatelnou s veřejným mluvením v reálném světě; rovněž hlásili 'mírný efekt neklidného údolí' s avatary postavami
- Instalace a příprava trvaly 2-3 minuty na účastníka; délka sezení se pohybovala od 1:40 do 2:25 minut
- Protiintuitivní nález označený autory: účastník hodnocený jako MÍRNÁ závažnost koktavosti supervizujícím logopedem vykazoval NEJVYŠŠÍ detekovanou míru (20,8 %), zatímco ZÁVAŽNÝ účastník vykazoval NEJNIŽŠÍ (4,8 %); střední účastník vykazoval 8,6 %. Autoři poznamenávají, že toto 'naznačuje, že VR může vyhovovat pouze jedincům s vyšší závažností koktavosti. K validaci této teorie jsou zapotřebí dodatečná data'
- Analyzátor řeči detekoval tři typy neplynulostí: prolongace (délka slova přesahující práh odvozený od tří plynulých ženských mluvčích), blokády (když API vrátí pro výpověď nulu, interpretováno jako neřečové vokální zvuky) a opakování (když API přepíše slovo vícekrát, než se očekává)
- Hardware/software: náhlavní souprava Samsung Gear VR na telefonu Samsung S6 (Oculus-kompatibilní Android VR brýle); nástroj 3D modelování Blender pro postavy scény; Mixamo + Unity 3D pro animaci a umístění; Python klientská knihovna Google Cloud Speech-to-Text se synchronním rozpoznáváním; Audacity pro zachytávání nahrávek; digitální záznamník Sony ICD-AX412F s lavalier mikrofonem
Pozadí
Hodnocení plynulosti řeči typicky vyžaduje, aby klinik ručně počítal a klasifikoval každý moment koktavosti během rozhovoru nebo čtenářské úlohy. Tento proces je časově náročný, subjektivní a může se mezi pozorovateli lišit. Pro osoby, které koktají, může vědomí toho, že jsou zblízka sledovány, rovněž změnit způsob, jakým mluví. Druhá výzva se týká přístupu: většina výzkumu VR pro koktavost byla prováděna s anglicky mluvícími populacemi, s velmi omezenou ekvivalentní prací v arabštině. Al-Nafjan, Alghamdi a Almudhi - pracující napříč třemi saúdskými univerzitami (Imam Muhammad bin Saud, King Saud a King Khalid) - si dali za cíl obě výzvy řešit vytvořením arabsko-jazykového VR prostředí pro veřejné mluvení s integrovaným automatizovaným analyzátorem řeči.
Co výzkumníci udělali
Tým postavil dvousložkový systém: (1) VR složku, která umístí účastníka na virtuální řečniště čelem k virtuálnímu publiku, podporující tři konfigurace velikosti publika (5, 8 a 11 avatarů na úrovních 1, 2 a 3), postavena v Blender pro modelování postav, Mixamo pro animaci a Unity 3D pro sestavení scény, a vykreslenou na náhlavní soupravě Samsung Gear VR (Oculus-kompatibilní) běžící na telefonu Samsung S6; a (2) složku analyzátoru řeči, která nahrává čtení účastníka prostřednictvím digitálního záznamníku Sony ICD-AX412F s lavalier mikrofonem, segmentuje audio pomocí Audacity a přepisuje každý segment pomocí Python klientské knihovny Google Cloud Speech-to-Text. Analyzátor řeči označuje tři typy neplynulostí:
- Prolongace: když délka slova účastníka překračuje práh na slovo vypočítaný průměrováním délky téhož slova napříč třemi plynulými ženskými referenčními mluvčími (74 arabských slov čtených za 44,7±2,4 sekund).
- Blokáda: když API vrátí pro výpověď nulový přepis, interpretováno jako neřečový vokální zvuk produkovaný během blokády koktavosti.
- Opakování: když API přepíše slovo vícekrát, než se očekává od referenčního skriptu.
Skóre Stuttering Screening (SS) je součtem těchto tří počtů.
Účastníci. Tři arabsky mluvící dospělí, kteří koktají, byli rekrutováni z klinické praxe supervizujícího logopeda (spoluautora Almudhi). Demografické údaje: dvě ženy, jeden muž; věk 30, 32 a 34 let (průměr 32, SD 1,6). Závažnost koktavosti hodnocená logopedem: P1 střední (věk 32), P2 mírná (věk 34), P3 závažná (věk 30). Všichni byli zdraví s normálním zrakem a bez předchozích zkušeností s VR.
Postup. Experiment byl jediné sezení v izolované místnosti pod dohledem supervizora. Účastníci si nasadili lavalier mikrofon a náhlavní soupravu Samsung Gear VR, upravili svou polohu, dokud text na virtuálním řečništi byl čitelný, a četli 74slovný arabský skript nahlas čelem k virtuálnímu publiku. Instalace/příprava trvala 2-3 minuty na účastníka; samotné čtecí sezení trvalo 1:40-2:25 minut.
Co zjistili
Přijatelnost a přítomnost (kvalitativní). Účastníci pozitivně hodnotili své VR zkušenosti napříč estetickým designem, designem postav a imerzí. Hlásili přijatelnou podobnost mezi VR scénou a skutečnou konferenční místností, „mírný efekt neklidného údolí“ s avatary postavami a podobné emocionální reakce (strach, úzkost) jako ty prožívané při aktivitách veřejného mluvení v reálném světě.
Výkon analyzátoru řeči. Byla nalezena silná pozitivní korelace mezi délkou sezení a automaticky detekovanými událostmi koktavosti (R=0,95). Autoři to interpretují jako důkaz „přijatelného výkonu analyzátoru řeči při detekci událostí koktavosti, zejména případů prolongace.“
Protiintuitivní výsledek závažnosti vs. detekce. Tabulka 2 v práci ukazuje procentuální podíly detekovaných událostí koktavosti na účastníka: P1 (střední, 32 let) 8,6 %, P2 (mírná, 34 let) 20,8 %, P3 (závažná, 30 let) 4,8 %. To znamená, že účastník hodnocený klinikem jako MÍRNÝ vykazoval NEJVYŠŠÍ detekovanou míru koktavosti, zatímco ZÁVAŽNÝ účastník vykazoval NEJNIŽŠÍ. Autoři to přímo označují a poznamenávají, že „jsou zapotřebí dodatečná data k validaci této teorie.“ Čtenář by mohl stejně tak interpretovat to jako kalibrační/validační otázku ohledně automatizovaného detektoru vs. hodnocení klinika.
Proveditelnost instalace. 2-3minutová doba instalace na účastníka je nabízena jako důkaz, že systém je proveditelný pro klinické použití.
Proč je to důležité
Jde o jednu z mála VR-koktavost studií provedených v arabštině, která řeší výrazné underreprezentaci v oboru. Jde rovněž o jednu z relativně mála studií, které explicitně integrují komerčně dostupné cloud API pro rozpoznávání řeči s VR prostředím pro automatickou detekci událostí koktavosti. Integrační koncept - snížení zátěže manuálního počítání během hodnocení koktavosti - je skutečnou klinickou potřebou; zda implementace funguje robustně, je to, na co tato malá případová studie může naznačovat (korelace R=0,95 s délkou sezení), ale nemůže stanovit (n=3, žádné srovnání s počty události klinikem).
Pozorování závažnosti vs. detekce je nejklinicky zajímavějším nálezem. S pouhými 3 účastníky je to generování hypotézy, nikoli závěrečné. Mohlo by odrážet: (a) skutečnou variaci populace v tom, jak se koktavost projevuje při VR čtení; (b) kalibrační problémy s prahem prolongace (odvozeny od tří plynulých ženských mluvčích, aplikovány napříč účastníky smíšeného pohlaví a různé závažnosti); (c) variabilita test-retest, kterou jedno sezení nemůže kvantifikovat; (d) statistický šum z n=3.
Omezení
Práce uznává některá z těchto omezení přímo; jiná jsou vlastní designu:
- Velikost vzorku n=3, jedno sezení, jedna konfigurace publika na účastníka. Systém podporuje tři úrovně velikosti publika (5/8/11 avatarů), ale experiment neměnil velikost publika v rámci nebo mezi účastníky.
- Žádná kontrolní podmínka. Žádný výchozí stav bez VR, žádné srovnání s ručními počty událostí klinikem, žádný test-retest.
- Žádné longitudinální sledování. Pouze jedno sezení.
- Práh analyzátoru řeči odvozený od tří plynulých ŽENSKÝCH mluvčích. Aplikován napříč účastníky smíšeného pohlaví; nemusí zobecňovat napříč pohlavími, dialekty nebo tempem řeči.
- Protiintuitivní nález závažnosti vs. detekce (mírný účastník: nejvyšší detekovaná míra; závažný: nejnižší) vyvolává otázku, zda automatizovaný detektor sleduje posudek klinika o závažnosti.
- Mírný efekt neklidného údolí hlášený účastníky v kvalitativním debriefu - příznak pro design avatara.
- Žádné explicitní prohlášení o financování ani deklarace COI v práci.
- VR hardware je originální Samsung Gear VR (mobilní VR z roku 2015). Moderní hardware třídy Quest nabízí výrazně lepší vizuální věrnost a sledování.
Implikace pro praxi
Pro arabsky mluvící kliniky zvažující technologicky asistované hodnocení koktavosti: tato práce poskytuje důkaz proveditelnosti, že komerčně dostupné cloud API pro rozpoznávání řeči (Google Cloud Speech-to-Text) lze kombinovat s VR prostředím pro veřejné mluvení k detekci prolongací, blokád a opakování při hodnocení koktavosti v arabštině. Neočekávaný nález, že účastník s nejnižší závažností hodnocenou klinikem vykazoval nejvyšší míru automatické detekce, je varováním před používáním takových systémů pro hodnocení závažnosti bez další kalibrace. Klinici by měli studii přistupovat jako proof-of-concept technického potrubí (arabsko-jazykové VR + automatizovaná analýza řeči), nikoli jako důkaz, že VR snižuje koktavost nebo že automatická detekce odpovídá posudku klinika.
Jak to souvisí s Therapy withVR
Výše uvedená studie je nezávislý výzkum a nevyjadřuje žádné stanovisko k jakémukoli produktu. Následující poznámky představují komentář withVR k tomu, jak témata tohoto výzkumu souvisejí s funkcemi Therapy withVR. Výsledky výzkumu nejsou tvrzeními o Therapy withVR.
Integrace analýzy řeči (pouze redakční paralela)
Studie Al-Nafjan et al. integrovala komerčně dostupný automatizovaný rozpoznávač řeči (Google Cloud Speech-to-Text) s VR prostředím pro detekci prolongací, blokád a opakování v arabštině. Koncepčním cílem - snížení zátěže manuálního počítání událostí koktavosti během sezení - je něco, co záznam sezení v Therapy withVR může podporovat jiným způsobem (v rámci vlastního designu). Pouze redakční paralela; studovaný systém je vlastní výzkumný software, nikoli Therapy withVR.
Nastavitelná velikost publika (pouze redakční paralela)
VR systém Al-Nafjan et al. podporuje tři konfigurace velikosti publika (5, 8, 11 avatarů). Experiment použil jednu konfiguraci na účastníka, ale hierarchická koncepce systému se shoduje s klinicky nastavitelnou kontrolou publika v Therapy withVR v rámci vlastního designu. Pouze redakční paralela.
Citujte tuto studii
Pokud na tuto studii odkazujete ve své práci, kanonické citační formáty jsou:
@article{alnafjan2021,
author = {Al-Nafjan, A. and Alghamdi, N. and Almudhi, A.},
title = {Virtual Reality Technology and Speech Analysis for People Who Stutter},
journal = {EMITTER International Journal of Engineering Technology},
year = {2021},
doi = {10.24003/emitter.v9i2.649},
url = {https://withvr.app/cs/evidence/studies/al-nafjan-2021}
}TY - JOUR
AU - Al-Nafjan, A.
AU - Alghamdi, N.
AU - Almudhi, A.
TI - Virtual Reality Technology and Speech Analysis for People Who Stutter
JO - EMITTER International Journal of Engineering Technology
PY - 2021
DO - 10.24003/emitter.v9i2.649
UR - https://withvr.app/cs/evidence/studies/al-nafjan-2021
ER - Víte o výzkumu, který by měl být v této databázi? Pokud zde není uvedena relevantní recenzovaná studie, zašlete referenci na hello@withvr.app. Databáze je průběžně aktualizována, jak literatura roste.
Financování a nezávislost
Práce NEZVEŘEJŇUJE žádný zdroj externího financování - v práci není sekce 'Financování'. Poděkování děkuje třem nejmenovaným členům projektového týmu (Asmaa Albasha, Maryam Alghalban, Ola Semsemiah) 'za jejich tvrdou práci a oddanost' spolu s účastnícími se subjekty. V práci není zahrnuto žádné prohlášení o COI. Afiliace autorů: Abeer Al-Nafjan (Department of Computer Sciences, College of Computer and Information Sciences, Imam Muhammad bin Saud Islamic University, Rijád, Saúdská Arábie); Najwa Alghamdi (Department of Information Technology, College of Computer and Information Sciences, King Saud University, Rijád, Saúdská Arábie); Abdulaziz Almudhi (Department of Medical Rehabilitation Sciences, College of Applied Medical Sciences A Speech Language Pathology Unit, King Khalid University, Abha, Saúdská Arábie). VR systém byl vyvinut autory vlastními silami pomocí Blender, Unity 3D a Mixamo, provozovaný na náhlavní soupravě Samsung Gear VR (Oculus-kompatibilní) s telefonem Samsung S6; TOTO NENÍ Therapy withVR. Analyzátor řeči využíval Python klientskou knihovnu Google Cloud Speech-to-Text. Bez zapojení withVR BV ve financování, návrhu studie nebo autorství. Souhrn byl nezávisle vypracován společností withVR na základě publikovaného článku.