Questa pagina è stata tradotta dall'inglese. Se qualcosa sembra strano, passa alla versione inglese. Visualizza in inglese.
Caso di fattibilità con tre partecipanti di un sistema VR in arabo per eloquio pubblico con rilevatore automatico di balbuzie
Come è stato valutato
Studio di caso con tre partecipanti in una singola sessione sperimentale. Lo studio formula un'affermazione di fattibilità/proof-of-concept sulla VR in lingua araba + analisi automatizzata del parlato, non un'affermazione di effetto clinico. La soglia dell'analizzatore del parlato per il rilevamento delle prolungazioni è stata calcolata da un corpus di tre parlanti fluenti FEMMINE saudite (soltanto), che potrebbe non generalizzarsi tra i generi o i dialetti. Nessuna condizione di controllo; nessun confronto con la gravità della balbuzie valutata dal clinico; nessun follow-up longitudinale. L'articolo non ha una dichiarazione esplicita di finanziamento o COI.
Le valutazioni utilizzano uno schema semplificato a quattro livelli (Alta, Moderata, Bassa, Molto bassa), basato sul GRADE working group. Scopri di più su come vengono valutati gli studi.
Uno studio di caso di fattibilità con tre partecipanti (due femmine, un maschio, età 30-34) di un sistema VR per l'eloquio pubblico in lingua araba su Samsung Gear VR + telefono S6, abbinato a un rilevatore automatico di eventi di balbuzie. Ciascun partecipante ha completato una singola sessione leggendo da un podio virtuale di fronte a un pubblico virtuale. Tempo di configurazione 2-3 minuti; il rilevatore automatico correlava R=0,95 con il conteggio manuale del clinico sullo stesso audio.
Uno studio di caso di fattibilità con 3 partecipanti e sessione singola di un ambiente VR per l'eloquio pubblico in lingua araba con un modulo di analisi del parlato automatizzato che rileva prolungazioni, blocchi e ripetizioni tramite l'API Google Cloud Speech-to-Text. Utile come proof-of-concept per la VR in un contesto linguistico poco servito (arabo) e per l'integrazione dell'analisi automatizzata del parlato con la VR; il campione (n=3, sessione singola, ambiente singolo) non può stabilire effetti clinici. Il partecipante con balbuzie lieve che mostra il tasso di balbuzie rilevato più alto solleva interrogativi sulla calibrazione dell'analizzatore del parlato rispetto alla gravità valutata dal clinico che gli autori segnalano per studi futuri.
Risultati principali
- Tre partecipanti (due femmine, un maschio; età 30-34, M=32 DS=1,6) hanno ciascuno completato UNA singola sessione, NON sessioni multiple; il sistema supporta tre livelli di dimensione del pubblico (5, 8, 11 avatar) ma l'esperimento ha utilizzato una singola configurazione per partecipante
- Forte correlazione positiva (R=0,95) tra la durata della sessione e il numero di eventi di balbuzie rilevati automaticamente
- I partecipanti hanno riportato ansia e presenza comparabili all'eloquio pubblico nel mondo reale; hanno anche riportato un 'lieve effetto uncanny valley' con i personaggi avatar
- La configurazione e la preparazione hanno richiesto 2-3 minuti per partecipante; la durata della sessione variava da 1:40 a 2:25 minuti (i partecipanti hanno superato la durata media di recitazione fluente di 44,7±2,4 secondi di circa 1:15 min)
- Risultato controintuitivo segnalato dagli autori: il partecipante valutato come con LIEVE gravità della balbuzie dal logopedista supervisore ha esibito il tasso di eventi di balbuzie rilevati PIÙ ALTO (20,8%) mentre il partecipante GRAVE ha mostrato il tasso PIÙ BASSO (4,8%); il partecipante moderato ha mostrato l'8,6%. Gli autori notano che questo 'suggerisce che la VR possa essere adatta solo agli individui con maggiore gravità della balbuzie. Sono necessari dati aggiuntivi per validare questa teoria'
- L'analizzatore del parlato ha rilevato tre tipi di disfluenza: prolungazioni (durata della parola superiore a una soglia derivata da tre parlanti fluenti femmine che leggevano in media 74 parole arabe ad alta voce in 44,7±2,4 secondi), blocchi (quando l'API del parlato restituisce null per un'utteranza, interpretato come suoni vocali non verbali), e ripetizioni (quando l'API trascrive una parola più volte del previsto)
- Hardware/software: visore Samsung Gear VR su telefono Samsung S6 (occhiali VR Android compatibili con Oculus); strumento di modellazione 3D Blender per i personaggi della scena; Mixamo + Unity 3D per l'animazione e il posizionamento; libreria client Python di Google Cloud Speech-to-Text con riconoscimento sincrono; Audacity per la cattura della registrazione; registratore digitale Sony ICD-AX412F con microfono lavalier
Contesto
La valutazione della fluenza del parlato richiede tipicamente che un clinico conti e classifichi manualmente ogni momento di balbuzie durante una conversazione o un compito di lettura. Questo processo è dispendioso in termini di tempo, soggettivo e può variare tra gli osservatori. Per le persone che balbettano, la consapevolezza di essere attentamente monitorate può anche cambiare il modo in cui parlano. Una seconda sfida è l’accesso: la maggior parte della ricerca VR sulla balbuzie è stata condotta con popolazioni di lingua inglese, con lavoro equivalente molto limitato in arabo. Al-Nafjan, Alghamdi e Almudhi - lavorando in tre università saudite (Imam Muhammad bin Saud, King Saud e King Khalid) - si sono proposti di affrontare entrambe le sfide sviluppando un ambiente VR per l’eloquio pubblico in lingua araba con un analizzatore del parlato automatizzato integrato.
Cosa hanno fatto i ricercatori
Il gruppo ha costruito un sistema a due componenti: (1) un componente VR che posiziona il partecipante a un podio virtuale di fronte a un pubblico virtuale, supportando tre configurazioni di dimensione del pubblico (5, 8 e 11 avatar ai livelli 1, 2 e 3 rispettivamente), realizzato in Blender per la modellazione dei personaggi, Mixamo per l’animazione e Unity 3D per l’assemblaggio della scena, e renderizzato su un visore Samsung Gear VR (compatibile con Oculus) in esecuzione su un telefono Android Samsung S6; e (2) un componente di analisi del parlato che registra la lettura del partecipante tramite un registratore digitale Sony ICD-AX412F con microfono lavalier, segmenta l’audio usando Audacity attraverso la soglia dell’energia del segnale e del centroide spettrale, e trascrive ogni segmento usando la libreria client Python di Google Cloud Speech-to-Text con riconoscimento sincrono. L’analizzatore del parlato segnala tre tipi di disfluenza:
- Prolungazione: quando la durata di una parola del partecipante supera una soglia per-parola calcolata mediando la durata della stessa parola tra tre parlanti di riferimento fluenti femmine (74 parole arabe lette in 44,7±2,4 secondi).
- Blocco: quando l’API del parlato restituisce una trascrizione nulla per un’utteranza, interpretato come un suono vocale non verbale prodotto durante un blocco di balbuzie.
- Ripetizione: quando l’API trascrive una parola più volte del previsto dallo script di riferimento.
Il punteggio Stuttering Screening (SS) è la somma di questi tre conteggi.
Partecipanti. Tre adulti arabofoni che balbettano sono stati reclutati dalla pratica clinica del logopedista supervisore (co-autore Almudhi). Dati demografici: due femmine, un maschio; età 30, 32 e 34 (media 32, DS 1,6). La gravità della balbuzie è stata valutata dal logopedista: P1 moderata (età 32), P2 lieve (età 34), P3 grave (età 30). Tutti erano sani con vista normale e nessuna esperienza precedente con la VR.
Procedura. L’esperimento era una singola sessione in una stanza isolata sotto la supervisione del responsabile. I partecipanti indossavano un microfono lavalier sul registratore digitale Sony IC (ICD-AX412F) e il visore Samsung Gear VR, regolavano la loro posizione finché il testo sul podio virtuale era leggibile, e leggevano lo script in arabo di 74 parole ad alta voce di fronte al pubblico virtuale. La configurazione/preparazione richiedeva 2-3 minuti per partecipante; la sessione di lettura effettiva durava 1:40-2:25 minuti. Dopo la registrazione, l’audio veniva segmentato, trascritto e analizzato; i partecipanti venivano poi intervistati per il feedback soggettivo.
Cosa hanno trovato
Accettabilità e presenza (qualitativa). I partecipanti hanno valutato positivamente le loro esperienze VR attraverso il design estetico, il design dei personaggi e l’immersione. Hanno riportato una somiglianza accettabile tra la scena VR e una vera sala conferenze, un “lieve effetto uncanny valley” con i personaggi avatar (una limitazione notata del design dei personaggi), e reazioni emotive simili (paura, ansia) a quelle vissute nelle attività di eloquio pubblico nel mondo reale.
Prestazioni dell’analizzatore del parlato. È stata riscontrata una forte correlazione positiva tra la durata della sessione e gli eventi di balbuzie rilevati automaticamente (R=0,95). Gli autori interpretano questo come evidenza di “prestazioni accettabili dell’analizzatore del parlato nel rilevamento degli eventi di balbuzie, in particolare delle istanze di prolungazione.”
Risultato controintuitivo gravità-vs-rilevamento. La Tabella 2 dell’articolo mostra le percentuali di eventi di balbuzie rilevati per partecipante: P1 (moderato, 32a) 8,6%, P2 (lieve, 34a) 20,8%, P3 (grave, 30a) 4,8%. Cioè, il partecipante valutato come LIEVE dal clinico ha mostrato il tasso di balbuzie rilevato PIÙ ALTO, mentre il partecipante GRAVE ha mostrato il tasso PIÙ BASSO. Gli autori segnalano questo direttamente: “Un’osservazione interessante è che il partecipante con lieve gravità della balbuzie ha esibito una percentuale più alta di eventi di balbuzie. Questa osservazione suggerisce che la VR possa essere adatta solo agli individui con maggiore gravità della balbuzie. Sono necessari dati aggiuntivi per validare questa teoria.” Un lettore potrebbe ugualmente interpretare questo come una domanda di calibrazione/validità sul rilevatore automatico rispetto alla valutazione del clinico, ma gli autori la interpretano come una domanda di idoneità della popolazione.
Fattibilità della configurazione. Il tempo di configurazione di 2-3 minuti per partecipante è offerto come evidenza che il sistema è fattibile per l’uso clinico.
Perché è importante
Questo è tra i pochissimi studi VR sulla balbuzie condotti in arabo, affrontando una significativa sottorappresentazione nel campo. È anche uno dei relativamente pochi studi che integra esplicitamente un’API di riconoscimento vocale disponibile in commercio con un ambiente VR per rilevare automaticamente gli eventi di balbuzie. Il concetto di integrazione - ridurre l’onere del conteggio manuale durante la valutazione della balbuzie - è un vero bisogno clinico; se l’implementazione funzioni in modo robusto è ciò che questo piccolo studio di caso può suggerire (correlazione R=0,95 con la durata della sessione) ma non stabilire (n=3, nessun confronto con i conteggi degli eventi del clinico).
L’osservazione gravità-vs-rilevamento è il risultato clinicamente più interessante. Con soli 3 partecipanti è generatrice di ipotesi, non conclusiva. Potrebbe riflettere: (a) variazione genuina della popolazione nel modo in cui la balbuzie si manifesta durante la lettura basata su VR; (b) problemi di calibrazione con la soglia di prolungazione (derivata da tre parlanti fluenti femmine, applicata tra partecipanti di genere misto e gravità variabile); (c) variabilità test-retest che una singola sessione non può quantificare; (d) rumore statistico da n=3. Il lavoro successivo avrebbe bisogno di districare questi fattori.
Per Therapy withVR: questo studio non ha utilizzato, testato o valutato Therapy withVR. Il sistema era un software di ricerca personalizzato costruito dagli autori. L’articolo di Al-Nafjan è incluso nell’Evidence Hub perché aggiunge alla base di evidenze più ampia sulla VR immersiva per la balbuzie e rappresenta un raro contributo in lingua araba, non perché sia correlato a Therapy withVR.
Limiti
L’articolo riconosce alcuni di questi limiti direttamente; altri sono inerenti al design:
- Dimensione del campione n=3, sessione singola, singola configurazione del pubblico per partecipante. Il sistema supporta tre livelli di dimensione del pubblico (5/8/11 avatar) ma l’esperimento non ha variato la dimensione del pubblico all’interno o tra i partecipanti; l’aspetto della ‘gerarchia graduata’ del sistema non è stato testato.
- Nessuna condizione di confronto. Nessun basale non-VR, nessun confronto con i conteggi manuali degli eventi del clinico, nessun test-retest.
- Nessun follow-up longitudinale. Solo sessione singola.
- Soglia dell’analizzatore del parlato derivata da tre parlanti fluenti FEMMINE. Applicata tra partecipanti di genere misto; può non generalizzarsi tra generi, dialetti o tempi del parlato.
- Risultato controintuitivo gravità-vs-rilevamento (partecipante lieve: tasso rilevato più alto; grave: il più basso) solleva la domanda se il rilevatore automatico traccia il giudizio del clinico sulla gravità; gli autori notano che “sono necessari dati aggiuntivi per validare questa teoria.”
- Lieve effetto uncanny valley riportato dai partecipanti nel debriefing qualitativo - un segnale per il design degli avatar.
- Nessuna dichiarazione esplicita di finanziamento o COI nell’articolo.
- L’hardware VR è il Samsung Gear VR originale (VR mobile dell’era 2015). L’hardware moderno classe Quest offre materialmente migliore fedeltà visiva e tracciamento.
Implicazioni per la pratica
Per i clinici arabofoni che considerano la valutazione della balbuzie assistita dalla tecnologia: questo articolo fornisce evidenze di fattibilità che un'API di riconoscimento vocale disponibile in commercio (Google Cloud Speech-to-Text) può essere combinata con un ambiente VR per l'eloquio pubblico per rilevare prolungazioni, blocchi e ripetizioni nella valutazione della balbuzie in lingua araba. Il risultato inatteso che il partecipante con la gravità valutata dal clinico più bassa ha mostrato il tasso di rilevazione automatizzata più alto è un avvertimento contro l'utilizzo di tali sistemi per la valutazione della gravità senza ulteriore calibrazione. I clinici dovrebbero trattare lo studio come proof-of-concept per la pipeline tecnica (VR in lingua araba + analisi automatizzata del parlato), non come evidenza che la VR riduce la balbuzie o che il rilevamento automatizzato corrisponde al giudizio del clinico.
Come questo si collega a Therapy withVR
Lo studio sopra è ricerca indipendente e non esprime alcun giudizio su alcun prodotto. Le note qui sotto sono commenti di withVR su come i temi di questa ricerca si colleghino alle funzionalità di Therapy withVR. I risultati della ricerca non sono affermazioni su Therapy withVR.
Speech analysis integration (editorial parallel only)
Lo studio Al-Nafjan ha integrato un riconoscitore del parlato automatizzato disponibile in commercio (Google Cloud Speech-to-Text) con l'ambiente VR per rilevare prolungazioni, blocchi e ripetizioni in arabo. L'obiettivo concettuale - ridurre l'onere del conteggio manuale degli eventi di balbuzie durante le sessioni - è uno che la registrazione delle sessioni di Therapy withVR può supportare in modo diverso (all'interno del proprio design). Parallelo editoriale esclusivo; il sistema studiato è un software di ricerca personalizzato, non Therapy withVR.
Adjustable audience size (editorial parallel only)
Il sistema VR di Al-Nafjan supporta tre configurazioni di dimensione del pubblico (5, 8, 11 avatar). L'esperimento ha utilizzato una singola configurazione per partecipante, ma il concetto di gerarchia del sistema si allinea con i controlli del pubblico regolabili dal clinico di Therapy withVR all'interno del proprio design. Parallelo editoriale esclusivo.
Cita questo studio
Se citi questo studio nel tuo lavoro, questi sono i formati di citazione canonici:
@article{alnafjan2021,
author = {Al-Nafjan, A. and Alghamdi, N. and Almudhi, A.},
title = {Virtual Reality Technology and Speech Analysis for People Who Stutter},
journal = {EMITTER International Journal of Engineering Technology},
year = {2021},
doi = {10.24003/emitter.v9i2.649},
url = {https://withvr.app/it/evidence/studies/al-nafjan-2021}
}TY - JOUR
AU - Al-Nafjan, A.
AU - Alghamdi, N.
AU - Almudhi, A.
TI - Virtual Reality Technology and Speech Analysis for People Who Stutter
JO - EMITTER International Journal of Engineering Technology
PY - 2021
DO - 10.24003/emitter.v9i2.649
UR - https://withvr.app/it/evidence/studies/al-nafjan-2021
ER - Conosci ricerche che dovrebbero essere in questa base? Se uno studio peer-reviewed rilevante non è elencato qui, invia il riferimento a hello@withvr.app. La base è mantenuta aggiornata man mano che la letteratura cresce.
Finanziamento e indipendenza
L'articolo NON divulga alcuna fonte di finanziamento esterno - non c'è una sezione 'Finanziamento' nell'articolo. I Ringraziamenti ringraziano tre membri del gruppo di progetto non nominati (Asmaa Albasha, Maryam Alghalban, Ola Semsemiah) 'per il loro duro lavoro e dedizione' insieme ai soggetti partecipanti. Non è inclusa alcuna dichiarazione COI nell'articolo. Affiliazioni degli autori: Abeer Al-Nafjan (Department of Computer Sciences, College of Computer and Information Sciences, Imam Muhammad bin Saud Islamic University, Riyadh, Arabia Saudita); Najwa Alghamdi (Department of Information Technology, College of Computer and Information Sciences, King Saud University, Riyadh, Arabia Saudita); Abdulaziz Almudhi (Department of Medical Rehabilitation Sciences, College of Applied Medical Sciences AND Speech Language Pathology Unit, King Khalid University, Abha, Arabia Saudita). Il sistema VR è stato sviluppato su misura dagli autori usando Blender, Unity 3D e Mixamo, in esecuzione su un visore Samsung Gear VR (compatibile con Oculus) con un telefono Samsung S6; questo NON è Therapy withVR. L'analizzatore del parlato utilizzava la libreria client Python di Google Cloud Speech-to-Text. Nessun coinvolgimento di withVR BV nel finanziamento, nella progettazione dello studio o nella stesura. Sintesi redatta in modo indipendente da withVR a partire dall'articolo pubblicato.