Cosa ha rilevato Al-Nafjan et al. (2021)?

Tre partecipanti (due femmine, un maschio; età 30-34, M=32 DS=1,6) hanno ciascuno completato UNA singola sessione, NON sessioni multiple; il sistema supporta tre livelli di dimensione del pubblico (5, 8, 11 avatar) ma l'esperimento ha utilizzato una singola configurazione per partecipante Forte correlazione positiva (R=0,95) tra la durata della sessione e il numero di eventi di balbuzie rilevati automaticamente I partecipanti hanno riportato ansia e presenza comparabili all'eloquio pubblico nel mondo reale; hanno anche riportato un 'lieve effetto uncanny valley' con i personaggi avatar La configurazione e la preparazione hanno richiesto 2-3 minuti per partecipante; la durata della sessione variava da 1:40 a 2:25 minuti (i partecipanti hanno superato la durata media di recitazione fluente di 44,7±2,4 secondi di circa 1:15 min) Risultato controintuitivo segnalato dagli autori: il partecipante valutato come con LIEVE gravità della balbuzie dal logopedista supervisore ha esibito il tasso di eventi di balbuzie rilevati PIÙ ALTO (20,8%) mentre il partecipante GRAVE ha mostrato il tasso PIÙ BASSO (4,8%); il partecipante moderato ha mostrato l'8,6%. Gli autori notano che questo 'suggerisce che la VR possa essere adatta solo agli individui con maggiore gravità della balbuzie. Sono necessari dati aggiuntivi per validare questa teoria' L'analizzatore del parlato ha rilevato tre tipi di disfluenza: prolungazioni (durata della parola superiore a una soglia derivata da tre parlanti fluenti femmine che leggevano in media 74 parole arabe ad alta voce in 44,7±2,4 secondi), blocchi (quando l'API del parlato restituisce null per un'utteranza, interpretato come suoni vocali non verbali), e ripetizioni (quando l'API trascrive una parola più volte del previsto) Hardware/software: visore Samsung Gear VR su telefono Samsung S6 (occhiali VR Android compatibili con Oculus); strumento di modellazione 3D Blender per i personaggi della scena; Mixamo + Unity 3D per l'animazione e il posizionamento; libreria client Python di Google Cloud Speech-to-Text con riconoscimento sincrono; Audacity per la cattura della registrazione; registratore digitale Sony ICD-AX412F con microfono lavalier

Chi ha partecipato a questo studio?

Questo studio ha coinvolto 3 partecipanti: Adulti arabofoni che balbettano (2F/1M)

Questa pagina è stata tradotta dall'inglese. Se qualcosa sembra strano, passa alla versione inglese. Visualizza in inglese.

Balbuzie

Caso di fattibilità con tre partecipanti di un sistema VR in arabo per eloquio pubblico con rilevatore automatico di balbuzie

Al-Nafjan A et al. · 2021 · EMITTER International Journal of Engineering Technology · Studio di Caso · n = 3 · Adulti arabofoni che balbettano (2F/1M) · DOI

Livello di certezza: Certezza molto bassa

Come è stato valutato

Studio di caso con tre partecipanti in una singola sessione sperimentale. Lo studio formula un'affermazione di fattibilità/proof-of-concept sulla VR in lingua araba + analisi automatizzata del parlato, non un'affermazione di effetto clinico. La soglia dell'analizzatore del parlato per il rilevamento delle prolungazioni è stata calcolata da un corpus di tre parlanti fluenti FEMMINE saudite (soltanto), che potrebbe non generalizzarsi tra i generi o i dialetti. Nessuna condizione di controllo; nessun confronto con la gravità della balbuzie valutata dal clinico; nessun follow-up longitudinale. L'articolo non ha una dichiarazione esplicita di finanziamento o COI.

Le valutazioni utilizzano uno schema semplificato a quattro livelli (Alta, Moderata, Bassa, Molto bassa), basato sul GRADE working group. Scopri di più su come vengono valutati gli studi.

Uno studio di caso di fattibilità con tre partecipanti (due femmine, un maschio, età 30-34) di un sistema VR per l'eloquio pubblico in lingua araba su Samsung Gear VR + telefono S6, abbinato a un rilevatore automatico di eventi di balbuzie. Ciascun partecipante ha completato una singola sessione leggendo da un podio virtuale di fronte a un pubblico virtuale. Tempo di configurazione 2-3 minuti; il rilevatore automatico correlava R=0,95 con il conteggio manuale del clinico sullo stesso audio.

Messaggio clinico chiave

Uno studio di caso di fattibilità con 3 partecipanti e sessione singola di un ambiente VR per l'eloquio pubblico in lingua araba con un modulo di analisi del parlato automatizzato che rileva prolungazioni, blocchi e ripetizioni tramite l'API Google Cloud Speech-to-Text. Utile come proof-of-concept per la VR in un contesto linguistico poco servito (arabo) e per l'integrazione dell'analisi automatizzata del parlato con la VR; il campione (n=3, sessione singola, ambiente singolo) non può stabilire effetti clinici. Il partecipante con balbuzie lieve che mostra il tasso di balbuzie rilevato più alto solleva interrogativi sulla calibrazione dell'analizzatore del parlato rispetto alla gravità valutata dal clinico che gli autori segnalano per studi futuri.

Risultati principali

Tre partecipanti (due femmine, un maschio; età 30-34, M=32 DS=1,6) hanno ciascuno completato UNA singola sessione, NON sessioni multiple; il sistema supporta tre livelli di dimensione del pubblico (5, 8, 11 avatar) ma l'esperimento ha utilizzato una singola configurazione per partecipante
Forte correlazione positiva (R=0,95) tra la durata della sessione e il numero di eventi di balbuzie rilevati automaticamente
I partecipanti hanno riportato ansia e presenza comparabili all'eloquio pubblico nel mondo reale; hanno anche riportato un 'lieve effetto uncanny valley' con i personaggi avatar
La configurazione e la preparazione hanno richiesto 2-3 minuti per partecipante; la durata della sessione variava da 1:40 a 2:25 minuti (i partecipanti hanno superato la durata media di recitazione fluente di 44,7±2,4 secondi di circa 1:15 min)
Risultato controintuitivo segnalato dagli autori: il partecipante valutato come con LIEVE gravità della balbuzie dal logopedista supervisore ha esibito il tasso di eventi di balbuzie rilevati PIÙ ALTO (20,8%) mentre il partecipante GRAVE ha mostrato il tasso PIÙ BASSO (4,8%); il partecipante moderato ha mostrato l'8,6%. Gli autori notano che questo 'suggerisce che la VR possa essere adatta solo agli individui con maggiore gravità della balbuzie. Sono necessari dati aggiuntivi per validare questa teoria'
L'analizzatore del parlato ha rilevato tre tipi di disfluenza: prolungazioni (durata della parola superiore a una soglia derivata da tre parlanti fluenti femmine che leggevano in media 74 parole arabe ad alta voce in 44,7±2,4 secondi), blocchi (quando l'API del parlato restituisce null per un'utteranza, interpretato come suoni vocali non verbali), e ripetizioni (quando l'API trascrive una parola più volte del previsto)
Hardware/software: visore Samsung Gear VR su telefono Samsung S6 (occhiali VR Android compatibili con Oculus); strumento di modellazione 3D Blender per i personaggi della scena; Mixamo + Unity 3D per l'animazione e il posizionamento; libreria client Python di Google Cloud Speech-to-Text con riconoscimento sincrono; Audacity per la cattura della registrazione; registratore digitale Sony ICD-AX412F con microfono lavalier

Contesto

La valutazione della fluenza del parlato richiede tipicamente che un clinico conti e classifichi manualmente ogni momento di balbuzie durante una conversazione o un compito di lettura. Questo processo è dispendioso in termini di tempo, soggettivo e può variare tra gli osservatori. Per le persone che balbettano, la consapevolezza di essere attentamente monitorate può anche cambiare il modo in cui parlano. Una seconda sfida è l’accesso: la maggior parte della ricerca VR sulla balbuzie è stata condotta con popolazioni di lingua inglese, con lavoro equivalente molto limitato in arabo. Al-Nafjan, Alghamdi e Almudhi - lavorando in tre università saudite (Imam Muhammad bin Saud, King Saud e King Khalid) - si sono proposti di affrontare entrambe le sfide sviluppando un ambiente VR per l’eloquio pubblico in lingua araba con un analizzatore del parlato automatizzato integrato.

Cosa hanno fatto i ricercatori

Il gruppo ha costruito un sistema a due componenti: (1) un componente VR che posiziona il partecipante a un podio virtuale di fronte a un pubblico virtuale, supportando tre configurazioni di dimensione del pubblico (5, 8 e 11 avatar ai livelli 1, 2 e 3 rispettivamente), realizzato in Blender per la modellazione dei personaggi, Mixamo per l’animazione e Unity 3D per l’assemblaggio della scena, e renderizzato su un visore Samsung Gear VR (compatibile con Oculus) in esecuzione su un telefono Android Samsung S6; e (2) un componente di analisi del parlato che registra la lettura del partecipante tramite un registratore digitale Sony ICD-AX412F con microfono lavalier, segmenta l’audio usando Audacity attraverso la soglia dell’energia del segnale e del centroide spettrale, e trascrive ogni segmento usando la libreria client Python di Google Cloud Speech-to-Text con riconoscimento sincrono. L’analizzatore del parlato segnala tre tipi di disfluenza:

Prolungazione: quando la durata di una parola del partecipante supera una soglia per-parola calcolata mediando la durata della stessa parola tra tre parlanti di riferimento fluenti femmine (74 parole arabe lette in 44,7±2,4 secondi).
Blocco: quando l’API del parlato restituisce una trascrizione nulla per un’utteranza, interpretato come un suono vocale non verbale prodotto durante un blocco di balbuzie.
Ripetizione: quando l’API trascrive una parola più volte del previsto dallo script di riferimento.

Il punteggio Stuttering Screening (SS) è la somma di questi tre conteggi.

Partecipanti. Tre adulti arabofoni che balbettano sono stati reclutati dalla pratica clinica del logopedista supervisore (co-autore Almudhi). Dati demografici: due femmine, un maschio; età 30, 32 e 34 (media 32, DS 1,6). La gravità della balbuzie è stata valutata dal logopedista: P1 moderata (età 32), P2 lieve (età 34), P3 grave (età 30). Tutti erano sani con vista normale e nessuna esperienza precedente con la VR.

Procedura. L’esperimento era una singola sessione in una stanza isolata sotto la supervisione del responsabile. I partecipanti indossavano un microfono lavalier sul registratore digitale Sony IC (ICD-AX412F) e il visore Samsung Gear VR, regolavano la loro posizione finché il testo sul podio virtuale era leggibile, e leggevano lo script in arabo di 74 parole ad alta voce di fronte al pubblico virtuale. La configurazione/preparazione richiedeva 2-3 minuti per partecipante; la sessione di lettura effettiva durava 1:40-2:25 minuti. Dopo la registrazione, l’audio veniva segmentato, trascritto e analizzato; i partecipanti venivano poi intervistati per il feedback soggettivo.

Cosa hanno trovato

Accettabilità e presenza (qualitativa). I partecipanti hanno valutato positivamente le loro esperienze VR attraverso il design estetico, il design dei personaggi e l’immersione. Hanno riportato una somiglianza accettabile tra la scena VR e una vera sala conferenze, un “lieve effetto uncanny valley” con i personaggi avatar (una limitazione notata del design dei personaggi), e reazioni emotive simili (paura, ansia) a quelle vissute nelle attività di eloquio pubblico nel mondo reale.

Prestazioni dell’analizzatore del parlato. È stata riscontrata una forte correlazione positiva tra la durata della sessione e gli eventi di balbuzie rilevati automaticamente (R=0,95). Gli autori interpretano questo come evidenza di “prestazioni accettabili dell’analizzatore del parlato nel rilevamento degli eventi di balbuzie, in particolare delle istanze di prolungazione.”

Risultato controintuitivo gravità-vs-rilevamento. La Tabella 2 dell’articolo mostra le percentuali di eventi di balbuzie rilevati per partecipante: P1 (moderato, 32a) 8,6%, P2 (lieve, 34a) 20,8%, P3 (grave, 30a) 4,8%. Cioè, il partecipante valutato come LIEVE dal clinico ha mostrato il tasso di balbuzie rilevato PIÙ ALTO, mentre il partecipante GRAVE ha mostrato il tasso PIÙ BASSO. Gli autori segnalano questo direttamente: “Un’osservazione interessante è che il partecipante con lieve gravità della balbuzie ha esibito una percentuale più alta di eventi di balbuzie. Questa osservazione suggerisce che la VR possa essere adatta solo agli individui con maggiore gravità della balbuzie. Sono necessari dati aggiuntivi per validare questa teoria.” Un lettore potrebbe ugualmente interpretare questo come una domanda di calibrazione/validità sul rilevatore automatico rispetto alla valutazione del clinico, ma gli autori la interpretano come una domanda di idoneità della popolazione.

Fattibilità della configurazione. Il tempo di configurazione di 2-3 minuti per partecipante è offerto come evidenza che il sistema è fattibile per l’uso clinico.

Perché è importante

Questo è tra i pochissimi studi VR sulla balbuzie condotti in arabo, affrontando una significativa sottorappresentazione nel campo. È anche uno dei relativamente pochi studi che integra esplicitamente un’API di riconoscimento vocale disponibile in commercio con un ambiente VR per rilevare automaticamente gli eventi di balbuzie. Il concetto di integrazione - ridurre l’onere del conteggio manuale durante la valutazione della balbuzie - è un vero bisogno clinico; se l’implementazione funzioni in modo robusto è ciò che questo piccolo studio di caso può suggerire (correlazione R=0,95 con la durata della sessione) ma non stabilire (n=3, nessun confronto con i conteggi degli eventi del clinico).

L’osservazione gravità-vs-rilevamento è il risultato clinicamente più interessante. Con soli 3 partecipanti è generatrice di ipotesi, non conclusiva. Potrebbe riflettere: (a) variazione genuina della popolazione nel modo in cui la balbuzie si manifesta durante la lettura basata su VR; (b) problemi di calibrazione con la soglia di prolungazione (derivata da tre parlanti fluenti femmine, applicata tra partecipanti di genere misto e gravità variabile); (c) variabilità test-retest che una singola sessione non può quantificare; (d) rumore statistico da n=3. Il lavoro successivo avrebbe bisogno di districare questi fattori.

Per Therapy withVR: questo studio non ha utilizzato, testato o valutato Therapy withVR. Il sistema era un software di ricerca personalizzato costruito dagli autori. L’articolo di Al-Nafjan è incluso nell’Evidence Hub perché aggiunge alla base di evidenze più ampia sulla VR immersiva per la balbuzie e rappresenta un raro contributo in lingua araba, non perché sia correlato a Therapy withVR.

Limiti

L’articolo riconosce alcuni di questi limiti direttamente; altri sono inerenti al design:

Dimensione del campione n=3, sessione singola, singola configurazione del pubblico per partecipante. Il sistema supporta tre livelli di dimensione del pubblico (5/8/11 avatar) ma l’esperimento non ha variato la dimensione del pubblico all’interno o tra i partecipanti; l’aspetto della ‘gerarchia graduata’ del sistema non è stato testato.
Nessuna condizione di confronto. Nessun basale non-VR, nessun confronto con i conteggi manuali degli eventi del clinico, nessun test-retest.
Nessun follow-up longitudinale. Solo sessione singola.
Soglia dell’analizzatore del parlato derivata da tre parlanti fluenti FEMMINE. Applicata tra partecipanti di genere misto; può non generalizzarsi tra generi, dialetti o tempi del parlato.
Risultato controintuitivo gravità-vs-rilevamento (partecipante lieve: tasso rilevato più alto; grave: il più basso) solleva la domanda se il rilevatore automatico traccia il giudizio del clinico sulla gravità; gli autori notano che “sono necessari dati aggiuntivi per validare questa teoria.”
Lieve effetto uncanny valley riportato dai partecipanti nel debriefing qualitativo - un segnale per il design degli avatar.
Nessuna dichiarazione esplicita di finanziamento o COI nell’articolo.
L’hardware VR è il Samsung Gear VR originale (VR mobile dell’era 2015). L’hardware moderno classe Quest offre materialmente migliore fedeltà visiva e tracciamento.

Implicazioni per la pratica

Per i clinici arabofoni che considerano la valutazione della balbuzie assistita dalla tecnologia: questo articolo fornisce evidenze di fattibilità che un'API di riconoscimento vocale disponibile in commercio (Google Cloud Speech-to-Text) può essere combinata con un ambiente VR per l'eloquio pubblico per rilevare prolungazioni, blocchi e ripetizioni nella valutazione della balbuzie in lingua araba. Il risultato inatteso che il partecipante con la gravità valutata dal clinico più bassa ha mostrato il tasso di rilevazione automatizzata più alto è un avvertimento contro l'utilizzo di tali sistemi per la valutazione della gravità senza ulteriore calibrazione. I clinici dovrebbero trattare lo studio come proof-of-concept per la pipeline tecnica (VR in lingua araba + analisi automatizzata del parlato), non come evidenza che la VR riduce la balbuzie o che il rilevamento automatizzato corrisponde al giudizio del clinico.

Note editoriali di withVR

Come questo si collega a Therapy withVR

Lo studio sopra è ricerca indipendente e non esprime alcun giudizio su alcun prodotto. Le note qui sotto sono commenti di withVR su come i temi di questa ricerca si colleghino alle funzionalità di Therapy withVR. I risultati della ricerca non sono affermazioni su Therapy withVR.

Integrazione dell'analisi del parlato (solo parallelo editoriale)

Lo studio Al-Nafjan ha integrato un riconoscitore del parlato automatizzato disponibile in commercio (Google Cloud Speech-to-Text) con l'ambiente VR per rilevare prolungazioni, blocchi e ripetizioni in arabo. L'obiettivo concettuale - ridurre l'onere del conteggio manuale degli eventi di balbuzie durante le sessioni - è uno che la registrazione delle sessioni di Therapy withVR può supportare in modo diverso (all'interno del proprio design). Parallelo editoriale esclusivo; il sistema studiato è un software di ricerca personalizzato, non Therapy withVR.

Dimensione del pubblico regolabile (solo parallelo editoriale)

Il sistema VR di Al-Nafjan supporta tre configurazioni di dimensione del pubblico (5, 8, 11 avatar). L'esperimento ha utilizzato una singola configurazione per partecipante, ma il concetto di gerarchia del sistema si allinea con i controlli del pubblico regolabili dal clinico di Therapy withVR all'interno del proprio design. Parallelo editoriale esclusivo.

Cita questo studio

Se citi questo studio nel tuo lavoro, questi sono i formati di citazione canonici:

APA 7th

Al-Nafjan, A., Alghamdi, N., & Almudhi, A. (2021). Virtual Reality Technology and Speech Analysis for People Who Stutter. EMITTER International Journal of Engineering Technology. https://doi.org/10.24003/emitter.v9i2.649.

AMA 11th

Al-Nafjan A, Alghamdi N, Almudhi A. Virtual Reality Technology and Speech Analysis for People Who Stutter. EMITTER International Journal of Engineering Technology. 2021. doi:10.24003/emitter.v9i2.649.

BibTeX

@article{alnafjan2021,
  author = {Al-Nafjan, A. and Alghamdi, N. and Almudhi, A.},
  title = {Virtual Reality Technology and Speech Analysis for People Who Stutter},
  journal = {EMITTER International Journal of Engineering Technology},
  year = {2021},
  doi = {10.24003/emitter.v9i2.649},
  url = {https://withvr.app/it/evidence/studies/al-nafjan-2021}
}

RIS

TY  - JOUR
AU  - Al-Nafjan, A.
AU  - Alghamdi, N.
AU  - Almudhi, A.
TI  - Virtual Reality Technology and Speech Analysis for People Who Stutter
JO  - EMITTER International Journal of Engineering Technology
PY  - 2021
DO  - 10.24003/emitter.v9i2.649
UR  - https://withvr.app/it/evidence/studies/al-nafjan-2021
ER  -

Conosci ricerche che dovrebbero essere in questa base? Se uno studio peer-reviewed rilevante non è elencato qui, invia il riferimento a hello@withvr.app. La base è mantenuta aggiornata man mano che la letteratura cresce.

Finanziamento e indipendenza

L'articolo NON divulga alcuna fonte di finanziamento esterno - non c'è una sezione 'Finanziamento' nell'articolo. I Ringraziamenti ringraziano tre membri del gruppo di progetto non nominati (Asmaa Albasha, Maryam Alghalban, Ola Semsemiah) 'per il loro duro lavoro e dedizione' insieme ai soggetti partecipanti. Non è inclusa alcuna dichiarazione COI nell'articolo. Affiliazioni degli autori: Abeer Al-Nafjan (Department of Computer Sciences, College of Computer and Information Sciences, Imam Muhammad bin Saud Islamic University, Riyadh, Arabia Saudita); Najwa Alghamdi (Department of Information Technology, College of Computer and Information Sciences, King Saud University, Riyadh, Arabia Saudita); Abdulaziz Almudhi (Department of Medical Rehabilitation Sciences, College of Applied Medical Sciences AND Speech Language Pathology Unit, King Khalid University, Abha, Arabia Saudita). Il sistema VR è stato sviluppato su misura dagli autori usando Blender, Unity 3D e Mixamo, in esecuzione su un visore Samsung Gear VR (compatibile con Oculus) con un telefono Samsung S6; questo NON è Therapy withVR. L'analizzatore del parlato utilizzava la libreria client Python di Google Cloud Speech-to-Text. Nessun coinvolgimento di withVR BV nel finanziamento, nella progettazione dello studio o nella stesura. Sintesi redatta in modo indipendente da withVR a partire dall'articolo pubblicato.

Ultima revisione: 2026-05-12 Prossima revisione prevista: 2027-05-12 Revisionato da: Gareth Walkom

Caso di fattibilità con tre partecipanti di un sistema VR in arabo per eloquio pubblico con rilevatore automatico di balbuzie

Risultati principali

Contesto

Cosa hanno fatto i ricercatori

Cosa hanno trovato

Perché è importante

Limiti

Implicazioni per la pratica

Come questo si collega a Therapy withVR

Integrazione dell'analisi del parlato (solo parallelo editoriale)

Dimensione del pubblico regolabile (solo parallelo editoriale)

Studi correlati

Colloqui in VR: lo stile dell'intervistatore influenza la balbuzie; %SS in VR correla fortemente con %SS nel colloquio clinico SSI-3

Le risposte di balbuzie e di ansia nel pubblico virtuale corrispondono strettamente a quelle nel pubblico reale

Il pubblico VR eleva il disagio soggettivo ma non l'arousal fisiologico né la frequenza della balbuzie in maschi adulti che balbettano

Pilota di tesi triennale di un primo prototipo Samsung Gear VR per il parlato in pubblico con 6 adulti che balbettano: risultati misti

Cita questo studio

Finanziamento e indipendenza