Αυτή η σελίδα έχει μεταφραστεί από τα αγγλικά. Αν κάτι ακούγεται παράξενο, μεταβείτε στην αγγλική έκδοση. Προβολή στα αγγλικά.
Μελέτη σκοπιμότητας τριών συμμετεχόντων με αραβόφωνο VR σύστημα δημόσιας ομιλίας και αυτοματοποιημένο ανιχνευτή περιστατικών τραυλισμού
Πώς προέκυψε αυτή η αξιολόγηση
Μελέτη περίπτωσης με τρεις συμμετέχοντες σε μία μόνο πειραματική συνεδρία. Η μελέτη κάνει ισχυρισμό σκοπιμότητας/απόδειξης έννοιας σχετικά με αραβόφωνο VR και αυτοματοποιημένη ανάλυση λόγου, όχι ισχυρισμό κλινικού αποτελέσματος. Το κατώφλι ανίχνευσης προεκτάσεων του αναλυτή λόγου υπολογίστηκε από έναν corpus τριών ευφραδών ΓΥΝΑΙΚΩΝ Σαουδαράβων ομιλητριών (μόνο), πράγμα που ενδέχεται να μην γενικεύεται στα δύο φύλα ή σε διαλέκτους. Καμία συνθήκη ελέγχου· καμία σύγκριση με αξιολόγηση σοβαρότητας από κλινικό· καμία διαχρονική παρακολούθηση. Το άρθρο δεν περιλαμβάνει ρητή αποκάλυψη χρηματοδότησης ή δήλωση COI.
Οι αξιολογήσεις χρησιμοποιούν ένα απλοποιημένο σχήμα τεσσάρων επιπέδων (Υψηλή, Μέτρια, Χαμηλή, Πολύ χαμηλή), βασισμένο στην GRADE working group. Διαβάστε περισσότερα για τον τρόπο αξιολόγησης των μελετών.
Μελέτη σκοπιμότητας τριών συμμετεχόντων (δύο γυναίκες, ένας άνδρας, ηλικίες 30-34) ενός αραβόφωνου συστήματος VR δημόσιας ομιλίας σε Samsung Gear VR + κινητό S6, σε συνδυασμό με αυτοματοποιημένο ανιχνευτή περιστατικών τραυλισμού. Κάθε συμμετέχων ολοκλήρωσε μία συνεδρία διαβάζοντας από εικονικό βήμα ενώπιον εικονικού ακροατηρίου. Χρόνος εγκατάστασης 2-3 λεπτά· ο αυτοματοποιημένος ανιχνευτής συσχετίστηκε με R=0,95 με τις χειροκίνητες μετρήσεις κλινικού στον ίδιο ήχο.
Μελέτη σκοπιμότητας 3 συμμετεχόντων μιας συνεδρίας με αραβόφωνο VR περιβάλλον δημόσιας ομιλίας και αυτοματοποιημένο αναλυτή λόγου που ανιχνεύει προεκτάσεις, μπλοκαρίσματα και επαναλήψεις μέσω Google Cloud Speech-to-Text API. Χρήσιμη ως απόδειξη έννοιας για VR σε υποεκπροσωπούμενο γλωσσικό πλαίσιο (αραβικά) και για την ενσωμάτωση αυτοματοποιημένης ανάλυσης λόγου με VR· το δείγμα (n=3, μία συνεδρία, ένα περιβάλλον) δεν μπορεί να τεκμηριώσει κλινικό αποτέλεσμα.
Βασικά ευρήματα
- Τρεις συμμετέχοντες (δύο γυναίκες, ένας άνδρας· ηλικίες 30-34, M=32 SD=1,6) ολοκλήρωσαν κάθε ένας ΜΙΑ μόνο συνεδρία· το σύστημα υποστηρίζει τρία επίπεδα μεγέθους κοινού (5, 8, 11 avatars) αλλά το πείραμα χρησιμοποίησε μία μόνο ρύθμιση ανά συμμετέχοντα
- Ισχυρή θετική συσχέτιση (R=0,95) μεταξύ διάρκειας συνεδρίας και αριθμού αυτόματα εντοπισμένων περιστατικών τραυλισμού
- Οι συμμετέχοντες ανέφεραν άγχος και αίσθηση παρουσίας συγκρίσιμες με πραγματική δημόσια ομιλία· ανέφεραν επίσης «ήπιο εφέ uncanny valley» με τους χαρακτήρες-avatars
- Η εγκατάσταση και προετοιμασία χρειάστηκε 2-3 λεπτά ανά συμμετέχοντα· η διάρκεια συνεδρίας κυμάνθηκε από 1:40 έως 2:25 λεπτά
- Αντίστροφο εύρημα που επισήμαναν οι συγγραφείς: ο συμμετέχων που αξιολογήθηκε ΗΠΙΑς σοβαρότητας από τον επιβλέποντα λογοθεραπευτή εμφάνισε το ΥΨΗΛΟΤΕΡΟ ποσοστό εντοπισμένων περιστατικών τραυλισμού (20,8%) ενώ ο ΣΟΒΑΡΟΣ εμφάνισε το χαμηλότερο (4,8%)· ο μέτριος εμφάνισε 8,6%. Οι συγγραφείς σημειώνουν ότι αυτό «υποδηλώνει ότι το VR ενδέχεται να ταιριάζει μόνο σε άτομα με υψηλότερη σοβαρότητα τραυλισμού. Απαιτούνται πρόσθετα δεδομένα για την επικύρωση αυτής της θεωρίας»
- Ο αναλυτής λόγου εντόπισε τρεις τύπους δυσρρυθμίας: προεκτάσεις (διάρκεια λέξης που υπερβαίνει κατώφλι υπολογιζόμενο από τρεις ευφραδείς γυναίκες ομιλήτριες που διάβασαν 74 αραβικές λέξεις σε 44,7±2,4 δευτερόλεπτα), μπλοκαρίσματα (όταν το API λόγου επιστρέφει null για μια εκφώνηση) και επαναλήψεις (όταν το API μεταγράφει μια λέξη περισσότερες φορές από το αναμενόμενο)
- Υλικό/λογισμικό: κρανοσκόπιο Samsung Gear VR σε κινητό Samsung S6 (συμβατά γυαλιά VR Android Oculus)· Blender για μοντελοποίηση χαρακτήρων σκηνής· Mixamo + Unity 3D για κινούμενα σχέδια και τοποθέτηση· βιβλιοθήκη Python Google Cloud Speech-to-Text για ασύγχρονη αναγνώριση
Υπόβαθρο
Η αξιολόγηση ροής ομιλίας απαιτεί συνήθως από τον κλινικό να μετράει και να κατηγοριοποιεί χειρωνακτικά κάθε περιστατικό τραυλισμού κατά τη διάρκεια μιας συνομιλίας ή ανάγνωσης. Αυτή η διαδικασία είναι χρονοβόρα, υποκειμενική και μπορεί να ποικίλλει μεταξύ παρατηρητών. Για άτομα που τραυλίζουν, η επίγνωση της στενής παρακολούθησης μπορεί επίσης να αλλάξει τον τρόπο που μιλούν. Μια δεύτερη πρόκληση είναι η πρόσβαση: η περισσότερη έρευνα VR για τον τραυλισμό έχει διεξαχθεί με αγγλόφωνους πληθυσμούς, με πολύ περιορισμένη αντίστοιχη εργασία στα αραβικά. Οι Al-Nafjan, Alghamdi και Almudhi - εργαζόμενοι σε τρία σαουδαραβικά πανεπιστήμια (Imam Muhammad bin Saud, King Saud και King Khalid) - αποφάσισαν να αντιμετωπίσουν και τις δύο προκλήσεις αναπτύσσοντας ένα αραβόφωνο VR περιβάλλον δημόσιας ομιλίας με ενσωματωμένο αυτοματοποιημένο αναλυτή λόγου.
Τι έκαναν οι ερευνητές
Η ομάδα κατασκεύασε ένα σύστημα δύο συστατικών: (1) ένα VR συστατικό που τοποθετεί τον συμμετέχοντα σε εικονικό βήμα έχοντας μπροστά του εικονικό κοινό, υποστηρίζοντας τρεις ρυθμίσεις μεγέθους κοινού (5, 8 και 11 avatars)· και (2) ένα συστατικό αναλυτή λόγου που καταγράφει την ανάγνωση του συμμετέχοντα, τμηματοποιεί τον ήχο και μεταγράφει κάθε τμήμα χρησιμοποιώντας τη βιβλιοθήκη Python Google Cloud Speech-to-Text. Ο αναλυτής λόγου επισημαίνει τρεις τύπους δυσρρυθμίας:
- Προέκταση: όταν η διάρκεια λέξης ενός συμμετέχοντα υπερβαίνει ένα ανά-λέξη κατώφλι υπολογιζόμενο από τη μέση διάρκεια της ίδιας λέξης σε τρεις ευφραδείς γυναίκες αναφοράς.
- Μπλοκάρισμα: όταν το API λόγου επιστρέφει null μεταγραφή για μια εκφώνηση, ερμηνευόμενο ως μη-ομιλητικός ήχος κατά τη διάρκεια μπλοκαρίσματος.
- Επανάληψη: όταν το API μεταγράφει μια λέξη περισσότερες φορές από το αναμενόμενο από το κείμενο αναφοράς.
Συμμετέχοντες. Τρεις αραβόφωνοι ενήλικες που τραυλίζουν στρατολογήθηκαν από την κλινική πρακτική του επιβλέπτοντα λογοθεραπευτή. Δημογραφικά: δύο γυναίκες, ένας άνδρας· ηλικίες 30, 32 και 34 (μέσος 32, SD 1,6). Σοβαρότητα τραυλισμού αξιολογήθηκε από τον λογοθεραπευτή: P1 μέτριος (ηλικία 32), P2 ήπιος (ηλικία 34), P3 σοβαρός (ηλικία 30).
Διαδικασία. Το πείραμα ήταν μία συνεδρία σε απομονωμένο δωμάτιο υπό την εποπτεία του λογοθεραπευτή. Οι συμμετέχοντες φόρεσαν κρανοσκόπιο Samsung Gear VR, ρύθμισαν τη θέση τους μέχρι να είναι ευανάγνωστο το κείμενο στο εικονικό βήμα, και διάβασαν δυνατά το αραβικό κείμενο 74 λέξεων. Η εγκατάσταση/προετοιμασία χρειάστηκε 2-3 λεπτά· η πραγματική ανάγνωση διήρκεσε 1:40-2:25 λεπτά.
Τι βρήκαν
Αποδεκτότητα και παρουσία (ποιοτική). Οι συμμετέχοντες αξιολόγησαν θετικά τις εμπειρίες τους στο VR ως προς αισθητικό σχεδιασμό, σχεδιασμό χαρακτήρων και εμβύθιση. Ανέφεραν αποδεκτή ομοιότητα μεταξύ της σκηνής VR και μιας πραγματικής αίθουσας συνεδρίων, «ήπιο εφέ uncanny valley» με τους χαρακτήρες-avatars, και παρόμοιες συναισθηματικές αντιδράσεις (φόβο, άγχος) με αυτές που βιώνουν σε πραγματικές δραστηριότητες δημόσιας ομιλίας.
Απόδοση αναλυτή λόγου. Βρέθηκε ισχυρή θετική συσχέτιση μεταξύ διάρκειας συνεδρίας και αυτόματα εντοπισμένων περιστατικών τραυλισμού (R=0,95). Οι συγγραφείς ερμηνεύουν αυτό ως «αποδεκτή απόδοση του αναλυτή λόγου στην ανίχνευση περιστατικών τραυλισμού, ιδιαίτερα προεκτάσεων».
Αντίστροφο αποτέλεσμα σοβαρότητας έναντι ανίχνευσης. Ο Πίνακας 2 του άρθρου δείχνει τα ποσοστά εντοπισμένων περιστατικών τραυλισμού ανά συμμετέχοντα: P1 (μέτριος, 32 ετών) 8,6%, P2 (ήπιος, 34 ετών) 20,8%, P3 (σοβαρός, 30 ετών) 4,8%. Δηλαδή, ο συμμετέχων που αξιολογήθηκε ΗΠΙΑς από τον κλινικό εμφάνισε τον ΥΨΗΛΟΤΕΡΟ ανιχνευόμενο ρυθμό, ενώ ο ΣΟΒΑΡΟΣ το χαμηλότερο. Οι συγγραφείς επισημαίνουν αυτό άμεσα: αυτό «υποδηλώνει ότι το VR ενδέχεται να ταιριάζει μόνο σε άτομα με υψηλότερη σοβαρότητα τραυλισμού. Απαιτούνται πρόσθετα δεδομένα για την επικύρωση αυτής της θεωρίας.»
Σκοπιμότητα εγκατάστασης. Ο χρόνος εγκατάστασης 2-3 λεπτά ανά συμμετέχοντα προσφέρεται ως αποδεικτικό στοιχείο ότι το σύστημα είναι εφαρμόσιμο για κλινική χρήση.
Γιατί έχει σημασία
Αυτή είναι μία από τις ελάχιστες μελέτες VR για τον τραυλισμό που διεξήχθη στα αραβικά, αντιμετωπίζοντας μια σημαντική υποεκπροσώπηση στον τομέα. Είναι επίσης μία από τις σχετικά λίγες μελέτες που ρητά ενσωματώνει ένα off-the-shelf API αναγνώρισης λόγου με VR περιβάλλον για αυτόματη ανίχνευση περιστατικών τραυλισμού. Η έννοια ενσωμάτωσης - μείωση του φορτίου χειρωνακτικής καταμέτρησης κατά την αξιολόγηση τραυλισμού - είναι πραγματική κλινική ανάγκη.
Το αποτέλεσμα σοβαρότητας έναντι ανίχνευσης είναι το πιο κλινικά ενδιαφέρον εύρημα. Με μόνο 3 συμμετέχοντες είναι υπόθεση που δημιουργεί ερωτήματα, όχι αποφασιστικό. Θα μπορούσε να αντικατοπτρίζει: (α) γνήσια ατομική παραλλαγή στο πώς εκδηλώνεται ο τραυλισμός κατά τη VR-βασισμένη ανάγνωση· (β) ζητήματα βαθμονόμησης με το κατώφλι προέκτασης· (γ) διακύμανση επαναλεπτότητας που μία συνεδρία δεν μπορεί να ποσοτικοποιήσει· (δ) στατιστικό θόρυβο από n=3.
Περιορισμοί
Το άρθρο αναγνωρίζει μερικούς από αυτούς άμεσα· άλλοι είναι εγγενείς στον σχεδιασμό:
- Μέγεθος δείγματος n=3, μία συνεδρία, μία ρύθμιση κοινού ανά συμμετέχοντα. Το σύστημα υποστηρίζει τρία επίπεδα μεγέθους κοινού αλλά το πείραμα δεν διέφερε μεγέθη κοινού· η ιεραρχημένη πτυχή του συστήματος δεν δοκιμάστηκε.
- Καμία συνθήκη ελέγχου. Καμία μη-VR βασική γραμμή, καμία σύγκριση με χειρωνακτική καταμέτρηση περιστατικών κλινικού, καμία επαναληψιμότητα.
- Καμία διαχρονική παρακολούθηση. Μία μόνο συνεδρία.
- Κατώφλι αναλυτή λόγου υπολογιζόμενο από τρεις ευφραδείς ΓΥΝΑΙΚΕΣ ομιλήτριες. Εφαρμόστηκε σε συμμετέχοντες μικτού φύλου· ενδέχεται να μην γενικεύεται.
- Αντίστροφο εύρημα σοβαρότητας έναντι ανίχνευσης (ήπιος συμμετέχων: υψηλότερος ανιχνευόμενος ρυθμός· σοβαρός: χαμηλότερος) εγείρει ερώτηση σχετικά με το αν ο αυτοματοποιημένος ανιχνευτής παρακολουθεί την αξιολόγηση σοβαρότητας του κλινικού.
- Ήπιο εφέ uncanny valley που ανέφεραν οι συμμετέχοντες στην ποιοτική αξιολόγηση.
- Χωρίς ρητή αποκάλυψη χρηματοδότησης ή δήλωση COI στο άρθρο.
- Το υλικό VR είναι το αρχικό Samsung Gear VR (εποχής 2015, κινητό VR). Σύγχρονο υλικό κατηγορίας Quest προσφέρει ουσιαστικά καλύτερη οπτική πιστότητα και ανίχνευση.
Επιπτώσεις για την κλινική πράξη
Για αραβόφωνους κλινικούς που εξετάζουν τεχνολογία-υποβοηθούμενη αξιολόγηση τραυλισμού: αυτό το άρθρο παρέχει αποδεικτικά σκοπιμότητας ότι ένα off-the-shelf API αναγνώρισης λόγου (Google Cloud Speech-to-Text) μπορεί να συνδυαστεί με VR περιβάλλον δημόσιας ομιλίας για ανίχνευση προεκτάσεων, μπλοκαρισμάτων και επαναλήψεων στην αξιολόγηση αραβόφωνου τραυλισμού. Το απρόσμενο εύρημα ότι ο συμμετέχων με τη χαμηλότερη αξιολόγηση σοβαρότητας από τον κλινικό εμφάνισε τον υψηλότερο αυτοματοποιημένο ρυθμό ανίχνευσης είναι προειδοποίηση κατά της χρήσης τέτοιων συστημάτων για αξιολόγηση σοβαρότητας χωρίς περαιτέρω βαθμονόμηση.
Πώς συνδέεται αυτό με το Therapy withVR
Η παραπάνω μελέτη αποτελεί ανεξάρτητη έρευνα και δεν εκφράζει κρίση για κανένα προϊόν. Τα σχόλια που ακολουθούν αποτελούν τοποθέτηση της withVR σχετικά με το πώς οι θεματικές της έρευνας συνδέονται με λειτουργίες του Therapy withVR. Τα ερευνητικά ευρήματα δεν αποτελούν ισχυρισμούς για το Therapy withVR.
Speech analysis integration (editorial parallel only)
Η μελέτη Al-Nafjan ενσωμάτωσε έναν έτοιμο αυτοματοποιημένο αναγνωριστή λόγου (Google Cloud Speech-to-Text) με το VR περιβάλλον για ανίχνευση προεκτάσεων, μπλοκαρισμάτων και επαναλήψεων στα αραβικά. Ο εννοιολογικός στόχος - μείωση του φορτίου χειροκίνητης καταμέτρησης περιστατικών τραυλισμού κατά τις συνεδρίες - είναι αυτός που η καταγραφή συνεδριών του Therapy withVR μπορεί να υποστηρίξει με διαφορετικό τρόπο. Μόνο για σύγκριση· το εξεταζόμενο σύστημα είναι ερευνητικό λογισμικό, όχι το Therapy withVR.
Adjustable audience size (editorial parallel only)
Το VR σύστημα Al-Nafjan υποστηρίζει τρεις ρυθμίσεις μεγέθους κοινού (5, 8, 11 avatars). Το πείραμα χρησιμοποίησε μία ρύθμιση ανά συμμετέχοντα, αλλά η έννοια ιεραρχίας του συστήματος ευθυγραμμίζεται με τα ρυθμιζόμενα από κλινικό στοιχεία ελέγχου κοινού του Therapy withVR. Μόνο για σύγκριση.
Παραπομπή αυτής της μελέτης
Εάν αναφέρετε αυτή τη μελέτη στην εργασία σας, αυτές είναι οι κανονικές μορφές παραπομπής:
@article{alnafjan2021,
author = {Al-Nafjan, A. and Alghamdi, N. and Almudhi, A.},
title = {Virtual Reality Technology and Speech Analysis for People Who Stutter},
journal = {EMITTER International Journal of Engineering Technology},
year = {2021},
doi = {10.24003/emitter.v9i2.649},
url = {https://withvr.app/el/evidence/studies/al-nafjan-2021}
}TY - JOUR
AU - Al-Nafjan, A.
AU - Alghamdi, N.
AU - Almudhi, A.
TI - Virtual Reality Technology and Speech Analysis for People Who Stutter
JO - EMITTER International Journal of Engineering Technology
PY - 2021
DO - 10.24003/emitter.v9i2.649
UR - https://withvr.app/el/evidence/studies/al-nafjan-2021
ER - Γνωρίζετε έρευνα που θα έπρεπε να συμπεριληφθεί σε αυτή τη Βάση Τεκμηρίωσης? Εάν μια σχετική, αξιολογημένη από ομοτίμους μελέτη δεν αναφέρεται εδώ, στείλτε την παραπομπή στο hello@withvr.app. Η Βάση Τεκμηρίωσης διατηρείται επίκαιρη καθώς η βιβλιογραφία εμπλουτίζεται.
Χρηματοδότηση & ανεξαρτησία
Το άρθρο ΔΕΝ αποκαλύπτει καμία εξωτερική πηγή χρηματοδότησης - δεν υπάρχει ενότητα «Χρηματοδότηση» στο άρθρο. Τα Ευχαριστήρια ευχαριστούν τρία ανώνυμα μέλη ομάδας έργου (Asmaa Albasha, Maryam Alghalban, Ola Semsemiah) «για τη σκληρή δουλειά και αφοσίωσή τους» μαζί με τους συμμετέχοντες. Δεν περιλαμβάνεται δήλωση COI στο άρθρο. Συγγραφικές ιδιότητες: Abeer Al-Nafjan (Τμήμα Επιστημών Υπολογιστών, College of Computer and Information Sciences, Imam Muhammad bin Saud Islamic University, Ριάντ, Σαουδική Αραβία)· Najwa Alghamdi (Τμήμα Τεχνολογίας Πληροφοριών, College of Computer and Information Sciences, King Saud University, Ριάντ, Σαουδική Αραβία)· Abdulaziz Almudhi (Τμήμα Επιστημών Ιατρικής Αποκατάστασης, College of Applied Medical Sciences ΚΑΙ Μονάδα Λογοθεραπείας, King Khalid University, Abha, Σαουδική Αραβία). Το σύστημα VR αναπτύχθηκε από τους συγγραφείς με Blender, Unity 3D και Mixamo, που τρέχει σε κρανοσκόπιο Samsung Gear VR (Oculus-συμβατό) με κινητό Samsung S6· αυτό ΔΕΝ είναι το Therapy withVR. Ο αναλυτής λόγου χρησιμοποίησε τη βιβλιοθήκη Python Google Cloud Speech-to-Text. Καμία συμμετοχή της withVR BV στη χρηματοδότηση, τον σχεδιασμό της μελέτης ή τη συγγραφή. Η σύνοψη συντάχθηκε ανεξάρτητα από τη withVR με βάση το δημοσιευμένο άρθρο.