تمت ترجمة هذه الصفحة من الإنجليزية. إذا بدا شيء غريبًا، فانتقل إلى النسخة الإنجليزية. عرض بالإنجليزية.
دراسة حالة جدوى بثلاثة مشاركين لنظام تحدث أمام الجمهور عبر VR باللغة العربية مع كاشف تأتأة آلي للأحداث
كيف تم تقييم ذلك
دراسة حالة بثلاثة مشاركين في جلسة تجريبية واحدة. تُقدّم الدراسة ادعاءً بالجدوى/إثبات المفهوم لتحليل الكلام العربي بالواقع الافتراضي لا ادعاءً بتأثير إكلينيكي. حُسب حدّ محلّل الكلام للكشف عن التمديد من مجموعة بيانات مؤلّفة من ثلاث متحدثات طلقاء إناث (فقط)، مما قد لا يُعمَّم عبر الجنسَين أو اللهجات. لا شرط ضابط؛ لا مقارنة مع تعداد الإكلينيكي اليدوي لأحداث التلعثم؛ لا متابعة طولية. لا إفصاح صريح عن تمويل ولا إعلان عن تضارب المصالح في الورقة.
تستخدم التقييمات نظامًا مبسّطًا من أربعة مستويات (عالية، متوسطة، منخفضة، منخفضة جدًا)، مستندًا إلى GRADE working group. اقرأ المزيد عن كيفية تقييم الدراسات.
دراسة حالة جدوى بثلاثة مشاركين (أنثيان، ذكر واحد، أعمار 30-34) لنظام تحدث أمام الجمهور باللغة العربية عبر VR على Samsung Gear VR + هاتف S6، مقترن بكاشف آلي لأحداث التأتأة. أكمل كل مشارك جلسة واحدة بقراءة من منصة افتراضية في مواجهة جمهور افتراضي. زمن الإعداد 2-3 دقائق؛ ارتبط الكاشف الآلي بـ R=0.95 مع العدّات اليدوية للأخصائي على نفس الصوت.
دراسة حالة جدوى بثلاثة مشاركين في جلسة تجريبية واحدة لبيئة تحدث عام باللغة العربية في الواقع الافتراضي مع وحدة تحليل كلام آلية تكشف التمديدات والتوقفات والتكرارات عبر واجهة Google Cloud Speech-to-Text البرمجية. مفيدة كإثبات مفهوم للواقع الافتراضي في سياق لغوي غير ممثَّل تمثيلاً كافياً (العربية) ولدمج تحليل الكلام الآلي مع الواقع الافتراضي؛ العينة (ن=3، جلسة واحدة، بيئة واحدة) لا تستطيع إثبات تأثير إكلينيكي. النتيجة الغريبة للمشارك ذي الشدة الخفيفة (أعلى معدل كشف رغم التقييم الإكلينيكي للشدة الأقل) تثير تساؤلات حول معايرة المحلّل الآلي إزاء الشدة التي يقيّمها الإكلينيكي.
أبرز النتائج
- أكمل ثلاثة مشاركين (اثنتان من الإناث وذكر واحد؛ أعمارهم 30-34، متوسطها 32، ع=1.6) جلسةً واحدةً فقط لا جلسات متعددة؛ النظام يدعم ثلاثة مستويات لحجم الجمهور (5 و8 و11 شخصية افتراضية) لكن التجربة استخدمت إعداداً واحداً لكل مشارك
- ارتباط إيجابي قوي (ر=0.95) بين مدة الجلسة وعدد أحداث التلعثم المكتشفة آلياً
- أفاد المشاركون بقلق وحضور مقارَنَين بالتحدث العام الواقعي؛ أبلغوا أيضاً عن 'تأثير وادٍ خارق خفيف' مع الشخصيات الافتراضية
- استغرق الإعداد والتحضير دقيقتَين إلى ثلاث دقائق لكل مشارك؛ تراوحت مدة الجلسة من 1:40 إلى 2:25 دقيقة (تجاوز المشاركون متوسط مدة القراءة الطلقة 44.7±2.4 ثانية بنحو 1:15 دقيقة)
- نتيجة غير بديهية أشار إليها المؤلفون: المشارك المُصنَّف كشدة تلعثم خفيفة من قِبل الأخصائي المُشرف أظهر أعلى معدل كشف لأحداث التلعثم (20.8%) بينما أظهر المشارك الشديد أدنى معدل (4.8%)؛ المتوسط 8.6%. يلاحظ المؤلفون أن هذا 'يُشير إلى أن الواقع الافتراضي قد يناسب الأفراد ذوي شدة تلعثم أعلى. بيانات إضافية مطلوبة للتحقق من هذه النظرية'
- كشف محلّل الكلام ثلاثة أنواع من عدم الطلاقة: التمديدات (مدة الكلمة تتجاوز حداً مُشتقاً من ثلاث متحدثات طلقاء إناث تقرأن 74 كلمة عربية في 44.7±2.4 ثانية في المتوسط)، والتوقفات (عند إرجاع الواجهة البرمجية للكلام نتيجةً فارغة لتعبير ما، مفسَّرةً بوصفها صوتاً غير كلامي خلال توقّف تلعثم)، والتكرارات (عند كتابة الواجهة البرمجية لكلمة أكثر مما هو متوقع من النص المرجعي)
- العتاد/البرنامج: سماعة Samsung Gear VR على هاتف Samsung S6 (نظارات واقع افتراضي Android متوافقة مع Oculus)؛ Blender لنمذجة شخصيات المشهد؛ Mixamo + Unity 3D للتحريك والتوضع؛ مكتبة عميل Python لـ Google Cloud Speech-to-Text مع التعرف المتزامن؛ Audacity لالتقاط التسجيل
الخلفية
يستلزم تقييم طلاقة الكلام عادةً من الإكلينيكي عدّ كل لحظة تلعثم وتصنيفها يدوياً أثناء المحادثة أو مهمة القراءة. هذه العملية مُضنية وذاتية وقد تتباين بين المراقبين. بالنسبة للأشخاص الذين يتلعثمون، فإن الوعي بالمراقبة الدقيقة قد يُغيّر أيضاً طريقة كلامهم. التحدي الثاني هو الوصول: أُجريت معظم أبحاث الواقع الافتراضي والتلعثم مع الفئات الناطقة بالإنجليزية، مع بحث مكافئ محدود للغاية بالعربية. سعى Al-Nafjan وAlghamdi وAlmudhi - عاملون عبر ثلاث جامعات سعودية (الإمام محمد بن سعود، والملك سعود، والملك خالد) - إلى معالجة كلا التحديَّين ببناء بيئة تحدث عام في الواقع الافتراضي باللغة العربية مع محلّل كلام آلي مدمج.
ما الذي قام به الباحثون
بنى الفريق نظاماً من مكوّنَين: (1) مكوّن الواقع الافتراضي الذي يضع المشارك على منصة افتراضية أمام جمهور افتراضي، داعماً ثلاثة إعدادات لحجم الجمهور (5 و8 و11 شخصية افتراضية في المستويات 1 و2 و3 على التوالي)، مبنياً في Blender لنمذجة الشخصيات وMixamo للتحريك وUnity 3D لتجميع المشهد، ومعروضاً على سماعة Samsung Gear VR (متوافقة مع Oculus) تعمل على هاتف Samsung S6؛ و(2) مكوّن محلّل الكلام الذي يُسجّل قراءة المشارك عبر مسجّل رقمي بميكروفون لافيير، ويُجزّئ الصوت عبر Audacity بعتبة طاقة الإشارة والمركز الطيفي، ويُفرّغ كل مقطع نصياً باستخدام مكتبة عميل Python لـ Google Cloud Speech-to-Text مع التعرف المتزامن.
يُشير محلّل الكلام إلى ثلاثة أنواع من عدم الطلاقة:
- التمديدات: عندما تتجاوز مدة الكلمة لدى المشارك حداً خاصاً بكل كلمة محسوباً بمتوسط مدة الكلمة نفسها عبر ثلاث متحدثات طلقاء مرجعيات (74 كلمة عربية في 44.7±2.4 ثانية).
- التوقفات: عندما ترجع الواجهة البرمجية للكلام نتيجةً فارغة لتعبير ما، مفسَّرةً بوصفها صوتاً غير كلامي أُنتج خلال توقّف تلعثم.
- التكرارات: عندما تُفرّغ الواجهة البرمجية كلمةً أكثر مما هو متوقع من النص المرجعي.
درجة كشف التلعثم (SS) مجموع هذه العدادات الثلاثة.
المشاركون. جُنِّد ثلاثة بالغين ناطقين بالعربية يتلعثمون من عيادة الأخصائي المُشرف (المؤلف المشارك Almudhi). التركيبة الديموغرافية: اثنتان من الإناث وذكر واحد؛ أعمارهم 30 و32 و34 (متوسط 32، ع=1.6). شدة التلعثم مُقيَّمة من قِبل الأخصائي: م1 متوسطة (عمر 32)، م2 خفيفة (عمر 34)، م3 شديدة (عمر 30). جميعهم أصحاء بصر طبيعي وبلا تجربة سابقة بالواقع الافتراضي.
الإجراء. كانت التجربة جلسةً واحدةً في غرفة معزولة تحت إشراف الأخصائي المُشرف. ارتدى المشاركون ميكروفون لافيير وسماعة Samsung Gear VR، وضبطوا وضعيتهم حتى أصبح النص على المنصة الافتراضية مقروءاً، ثم قرأوا النص العربي المؤلف من 74 كلمة بصوت عالٍ بينما يواجهون الجمهور الافتراضي. استغرقت الجلسة الفعلية من 1:40 إلى 2:25 دقيقة. بعد التسجيل، جُزِّئ الصوت ونُسِّخ وحُلِّل؛ ثم أُجريت مقابلات مع المشاركين للحصول على تغذية راجعة ذاتية.
ما الذي توصلوا إليه
المقبولية والحضور (نوعي). أبدى المشاركون تقييماً إيجابياً لتجارب الواقع الافتراضي عبر التصميم الجمالي وتصميم الشخصيات والانغماس. أفادوا بتشابه مقبول بين المشهد الافتراضي وقاعة مؤتمر حقيقية، و’تأثير وادٍ خارق خفيف’ مع الشخصيات الافتراضية (حد مُلاحَظ في تصميم الشخصية)، وردود فعل عاطفية مماثلة (خوف، قلق) لما يختبرونه في التحدث أمام جمهور حقيقي.
أداء محلّل الكلام. وُجد ارتباط إيجابي قوي بين مدة الجلسة وأحداث التلعثم المكتشفة آلياً (ر=0.95). يُفسّر المؤلفون هذا بوصفه دليلاً على ‘أداء مقبول لمحلّل الكلام في الكشف عن أحداث التلعثم، ولا سيما التمديدات.’
نتيجة الشدة مقابل الكشف غير البديهية. الجدول 2 في الورقة يُظهر نسب أحداث التلعثم المكتشفة لكل مشارك: م1 (متوسطة، 32 سنة) 8.6%، م2 (خفيفة، 34 سنة) 20.8%، م3 (شديدة، 30 سنة) 4.8%. أي أن المشارك المُصنَّف كخفيف من قِبل الإكلينيكي أظهر أعلى معدل كشف، بينما أظهر الشديد أدنى معدل. يُشير المؤلفون إلى هذا مباشرةً: ‘ملاحظة لافتة هي أن المشارك ذا شدة التلعثم الخفيفة أظهر نسبة أعلى من أحداث التلعثم. تُشير هذه الملاحظة إلى أن الواقع الافتراضي قد يناسب الأفراد ذوي شدة التلعثم الأعلى. بيانات إضافية مطلوبة للتحقق من هذه النظرية.’
جدوى الإعداد. يُقدَّم وقت الإعداد من دقيقتَين إلى ثلاث دقائق لكل مشارك دليلاً على قابلية النظام للاستخدام الإكلينيكي.
لماذا هذا مهم
هذه من الدراسات القليلة جداً في مجال الواقع الافتراضي والتلعثم المُجرَاة بالعربية، مما يُعالج قصوراً كبيراً في التمثيل. وهي أيضاً من الدراسات القليلة نسبياً التي تدمج واجهة برمجية جاهزة للتعرف على الكلام بالسحابة مع بيئة الواقع الافتراضي لكشف أحداث التلعثم آلياً. مفهوم الدمج - تقليل عبء الحساب اليدوي أثناء تقييم التلعثم - حاجة إكلينيكية حقيقية؛ مدى نجاح التطبيق ما تستطيع هذه الدراسة الصغيرة تلميحه (ارتباط ر=0.95 مع مدة الجلسة) لا إثباته (ن=3، بلا مقارنة مع عدادات الإكلينيكي).
ملاحظة الشدة مقابل الكشف هي النتيجة الأكثر إثارةً للاهتمام الإكلينيكي. مع 3 مشاركين فقط فهي توليد فرضية لا استنتاج. يمكن أن تعكس: (أ) تبايناً حقيقياً في كيفية تجلّي التلعثم أثناء القراءة في الواقع الافتراضي؛ (ب) مشكلات معايرة في حد التمديد (مشتق من ثلاث إناث طلقاء مطبَّق على مشاركين مختلطي الجنس ومتباينين في الشدة)؛ (ج) تباين الاختبار-إعادة الاختبار الذي لا تستطيع جلسة واحدة قياسه؛ (د) ضوضاء إحصائية من ن=3.
القيود
- حجم العينة ن=3، جلسة واحدة، إعداد جمهور واحد لكل مشارك. النظام يدعم ثلاثة مستويات لحجم الجمهور لكن التجربة لم تُتنوّع فيه؛ الجانب التسلسل الهرمي المتدرج للنظام لم يُختبر.
- لا شرط مقارنة. لا خط أساس غير-واقع-افتراضي، لا مقارنة مع العداد اليدوي للإكلينيكي، لا اختبار-إعادة اختبار.
- لا متابعة طولية. جلسة واحدة فقط.
- حد محلّل الكلام مشتق من ثلاث إناث طلقاء. مطبَّق على مشاركين مختلطي الجنس؛ قد لا يُعمَّم عبر الجنسَين أو اللهجات أو وتيرات الكلام.
- نتيجة الشدة مقابل الكشف غير البديهية (المشارك الخفيف: أعلى معدل كشف؛ الشديد: أدنى معدل) تطرح تساؤلاً حول مدى تطابق المحلّل الآلي مع حكم الإكلينيكي في تقييم الشدة.
- تأثير الوادي الخارق الخفيف ذُكر من المشاركين في الاستجابات التفصيلية - إشارة لتصميم الشخصية.
- لا إفصاح عن تمويل ولا إعلان عن تضارب المصالح في الورقة.
- عتاد الواقع الافتراضي Samsung Gear VR الأصلي (واقع افتراضي محمول من عام 2015). العتاد الحديث من فئة Quest يقدّم دقة بصرية وتتبعاً حركياً أفضل بشكل ملحوظ.
الآثار على الممارسة السريرية
للإكلينيكيين الناطقين بالعربية الذين يفكرون في التقييم المدعوم بالتقنية للتلعثم: تقدّم هذه الورقة دليل جدوى على أن واجهة برمجية جاهزة للتعرف على الكلام بالسحابة (Google Cloud Speech-to-Text) تستطيع دمجها مع بيئة تحدث عام في الواقع الافتراضي لكشف التمديدات والتوقفات والتكرارات في تقييم التلعثم باللغة العربية. النتيجة غير المتوقعة للمشارك ذي أدنى شدة مُقيَّمة إكلينيكياً الذي أظهر أعلى معدل كشف آلي تحذير من استخدام هذه الأنظمة لتقييم الشدة بلا معايرة إضافية. ينبغي للإكلينيكيين التعامل مع الدراسة كإثبات مفهوم للمسار التقني (الواقع الافتراضي العربي + تحليل كلام آلي) لا كدليل على أن الواقع الافتراضي يقلّل التلعثم أو أن الكشف الآلي يطابق حكم الإكلينيكي.
كيف يرتبط ذلك بـ Therapy withVR
الدراسة الواردة أعلاه هي بحث مستقل ولا تُصدر حكمًا على أي منتج. الملاحظات أدناه تعليق من withVR على كيفية ارتباط الموضوعات الواردة في هذا البحث بميزات Therapy withVR. ولا تُمثّل نتائج البحث ادعاءات بشأن Therapy withVR.
Speech analysis integration (editorial parallel only)
دمجت دراسة Al-Nafjan محرك تعرف على الكلام آلياً جاهزاً (Google Cloud Speech-to-Text) مع بيئة الواقع الافتراضي لكشف التمديدات والتوقفات والتكرارات بالعربية. الهدف المفاهيمي - تقليل عبء حساب أحداث التلعثم يدوياً أثناء الجلسات - حاجة إكلينيكية حقيقية يمكن لسجلات جلسات Therapy withVR دعمها بطريقة مختلفة (ضمن تصميمه الخاص). محاذاة تحريرية فقط؛ النظام المدروس برنامج بحثي مخصص لا Therapy withVR.
Adjustable audience size (editorial parallel only)
يدعم نظام الواقع الافتراضي لـ Al-Nafjan ثلاثة إعدادات لحجم الجمهور (5 و8 و11 شخصية افتراضية). لم تُتنوّع التجربة في حجم الجمهور داخل أو بين المشاركين، لكن مفهوم التسلسل الهرمي للنظام يتوافق مع أدوات التحكم القابلة للتعديل من قِبل الإكلينيكي في Therapy withVR ضمن تصميمه الخاص. محاذاة تحريرية فقط.
استشهد بهذه الدراسة
إذا أشرت إلى هذه الدراسة في عملك، فهذه هي صيغ الاستشهاد القانونية:
@article{alnafjan2021,
author = {Al-Nafjan, A. and Alghamdi, N. and Almudhi, A.},
title = {Virtual Reality Technology and Speech Analysis for People Who Stutter},
journal = {EMITTER International Journal of Engineering Technology},
year = {2021},
doi = {10.24003/emitter.v9i2.649},
url = {https://withvr.app/ar/evidence/studies/al-nafjan-2021}
}TY - JOUR
AU - Al-Nafjan, A.
AU - Alghamdi, N.
AU - Almudhi, A.
TI - Virtual Reality Technology and Speech Analysis for People Who Stutter
JO - EMITTER International Journal of Engineering Technology
PY - 2021
DO - 10.24003/emitter.v9i2.649
UR - https://withvr.app/ar/evidence/studies/al-nafjan-2021
ER - هل تعرف بحثًا يستحق إدراجه في هذه القاعدة؟ إذا كانت هناك دراسة ذات صلة محكَّمة من قِبل النظراء غير مدرجة هنا، فأرسل المرجع إلى hello@withvr.app. تُحدَّث القاعدة باستمرار مع نمو الأدبيات العلمية.
التمويل والاستقلالية
الورقة لا تُكشف عن أي مصدر تمويل خارجي - لا يوجد قسم 'تمويل' في الورقة. تشكّر التقديرات ثلاثة أعضاء مجهولين في الفريق (Asmaa Albasha، Maryam Alghalban، Ola Semsemiah) 'على جهدهم وتفانيهم' إلى جانب المشاركين. لا يُدرَج إعلان عن تضارب المصالح في الورقة. انتماءات المؤلفين: Abeer Al-Nafjan (قسم علوم الحاسب، كلية الحاسب والمعلومات، جامعة الإمام محمد بن سعود الإسلامية، الرياض)؛ Najwa Alghamdi (قسم تقنية المعلومات، كلية الحاسب والمعلومات، جامعة الملك سعود، الرياض)؛ Abdulaziz Almudhi (قسم علوم إعادة التأهيل الطبي، كلية العلوم الطبية التطبيقية ووحدة أمراض النطق واللغة، جامعة الملك خالد، أبها). نظام الواقع الافتراضي مخصص طوّره المؤلفون باستخدام Blender وUnity 3D وMixamo يعمل على سماعة Samsung Gear VR (متوافقة مع Oculus) بهاتف Samsung S6؛ ليست Therapy withVR. استخدم محلّل الكلام مكتبة Google Cloud Speech-to-Text بلغة Python. لا تتدخل withVR BV في التمويل أو تصميم الدراسة أو التأليف. أُعدّ هذا الملخّص بصورة مستقلة من قِبل withVR استناداً إلى الورقة المنشورة.