Wie Studien bewertet werden
Die Bewertungen verwenden ein vereinfachtes Vier-Stufen-Schema (Hoch, Mäßig, Niedrig, Sehr niedrig), das an die GRADE Working Group angelehnt ist. Die Bewertung spiegelt wider, wie zuversichtlich die Befunde der Studie angewendet werden können, nicht die Qualität der Studienautorinnen und -autoren oder ihrer Arbeit. Eine Bewertung "Sehr niedrig" bedeutet nicht, dass die Studie schlecht ist; sie bedeutet oft, dass die Studie eine Pilot- oder Fallserie ist, was zu Beginn eines Forschungsfelds genau das ist, was man möchte.
Aktuelle Verteilung
Was jede Bewertung bedeutet
Hohe Sicherheit
Sehr zuversichtlich, dass der wahre Effekt nahe an der Schätzung liegt. Erwartet bei Befunden, bei denen mehrere hochwertige randomisierte kontrollierte Studien an verschiedenen Standorten und in verschiedenen Forschungsgruppen mit minimalem Risiko von Verzerrung, Inkonsistenz oder Indirektheit übereinstimmen. Eine einzelne Studie qualifiziert sich nie allein für "Hoch" - "Hoch" ist eine Eigenschaft eines Evidenzkorpus, nicht einer einzelnen Arbeit.
Mäßige Sicherheit
Mit der geschätzten Wirkung einigermaßen zuversichtlich; der wahre Effekt liegt wahrscheinlich nahe daran, könnte aber plausibel abweichen. Typisch für gut konzipierte einzelne RCTs mit angemessenen Stichproben und für systematische Übersichtsarbeiten heterogener Primärstudien.
Niedrige Sicherheit
Begrenzte Zuversicht. Der wahre Effekt kann sich erheblich von der Schätzung unterscheiden. Häufig bei RCTs mit kleiner Stichprobe, quasi-experimentellen Designs und qualitativen Studien, die alle echtes Wissen beitragen, aber allein keine festen Schlussfolgerungen tragen können.
Sehr niedrige Sicherheit
Sehr wenig Zuversicht in jegliche Schätzung des Effekts. Fallstudien, kleine Pilotstudien und narrative oder konzeptionelle Arbeiten sind hier angesiedelt. Diese Studien sind dennoch wertvoll - sie belegen Machbarkeit, werfen Fragen auf und legen den Grundstein für spätere kontrollierte Arbeiten - aber sie sind kein Wirksamkeitsnachweis.
Warum derzeit keine Studien mit "Hoch" bewertet sind
Dies ist die ehrliche Antwort: VR in der Sprachtherapie ist ein junges Forschungsfeld. Damit eine Aussage hohe Sicherheit erreicht, benötigt die Literatur in der Regel mehrere hochwertige RCTs, idealerweise vorab registriert und an mehreren Standorten, die zum gleichen Befund konvergieren. In den meisten Fragen, die der Evidence Hub behandelt, existiert dieser Evidenzkorpus noch nicht.
Die stärksten Kandidaten im Hub sind derzeit einzelne RCTs in angrenzenden Bereichen - soziale Angst (Anderson 2013), Autismus (Ip 2018), Stottern (Cream 2010), Tinnitus (Malinvaud 2016). Alle liegen bei "Mäßig". Jede ist eine gute Studie; keine trägt allein genug Gewicht, um eine Aussage ohne Replikation auf "Hoch" anzuheben.
Das Fehlen von "Hoch"-Bewertungen in diesem Hub ist keine Lücke im Hub. Es spiegelt wider, wo das Feld steht. Eine Bewertungsverteilung von "0 % Hoch / ca. 20 % Mäßig / ca. 35 % Niedrig / ca. 45 % Sehr niedrig" entspricht dem, was man für ein streng bewertetes junges Forschungsgebiet erwarten würde. Aufgeblähte Bewertungen wären angenehmer fürs Auge und wesentlich weniger ehrlich.
Was eine "Hoch"-Bewertung rechtfertigen könnte
Künftige Ergänzungen im Hub, die "Hoch" erreichen könnten, sind:
- Eine Cochrane-Übersichtsarbeit oder eine gleichwertige systematische Übersicht mehrerer hochwertiger RCTs in einem im Geltungsbereich liegenden Bereich (VR für Stottern, Stimmarbeit, Aphasie, Schlucken, soziale Kommunikation) mit konsistenten Effekten über die Studien hinweg.
- Meta-Analysen, die mehr als 5 vorab registrierte RCTs mit angemessenen Stichprobengrößen, minimaler Heterogenität und in Richtung und Größe konvergierenden Befunden zusammenfassen.
- Mehrere große Multi-Site-RCTs (n > 200 pro Arm), die einen spezifischen Effekt von VR-basierter Übung auf ein für Klientinnen und Klienten bedeutsames Kommunikationsergebnis replizieren.
Realistisch betrachtet ist dieses Evidenzniveau für die meisten Aussagen in der VR-Sprachtherapie noch mehrere Jahre entfernt. Ein plausibler Kandidat für eine frühe Heraufstufung auf "Hoch" ist die Validität virtueller Auditorien für die Erzeugung kommunikativer Reaktionen, die mit denen vor realen Auditorien vergleichbar sind - die Evidenz hierfür konvergiert stetig, da neue Arbeiten frühere Befunde replizieren. Eine formelle systematische Übersichtsarbeit zu dieser spezifischen Frage wäre willkommen.
Wie Bewertungen festgelegt werden
Die Bewertung jeder Studie wird redaktionell von withVR vergeben, gestützt auf das Design der Arbeit (RCT / quasi-experimentell / Fall / Übersicht), die Stichprobengröße, die Population und die in der Arbeit selbst genannten Limitationen. Eine kurze Begründung begleitet jede Bewertung und ist auf der Studienseite durch Aufklappen von "Wie diese Bewertung zustande kam" sichtbar.
Die Bewertungen spiegeln redaktionelles Urteil wider, nicht einen formellen GRADE-Bewertungsprozess, wie er in Cochrane-Übersichten verwendet wird. Das Schema ist bewusst vereinfacht: Vier Stufen reichen aus, um zu signalisieren, wie zuversichtlich Klinikerinnen, Kliniker und Forschende einen Befund anwenden sollten, ohne eine Präzision zu suggerieren, die der redaktionelle Prozess nicht hat.
Korrekturen und Vorschläge willkommen
Wenn Sie der Meinung sind, dass eine Studie falsch bewertet wurde oder eine Studie übersehen wurde, die aufgenommen werden sollte, senden Sie eine Nachricht an hello@withvr.app. Das Schema ist transparent und korrigierbar angelegt.
Weiterführende Literatur
- GRADE Working Group - die internationale Zusammenarbeit, die die Methodik entwickelt hat, an der dieses Schema angelehnt ist.
- GRADE: an emerging consensus on rating quality of evidence (Guyatt et al., BMJ 2008) - die grundlegende Arbeit.
- Evidence-Hub-Glossar - Definitionen verwandter Begriffe (Evidenzstufen, Verzerrungsrisiko, PEDro, PICO).
Kennen Sie Forschung, die hier stehen sollte? Wenn eine begutachtete Studie zu VR in der Sprech-, Stimm-, Hör- oder Kommunikationsarbeit nicht aufgeführt ist, senden Sie die Referenz an hello@withvr.app.