Wie Studien bewertet werden

Jede Studie im Evidence Hub trägt eine Sicherheitsbewertung. Diese Seite erklärt, was die Bewertungen bedeuten, wie sie zustande kommen und wie es ehrlicherweise um die Evidenz zu VR in der Sprech-, Stimm- und Kommunikationsarbeit steht.

Die Bewertungen verwenden ein vereinfachtes Vier-Stufen-Schema (Hoch, Mäßig, Niedrig, Sehr niedrig), das an die GRADE Working Group angelehnt ist. Die Bewertung spiegelt wider, wie zuversichtlich die Befunde der Studie angewendet werden können, nicht die Qualität der Studienautorinnen und -autoren oder ihrer Arbeit. Eine Bewertung "Sehr niedrig" bedeutet nicht, dass die Studie schlecht ist; sie bedeutet oft, dass die Studie eine Pilot- oder Fallserie ist, was zu Beginn eines Forschungsfelds genau das ist, was man möchte.

Aktuelle Verteilung

Hoch 9 Studien

Mäßig 40 Studien

Niedrig 39 Studien

Sehr niedrig 23 Studien

Was jede Bewertung bedeutet

Hohe Sicherheit

Sehr zuversichtlich, dass der wahre Effekt nahe an der Schätzung liegt. Erwartet bei Befunden, bei denen mehrere hochwertige randomisierte kontrollierte Studien an verschiedenen Standorten und in verschiedenen Forschungsgruppen mit minimalem Risiko von Verzerrung, Inkonsistenz oder Indirektheit übereinstimmen. Eine einzelne Studie erreicht "Hoch" nur selten allein - die Ausnahme ist eine große Multi-Site-Studie mit geringem Risiko von Verzerrung; ansonsten spiegelt "Hoch" einen Evidenzkorpus wider, nicht eine einzelne Arbeit.

Mäßige Sicherheit

Mit der geschätzten Wirkung einigermaßen zuversichtlich; der wahre Effekt liegt wahrscheinlich nahe daran, könnte aber plausibel abweichen. Typisch für gut konzipierte einzelne RCTs mit angemessenen Stichproben und für systematische Übersichtsarbeiten heterogener Primärstudien.

Niedrige Sicherheit

Begrenzte Zuversicht. Der wahre Effekt kann sich erheblich von der Schätzung unterscheiden. Häufig bei RCTs mit kleiner Stichprobe, quasi-experimentellen Designs und qualitativen Studien, die alle echtes Wissen beitragen, aber allein keine festen Schlussfolgerungen tragen können.

Sehr niedrige Sicherheit

Sehr wenig Zuversicht in jegliche Schätzung des Effekts. Fallstudien, kleine Pilotstudien und narrative oder konzeptionelle Arbeiten sind hier angesiedelt. Diese Studien sind dennoch wertvoll - sie belegen Machbarkeit, werfen Fragen auf und legen den Grundstein für spätere kontrollierte Arbeiten - aber sie sind kein Wirksamkeitsnachweis.

Woher "Hoch"-Bewertungen kommen

Von den derzeit 111 Studien im Hub sind 9 (8 %) mit "Hoch" bewertet. Hohe Sicherheit spiegelt fast immer einen konvergierenden Evidenzkorpus und nicht eine einzelne Arbeit wider; daher handelt es sich bei den meisten hiervon um systematische Übersichtsarbeiten und Meta-Analysen, die Befunde über viele Studien hinweg bündeln. Eine einzelne Primärstudie erreicht "Hoch" nur in seltenen Ausnahmefällen - eine große Multi-Site-Studie mit geringem Verzerrungsrisiko; ansonsten ist das Höchste, was eine eigenständige Studie hier erreicht, "Mäßig".

Deshalb liegt die Verteilung dort, wo sie liegt: 8 % Hoch, 36 % Mäßig, 35 % Niedrig und 21 % Sehr niedrig. VR in der Sprech-, Stimm- und Kommunikationsarbeit ist ein noch junges Forschungsfeld, sodass die meiste Evidenz aus kleinen, frühen Studien an einzelnen Standorten besteht - genau das, was zu erwarten ist, und genau das, worauf spätere kontrollierte Studien und Übersichtsarbeiten aufbauen. Eine ehrliche Verteilung wie diese ist nützlicher und vertrauenswürdiger als aufgeblähte Bewertungen, die fürs Auge angenehmer wären.

Was es braucht, um "Hoch" zu erreichen

Für eine spezifische klinische Fragestellung braucht eine "Hoch"-Bewertung einen konvergierenden Korpus hochwertiger Evidenz - in der Regel:

Eine Cochrane-Übersichtsarbeit oder eine gleichwertige systematische Übersicht mehrerer hochwertiger RCTs in einem im Geltungsbereich liegenden Bereich (VR für Stottern, Stimmarbeit, Aphasie, Schlucken, soziale Kommunikation) mit konsistenten Effekten über die Studien hinweg.
Meta-Analysen, die mehrere vorab registrierte RCTs mit angemessenen Stichprobengrößen, minimaler Heterogenität und in Richtung und Größe konvergierenden Befunden zusammenfassen.
Mehrere große Multi-Site-RCTs (n > 200 pro Arm), die einen spezifischen Effekt von VR-basierter Übung auf ein für Klientinnen und Klienten bedeutsames Kommunikationsergebnis replizieren.

Für die meisten spezifischen klinischen Aussagen in der VR-Sprachtherapie baut sich diese Tiefe an Evidenz noch auf. Eine Frage, die stetig konvergiert, ist, ob virtuelle Auditorien kommunikative Reaktionen erzeugen, die mit denen vor realen Auditorien vergleichbar sind, da neue Arbeiten frühere Befunde replizieren - eine formelle systematische Übersichtsarbeit zu dieser Frage wäre willkommen.

Wie Bewertungen festgelegt werden

Die Bewertung jeder Studie wird redaktionell von withVR vergeben, gestützt auf das Design der Arbeit (RCT / quasi-experimentell / Fall / Übersicht), die Stichprobengröße, die Population und die in der Arbeit selbst genannten Limitationen. Eine kurze Begründung begleitet jede Bewertung und ist auf der Studienseite durch Aufklappen von "Wie diese Bewertung zustande kam" sichtbar.

Die Bewertungen spiegeln redaktionelles Urteil wider, nicht einen formellen GRADE-Bewertungsprozess, wie er in Cochrane-Übersichten verwendet wird. Das Schema ist bewusst vereinfacht: Vier Stufen reichen aus, um zu signalisieren, wie zuversichtlich Klinikerinnen, Kliniker und Forschende einen Befund anwenden sollten, ohne eine Präzision zu suggerieren, die der redaktionelle Prozess nicht hat.

Korrekturen und Vorschläge willkommen

Wenn Sie der Meinung sind, dass eine Studie falsch bewertet wurde oder eine Studie übersehen wurde, die aufgenommen werden sollte, senden Sie eine Nachricht an hello@withvr.app. Das Schema ist transparent und korrigierbar angelegt.

Weiterführende Literatur

GRADE Working Group - die internationale Zusammenarbeit, die die Methodik entwickelt hat, an der dieses Schema angelehnt ist.
GRADE: an emerging consensus on rating quality of evidence (Guyatt et al., BMJ 2008) - die grundlegende Arbeit.
Evidence-Hub-Glossar - Definitionen verwandter Begriffe (Evidenzstufen, Verzerrungsrisiko, PEDro, PICO).

Kennen Sie Forschung, die hier stehen sollte? Wenn eine begutachtete Studie zu VR in der Sprech-, Stimm-, Hör- oder Kommunikationsarbeit nicht aufgeführt ist, senden Sie die Referenz an hello@withvr.app.