Wissen was wirkt

Subscribe to Wissen was wirkt feed Wissen was wirkt
Cochrane bloggt auf deutsch
Updated: 3 hours 49 min ago

Kurzvideos über Grundlagen der Evidenzbasierten Medizin – Teil 3 Randomisierte kontrollierte Studien

Thu, 06/04/2020 - 06:09

Um die Wirksamkeit von einem Medikament oder einer Therapie nachzuweisen, gelten randomisierte kontrollierte Studien – sogenannte RCTs (randomized controlled trials) – als das beste Studiendesign. In unserem dritten Video aus der Reihe „Grundlagen der Evidenzbasierten Medizin“ erklären wir, was RCTs sind, warum sie am besten dazu geeignet sind, um eine Ursache-Wirkungsbeziehung nachzuweisen. Wir stellen auch unterschiedlichen RCT-Designs vor.

Randomisierte kontrollierte Studien, kurz RCTs, haben eine wichtige Besonderheit – die Randomisierung. Randomisierung bedeutet so viel wie zufällige Zuordnung (random = zufällig). Werden also TeilnehemerInnen in eine Studie eingeschlossen, dann erfolgt die Zuordnung zur Studiengruppe rein nach dem Zufallsprinzip.

Stellen wir uns eine Studie vor, die ein Schmerzmittel mit einem Scheinmedikament (Placebo) vergleicht mit dem Ziel chronische Kopfschmerzen zu lindern. Jede Person, die in die Studie aufgenommen wird, hat die gleiche Chance entweder der Medikamentengruppe oder der Placebogruppe zugeteilt zu werden. Man geht davon aus, dass sich durch die zufällige Zuteilung alle möglichen Einflussfaktoren wie beispielsweise Alter, Geschlecht, beruflicher und privater Hintergrund, gleichmäßig auf die Gruppen verteilen.

Wenn dann am Ende der Studie ein Unterschied in der Schmerzwahrnehmung zwischen den Personen in der Medikamentengruppe und in der Placebogruppe zu beobachten ist, kann man davon ausgehen, dass dieser durch das Medikament verursacht wurde und nicht durch andere Einflussfaktoren.

Welches Design eines RCTs zum Einsatz kommt, hängt von der Studienpopulation und der Art der Fragestellung ab. Die häufigste Form von RCTs sind Parallelgruppen RCTs. Hier werden zwei Gruppen (Interventions- und Kontrollgruppe) zeitlich parallel beobachtet. Im Idealfall handelt es sich um eine verblindete Studie, weder TeilnehmerInnen noch das Studienpersonal wissen, welcher Gruppe die einzelnen Personen zugeteilt wurden. In unserem Video stellen wir dieses und noch fünf weitere RCT-Designs vor: Cross-over RCT, N of 1 RCT, RCT mit faktoriellem Design, Cluster RCT und RCT mit adaptivem Design. Beim kritischen Lesen und Beurteilen von Studien ist es wichtig, darauf zu achten, ob das gewählte Design auch für die Fragestellung sinnvoll ist.

Text: Barbara Nußbaumer-Streit, Claudia Christof



COVID-19: JETZT den Rauchstopp wagen!

Sun, 05/31/2020 - 08:30

Tabak in jeglicher Form ist schädlich und trägt ursächlich dazu bei, dass jedes Jahr über 8 Millionen Menschen sterben. „Die Jugend schützen!“ lautet das Motto des diesjährigen Weltnichtrauchertages der WHO am 31. Mai. Ziel der Aktion: Kinder und Jugendliche sollen erst gar nicht mit dem Rauchen beginnen und besser vor Passivrauch bewahrt bleiben. Nicht zu rauchen ist gerade in Pandemiezeiten umso wichtiger, da noch unklar ist, inwiefern das Rauchen als Risikofaktor für eine COVID-19-Erkrankung gelten kann. Eine „Special Collection“ der Cochrane Library stellt Behandlungen und Ansätze vor, die den Rauchstopp unterstützen können.

Am 31. Mai ist Weltnichtrauchertag – ein Tag, an dem Organisationen wie die Weltgesundheitsorganisation (WHO) weltweit auf die Gefahren des Rauchens hinweisen und versuchen, Raucher zum Rauchstopp anzuregen und Menschen vor dem Rauchbeginn zu schützen. Denn die Gefahren des Tabakrauchens und des Passivrauchens sind mittlerweile unumstritten und sogar auf der Zigarettenverpackung unübersehbar: Rauchen tötet! Rauchen erhöht nicht nur das Risiko für Atemwegserkrankungen wie COPD und Lungenkrebs, sondern gilt auch als Risikofaktor für Diabetes Typ-2 und Herz-Kreislauf-Erkrankungen.

Weniger schwere COVID-19 Krankheitsverläufe bei Rauchern?

Seit Beginn der Corona-Krise hat das Thema „Rauchen“ und „Nikotinaufnahme“ besonders Fahrt aufgenommen und bereits für einige Diskussionen gesorgt. Denn über den Zusammenhang zwischen Rauchen und COVID-19 gibt es gemischte Nachrichten.

So veröffentlichten französische Forscher am 21. April eine Querschnittsstudie, mit dem Befund, dass unter den Corona-Patienten erstaunlich wenige Raucher sind: „Unsere Studie sowohl bei ambulanten als auch bei stationären COVID-19-Patienten deutet stark darauf hin, dass Menschen, die täglich Rauchen im Vergleich zur Allgemeinbevölkerung eine sehr viel geringere Wahrscheinlichkeit haben, eine symptomatische oder schwere SARS-CoV-2-Infektion zu entwickeln,“ schlussfolgerten die Autoren.

Diese Studie – für sich allein und aus dem Kontext genommen – könnte sogar zum Rauchen oder zumindest zum Konsum von Nikotinersatzprodukten wie Pflaster oder Kaugummis, anregen. Tatsächlich sahen sich französische Behörden nach der Veröffentlichung der Studie gezwungen, gegen Hamsterkäufe von Nikotinersatzprodukten vorzugehen. Dabei ist die Vermutung, dass Nikotin möglicherweise das Coronavirus daran hindern könnte, in „Körperzellen einzufallen“, voreilig und wissenschaftlich nicht fundiert. Wie in diesem Artikel des „Spiegel“ hervorgehoben, basiert die französische Studie „letztlich auf den Angaben von 22 Rauchern unter den befragten Pariser Corona-Patienten. Bei einer so kleinen Testgruppe können zufällige Abweichungen in der Statistik entstehen, die das Gesamtbild verzerren.“

Ein Ende April erstmals veröffentlichter Living Systematic Rapid Review von Beobachtungsstudien stellt fest, dass die Evidenz bezüglich eines Zusammenhangs zwischen Rauchen und COVID-19 nicht eindeutig ist: „Über alle 41 Beobachtungsstudien hinweg besteht bei der Erfassung des Raucherstatus eine erhebliche Unsicherheit darüber, ob das aktuelle oder ehemalige Rauchen mit einer SARS-CoV-2-Infektion […] in Zusammenhang gebracht werden kann.“, schlussfolgern die Autoren (Stand: 18.05.2020).

COVID-19 Risikogruppe: Raucher?

Egal von welcher Seite man die Situation also betrachtet, sie bleibt – zumindest momentan –ungewiss. Verbleiben wir deshalb bei den wenigen Faktoren, die wir Fakten nennen können:

  1. Aktives und passives Tabakrauchen sind als Risikofaktoren für akute Atemwegsinfektionen und weitere Krankheiten bekannt.
  2. Covid-19 ist für Menschen mit bestimmten Vorerkrankungen gefährlicher als für Gesunde.

Auch nach Einschätzung des Robert-Koch-Instituts haben Raucher nach bisherigen Erkenntnissen ein höheres Risiko für einen schweren Krankheitsverlauf: „Auch verschiedene Grunderkrankungen wie z. B. Herzkreislauferkrankungen, Diabetes, Erkrankungen des Atmungssystems, der Leber, der Niere, Krebserkrankungen oder Faktoren wie Adipositas und Rauchen scheinen das Risiko für einen schweren Krankheitsverlauf zu erhöhen“ (Stand 08.05.2020). Eine ausführliche Diskussion der noch wenig aussagekräftigen Evidenz zum Thema „Rauchen und COVID-19“ liefern zwei auch Autoren der Cochrane Tobacco Addiction Group (auf Englisch).

COVID-19: Rauchstopp jetzt erst recht

Die außergewöhnliche Zeit, die wir alle während der aktuellen COVID-19-Pandemie, erleben, ist für viele Raucher eine besondere Herausforderung. Manch einer greift nun vielleicht erst recht zur Zigarette -- sei es aus Langeweile, Angst oder Unsicherheit. Dabei kann man gerade diese Zeit des Physical Distancings auch dazu nutzen, mit dem Rauchen aufzuhören. Das ist auf jeden Fall eine sehr gute Idee. Selbst wenn sich ein Zusammenhang zwischen Rauchen und COVID-19 nicht bestätigen sollte: Die anderen Gesundheitsrisiken für Raucher und ihre Mitmenschen sind seit langer Zeit bestens belegt und auch ohne Pandemie ein nicht kleinzuredender Grund, dem Tabak zu entsagen.

Eben darum fordert die WHO nun dringend dazu auf, mit dem Rauchen aufzuhören. Denn nur so können die damit verbundenen Risiken sowohl für die Raucher selbst als auch die Passivraucher minimiert werden.

Schluss mit dem Rauchen – aber wie?

Die Sonderkollektion der Cochrane Library „Coronavirus (SARS-CoV-2) -- Rauchentwöhnung während der COVID-19-Pandemie“ führt Cochrane-Evidenz zum Thema Rauchstopp zusammen.

Die Sammlung enthält bisher sieben Reviews und fasst die vorhandene Evidenz in folgende drei Untergruppen zusammen:

  1. Medikamentöse Behandlungen und Unterstützung, u. a. auch durch Nikotinersatzprodukte für Schwangere
  2. Unterstützung zur Verhaltensänderung
  3. Interventionen zum schrittweisen Aufhören

Interventionen, die den Vorgang des Rauchens imitieren, insbesondere E-Zigaretten, wurden von dieser Sonderkollektion ausgeschlossen, da die Risiken ihrer Verwendung vor dem Hintergrund der aktuellen Pandemie -- wie oben angedeutet -- unklar sind. Die Sammlung wurde von der Cochrane Tobacco Addiction Group erstellt und wird regelmäßig aktualisiert. Alle Zusammenfassungen der Cochrane Reviews dieser Special Collection wurden ins Deutsche übersetzt und die Volltexte sind weltweit frei zugänglich.

Mit dieser Sammlung von Reviews will auch Cochrane dazu beitragen, die seit langem bestehende „Tabak-Epidemie“ weiter zurückzudrängen – denn ganz unabhängig von COVID-19 gilt: Zum Aufhören ist „jetzt“ immer die beste Zeit.

Text: Anne Borchard, Andrea Puhl, Georg Rüschemeyer

Weitere nationale Informationen und Hilfestellungen zum Thema Rauchstopp mit bzw. ohne Bezug zu COVID-19 finden sich auch auf folgenden Websites:

Deutschland:Rauchfrei: https://www.rauchfrei-info.de/informieren/rauchen-gesundheit/corona/
Gesundheitsinformationen.de: https://www.gesundheitsinformation.de/rauchen.2080.de.html
Aktionsbündnis Nichtrauchen zum 31. Mai: https://www.abnr.de/weltnichtrauchertag/2020-lass-dich-nicht-manipulieren/Österreich:Medizin Transparent: https://www.medizin-transparent.at/corona-nikotin/
Gesundheit.gv.at: https://www.gesundheit.gv.at/service/beratungsstellen/nikotinsucht-beratungSchweiz:Stopsmoking.ch: https://www.stopsmoking.ch/de/ich-informiere-mich/corona/
Bundesamt für Gesundheit BAG: https://www.bag.admin.ch/bag/de/home/gesund-leben/sucht-und-gesundheit/tabak/gesundheitliche-folgen-rauchen/nikotinabhaengigkeit-tabakentwoehnung.html
Lungenliga: https://www.lungenliga.ch/de/die-lungen-schuetzen/tabak-und-nikotin/rauchstopp.html Lungenliga


Aktiv gegen akute Atemwegsinfektionen – kann körperliche Betätigung schützend wirken?

Wed, 05/20/2020 - 12:47

Wer sich regelmäßig sportlich betätigt, hält sich körperlich fit. Aber schützt Bewegung auch vor Schnupfen, Halsschmerzen oder Husten? Ein aktualisierter Cochrane Review hat sich dieser Frage angenommen und untersucht, ob regelmäßige Bewegung das Auftreten, die Dauer und den Schweregrad von akuten Atemwegsinfektionen reduzieren kann.

Gestern war noch alles in Ordnung. Den ganzen Tag über fühlte ich mich fit und war abends noch joggen. Heute Morgen wache ich jedoch mit Halsschmerzen und verstopfter Nase auf. Der erste Gedanke, der mir durch den Kopf schießt: Oh nein, hat´s mich jetzt mit COVID-19 erwischt? Nervös messe ich meine Temperatur. 37,0°C, okay. Habe ich mich gestern Abend vielleicht einfach ‘verkühlt‘? Mir ist bewusst, dass es durch die momentan stark schwankenden Temperaturen und unpassender Kleidung schnell dazu kommen kann, dass man sich erkältet. Doch warum habe ich heute Halsschmerzen, obwohl ich gestern Sport gemacht habe? Schützt regelmäßige Bewegung doch nicht gegen Infektionen?

Ein aktualisierter Cochrane Review ging dieser Frage nach und untersuchte, ob regelmäßige Bewegung das Auftreten, die Dauer und den Schweregrad von akuten Atemwegsinfektionen reduzieren kann.

Akute Atemwegsinfektionen

Unter dem Ausdruck „akute Atemwegsinfektionen (ARE)“ wird ein Spektrum ansteckender Krankheiten zusammengefasst, die die oberen (Rachen/Stimmbänder) oder unteren (Bronchien) Atemwege betreffen. Demnach zählen eine unkomplizierte Erkältung, eine Bronchitis oder auch Lungenentzündung dazu. Alle akuten Atemwegsinfektionen haben gemeinsam, dass sie durch Mikroorgansimen (z. B. Viren, Bakterien, Pilze) verursacht werden – also ansteckend sind – und nicht länger als 30 Tage andauern.

Akute Atemwegserkrankungen sind die am häufigsten auftretenden akuten Erkrankungen weltweit [1]. So stehen diese beispielsweise in Deutschland mit ca. 17.000 Todesfällen pro Jahr in Zusammenhang, wobei jedoch jährliche und saisonale Schwankungen zu berücksichtigen sind [2].

Hilft mir Bewegung dabei, gesund zu bleiben?

Ja, regelmäßige Bewegung ist gesund und wirkt nachweislich schützend gegen eine Reihe von Erkrankungen, wie z.B. kardiovaskuläre Erkrankungen und einige Krebsarten. Die Bewegungsempfehlungen der World Health Organisation (WHO) gibt es hier.

Mit Blick auf das Immunsystem, welches uns vor Krankheitserregern schützt, kann Bewegung (mäßige bis kräftige Intensität, weniger als 60 Minuten) eine positive Wirkung haben. Durch die Anregung des Körperkreislaufs wird der kontinuierliche Austausch verschiedener Immunzellen zwischen Körperkreislauf und Gewebe beschleunigt, was langfristig die Immunabwehraktivität verbessern kann. Übermäßige körperliche Beanspruchung (Leistungssport) führt hingegen zum gegenteiligen Effekt und schwächt die Immunabwehr eher [3].

Bei der Behandlung von akuten Atemwegsinfekten gab es Hinweise darauf, dass Bewegung die Gesundheit im Allgemeinen verbessert und das Auftreten, den Schweregrad und die Dauer von akuten Atemwegsinfektionen reduzieren kann [4].

Cochrane Evidenz zur Wirkung von Bewegung auf das Auftreten, den Schweregrad und die Dauer akuter Atemwegsinfektionen

In diesem aktualisierten Cochrane Review schlossen die Autoren insgesamt 14 Studien (1.377 Teilnehmer) ein, die zwischen 1990 und 2018 veröffentlicht wurden. Neun Studien stammten aus den USA und jeweils eine aus Brasilien, Kanada, Portugal, Spanien und der Türkei. Die Stichprobengröße der einzelnen Studien variierte zwischen 16 und 419 Teilnehmern im Alter von 18 bis 85 Jahren. Ebenso unterschied sich der Anteil an weiblichen Teilnehmern und lag je nach Studie zwischen 52 % und 100 %. Bereits diagnostizierte chronische Atemwegserkrankungen der Teilnehmer spielten bei Ein – oder Ausschluss keine Rolle.

Bei der Gruppe, die die zu untersuchende Behandlung (Intervention) erhielt, wurden mindestens dreimal pro Woche Bewegungseinheiten verschrieben und überwacht. Bei den meisten Studien dauerte eine Einheit (Gehen, Radfahren, Laufband oder eine Kombination) 30 bis 45 Minuten und wies eine mittlere Intensität auf. Die Studiendauer reichte von sieben Tagen bis zu zwölf Monaten. Bei dreizehn Studien wurde der Interventionsgruppe Gruppentraining verschrieben. Dieses wurde überwacht und angeleitet durchgeführt. Bei einer Studie fanden die Einheiten bei den Teilnehmern ohne Überprüfung zuhause statt. Die Kontrollgruppe erhielt keine Bewegungseinheiten oder nur eine medikamentöse Basisbehandlung.

Um die Wirksamkeit der Bewegungseinheiten messen zu können, wurden die Interventions- und Kontrollgruppen unter anderem hinsichtlich folgender Ergebniskriterien (Endpunkte) vor und nach dem Interventionszeitraum untersucht.

  • Primäre Endpunkte: Anzahl von akuten Atemwegsinfektionen pro Person pro Jahr, Anteil von Teilnehmern, die über den Studienzeitraum hinweg eine akute Atemwegsinfektion erlitten, Schweregrad der Symptome, Anzahl der Symptomtage innerhalb des Interventionszeitraums (12 Wochen), Anzahl der Symptomtage pro erlebte Krankheitsepisode.
  • Sekundäre Endpunkte: Immunparameter, Lebensqualität, Kosten für den Patienten, belastungsbedingte Verletzungen, Einhaltung der Gruppenintervention
Ergebnisse

Die Anzahl akuter Atemwegsinfektionen pro Person und Jahr unterschied sich nicht zwischen der Interventions- und Kontrollgruppe. Auch gab es weder Unterschiede zwischen den Gruppen bezüglich des Anteils von Teilnehmern, die während des Studienzeitraums eine akute Atemwegsinfektion erlitten noch hinsichtlich der Anzahl an Symptomtagen pro Krankheitsepisode. Eine signifikant positive Wirkung hatten die Bewegungseinheiten in Bezug auf die Schwere der Symptome einer akuten Atemwegsinfektion (Mittelwertdifferenz (MD) −103.57 Punkte 95% KI −198,28 bis −8,87) sowie hinsichtlich der Gesamtanzahl der Symptomtage während des Untersuchungszeitraums (MD –2,24 Tage, 95% KI –3,50 bis –0,98). Bezüglich der sekundären Endpunkte gab es keine Unterschiede zwischen den Gruppen.

Fazit

Die Ergebnisse des Cochrane Reviews weisen darauf hin, dass körperliche Bewegung die Schwere der Symptome von akuten Atemwegsinfektionen (zwei Studien) sowie die Dauer (vier Studien) der Symptome positiv beeinflussen kann. Da die Vertrauenswürdigkeit der Studien (Evidenz) als niedrig bewertet wurde, ist die Aussagekraft der Ergebnisse jedoch eingeschränkt.

Text: Maren Fendt

Quellen:

  1. Shi T, Arnott A, Semogas I, et al. The Etiological Role of Common Respiratory Viruses in Acute Respiratory Infections in Older Adults: A Systematic Review and Meta-analysis. The Journal of Infectious Diseases 2019.
  2. Steppuhn H, Buda S, Wienecke A. Zeitliche Trends in der Inzidenz und Sterblichkeit respiratorischer Krankheiten von hoher Public-Health-Relevanz in Deutschland. Journal of Health Monitoring: Robert Koch-Institut, Berlin, 2017.
  3. Nieman DC, Wentz LM. The compelling link between physical activity and the body’s defense system. Journal of Sport and Health Science 2019; 8(3): 201-17.
  4. Barrett B, Hayney M, Muller D, Rakel D, Brown R, Zgierska A. Meditation or exercise for preventing acute respiratory infection (MEPARI-2): A randomized controlled trial. PLoS ONE 2018; 13.

Anmerkung: Aus Gründen der besseren Lesbarkeit wird auf die gleichzeitige Verwendung männlicher und weiblicher Sprachformen verzichtet. Sämtliche Personenbezeichnungen gelten gleichermaßen für alle Geschlechter.

2.16 Konfidenzintervalle sollten angegeben werden

Thu, 05/14/2020 - 09:47

Dies ist der 28. Beitrag einer Blogserie zu „Schlüsselkonzepten zur besseren Bewertung von Aussagen zu Behandlungen“, die im Rahmen des Projektes Informed Health Choices erarbeitet wurden. Jeder der insgesamt 36 Blogbeiträge befasst sich mit einem Schlüsselkonzept, das dabei hilft, Aussagen zu Wirkungen von Behandlungen besser verstehen und einordnen zu können.

Sicherlich sind auch Sie bei der Auswertung von wissenschaftlicher Literatur oder im Rahmen Ihrer eigenen Forschungsarbeiten schon einmal auf das unschuldig aussehende „p“ gestoßen. Meiner Erfahrung nach sind die meisten Menschen zwar mit p-Werten vertraut. Nur wenige können jedoch erklären, was sie bedeuten.

Dieses Wirrwarr sowie ein grassierender Fehlgebrauch haben dazu geführt, dass das „p“ zu einem umstrittenen Thema geworden und sogar aus einigen Fachzeitschriften völlig verbannt worden ist. In diesem Beitrag wird diskutiert, weshalb die Verwendung von p-Werten zur Darstellung von Ergebnissen problematisch sein kann. Es werden Alternativen erkundet, die eventuell besser dazu geeignet sind, Informationen über das Vertrauen in die Studienergebnisse zu vermitteln.

Bei der Beschreibung von Forschungsergebnissen ist die wichtigste Zahl, die angegeben wird, der Punktschätzer (z. B. ein Unterschied im Risiko zwischen zwei Gruppen, Risikodifferenz genannt). Dieser Wert ist die „beste Schätzung“ des wahren Unterschieds. Da Studien jedoch nur an einer Stichprobe aus der größeren interessierenden Grundgesamtheit durchgeführt werden, weicht die Punktschätzung für die Stichprobe unweigerlich vom unbekannten wahren Unterschied zwischen den Gruppen ab. Das heißt, der wahre Unterschied kann größer oder kleiner als der geschätzte Wert sein. Dies kann entweder durch Bias, Zufallsfehlern auf Basis der Stichprobenauwahl („Zufall“) oder eine Kombination aus beidem bedingt sein.

In der Forschung werden statistische Untersuchungen dazu verwendet, Daten darüber zu erhalten, wie wahrscheinlich es ist, dass der beobachtete Unterschied lediglich zufallsbedingt zustande gekommen ist. Üblicherweise wird ein p-Wert berechnet. Das „P“ steht für ‘Probabilität‘, und bezieht sich auf die Wahrscheinlichkeit, Unterschiede zu beobachten, die genauso groß wie die in der Studie beobachteten oder größer sind, wobei davon ausgegangen wird, dass in Wirklichkeit kein wahrer Unterschied besteht (d. h. es wird davon ausgegangen, dass die Nullhypothese wahr ist).

Eine hypothetische Studie

In einer Präventionsstudie untersuchen wir den Unterschied zwischen zwei Gruppen (einer Behandlungs- und einer Placebogruppe) im Risiko, die Krankheit X zu entwickeln. Wir stellen fest, dass das Risiko in der Behandlungsgruppe geringer ist als das Risiko in der Placebogruppe. Unser statistischer Test ergibt für die Risikodifferenz einen niedrigen p-Wert von p = 0,001.


Dies bedeutet, dass es sehr unwahrscheinlich ist, dass derselbe Unterschied beobachtet worden wäre, wenn kein wahrer Unterschied zwischen den Vergleichsgruppen bestünde (Nullhypothese). In anderen Worten: wir können uns ziemlich sicher sein, dass dieser Unterschied im Risiko wirklich besteht, und dass unsere Behandlung das Risiko, Krankheit X zu entwickeln, verringert. In Wahrheit werden wir es nie sicher wissen. Selbst bei einem niedrigen p-Wert besteht weiterhin die Möglichkeit, dass die Nullhypothese fälschlicherweise verworfen wird, obwohl sie tatsächlich wahr ist (ein „falsch-positiver“ Wert). Dies wird als Fehler 1. Art bezeichnet.

Statistische Hypothesenprüfung

Wie groß darf der Fehler 1. Art sein, um noch akzeptabel zu sein? Genau an dieser Stelle kommt das Konzept der statistischen Hypothesentestung ins Spiel. Bei einem Hypothesentest wird der p-Wert im Vergleich zu einem vorab festgelegten Grenzwert (Signifikanzniveau) ermittelt, der angibt, wie groß der Fehler 1. Art sein darf, der noch toleriert werden kann (häufig 0,05 oder 5 %). Das Konzept ist ziemlich einfach: wenn p < 0,05, werden die Ergebnisse als „statistisch signifikant“ betrachtet. Wenn nicht, sind die Ergebnisse „statistisch nicht signifikant“. Aber weshalb genau 0,05? Dieser Grenzwert ist völlig willkürlich gewählt. Wie Rosendaal sagt: „Es steckt keine Logik dahinter. Es gibt keine mathematische oder biologische Begründung, die einen Grenzwert von 5 % stützt [3]. Leider herrscht in der heutigen Forschung ein großer Druck, „statistisch signifikante“ Ergebnisse auf Basis eines auf diesem willkürlich festgelegten Grenzwert basierenden Hypothesentests zu erhalten.

Beachten Sie, dass bis jetzt noch nichts über die tatsächliche Punktschätzung/Effektgröße für unsere Beispielstudie gesagt worden ist! Genau das ist das Problem mit p-Werten und der Signifikanztestung: Wir haben unser Augenmerk darauf gerichtet, dass wir uns relativ sicher sind, dass unser Ergebnis nicht rein zufällig zustande gekommen ist, aber wir haben tatsächlich keine Vorstellung davon, ob das Ergebnis in irgendeiner Form nützlich oder klinisch relevant ist!

Ein „statistisch signifikantes Ergebnis“ weist daher nicht notwendigerweise auf ein wichtiges Ergebnis hin. Selbst ein trivial kleiner Effekt (ohne klinische Relevanz) kann aufgrund eines niedrigen p-Werts als „signifikant“ erachtet werden. Dies ist nicht unüblich in großen Studien oder Studien, in denen viele Hypothesen getestet werden (1/20 sind bei einem Signifikanzniveau von 0,05 rein zufällig signifikant).

Am anderen Ende des Spektrums ist es auch möglich, einen großen Punktschätzer für einen Effekt mit einem nicht signifikanten p-Wert (z.B. p = 0,10) zu erhalten. Dies kommt insbesondere bei kleinen Stichprobengrößen oder großen Studien vor, die kleine geschichtete (stratifizierte) Untergruppen untersuchen. Leider werden nicht signifikante p-Werte häufig mit „keine Wirkung“ verwechselt und werden potenziell bedeutsame Ergebnisse von zu kleinen („underpowered“) Studien einfach unberücksichtigt gelassen.

Wenn Ergebnisse nur mit p-Werten und/oder einer Aussage über die „statistische Signifikanz“ dargestellt werden, wird die wichtigste Information außer acht gelassen: die Punktschätzung. Mittlerweile denken Sie bestimmt, wie gut es wäre, eine alternative Methode für die Darstellung der Unsicherheit in Zusammenhang mit der tatsächlichen Größe und Richtung des Effekts zu haben? Glücklicherweise gibt es hier eine andere Option!

Konfidenzintervalle

Wenn wir die Unsicherheit bezüglich eines Ergebnisses kommunizieren möchten, ist es viel besser, ein Konfidenzintervall (KI; Konfidenz = Vertrauen) zu verwenden. Ein KI ist ein symmetrischer Wertebereich, in dem die Ergebniswerte wiederholter Experimente wahrscheinlich liegen. Unser Punktschätzer liegt in der Mitte dieses Bereichs. Die Breite des KIs stellt den Fehlerbereich dar und wird mittels der Verteilung der Daten, der Stichprobengröße und einer Stichprobenverteilung berechnet, die auch zur Berechnung von p-Werten verwendet werden. Der wichtige Unterschied hier ist, dass das KI einen besseren Bezugsrahmen als der p-Wert vermittelt, weil es die Richtung des Effekts zeigt (d. h. zum Beispiel ob eine Behandlung das Sterberisiko erhöht oder senkt), und weil es in denselben Einheiten wie die Punktschätzung angegeben wird, während es gleichzeitig auch die Unsicherheit der Schätzung angibt.

Das Konfidenzniveau (90 %, 95 %, 99 %, usw.), das für das KI gewählt wird, ist völlig willkürlich. Üblicherweise wird in der medizinischen Forschung ein Niveau von 95 % verwendet, da diese Zahl dem uns vertrauten Signifikanzniveau von 0,05 entspricht. Was bedeutet dieser Prozentsatz? Eine häufige Fehlinterpretation ist, dass der wahre Wert 95 % der Fälle in diesem Bereich liegt. Stattdessen bedeutet ein 95 % KI jedoch nur, dass, wenn dasselbe Experiment wieder und wieder mit verschiedenen Stichproben der interessierenden Grundgesamtheit durchgeführt wird, der wahre Wert in 95 % dieser Studien innerhalb des KIs liegt (ausgehend von der Annahme, dass alle Voraussetzungen zur richtigen Berechnung des KIs erfüllt sind).

Die Breite des KI zeigt die Präzision des Punktschätzers an. Bspw. kann ein Punktschätzer eines Unterschieds von 5,5 ein 95 % KI von 3,5 bis 7,5 aufweisen (Breite von 4 Einheiten). Ein schmaleres Intervall, das einen Bereich von zwei Einheiten (z. B. 95 % KI, 4,5 bis 6,5) umfasst, ergibt eine präzisere Schätzung derselben Effektgröße als ein breiteres KI mit derselben Effektgröße (z. B. 95 % KI, 3,5 bis 7,5).

Nehmen wir beispielsweise an, eine bestimmte Behandlung reduziere das Sterberisiko im Vergleich zu einer Placebobehandlung mit einem Odds Ratio (Chancenverhältnis) von 0,5 und einem 95 % KI von 0,2 bis 0,8. Dies bedeutet, dass die Behandlung in unserer Stichprobe das Sterberisiko im Vergleich zu der Placebobehandlung um 50 % verringert hat, und dass die wahre Verringerung des Risikos irgendwo zwischen 20 % und 80 % liegt.

Es ist wichtig zu beachten, dass ein Konfidenzintervall keine einheitliche Wahrscheinlichkeitsverteilung darstellt, dass die Werte, die am dichtesten am Punktschätzer liegen, wahrscheinlich eher wahr sind als die Werte an den äußeren Enden des Intervalls.

Für diejenigen, die auf statistischen Hypothesentests bestehen – Konfidenzintervalle liefern Ihnen sogar auch diese Information. Wenn Ihr KI den Nullhypothesenwert nicht umfasst (z. B. für eine Risikodifferenz: Nullhypothese = 0, für ein relatives Risiko: Nullhypothese = 1), dann ist Ihr Ergebnis „statistisch signifikant“ (auf dem dem Signifikanzniveau des KIs entsprechenden Niveau). Wenn der Nullhypothesenwert innerhalb des Intervalls liegt, ist das Ergebnis „nicht statistisch signifikant“. Es ist jedoch wichtig sich daran zu erinnern, dass diese „zweigeteilte“ Denkweise aus den bereits erwähnten Gründen problematisch sein kann.

Eine großartige Ressource, die Sie sich anschauen können, ist eine von Steven Woloshin erstellte animierte Folienpräsentation, in der dargestellt ist, wie das Cochrane-Logo entwickelt wurde und was es aussagt.

Schlussfolgerung

Zusammengefasst lässt sich feststellen, dass p-Werte sehr irreführend sein können, insbesondere, wenn sie in Verbindung mit statistischen Hypothesentests ohne entsprechende Punktschätzer und Konfidenzintervalle dargestellt werden. Ihre Verwendung lenkt von möglicherweise interessanten Ergebnissen ab, die den Signifikanzschwellenwert aufgrund von Faktoren wie beispielsweise einer geringen Zahl von Ergebnisereignissen erreichen. Wenn Ergebnisse nicht veröffentlicht werden, weil sie „nicht statistisch signifikant“ sind (was nicht dasselbe wie das Ergebnis „keine Assoziation“ ist), führt dies zu schädlichem Publikations-Bias.

Anstatt sich auf wenig aussagekräftige p-Werte zu berufen, möchte ich Sie dazu ermuntern, Ergebnisse unter Verwendung von Punktschätzern und ihren aussagekräftigeren Konfidenzintervallen darzustellen und skeptisch zu sein bei Forschungsergebnissen und Behauptungen, die diese Informationen nicht vermitteln.

Text: Jessica Rohmann

Übersetzt von: Brita Fiess

Zum Originaltext

Literaturhinweise im Originaltext

Anmerkung

Aus Gründen der besseren Lesbarkeit wird auf die gleichzeitige Verwendung männlicher und weiblicher Sprachformen verzichtet. Sämtliche Personenbezeichnungen gelten gleichermaßen für alle Geschlechter.

Helfen positive Erwartungen bei Rückenschmerzen?

Thu, 05/07/2020 - 07:55

In unserer Themenserie „Wenn der Rücken schmerzt“ haben wir Ihnen Cochrane Evidenz zu verschiedenen Behandlungsmaßnahmen bei Kreuzschmerzen vorgestellt. Dabei ging es in erster Linie um die Wirksamkeit der Maßnahmen. Nun ist ein neuer Cochrane Review der Frage nachgegangen, ob persönliche Erwartungen an den Verlauf von Kreuzschmerzen oder eine Behandlungsstrategie das Ergebnis beeinflussen können.

Hilft Bewegung bei Kreuzschmerzen?

Auch Physiotherapeuten können Kreuzschmerzen bekommen…! Und ja, so haben auch wir, die beiden Autorinnen dieses Beitrags – beide Physiotherapeutinnen – unsere eigenen Erfahrungen mit Kreuzschmerzen, die uns von Zeit zu Zeit mal ärgern. Gut zu wissen, dass Kreuzschmerzen in den meisten Fällen (80-90%) auf keine bestimmte („spezifische“) behandelbare Ursache zurückzuführen sind und daher als „nicht-spezifisch“ bezeichnet werden. Wir beide sind uns dabei einig, was wir gegen unsere Kreuzschmerzen tun: wir versuchen uns mehr zu bewegen, gehen regelmäßiger zum Sport und vermeiden langes Sitzen bzw. das „Sich-nicht-Bewegen“. Und erwarten, dass wir hierüber unsere Schmerzen schnell und wirksam in den Griff bekommen. Was bei uns auch tatsächlich der Fall ist. Die Wissenschaft gibt uns übrigens recht, wie Sie auch in unserer Themenserie nachlesen können: Bewegung hilft bei Kreuzschmerzen!

Dennoch gibt es Menschen, die anders darüber denken, was die beste Vorgehensweise bei Kreuzschmerzen ist. In der physiotherapeutischen Praxis erleben wir immer wieder Patienten mit Kreuzschmerzen, die mit der Erwartung kommen, dass Schonung oder passive Behandlungsmaßnahmen, zum Beispiel Massagen und Fango oder Elektrotherapie, die besseren Maßnahmen sind, und dass aktive Behandlungsmaßnahmen, das heißt Bewegungsübungen bzw. Training, nicht bzw. weniger helfen. Nicht immer ist es für uns einfach, unsere Patienten von den Vorteilen einer aktiven Strategie zu überzeugen. Gelingt es jedoch nicht, die Erwartungshaltung des Patienten gegenüber einer aktiven Strategie zum positiven zu beeinflussen, kann das Ergebnis einer solchen Behandlung allein aus diesem Grund ein negatives sein – so unsere Beobachtung aus der Praxis.
Dies führt zu der Frage, ob persönliche Erwartungen an den Verlauf von Kreuzschmerzen oder an eine bestimmte Behandlungsstrategie den tatsächlichen Verlauf bzw. die tatsächliche Wirksamkeit einer Behandlung beeinflussen können:

Kann es sein, dass eine positive Erwartung zu einem besseren Ergebnis führt, zum Beispiel zu einer schnelleren Schmerzfreiheit?

Welche Rolle spielt unsere Erwartung an eine Behandlungsstrategie?

Niemand ist gänzlich frei von Vorstellungen und Erwartungen an die Wirksamkeit einer bestimmten Behandlungsstrategie (darunter verstehen wir in diesem Beitrag auch Vorgehensweisen wie „abwarten und nichts tun“) für ein bestimmtes Beschwerde- oder Krankheitsbild.

Unsere Vorstellungen und Erwartungen können dabei von verschiedenen Faktoren geprägt werden, darunter

  • unsere persönlichen Erfahrungen mit Beschwerden und Behandlungsmaßnahmen,
  • was uns ein Arzt über die Behandlung erzählt,
  • was wir über sie in den Medien hören oder lesen,
  • welche Erfahrungen Verwandte, Freunde oder Nachbarn berichten,
  • welche grundsätzlichen Ansichten wir über sie haben.

Abhängig davon, was wir hören, lesen oder denken, können wir eine positive Erwartung an eine Behandlung bzw. Vorgehensweise haben, das heißt zuversichtlich sein, dass sie uns helfen wird. Andererseits können wir aber auch eine negative Erwartung haben, das heißt der Ansicht sein, dass sie entweder keine Besserung bringt oder uns möglicherweise sogar schaden wird. Kommt Ihnen vielleicht das ein oder andere eigene Beispiel in den Sinn…?

Ein wichtiger Punkt dabei: Erwartungen sind keine feste, unveränderbare Größe, sondern sie sind beeinflussbar. So kann z. B. eine negative Erwartung bezüglich einer Behandlungsmaßnahme durch Information oder Aufklärung in eine positive übergehen – was bedeutsam ist, wenn dies zu einem besseren Ergebnis führt, wie z. B. zu einer größeren Schmerzlinderung.

Die Frage, ob persönliche Erwartungen einen Einfluss auf den Verlauf von Beschwerden oder ein Behandlungsergebnis haben, ist seit langem Gegenstand wissenschaftlicher Forschung. Nun hat ein kürzlich veröffentlichter Cochrane Review die verfügbare Evidenz zum Einfluss persönlicher Erwartungen auf den Verlauf bzw. das Ergebnis unterschiedlicher Behandlungsmaßnahmen bei Kreuzschmerzen zusammengefasst.

Cochrane Evidenz zu Genesungserwartungen bei Kreuzschmerzen

In dem im November 2019 veröffentlichten Review wurden Studien zusammengefasst, in denen untersucht wurde, ob es bei Menschen mit nicht-spezifischen Kreuzschmerzen Zusammenhänge zwischen „individuellen Genesungserwartungen“ und verschiedenen kreuzschmerzbezogenen Ergebnissen gibt. Studien, deren Ziel es ist zu ermitteln, ob bestimmte Faktoren (Prognosefaktoren) ein zukünftiges Ergebnis vorhersagen (prognostizieren) können, werden auch „Prognosestudien“ genannt. Der vorliegende Review ist einer der ersten Cochrane Reviews, die zu einer Prognose-Fragestellung erstellt worden sind.

Die in den Studien erhobenen „Genesungserwartungen“ konnten dabei unterschiedliche Arten von Erwartungen sein, wie die allgemeine Erwartung an die Genesung von den Kreuzschmerzen oder die Erwartung an ein konkretes Behandlungsergebnis. Die wichtigsten interessierenden Ergebnisse waren solche zur Teilhabe am Arbeitsleben (Rückkehr an den Arbeitsplatz, Abwesenheitszeiten, Dauer des Bezugs von Lohnersatzzahlungen) sowie die für den einzelnen Patienten bedeutsame Beschwerdeverbesserung, das Ausmaß funktioneller Einschränkungen sowie die Schmerzstärke.

Studien, die Zusammenhänge wie diese untersuchen, sind in der Regel so gestaltet, dass zu Beginn der Studie die Erwartung jedes einzelnen Studienteilnehmers erhoben wird. Danach folgt eine Phase, in der eine Behandlung oder andere Vorgehensweise stattfindet. Am Ende, ggf. auch zu einem späteren Zeitpunkt, wird das Ergebnis erhoben. Anschließend wird anhand statistischer Berechnungen ermittelt, ob es einen Zusammenhang zwischen der Erwartung und dem Ergebnis gibt. Ein möglicher Zusammenhang kann sein, dass diejenigen Teilnehmer, die beim Studienbeginn zuversichtlich waren, nach einer bestimmten Zeit wieder an den Arbeitsplatz zurückkehren zu können, am Ende auch eher tatsächlich wieder arbeitsfähig waren.

In Box 1 finden sich einige allgemeine Informationen zu dem Review und den 60 in ihn eingeschlossenen Studien. Weitere Informationen finden sich auch in der laienverständlichen Zusammenfassung.

Ergebnisse: Genesungserwartungen können einen Einfluss haben!

Der Review zeigt: Genesungserwartungen können sehr unterschiedlich definiert werden: in den 60 Studien wurden sie auf sehr unterschiedliche Art erhoben. Häufig wurde erhoben, für wie wahrscheinlich es die Teilnehmer hielten, innerhalb von sechs Monaten an den Arbeitsplatz zurückzukehren. Weitere Fragen warten zum Beispiel „Wie groß ist, Ihrer Ansicht nach, das Risiko, dass Ihre Beschwerden länger anhalten werden?“ oder „Was denken Sie, wie hilfreich wird Behandlung X sein?“

Die Auswertung der Studien ergab einen starken Zusammenhang zwischen positiven Genesungserwartungen und einer besseren Teilhabe am Arbeitsleben. Die Vertrauenswürdigkeit der Evidenz für dieses Ergebnis wurde als moderat eingestuft. Dies bedeutet, dass weitere Forschung wahrscheinlich einen bedeutsamen Einfluss auf das Vertrauen in die Ergebnisse haben und diese möglicherweise verändern wird. Zudem gab es Hinweise auf einen Zusammenhang zwischen positiven Ergebniserwartungen und einer klinisch bedeutsamen Besserung der Beschwerden. Die Vertrauenswürdigkeit der Evidenz für dieses Ergebnis wurde jedoch als niedrig eingestuft. Dies bedeutet, dass weitere Forschung sehr wahrscheinlich einen bedeutsamen Einfluss auf das Vertrauen in die Ergebnisse haben und diese wahrscheinlich verändern wird. Die dargestellten Ergebnisse bezogen sich auf eine Nachuntersuchung nach ungefähr 12 Monaten. Der Zusammenhang von Genesungserwartungen mit anderen Ergebnissen wie dem Ausmaß funktioneller Einschränkungen oder der Schmerzstärke war weniger klar. Die Vertrauenswürdigkeit der Evidenz für diese Ergebnisse wurde als sehr niedrig bzw. niedrig eingestuft. Eine sehr niedrige Vertrauenswürdigkeit bedeutet, dass die Ergebnisse sehr unsicher sind.

Keine der Studien erbrachte einen Hinweis darauf, dass positive Genesungserwartungen mit einer Verschlechterung der Kreuzschmerzen zusammenhängen können.

Was bedeuten die Ergebnisse?

Die Autoren folgern aus den Ergebnissen, dass es wahrscheinlich einen starken Zusammenhang zwischen positiven Genesungserwartungen und einer besseren Teilhabe an der Arbeitstätigkeit (Arbeitsfähigkeit) sowie möglicherweise einen Zusammenhang zwischen positiven Ergebniserwartungen und einer klinisch bedeutsamen Beschwerdeverbesserung gibt. Die Autoren weisen darauf hin, dass die Ergebnisse aufgrund der begrenzten Qualität der eingeschlossenen Studien sowie ihrer großen Unterschiedlichkeit insgesamt zurückhaltend betrachtet werden sollten. In diesem Bereich ist weitere Forschung erforderlich.

Trotz der zurückhaltenden Schlussfolgerungen liegt die praktische Bedeutung der Ergebnisse auf der Hand. Die Ergebnisse deuten darauf hin, dass es Sinn machen kann, sich über die „Genesungserwartungen“ frühzeitig Gedanken zu machen. Wo eine Erwartung dem wissenschaftlichen Kenntnisstand entgegensteht – wie zum Beispiel bei unserem Beispiel einer passiven statt einer aktiven Vorgehensweise bei Kreuzschmerzen – können Ärzte oder Therapeuten möglicherweise durch Informationen oder Beratung dazu beitragen, beides zusammenzubringen und hierüber das Ergebnis zu verbessern. Und wenn Patienten Ihre eigenen Erwartungen von sich aus offen äußern, kann dies die gemeinsame Entscheidungsfindung für das bestmögliche Vorgehen erleichtern. Denn: wer will schon nicht möglichst schnell wieder beschwerdefrei sein…!

Weitere Informationen zu Kreuzschmerzen

Alle Beiträge unserer Themenserie zum nicht-spezifischen Kreuzschmerz finden Sie hier. Diese enthalten auch Links zu weiterführenden Informationsquellen, darunter die Nationale Versorgungsleitlinie „Nicht-spezifischer Kreuzschmerz“, die es auch in einer Patientenversion gibt.

Autorinnen: Cordula Braun, Katja Ehrenbrusthoff

Aktualität
(Datum der letzten Suche nach Studien)März 2019Anzahl der Studien (Teilnehmer)60 Studien (30.530 Teilnehmer),
davon 52 Studien (28885 Teilnehmer) mit für die Auswertung nutzbaren DatenStudienorte (Anzahl)Europa (35), Nordamerika (21), Australien (4)Studienteilnehmer
(wesentliche Merkmale)Frauen/Männer: Anteile vergleichbar
Alter: durchschnittlich zw. 34 und 74 Jahren
Beschwerdedauer: Studiengruppen größtenteils Patienten mit chronischen Kreuzschmerzen (37%) oder mit Kreuzschmerzen von unterschiedlicher Dauer (31%)Kritische Bewertung der StudienMit QUIPS Tool und GRADE (modifiziert)Einstufung der Vertrauenswürdigkeit der EvidenzModerat bis sehr niedrigBox 1: Informationen zu dem Review

Kurzvideos über Grundlagen der Evidenzbasierten Medizin – Teil 2: Confounding, Zufallsfehler und Bias

Thu, 04/30/2020 - 07:42

Was ist beim Interpretieren von Studien zu beachten und wie können Fehlerquellen, die zu verzerrten Ergebnissen führen, möglichst vermieden werden? Das ist das Thema unseres zweiten Kurzvideos aus der Serie zu Grundlagen der Evidenzbasierten Medizin.

Studien haben immer das Ziel, so gut als möglich den wahren Effekt einer Intervention abzubilden. Sogenannte Störfaktoren können genau das aber manchmal verhindern und zu verzerrten Ergebnissen führen. In unserem zweiten Video stellen wir drei Fehlerquellen vor, die diese Gefahr mit sich bringen: Confounding, Zufallsfehler und Bias.

Confounding kommt aus dem Englischen und bedeutet so viel wie „verwirren“ oder „durcheinanderbringen“. Genau das tun Confounder auch – sie verwirren uns bei der Interpretation und führen dazu, dass wir falsche Schlüsse über Ursachen und Wirkungszusammenhänge ziehen. Ein Beispiel: Wir beobachten, dass ein hoher Kaffeekonsum mit schlechter Herzgesundheit zusammenhängt. Bei genauerem Hinsehen stellen allerdings fest, dass speziell Personen, die viel rauchen ein erhöhtes Risiko für Herzerkrankungen haben. Raucherinnen und Raucher trinken auch häufig Kaffee. Würde man den Faktor „Rauchen“ nicht in die Analyse miteinbeziehen, könnte man den falschen Schluss ziehen, dass Kaffeetrinken für die Herzgesundheit schädlich ist.

Es gibt Confounder, die man im Vorfeld einer Studie kennt und die man berücksichtigen kann (z.B. Einteilung der Gruppen in Raucher und Nichtraucher). Es gibt aber auch Confounder, die unbekannt sind. Die einzige Möglichkeit mit diesen umzugehen ist eine Randomisierung – also ein zufälliges Zuteilen der StudienteilnehmerInnen auf die Studienarme.

Zufallsfehler treten auf, wenn das Ergebnis der Studie zufällig vom echten Effekt in der Population abweicht. Wichtig hierbei ist, dass diese Abweichung keine bestimmte Richtung hat. Der Zufallsfehler schlägt vor allem bei kleinen Studien zu. Bei einer Studie mit 40 Personen könnte es leicht passieren, dass Einflussfaktoren wie Alter, Geschlecht, privater und beruflicher Hintergrund sich trotz zufälliger Gruppenzuteilung ungleichmäßig auf die Studienarme aufteilen. Nehmen wir an, dass sich in einer Gruppe mehr ältere Personen befinden als in der anderen. Wenn dann diese Personen am Ende der Studie einen schlechteren Gesundheitszustand haben, kann das mit der Intervention zusammenhängen, es kann aber auch daher kommen, dass diese Personen älter waren. Zufallsfehler können durch umfangreiche Stichprobengrößen eingedämmt werden.

Bias sind systematische Fehler, die beim Design, der Durchführung, oder der Auswertung der Studie entstehen können. Beispielsweise kann das Wissen darüber, wer zur Interventions- und wer zur Vergleichsgruppe gehört, zu Verzerrungen führen. Um das zu vermeiden, werden StudienteilnehmerInnen und Studienpersonal häufig „verblindet“ – das heißt sie werden nicht informiert, wer in der Interventions- oder Kontrollgruppe ist.

Es gibt eine Vielzahl von Bias-Arten, Selektions-Bias, Performance-Bias, Mess-Bias und Attrition-Bias werden in unserem Video näher erklärt, weil sie zum kritischen Bewerten von Studien sehr wichtig sind. Generell gilt, dass Bias bei der kritischen Beurteilung von Studien nicht direkt gemessen werden kann, sondern nur indirekt über die Beurteilung des Studiendesigns und der Ausführung der Studie. Bias kann also durch gutes Studiendesign, gute Durchführung der Studie und angemessene Auswertung der Daten minimiert werden.



Text: Barbara Nußbaumer-Streit, Claudia Christof

2.15 Statistische Vergleiche mit kleinen Stichproben oder wenigen Endpunktereignissen können irreführend sein

Thu, 04/23/2020 - 09:24

Dies ist der 27. Beitrag einer Blogserie zu „Schlüsselkonzepten zur besseren Bewertung von Aussagen zu Behandlungen“, die im Rahmen des Projektes Informed Health Choices erarbeitet wurden. Jeder der insgesamt 36 Blogbeiträge befasst sich mit einem Schlüsselkonzept, das dabei hilft, Aussagen zu Wirkungen von Behandlungen besser verstehen und einordnen zu können.

Immer mehr neue Medikamente, die besser als ihre Vorgänger sein sollen, sättigen unseren pharmazeutischen Markt. Deshalb ist es umso wichtiger, zu prüfen, ob die in Studien vorgenommenen Aussagen und Interpretationen valide sind.

Auch bewährte statistische Methoden zur Bewertung der Wirkung einer Intervention (etwa die eines Arzneimittels) können irreführend sein, wenn das Studiendesign nicht angemessen ist. Das kann zum Beispiel vorkommen, wenn für die Studie zu wenige Personen (also eine zu kleine Stichprobe) rekrutiert wurden, um eine ausreichende Anzahl von Endpunktereignissen zu liefern.

Endpunkte bezeichnen das Ziel einer klinischen Studie. Nehmen wir als hypothetisches Beispiel eine randomisierte kontrollierte Studie, die die Wirkung eines Arzneimittels auf das Risiko eines Herzinfarkts untersuchen soll. Das untersuchte Endpunktereignis wäre also sie Anzahl an Studienteilnehmern, die nach Einnahme des Arzneimittels einen Herzinfarkt erleiden.

Das Problem mit zu kleinen Probandengruppen liegt in einem Mangel an statistischer Trennschärfe oder Power. Diesen Begriff wollen wir hier genauer betrachten. Dazu aber zuerst einmal eine kurze Wiederholung von der Bedeutung statistischer Signifikanz, denn sie geht mit dem der Statistischen Power Hand in Hand:

Die statistische Signifikanz gibt an, ob sich die statistischen Ergebnisse einer Vergleichsstudie über die erhobenen Stichproben hinaus auf eine Grundgesamtheit generalisieren lassen. In anderen Worten, ob der Unterschied, der beim Vergleich zweier oder mehrerer Interventionen in einer Stichprobe von Studienteilnehmern festgestellt wurde, nicht nur auf Zufall beruht, sondern dass man auf Basis dieses Unterschiedes auch eine allgemeingültige Aussage treffen kann.

Signifikanz wird mithilfe des p-Werts – der Irrtumswahrscheinlichkeit – ausgedrückt. Für Werte von 0,05 (5%) und darunter geht man davon aus, dass der beobachtete Unterschied einen tatsächlichen Unterschied zwischen den beiden Studienpopulationen repräsentiert; man spricht von einem „statistisch signifikanten“ Unterschied. Werte über 0,05 dagegen legen nahe, dass der Unterschied sehr wohl auch auf reinem Zufall beruhen könnte – also je größer p-Wert, desto wahrscheinlicher handelt es sich um ein Zufallsergebnis. Statistiker sprechen in diesem Fall vom Risiko eines Fehlers der 1. Art. Eine Grundsatzerklärung der American Statistical Association zu p-Werten und statistischer Signifikanz kann man hier auf Englisch lesen; zu einem erweiterten Verständnis auf Deutsch hilft Wikipedia)

Die statistische Trennschärfe oder Power einer Studie dagegen ist die Wahrscheinlichkeit, dass ein real existierender Effekt auch in der Studie entdeckt wird. Je größer die statistische Power einer Studie, desto geringer ist also die Gefahr, dass sie eine (allgemeine) Wirkung nicht erkennt, obwohl diese in Wirklichkeit vorhanden ist. Statistiker sprechen hier vom Risiko eines Fehlers 2. Art, Mediziner kennen diesen Fehler beispielsweise als falsch-negatives Ergebnis eines diagnostischen Tests.

Wir haben instinktiv mehr Vertrauen in Studien mit großen Stichprobengrößen. Dafür gibt es einen guten Grund: Große Studienpopulationen minimieren den Einfluss von zufälligen Schwankungen in der Zusammensetzung der Vergleichsgruppen und erhöhen dadurch die statistische Power. Studien auf Basis kleiner Populationen liefern oft keine ausreichende Anzahl an Endpunktergebnissen . Dies schwächt die Aussagekraft der Evidenz für oder gegen das Vorhandensein eines Effekts, weil der reine Zufall größeren Einfluss auf die Ergebnisse bekommt.

Man stelle sich beispielweise eine randomisierte kontrollierte Studie (RCT) zur Wirkung eines Herzmittels mit zehn Patienten in einem Studienarm (oder in einer Vergleichsgruppe) und zehn Patienten im anderen Vergleichsarm vor, wobei der primäre Endpunkt die Anzahl von Herzinfarkten in jeder Gruppe ist. Am Ende der Studie gibt es in der Placebogruppe sechs Infarkte und in der Interventionsgruppe drei. Rein rechnerisch scheint die Intervention das relative Risiko für einen Herzinfarkt um 50% reduziert zu haben. Aber kann man sich auf dieses Ergebnis wirklich verlassen? Und wenn nicht: Weshalb?

Man muss nicht Statistiker sein um zu erkennen, dass die Anzahl der Endpunktereignisse womöglich zu klein ist, um sicher sagen zu können, dass die Differenz einen tatsächlichen Unterschied zwischen den Behandlungen und nicht die Auswirkungen des Zufalls widerspiegelt. Selbst wenn jeder Studienarm 1.000 Teilnehmer hätte, die Gesamtzahl an Herzinfarkten in jeder Gruppe jedoch dieselbe bliebe, wäre die Anzahl an Endpunktereignissen immer noch zu gering, um daraus zu folgern, dass die Wirkung der Behandlung wirklich unterschiedlich ist. Genauer gesagt, sechs von 1.000 im Vergleich zu drei von 1.000 ist immer noch zu wenig, um den Zufall mit ausreichender Verlässlichkeit auszuschließen. Die statistische Power hängt also sowohl von der Stichprobengröße, als auch von der Häufigkeit von Endpunktereignissen ab.

Eine Zusammenfassung der wichtigsten Punkte:

  • Geringe Stichprobengrößen tragen normalerweise zu einer geringen statistischen Trennschärfe bei, was wiederum sowohl die Wahrscheinlichkeit für einen Fehler 2. Art (Nichterkennen einer Wirkung der Intervention), als auch für einen Fehler 1. Art (also das Erkennen einer Wirkung, die in Wirklichkeit nicht existiert) erhöht.
  • Bei Studien mit einer geringen Anzahl an Endpunktereignissen ist die Wahrscheinlichkeit größer, dass ihre Ergebnisse rein auf Zufall basieren, selbst wenn die Studien sehr viele Teilnehmer beinhalten.
  • Eine kleine Anzahl an Endpunktereignissen kann die vermeintliche Wirkung von Interventionen aufbauschen (siehe die Halbierung von Herzinfarkten im Beispiel).

Selbstverständlich ist nichts für immer und ewig in Stein gemeißelt, besonders in der Medizin. Studien mit sehr vielen Teilnehmern mögen zwar wünschenswert sein, sind aber oft aus praktischen Gründen kaum machbar. In manchen Situationen wiederum können auch kleine Studien eine ausreichende statistische Power bieten.

Text: Lewis Saunders

Übersetzt von: Brita Fiess

Zum Originaltext

Anmerkungen:

Dieser Blog-Artikel soll in erster Linie für das Problem kleiner Stichproben und seltener Endpunktereignisse sensibilisieren und zum Nachdenken anregen. Ziel des Beitrags ist es also, zum Nachdenken anzuregen und nicht, präzise Antworten zu liefern.

Aus Gründen der besseren Lesbarkeit wird auf die gleichzeitige Verwendung männlicher und weiblicher Sprachformen verzichtet. Sämtliche Personenbezeichnungen gelten gleichermaßen für alle Geschlechter.

Literaturhinweise:

  • Haas, J. P. Sample size and power. American journal of infection control. 2012,Oct;40(8):766-767
  • Dechartres A, Trinquart L, Boutron I, Ravaud P. Influence of trial sample size on treatment effect estimates: meta-epidemiological study. BMJ. 2013 Apr;346:f2304

Was bringen Quarantänemaßnahmen gegen COVID-19? Ein neuer Cochrane Rapid Review sucht nach Antworten.

Wed, 04/08/2020 - 13:25

Ein eben in der Cochrane Library erschienener Rapid Review legt nahe, dass Quarantäne von Personen mit einem erhöhten Infektionsrisiko eine wichtige Maßnahme zur Eindämmung der COVID-19-Pandemie ist. Doch er zeigt auch die Grenzen des evidenzbasierten Ansatzes in einer akuten Bedrohungslage durch ein Virus, das die Menschheit erst seit wenigen Monaten kennt.

Normalerweise dauert es viele Monate, bis ein Cochrane Review reif für die Veröffentlichung ist. Denn jeder Schritt seiner Entstehung, von der Suche nach relevanten Studien bis hin zur abschließenden Begutachtung durch nicht am Review beteiligte Experten (Peer Review), erfordert Sorgfalt – und damit Zeit.

Doch manchmal ist Zeit genau das, was man nicht hat. Das traf selten so deutlich zu, wie in der gegenwärtigen Krise durch die Lungenkrankheit COVID-19. Sie wird durch ein Coronavirus vom Typ SARS-CoV-2 ausgelöst, das bis Ende des vergangenen Jahres noch völlig unbekannt war, inzwischen aber die ganze Welt in seinen Bann zieht. Seit den Anfängen der Pandemie sind Wissenschaftler ausgesprochen fleißig: Die Zahl wissenschaftlicher Publikationen zu COVID-19 geht längst in die Tausende. Aber wer sichtet und bewertet diese Flut wissenschaftlicher Evidenz, wer fasst ihre Ergebnisse zusammen? Wie wichtig es gerade in Krisenzeiten ist, Informationen mit kühlem Kopf kritisch zu bewerten und einzuordnen, zeigen schon die zahlreichen Fake News, die zu COVID-19 durchs Internet schwirren.

Verlässliche, evidenzbasierte Informationen – das ist, wofür Cochrane mit seinen systematischen Übersichtsarbeiten steht. Doch in Zeiten wie diesen steht Cochrane vor der Herausforderung, den bestmöglichen Kompromiss finden zu müssen zwischen dem „Need for Speed“ und dem Anspruch, nur sorgfältig erstellte und geprüfte Übersichtsarbeiten zu veröffentlichen.

Für eben solche dringenden Fälle hat Cochrane Ende 2015 eine eigene Methodengruppe gegründet, deren Mitglieder aus Österreich, Kanada und den USA eine Methodik für sogenannte „Rapid Reviews“ erarbeiten. Das sind Übersichtsarbeiten, die ebenso systematisch wie ein regulärer Cochrane Review, aber mit gewissen methodischen „Abkürzungen“, erstellt werden – mit dem Ziel, die Evidenz binnen weniger Wochen zusammenzufassen. Die Methodengruppe hat kürzlich eine Anleitung veröffentlicht, welche dieser methodischen Abkürzungen bei der Erstellung eines Cochrane Rapid Reviews empfehlenswert sind. Diese Empfehlungen beruhen auf Ergebnissen von Methodenstudien und Experteneinschätzungen.

Im Auftrag der Weltgesundheitsorganisation (WHO) hat ein Team des Departments für Evidenzbasierte Medizin und Evaluation an der Donau-Universität Krems, wo auch Cochrane Österreich angesiedelt ist, in den letzten Wochen einen Rapid Review erstellt, der nun in der Cochrane Library veröffentlicht wurde. Er versammelt Evidenz zu einer der drängendsten Fragen zu COVID-19: Helfen Quarantänemaßnahmen wirklich dabei, die Ausbreitung des neuen Coronavirus einzudämmen?

Helfen Quarantänemaßnahmen wirklich dabei, die Ausbreitung des neuen Coronavirus einzudämmen?

Zum Hintergrund: In vielen Ländern, darunter auch Deutschland, Österreich und der Schweiz, müssen sich all jene in häusliche Quarantäne begeben, die engen Kontakt mit einer infizierten Person hatten. Quarantäne kann aber auch auf Ebene ganzer Städte oder Regionen angewendet werden, so wie es seit Februar in Norditalien der Fall ist. Ziel von Quarantäne ist es, Infektionsketten zu unterbrechen und dadurch den Ausbruch unter Kontrolle zu bekommen. Der aktuelle Rapid Review suchte nun nach Evidenz für die Wirksamkeit solcher Maßnahmen. Weitere Fragestellungen waren, inwiefern eine solche Quarantäne mit anderen Maßnahmen wie räumlicher Distanzierung, Schulschließungen oder einer verbesserten Handhygiene zusammenwirkt und ob Quarantäneregeln auch für Menschen sinnvoll sind, die von einer Reise aus einem Risikogebiet zurückkommen.

Für ihren Rapid Review zu diesen Fragen sichtete das Autorenteam mehr als 2000 Studien, von denen sie am Ende 29 als relevant einstuften und für den Review auswerteten. Zehn dieser Arbeiten sind mathematische Modellierungen, die in den letzten Monaten direkt zu COVID-19 publiziert wurden. 15 weitere Modeling-Studien und vier Kohortenstudien lieferten Evidenz zur Quarantäne bei den Lungenkrankheiten SARS und MERS, die von nahe verwandten Coronaviren ausgelöst werden. Diese Studien sind also nur indirekt relevant.

Die Ergebnisse all dieser Studien sind weitgehend konsistent und legen nahe, dass Quarantäne eine wichtige Maßnahme zur Eindämmung der Pandemie ist. Allerdings reicht Quarantäne alleine wahrscheinlich nicht aus, um den Ausbruch von COVID-19 zu kontrollieren. Sie sollte daher zusammen mit anderen Maßnahmen erfolgen. Denn bei COVID-19 können Ansteckungen bereits vor Auftreten von Symptomen geschehen. Das erschwert es, Fälle rechtzeitig zu erkennen und deren Kontaktpersonen zu finden und unter Quarantäne zu stellen.

Nur vergleichsweise geringe Effekte fand der Review für eine individuelle Quarantäne allein auf Basis eines vorhergehenden Aufenthalts in einem Risikogebiet – das legen zumindest Studien aus der Zeit des SARS-Ausbruchs der Jahre 2002 und 2003 nahe.

Die Autoren machen allerdings deutlich, dass die Evidenzbasis für diese Schussfolgerungen alles andere als optimal ist: Alle zehn Studien, die sich direkt auf COVID-19 beziehen, sind mathematische Modellierungen des Pandemieverlaufs. In diese Modelle gehen zahlreiche Annahmen ein, etwa zu Übertragungsraten, Inkubationszeiten oder Krankheitsverläufen. Diese Annahmen beruhen auf dem aktuell noch sehr lückenhaften Wissen über SARS-CoV-2, beziehungsweise COVID-19, welches sich aber laufend erweitert – sie sind deshalb mit einem hohen Maß von Unsicherheit verbunden. Die übrigen 19 Studien (15 davon ebenfalls Modelierungen) liefern indirekte Evidenz zu SARS und MERS. Es ist zwar plausibel, dass zwischen diesen von nahe verwandten Viren ausgelösten Krankheiten Parallelen bestehen, doch genauso gibt es offensichtlich erhebliche Unterschiede, etwa in der Infektiosität oder der Schwere des Krankheitsverlaufs. Insofern sind solche Rückschlüsse von einer Krankheit auf eine andere stets mit großer Vorsicht zu behandeln.

Die Aussagekraft dieser Studien, und damit auch die des Rapid Reviews, ist aufgrund dieser Limitationen begrenzt. Doch der Anspruch evidenzbasierter Medizin ist es, die beste verfügbare Evidenz zu einer Fragestellung zu berücksichtigen. In einer beispiellosen Situation wie der momentanen Krise durch COVID-19 bedeutet dies, auch mathematische Modellierungen zu berücksichtigen, solange keine bessere Evidenz vorhanden ist.

Cochrane Reviews berücksichtigen diese variable Vertrauenswürdigkeit unterschiedlicher Studien. Für die Gewichtung und Bewertung des Vertrauens in die Ergebnisse gibt es eine eigene Methodik (GRADE), die die Evidenz aus Studien in eine von vier Stufen der Vertrauenswürdigkeit einstuft (sehr niedrig, niedrig, moderat oder hoch). Im Fall des aktuellen Rapid Reviews stufen die Autoren die Vertrauenswürdigkeit der Evidenz aufgrund der zahlreichen Limitationen als niedrig bis sehr niedrig ein. Dies bedeutet, dass sich die berechneten Effekte mit großer Wahrscheinlichkeit noch substantiell von den wahren Effekten im echten Leben unterscheiden – sie könnten in Wirklichkeit sowohl deutlich stärker oder schwächer ausfallen. Der einzige Weg, diese Unsicherheit zu reduzieren, ist es, jetzt während der Krise weltweit Daten zu sammeln und Studien durchzuführen, die den Effekt von Quarantäne im Kontext von COVID-19 untersuchen.

Was bedeuten diese Ergebnisse nun für unseren Alltag, der sich in Zeiten von COVID-19 so dramatisch verändert hat? „Die aktuelle Evidenz zu Quarantänemaßnahmen hat sicher nicht die Aussagekraft, die wir uns wünschen würden. Doch es gibt zwei Argumente, warum die momentan geltenden Quarantänemaßnahmen trotzdem sinnvoll erscheinen“, sagt die Erstautorin des Rapid Reviews, Barbara Nussbaumer-Streit. „Zum einen sind die Ergebnisse aller Studien in unserem Review konsistent und weisen auf einen günstigen Effekt von Quarantäne im Verbund mit anderen Maßnahmen hin. Zum anderen ist die Rationale hinter diesen Maßnahmen wissenschaftlich plausibel: Es ist logisch nachvollziehbar, dass Menschen, die sich mit recht hoher Wahrscheinlichkeit infiziert haben, den Kontakt mit nicht infizierten Menschen meiden sollten, um die Virus-Ausbreitung somit einzudämmen.“

Jetzt sei es entscheidend, so Nussbaumer-Streit, die Krankheitsdynamik von COVID-19 so schnell wie möglich genauer zu erforschen, um beispielsweise eine genauere Vorstellung zu bekommen von der tatsächlichen Verbreitung des Virus in der Bevölkerung oder des wahren Risikos für Infizierte, an COVID-19 zu sterben. Solche grundlegenden Kennzahlen können kurzfristig helfen, die Modelrechnungen zu aktualisieren und die Auswirkungen von Maßnahmen besser abschätzen zu können. Langfristig brauche es gut durchgeführte Beobachtungsstudien, die die Wirksamkeit von Quarantäne und anderen Maßnahmen zur Eindämmung von COVID-19 bewerten. „Verschiedene Länder auf der ganzen Welt haben Kombinationen von Prävention- und Kontrollmaßnahmen mit unterschiedlicher Intensität und Geschwindigkeit eingeführt. Diese sollten laufend evaluiert werden. Ein Vergleich der Wirksamkeit dieser Strategien wird uns helfen, uns mit besserer Evidenz auf künftige Pandemien vorzubereiten.“

Text: Barbara Nußbaumer-Streit und Georg Rüschemeyer

Cochrane Crowd in Zeiten von COVID-19: jetzt mitmachen

Thu, 04/02/2020 - 10:40

Quarantäne, Ausgangssperren, Kontaktverbote – aufgrund der COVID-19-Krise gilt für Menschen, die nicht in sogenannten kritischen Berufen arbeiten, im Augenblick weltweit das Gleiche: Abstand halten und, wenn es irgendwie geht, zuhause bleiben. Wir haben einen Tipp, wie Sie sich von zuhause aus einer interessanten und sinnvollen Aufgabe widmen und dabei die Arbeit von Cochrane unterstützen können.

Weltweit ist zurzeit räumliche Distanzierung von unseren Mitmenschen angesagt. Sie soll ein weiteres Ausbreiten des Coronavirus verhindern. Um Abstand voneinander zu halten, bleiben viele Menschen zuhause, entweder weil sie die Möglichkeit haben Heimarbeit zu leisten, oder weil sie ihre Arbeit in Zeiten der weltweiten COVID-19-Pandemie nicht ausüben können. Diese Situation ist verständlicherweise für viele Menschen beunruhigend. Viele möchten gerne mehr tun als Abstand halten und Hände waschen, am liebsten irgendwie persönlich etwas zur Bekämpfung des Virus beitragen. Aber wie?

Cochrane Crowd ist eine Plattform, auf der Menschen aus aller Welt Cochrane bei seiner Kernaufgabe unterstützen können, die bestmögliche Evidenz zu Fragen der Gesundheitsversorgung in Cochrane Reviews zusammenzuführen. Als Bürgerwissenschaftler („Citizen Scientist“) hilft man in der Cochrane Crowd bei der Identifizierung von Studien, die für künftige Cochrane Reviews relevant sein könnten – und hat dabei noch einen spannenden Zeitvertreib.

Um Menschen aus aller Welt – auch gerade jetzt in Pandemiezeiten – auf diese Möglichkeit aufmerksam zu machen, hat Cochrane eine Serie von sogenannten „Cochrane Crowd Challenges“, initiiert. Das Ziel dieser Challenges ist es, dass alle Interessierten in einer vorgegebenen Zeit zusammen Studien auf bestimmte Kriterien hin untersuchen.

Was ist die Cochrane Crowd?

Im März 2014 gründete Cochrane eine Online-Plattform, auf der Laien Cochranes wissenschaftliche Arbeit tatkräftig dadurch unterstützen können, dass sie randomisierte, kontrollierte Studien (kurz: RCTs) von anderen Studien-Typen unterscheiden lernen und identifizieren können.

RCTs sind die wichtigste Datenquelle für Cochrane Reviews. Das Problem dabei: Jahr für Jahr erscheinen große Mengen an Studien! Beim Durchsuchen dieser enormen Menge auf der Suche nach denjenigen Studien, die für Cochrane Reviews relevant sein könnten, helfen sowohl computerbasierte Algorithmen als auch Menschen, die die Studien „von Hand“ als RCTs identifizieren. Hier kommt das sogenannte „Screening in der Cochrane Crowd“ ins Spiel: Jede Studie wird unabhängig voneinander von vier Mitgliedern der Cochrane Crowd begutachtet. Sind sich alle vier einig, dass es sich bei der Arbeit um einen RCT handelt, landet diese im Cochrane Central Register of Controlled Trials (kurz: CENTRAL), der zentralen Studien-Datenbank von Cochrane. Die dort enthaltenen RCTs sind für zukünftige systematische Reviews von besonderer Wichtigkeit.

In der Cochrane Crowd kann jeder zum „Bürgerwissenschaftler“ werden und in der Wissenschaft einen wichtigen Beitrag leisten. Einzige Voraussetzung ist ein gutes Leseverständnis auf Englisch. Mehr über Cochrane Crowd erfahren Sie in unserem Artikel Cochrane Crowd: Mitmachen erwünscht.

Die “COVID-19 Cochrane Crowd Challenge”

Gerade jetzt braucht Cochrane Ihre Hilfe. Es müssen Studien identifiziert werden, bei denen es sich um RCTs handelt oder die von RCTs berichten, – oder, um das Ganze in Jargon von Cochrane auszudrücken: Wir – d. h. Cochrane – brauchen Ihre Hilfe dabei, RCTs zu „screenen“.

Deshalb haben wir über die nächsten Wochen eine Reihe von „Mini Challenges“ organisiert – d. h. bestimmte Zeitfenster festgelegt, in denen Citizen Scientists aus aller Welt zeitgleich und somit GEMEINSAM – wenn auch räumlich distanziert im Internet – nach RCTs screenen. Diese Screenings könnten von großer Bedeutung für Wissenschaftler in dieser Zeit sein. Während der ersten Screening-Runden geht es darum, RCTs aus CINAHL, einer der größten Datenbanken für Krankenpflege und verwandte Gesundheitsbereiche, zu identifizieren. Danach werden sich die Aufgaben spezifischer auf die Identifizierung und Beschreibung der neuesten Studien zu COVID-19 oder zu Interventionen im Zusammenhang mit ähnlichen Infektionskrankheiten konzentrieren.

Wie läuft das gemeinsame Screening ab?

Es wird jede Woche ein dreistündiges Screening-Zeitfenster geben. Die Zeitfenster werden sich wöchentlich ändern, um sicherzustellen, dass Menschen aus jeder Zeitzone eine Chance haben, am Screening teilzunehmen.

Die erste Runde fand am Montag, dem 30. März, um 10:00 Uhr GMT (d. h. 11:00 Uhr deutscher Zeit bzw. MEZ) statt. Die nächste ist am Dienstag, 7. April, um 12:00 Uhr GMT (13:00 MEZ). Weitere Termine (MEZ):

  • Dienstag, 7. April: 13:00
  • Dienstag, 14. April: 11:00
  • Montag, 20. April: 9:00
  • Mittwoch, 29 April: 7:00
  • Donnerstag, 7. Mai: 14:00
Was brauche ich, um teilzunehmen?

Um an den Cochrane Crowd Challenges teilzunehmen wird absolut kein Fachwissen gefordert! Jedoch ist ein solides Leseverständnis in Englisch gefragt und die Bereitschaft zu lernen, wie Sie wesentliche Studientypen unterscheiden können. Alles, was Sie dazu wissen müssen, erfahren Sie, wenn Sie sich auf der Cochrane Crowd Plattform angemeldet und eingeloggt haben.

Wie kann ich mich registrieren?

Auf der Hompage der Cochrane Crowd Plattform wählen Sie entweder Login (wenn Sie sich schon einmal bei der Cochrane Crowd angemeldet haben) oder Signup, falls Sie sich zum ersten Mal registrieren. Nach einer kurzen Einführung mit direktem Feedback können sie dann direkt am Challenge teilnehmen!

Wir wünschen Ihnen viel Freude beim Screenen, und danken Ihnen, dass Sie Cochrane und die Wissenschaft mit ihrer Zeit unterstützen!

Bis bald in der Cochrane Crowd!

Text: Anne Borchard, Andrea Puhl, Georg Rüschemeyer

Kurzvideos über Grundlagen der Evidenzbasierten Medizin: Die Literatursuche

Thu, 03/26/2020 - 08:44

Wie macht man eine systematische Literatursuche? Wie interpretiert man das „Relative Risiko“? Was sind häufige Fehlerquellen in Studien? Das sind wichtige Fragen, die auftauchen, wenn man evidenzbasiert arbeiten will. Wir versuchen Grundlagen der Evidenzbasierten Medizin in einer Serie von Kurzvideos zu erklären.

Auch wenn der Schwerpunkt unseres Blogs meist auf Erkenntnissen aus Cochrane Reviews liegt, setzten wir gerne immer wieder mal einen Methodenschwerpunkt. In den nächsten Wochen stellen wir hier eine Serie von Kurzvideos vor, die Grundlagen der evidenzbasierten Medizin erklären. Wir haben uns bemüht dies möglichst leicht verständlich umzusetzen.

Die Videos wurden von Cochrane Österreich in Kooperation mit dem Department für Evidenzbasierte Medizin und Evaluation erstellt. Aktuell besteht die Serie aus 6 Videos.

Grundlagen der systematischen Literatursuche

Der erste Teil der Serie bietet eine kurze Einführung in die Welt der systematischen Literaturrecherche – einem Eckpfeiler gut durchgeführter systematischer Übersichtsarbeiten.

Das erste Video fasst die Grundlagen einer systematischen Literatursuche zusammen. Dabei werden die vier wichtigsten Schritte, die einen transparenten und nachvollziehbaren Suchprozess gewährleisten sollen, erläutert (Vorbereitung, Datenbank-Suche, zusätzliche Informationsquellen, Dokumentation). Um möglichst alle relevanten Studien zu finden ist, neben einer gut durchdachten, klaren Fragestellung, das Durchsuchen von zumindest zwei bibliographischen Datenbanken obligatorisch. Zu einer guten systematischen Literatursuche gehören daneben auch die Suche nach zusätzlichen Informationsquellen, wie das Sichten von Referenzlisten, das Durchforsten von Studienregistern oder das Kontaktieren von Expertinnen und Experten sowie die sorgfältige Dokumentation aller Suchschritte.



Im Zweiten Video wird erklärt wie man sogenannte Boolesche Operatoren (AND; OR; NOT) zum Verknüpfen von Suchbegriffen richtig und effizient verwendet. Das dritte Video geht auf den richtigen Einsatz von Schlagwörtern, häufig als MESH-Terms bekannt, ein.





Text: Barbara Nußbaumer-Streit, Claudia Christof

COVID-19: Seife und weitere Hygienemaßnahmen – Evidenz aus Cochrane Reviews

Fri, 03/20/2020 - 12:49

Seit Anfang des Jahres breitet sich weltweit ein neues Coronavirus (SARS-CoV-2) aus, das die Erkrankung COVID-19 (Corona virus disease 2019) auslösen kann. Diese verläuft in der Mehrzahl der Fälle mild, kann jedoch auch zu lebensbedrohlichen Komplikationen wie einer schweren Lungenentzündung führen. Inzwischen nehmen die Infektionsfälle mit SARS-CoV-2 weltweit rasant zu – so auch in den deutschsprachigen Ländern. Ziel der mehr und mehr ins öffentliche Leben einschneidenden Gegenmaßnahmen ist es, den zeitlichen Verlauf der Ausbreitung so zu verlangsamen, dass die Gesundheitssysteme mit der Versorgung von PatientInnen mit schweren Krankheitsverläufen nicht überlastet werden. Dafür gilt es, Infektionsketten wo irgend möglich zu unterbrechen.

Wie kann jeder Einzelne dazu beitragen? Die generellen Empfehlungen von Fachleuten sind weitgehend einheitlich (siehe Linksammlung am Ende dieses Blogbeitrags). Da ist zum einen das Social Distancing. Gemeint ist die rein räumliche Distanzierung von unseren Mitmenschen, um ein Überspringen der Infektion zu verhindern, also: Ansammlungen meiden und einen individuellen Mindestabstand von anderthalb Metern einhalten.

Der andere wichtige Punkt ist die individuelle Hygiene. SARS-CoV-2 verbreitet sich wie auch Grippe- oder Erkältungsviren vor allem durch Tröpfcheninfektionen, also durch das Einatmen infektiöser Tröpfchen, wie sie beim Husten oder Niesen entstehen. Der andere wichtige Infektionsweg sind vermutlich sogenannte Schmierinfektionen. Sie nehmen den Umweg durch den Kontakt mit durch Viruspartikel verunreinigten Oberflächen. Wenn die Viren dann auf die Hand, von dort in Mund oder Augen und schließlich in die Atemwege gelangen, können sie dort zur Infektion führen.

Gegen eine direkte Tröpfcheninfektion hilft vor allem räumlicher Abstand. Schmierinfektionen lassen sich darüber hinaus durch das Befolgen einfacher Hygienetipps vermeiden (Quelle: www.infektionschutz.de ):

• Vermeiden Sie Berührungen (z. B. Händeschütteln oder Umarmungen), wenn Sie andere Menschen begrüßen oder verabschieden.
• Halten Sie die Hände vom Gesicht fern – vermeiden Sie es, mit den Händen Mund, Augen oder Nase zu berühren.
• Waschen Sie regelmäßig und ausreichend lange (mindestens 20 Sekunden) Ihre Hände mit Wasser und Seife – insbesondere nach dem Naseputzen, Niesen oder Husten.
• Niesen oder husten Sie in die Armbeuge oder in ein Taschentuch – und entsorgen Sie das Taschentuch anschließend in einem Mülleimer mit Deckel.
• Halten Sie ausreichend Abstand zu Menschen, die Husten, Schnupfen oder Fieber haben – auch aufgrund der andauernden Grippe- und Erkältungswelle

Die in den Medien und Informationsseiten seit Wochen allgegenwärtige Aufforderung zum Händewaschen entspricht dem, was Infektionsmediziner predigen, seit Ignaz Semmelweis Mitte des 19. Jahrhunderts erstmals die Bedeutung guter Handhygiene für den Infektionsschutz nachwies.

Was genau geschieht beim Händewaschen? Seife besteht aus langkettigen Molekülen, deren bipolarer Charakter ihre Waschwirkung begründet. Während sich das eine Ende des Moleküls bevorzugt an Fett ansetzt, zieht sein anderes Ende Wasser an. Die Seifenmoleküle spielen so den Vermittler zwischen fettigem Schmutz und Wasser, die umhüllen die Schmutzpartikel und bringen sie in Lösung. Das gilt auch für Viren und Bakterien mit ihren aus Fettsäuren aufgebauten Hüllen: Seife zerstört diese Hülle und macht es leichter, die Reste von der Haut zu waschen.

Einem Holzhammer gleicht die Wirkung von hochprozentigem Alkohol auf Viren und Bakterien. Das Lösungsmittel denaturiert deren Proteine, die Erreger lösen sich unter Alkoholeinfluss schlich in ihre Bestandteile auf. Weil Seife und Alkohol derart rabiat wirken, können Erreger keine Resistenzen dagegen ausbilden. Das ist bei einigen antimikrobiellen Zusätzen, mit denen Seifenhersteller gerne werben, vermutlich anders. Daher gilt: Reine Seife ist auch ohne Zusatz antimikrobiell genug. Wichtiger ist, dass man sich die Hände oft genug, zum richtigen Zeitpunkt und wirklich gründlich wäscht. Informationen hierzu fasst die Bundeszentrale für gesundheitliche Aufklärung hier zusammen: https://www.infektionsschutz.de/haendewaschen

Dass eine gute Handhygiene mit Seife oder ergänzend auch mit alkoholbasierten Desinfektionsmitteln wirklich hilft, Krankheitserreger aufzuhalten, ist nicht nur plausibel, sondern durch zahlreiche Studien auch gut belegt. So führte die Anweisung, sich mindestens fünfmal am Tag die Hände zu waschen, in einer großen Studie (ca. 20.000 Personen-Jahre) mit amerikanischen Rekruten zu einem Rückgang von Arztbesuchen wegen Atemwegsbeschwerden um 45 Prozent.
Auf eine ähnlich hohe Wirksamkeit gründlicher Handhygiene zum Schutz vor viralen Atemwegsinfektionen kommt auch ein Cochrane Review aus dem Jahr 2011, in den insgesamt (also auch zu andern Hygienemaßnahmen) 67 Studien eingingen.

Dieser Review wird von Autoren gegenwärtig auf den neuesten Stand gebracht. Er ist Teil einer vor kurzem in der Cochrane Library veröffentlichten Sonderkollektion (Special Collection) von Cochrane Reviews, die Evidenz zu den Bereichen Prävention und Infektionskontrolle in Alltag und im Krankenhaus zusammenstellen.
Die momentan neun Reviews dieser Sonderkollektion wollen wir im zweiten Teil dieses Blogbeitrags kurz vorstellen.

Titel und Kurzzusammenfassungen sind in der Cochrane Library auch auf Deutsch verfügbar. Sie werden automatisch angezeigt, wenn man die Sprachauswahl oben rechts auf der Webseite auf „deutsch“ stellt. Angaben zur Vertrauenswürdigkeit der Evidenz zu individuellen Maßnahmen folgen wo möglich dem vierstufigem GRADE-Schema, in dem die Vertrauenswürdigkeit sehr niedrig, niedrig, moderat oder hoch bewertet werden kann (vgl. https://bestpractice.bmj.com/info/toolkit/learn-ebm/what-is-grade/).

Sonderkollektion der Cochrane Library zu Prävention und Infektionskontrolle Physikalische Interventionen zur Unterbrechung oder Verringerung der Ausbreitung von Atemwegsviren

Worum es ging:
Dieser Review prüft die die Wirksamkeit physischer (also nicht-medikamentöser) Maßnahmen zur Unterbrechung oder Verringerung der Ausbreitung von Atemwegsviren. Zu den untersuchten Interventionen gehören Handhygiene, Isolation und Quarantäne, körperliche Distanz und Screenings an Grenzübergängen und Flughäfen. Letzte Aktualisierung: 2011, Aktualisierung in den nächsten Tagen.

Vertrauenswürdigkeit der Evidenz:
Variabel und noch nicht nach GRADE eingeteilt, siehe Diskussion

Fazit der Autoren:
„Einfache und kostengünstige Interventionen sind nützlich, um die Übertragung von epidemischen Atemwegsviren zu reduzieren. Doch die routinemäßige und langfristige Durchführung einiger der untersuchten Interventionen könnte ohne eine akute Bedrohung durch eine Epidemie schwierig sein.“ Konkret fanden die Autoren Evidenz für folgende Maßnahmen, die am besten kombiniert werden sollten:

  • Häufiges, gründliches Händewaschen.
  • Barrieremaßnahmen wie Handschuhe, Schutzkleidung und Atemmasken im Umgang mit vermutlich oder bestätigt Infizierten
  • Isolierung von Verdachtsfällen

Die Autoren kommen auf Basis von Daten zu Influenza und der SARS-Epidemie von 2002/2003 zu dem Schluss, dass man dabei insbesondere auf gute Hygiene bei Kindern achten sollte, da diese Infektionen vermutlich besonders stark weitergeben. Insgesamt stellen die Autoren für einige der Maßnahmen (zum Beispiel Massenscreenings der Körpertemperatur an Flughäfen) aber einen Mangel an aussagekräftigen Studienergebnissen fest.

Interventionen zur Verbesserung der Umsetzung der Handhygiene bei der Patientenversorgung

Worum es ging:
Handhygiene ist eine effektive Maßnahme, um Mitarbeiter der Gesundheitsberufe vor Infektionen zu schützen.
Welche Strategien dazu führen, dass Mitarbeiter der Gesundheitsberufe die Empfehlungen für Handhygiene (Händewaschen mit Wasser und Seife oder das Benutzen von alkoholischen Hand-Desinfektionsmitteln oder beides) verstärkt umsetzen, war die Fragestellung dieses aktualisierten Reviews. Beispiele für untersuchte Strategien sind ein besseres Angebot an Wasch- oder Desinfektionsmöglichkeiten oder Schulungen des Personals. Letzte Aktualisierung: 2017.

Vertrauenswürdigkeit der Evidenz nach GRADE:
Sehr niedrig bis moderat

Fazit der Autoren:
Da die Vertrauenswürdigkeit der Ergebnisse, die Interventionen und auch die Forschungsmethoden sehr variierten, besteht nach wie vor ein dringender Bedarf an methodisch robuster Forschung, um die Wirksamkeit solcher Interventionen genau zu ermitteln. Außerdem wird mehr Forschung benötigt, um herauszufinden, welche Komponenten oder Kombinationen von Strategien in einem bestimmten Kontext am wirksamsten sind.

Verbesserung der Einhaltung von Maßnahmen der Standardhygiene zur Vermeidung von Infektionen im Rahmen der Gesundheitsversorgung

Worum es ging:
Der Review geht der Frage nach, welche Strategien bei Mitarbeitern der Gesundheitsberufe die Umsetzung von Maßnahmen der Standardhygiene fördern können, um Infektionen in Pflegebereichen zu verringern. Standardhygiene schließt zum Beispiel das Tragen von persönlicher Schutzausrüstung (Gesichtsmasken, Handschuhe) oder der sicheren Handhabung von Nadeln ein. Letzte Aktualisierung: 2018.

Vertrauenswürdigkeit der Evidenz nach GRADE:
Niedrig bis moderat, aber nur wenige Studien

Fazit der Autoren:
Die untersuchten Interventionen, die betrachteten Endpunkte, sowie die Vertrauenswürdigkeit der Evidenz variieren stark. Außerdem haben viele Studien ein hohes Risiko für Bias. All das macht es schwierig, Schlussfolgerungen über die Wirksamkeit der Interventionen zu ziehen. Mehr und methodisch robustere Forschung ist vonnöten.

Persönliche Schutzausrüstung zur Vorbeugung hochinfektiöser Erkrankungen durch Exposition gegenüber kontaminierten Körperflüssigkeiten bei Gesundheitspersonal

Worum es ging:
Bei hochinfektiösen Epidemien wie die des Ebola-Virus oder dem schweren akuten Atemwegssyndrom (SARS) sind Mitarbeiter der Gesundheitsberufe aufgrund ihres Kontakts mit kontaminierten Körperflüssigkeiten der Patienten einem wesentlich höheren Infektionsrisiko ausgesetzt als die allgemeine Bevölkerung. Kontaktvorkehrungen durch persönliche Schutzausrüstung (PSA) können das Risiko verringern. Dieser Review prüfte, welche Art von Ganzkörper-PSA und welche Methode des An- und Ablegens von PSA das geringste Kontaminationsrisiko für Beschäftigte im Gesundheitswesen birgt, sowie Schulungsmethoden, um die Einhaltung der PSA-Protokolle zu verbessern. Letzte Aktualisierung: 2019

Vertrauenswürdigkeit der Evidenz nach GRADE:
Sehr niedrig

Fazit der Autoren:
Die Autoren fanden Evidenz von zumeist geringer Vertrauenswürdigkeit für den Nutzen einer Reihe von Maßnahmen wie spezieller Schulungen und Anleitungen zum An- und Ablegen von PSA, sowie für bestimmte Varianten von PSA. Zudem fanden sie Hinweise darauf, dass atmungsaktivere, angenehmer zu tragende Schutzkleidung vermutlich ähnlich gut vor Kontamination schützt, wie vollkommen dichtes Material.
Allerdings stehe alle diese Ergebnisse unter dem Vorbehalt, dass sie auf Evidenz von geringer oder sehr geringer Vertrauenswürdigkeit basieren. Die Autoren fordern daher mehr randomisierte, kontrollierte Studien.

Verhaltensinterventionen, um den Gebrauch von Atemschutzgeräten bei Arbeitnehmern zu fördern

Worum es ging:
An zahlreichen Arbeitsplätzen enthält die Luft gesundheitschädliche Substanzen. Diese Substanzen könnten Bakterien und Viren sein, oder verschiedene Abgase ,Rauch, Staub oder Partikel wie z.B. Asbest oder Getreideabrieb. Je nachdem, was und wie viel davon eingeatmet wird, können die gesundheitlichen Folgen gering bis lebensbedrohlich sein. Die Folgen reichen von Reizgefühlen bis hin zu Kurz‐ und Langzeiterkrankungen wie Krebs. An zahlreichen Arbeitsplätzen werden deshalb Atemschutzausrüstungen (ASA) verwendet.. Unterschiedliche Methoden wurden eingeführt, um Arbeitnehmer in der wirksamen Anwendung einer ASA zu schulen. Jedoch ist es unklar, wie gut diese funktionieren. Dieser Review untersuchte Interventionen, die Arbeitnehmer ermutigen, eine ASA richtig oder öfter zu gebrauchen. Letzte Aktualisierung: 2016

Vertrauenswürdigkeit der Evidenz nach GRADE:
Sehr niedrig bis niedrig

Fazit der Autoren:
Die Autoren fanden Evidenz von niedriger bis sehr niedriger Vertrauenswürdigkeit, dass Verhaltensinterventionen die Arbeitnehmer nicht ermutigen, ASA richtig oder öfter anzuwenden. Wahrscheinlich werden sich die Schlussfolgerung ändern, wenn neue Studien veröffentlicht werden. Wir benötigen bessere Studien, die sich auf die Wirksamkeit der verschiedenen Interventionen konzentrieren.

Chlorhexidin‐Bäder bei schwerkranken Patienten zur Vorbeugung von im Krankenhaus erworbenen Infektionen

Worum es ging:
Eine im Krankenhaus erworbene Infektion ist ein häufiges und potentiell gefährliches Ereignis in der Patientenversorgung. Patienten auf der Intensivstation, die mechanisch beatmet werden, sind einem besonders hohem Infektionsrisiko ausgesetzt. Chlorhexidin ist ein kostengünstiges, weit verbreitetes Desinfektionsmittel. Es kann zum Baden von schwerkranken Patienten eingesetzt werden, um Bakterien abzutöten und die Verbreitung von im Krankenhaus erworbenen Infektionen zu reduzieren. Ob dies einen Nutzen hat war Fragestellung des Reviews. Letzte Aktualisierung: 2019

Vertrauenswürdigkeit der Evidenz nach GRADE:
Sehr niedrig

Fazit der Autoren:
Aufgrund der verfügbaren Evidenz von sehr niedriger Vertrauenswürdigkeit ist nicht klar, ob das Baden mit Chlorhexidin im Krankenhaus erworbene Infektionen, die Sterblichkeit oder die Aufenthaltsdauer auf der Intensivstation vermindert oder ob die Anwendung von Chlorhexidin zu mehr Hautreaktionen führt.

Infektionskontrollstrategien zur Verhinderung der Übertragung von Methicillin-resistenten Staphylococcus aureus (MRSA) in Pflegeheimen für ältere Menschen

Worum es ging:
Ältere Menschen in Pflegeheimen sind einem erhöhten Infektionsrisiko durch Meticillin-resistente Staphylococcus aureus (MRSA) ausgesetzt. Strategien zur Prävention und Kontrolle von Infektionen sind wichtig, um die Übertragung von MRSA zu verhindern. Ziel dieses Reviews war es, die Auswirkungen von Präventions- und Kontrollstrategien zur Verhinderung der Übertragung von MRSA in Altenheimen zu ermitteln. Letzte Aktualisierung: 2013

Vertrauenswürdigkeit der Evidenz nach GRADE:
Nicht anwendbar, es wurde nur eine Studie gefunden

Fazit der Autoren:
Es besteht ein Mangel an Studien, um die Auswirkungen von Strategien zur Prävention und Kontrolle MRSA-Infektionen in Pflegeheimen zu ermitteln. Es sollten in Pflegeheimen Studien durchgeführt werden, an denen Bewohner und Personal beteiligt sind, um diejenigen Interventionen zu testen, die speziell für diese Umgebung entwickelt wurden.

Weiterführende Informationen für die breite Öffentlichkeit zur aktuellen Pandemie von SARS-CoV-2 und zu allgemeinen Verhaltensempfehlungen Aktuelle Forschungsergebnisse zu SARS-CoV-2/COVID-19

Mehrere führende Wissenschaftsjournale haben eigene Portale zu SARS-CoV-2/COVID-19 eingerichtet, in denen sie aktuelle Studien zur Verfügung stellen (in der Regel free access).

Text: Andrea Puhl und Georg Rüschemeyer

Anmerkung: Aus Gründen der besseren Lesbarkeit wird auf die gleichzeitige Verwendung männlicher und weiblicher Sprachformen verzichtet. Sämtliche Personenbezeichnungen gelten gleichermaßen für alle Geschlechter.

Nützliche patientenrelevante Forschung

Thu, 03/12/2020 - 09:00

Forscherinnen und Forscher kämpfen um begrenzte Fördermittel, um ihre Arbeit zu finanzieren. Ein Nebenprodukt dieses Wettkampfs sind Studien, die kaum zum Erkenntnisgewinn beitragen oder sogar unnötig sind. Solche Studien werden unter dem Begriff „research waste“ zusammengefasst. Ein spannendes Thema von dem ich beim EBM-Kongress in Basel erstmals gehört habe. In diesem Blog-Beitrag möchte ich einen Überblick über dieses wichtige Thema geben.

Patientenorientierte Forschung

Grundsätzlich ist Forschung etwas Tolles. Neue Erkenntnisse werden gewonnen und Lösungen für Probleme gefunden. Die Welt der Forschung kämpft aber auch mit einigen Herausforderungen. Wissenschaftlerinnen und Wissenschaftler nutzen zur Finanzierung ihrer Arbeit teilweise Mittel der Industrie. Obwohl die Absichten solcher Forschungsförderung gut sein mögen, kann dies dazu führen, dass Ergebnisse nicht transparent berichtet werden. Als wichtiges Beispiel muss hier die Lebensmittelindustrie genannt werden, in der industrielle Fördergeber die Erkenntnisse der Ernährungswissenschaft manipuliert haben. So versuchte die Zuckerindustrie, den Zusammenhang zwischen Zucker und koronare Herzkrankheit (KHK) in den 1950er Jahren zu verharmlosen und den Fokus auf Fette zu setzen, wie die Publikation „Sugar Industry and Coronary Heart Disease Research“ von Cristin E Kearns et al. aus dem Jahre 2016 beschreibt.

Die Absichten der medizinischen Forschung sind unser Verständnis zu erweitern und die Gesundheit von Menschen zu fördern, jedoch nicht für eine Gewinnmaximierung der Unternehmen zu sorgen.

Aber was genau ist nützliche Forschung? Und wie setzt man sie um? Die Definition von nützlicher Forschung variiert je nach Forschungsfeld, Förderprogrammen, Organisationen und Unternehmen der Branche. Für Pharmakonzerne kann nützliche Forschung bedeuten, dass in der letzten Phase der pharmazeutischen Entwicklung Versuche an Menschen durchgeführt werden. Für Krankenhäuser wiederum, kann nützliche Forschung sein, die unterschiedlichen Methoden der Patientenbehandlung zu untersuchen. Für Patientinnen und Patienten, kann nützliche Forschung eine wegweisende klinische Studie für eine mögliche Heilung ihrer Krankheit darstellen. Die subjektive Natur des Begriffes „nützliche Forschung“, gemischt mit dem breiten Umfang des persönlichen Interesses macht es zu einem schwer definierbaren Begriff. Wie entsteht ein subjektiv, wichtiges Forschungsprojekt, das von einem Individuum definiert wird und später auch tatsächlich für die Patientinnen und Patienten nützlich ist? Zur Beantwortung von Fragen wie dieser und vielen ähnlichen, wurde der Begriff „patientenorientierte Forschung“ entwickelt. Diese Form der Forschung stellt sicher, dass jeder Schritt eines Forschungsvorhabens das beste Ergebnis für die Patientinnen und Patienten im Blick hat. Hervorgehoben wurde dies auf dem EBM-Kongress in Basel. Patientenorientierte Forschung bezieht patientenrelevante Endpunkte ein – schaut also auf die Ergebnisse, die für Patientinnen und Patienten spürbar und wichtig sind. Ziel patientenorientierter Forschung ist es die Patientenversorgung zu verbessern und gleichzeitig die Belastung für das Gesundheitssystem klein zu halten. Patientinnen und Patienten sollten bereits ab der Planung einer Studie einbezogen werden, damit sichergestellt ist, dass die Studie patientenrelevante Aspekte untersucht und für Patientinnen und Patienten nützlich bleibt.

Wie können wir „research waste“ reduzieren?

Der erste Schritt, um die Gesamteffizienz des Forschungsprozesses zu verbessern, ist es “research waste“ zu reduzieren. Von sogenanntem Forschungsabfall spricht man, wenn Studienergebnisse keine wesentliche Anwendung auf dem Gebiet haben, also quasi nutzlos sind. In seiner Keynote während des jüngsten 2020 EbM-Kongresses in Basel, hat Dr. Treweek von der Universität Aberdeen in einer Skizze beschrieben, wie man die Produktion von „research waste“ minimieren kann. Er rief dazu au:

Wissen was bereits geforscht wurde: Betreiben Sie Forschung vor Ihrer Forschung. Die Sammlung von bereits veröffentlichten Studien und systematischen Übersichten können unbeabsichtigte Datenduplizierung verhindern und so werden keine Ressourcen vergeudet.

  1. Wissen was bereits geforscht wurde: Betreiben Sie Forschung vor Ihrer Forschung. Die Sammlung von bereits veröffentlichten Studien und systematischen Übersichten können unbeabsichtigte Datenduplizierung verhindern und so werden keine Ressourcen vergeudet.
  2. Design für die Nutzerinnen und Nutzer: Fragen Sie sich, wer und was bin ich, dass ich diese Forschung verfolge. Stellen Sie sicher, was Sie erreichen wollen, und wen Ihre Forschung erreichen soll. Gibt es eine Notwendigkeit? Wird es jemandem helfen? Im Vergleich zu vorherigen systematischen Übersichten für die die klinische Relevanz bereits gewährleistet ist, ist Ihre Arbeit ebenfalls klinisch relevant für Ihre Zielgruppe?
  3. Denken Sie über den Prozess nach: Sind Sie sich sicher, dass das beabsichtigte Forschungsvorhaben die effizienteste und beste Herangehensweise ist um die Forschungsfrage zu beantworten? Holen Sie sich Rat von Forscherinnen und Forschern, die ähnliche Studien bereits erstellt haben und fragen Sie nach einer zweiten Meinung bevor Sie Ihren Forschungsantrag stellen.
  4. Forschung ist Team Arbeit: Nur wenige sind Expertinnen bzw. Experten auf einem breiten Gebiet. Wissen, wann ein Thema über Ihr Spezialgebiet hinausgeht und ein anderes erreicht, ist wichtig.

Die Anwendung dieses Modells in der Forschungsplanung hilft zu verhindern, unnütze Forschung zu betreiben. Es soll uns ermutigen, unseren Vorschlag zu reflektieren und ermöglicht es uns, Patientinnen und Patienten bereits in den frühen Schritten der Planung zu integrieren. Dies schafft nicht nur relevante Forschung, sondern insbesondere patientenrelevante Forschung. Dadurch wird sichergestellt, dass die Forscherinnen und Forscher die Forschung nicht nur in einen patientenrelevanten Kontext setzten, sondern auch in einer patientenrelevanten Art und Weise planen.

Relevante Forschung in die Praxis bringen

Durchführung von patientenorientierter Forschung ist das verbindende Puzzlestück zwischen einer Forschungspublikation und deren Umsetzung im klinischen Kontext. Wenn die wissenschaftliche Gemeinschaft das patientenorientierte Forschungsmodell etabliert, wird nicht nur die Menge an nützlicher Forschung drastisch erhöht, sondern wahrscheinlich auch Verbesserungen der Patientenversorgung erreicht. Wenn dieses Forschungsmodell das Leben von nur einer Person verbessert, hat es bereits klinische Relevanz erreicht. Durch die Reduzierung von „research waste“ werden gleichzeitig auch Ressourcen frei, die für andere wichtige Forschungsinitiativen genutzt werden können.

Persönliches Fazit

Für mich als Medizinstudentin im zweiten Jahr war es spannend zu sehen mit welchen Herausforderungen und Hürden, sich Forscherinnen und Forscher beschäftigen müssen. Die Teilnahme am EBM-Kongress gab mir einen guten Einblick in die Welt der EBM. Vor dem Kongress nahm ich auch am Studierendentag teil. Dort trafen sich Studierende aus Deutschland, Schweiz und Österreich, um über Methoden der EBM zu lernen – auch hier lag der Fokus auf patientenrelevanter Forschung. Der Studierendentag war eine tolle Gelegenheit, um sich mit anderen Studierenden auszutauschen und zu vernetzen. Gleichzeitig bereitete er mich gut auf die Konferenz vor. Ich hoffe eines Tages nach meinem Studium meinen Beitrag zu leisten, dass Forschung relevant ist und die Praxis verbessert.

Text: Arianna Gadinger

Arianna Gadinger und Stina Øvstetun sind Medizinstudentinnen und erhielten von Cochrane Österreich und der Karl-Landsteiner-Privatuniversität ein Stipendium zur Teilnahme am Studierendentag und am EBM-Kongress in Basel

Es bleibt dabei: Nahrungsergänzung mit Omega-3-Fettsäuren schützt das Herz kaum

Wed, 03/04/2020 - 13:16

Der tägliche Löffel von widerlich schmeckendem Lebertran ist schon lange passé. Heute kommen Omega-3-Fettsäuren zumeist in Form kleiner Kapseln mit Fischöl, die man für ein paar Euro rezeptfrei im Drogeriemarkt kaufen kann. Doch wie viel Mehrwert hat es, zusätzliches Omega-3 in Kapselform einzunehmen? Das eben veröffentlichte Update des Cochrane-Reviews „Omega-3-Fettsäuren zur Primär- und Sekundärprävention von kardiovaskulären Erkrankungen“ sieht dafür nach wie vor wenig Evidenz. Ko-Autorin Lee Hooper von der englischen University of East Anglia erklärt die Ergebnisse in unserem Interview.

Dr. Hooper, erzählen Sie uns von diesem Cochrane-Review.

In der Öffentlichkeit ist der Glaube an die kardiovaskulären Vorteile von Omega-3-Fetten sehr groß. Die Aufnahme von langkettigen Omega-3-Fettsäuren in den USA durch Nahrungsergänzungsmittel ist höher als durch Lebensmittel. Aber die Ratschläge zur öffentlichen Gesundheit unterscheiden sich von Land zu Land. Das National Institute for Health and Clinical Excellence in Großbritannien ermuntert die Menschen, öligen Fisch zu essen (die natürliche Hauptquelle für langkettige Omega-3-Fettsäuren), rät aber von einer Supplementierung ab. Die American Heart Association in den USA empfiehlt ebenfalls den Verzehr von öligem Fisch und deutet darauf hin, dass auch eine Ergänzung erforderlich sein könnte. Wir waren an der Evidenz interessiert – sind Omega-3-Fette schützend und wenn ja, wie sehr schützen sie? Wir untersuchten die Auswirkungen von langkettigen Omega-3-Fettsäuren, die als fetter Fisch und als Nahrungsergänzungsmittel verabreicht werden. Zudem untersuchten wir die Auswirkungen von Alpha-Linolensäure (ALA, eine kurzkettige Omega-3-Fettsäure, die in Pflanzenölen enthalten ist), die als Nahrungsmittel oder Nahrungsergänzungsmittel verabreicht wird.

Es handelt sich hier um ein Update – was hat sich im Vergleich zum letzten Update von 2018 geändert?

Wir haben dieses Update durchgeführt, weil Ende 2018 und Anfang 2019 drei sehr große, über mehrere Jahre laufende Studien veröffentlicht wurden, die die Auswirkungen von Supplementen mit langkettigen Omega-3-Fettsäuren auf die Ergebnisse des Herz-Kreislauf-Systems untersucht haben. Diese erhöhten die Anzahl der Personen, die randomisiert für mindestens 12 Monate an relevanten Studien teilnahmen, um über 30 Prozent, mit dem Potential, die Ergebnisse zu verändern. Dieses Update umfasst nun 86 RCTs (randomisierte kontrollierte Studien) mit insgesamt 162.796 Teilnehmern, die für mindestens ein Jahr entweder langkettige Omega-3-Fettsäuren oder ALA einnahmen. Die Studien bewerteten die Mortalität oder eine Form von kardiovaskulären Erkrankungen. Die Einbeziehung weiterer Teilnehmer, von denen einige kardiovaskuläre Ereignisse erlebten, hat uns bessere Möglichkeiten gegeben, die Auswirkungen von Omega-3-Fettsäuren auf die kardiovaskuläre Gesundheit zu erkennen.

Von den 86 eingeschlossenen Studien hatten 28 ein geringes summarisches Risiko von Bias (hohe Vertrauenswürdigkeit der Evidenz). Die meisten Studien gaben Nahrungsergänzungsmittel; 19 Studien gaben Nahrungsergänzungsmittel mit mindestens drei Gramm pro Tag langkettigen Omega-3-Fettsäuren.

Der Review aus dem Jahr 2018 lieferte gute Evidenz dafür, dass die Einnahme von langkettigen Omega-3-Fettsäuren weder der Herzgesundheit noch dem Schlaganfall- oder Sterberisiko zugute kommt. Ist dies immer noch der Fall?

Wie in der vorherigen Version dieses Reviews deutet die Meta-Analyse darauf hin, dass eine Erhöhung der Zufuhr von langkettigen Omega-3-Fettsäuren wenig oder gar keinen Einfluss auf die Gesamtmortalität, die kardiovaskuläre Mortalität, kardiovaskuläre Ereignisse, Schlaganfall oder Arrhythmie hat.

Das aktuelle Update deutet jedoch darauf hin, dass eine erhöhte Einnahme langkettiger Omega-3-Fettsäuren die Sterblichkeit bei koronaren Herzerkrankungen und koronaren Ereignissen leicht verringern könnte. Diese Effekte waren sehr gering. 334 Personen müssten über mehrere Jahre hinweg vermehrt langkettige Omega-3-Fettsäuren einnehmen, damit eine Person nicht an einer koronaren Herzkrankheit stirbt. 167 Personen müssten mehr einnehmen, damit eine Person nicht ein Ereignis einer koronaren Herzkrankheit, zum Beispiel einen Herzinfarkt, erleidet.

Wir fragten uns, ob die Auswirkungen von langkettigen Omega-3-Fetten in längeren Studien oder in Studien mit höheren Dosen größer wären. Die Wirkungen unterschieden sich jedoch nicht nach Studiendauer oder Dosis in einer vorher geplanten Untergruppenbildung oder Meta-Regression.

Eine Erhöhung der langkettigen Omega-3-Fettsäuren hatte keine oder nur geringe Auswirkungen auf schwerwiegende unerwünschte Ereignisse, Fettleibigkeit, Lipide oder Blutdruck. Allerdings reduzierte sie Triglyceride um ca. 15% in einer dosisabhängigen Weise.

Wie sieht diese Effektgröße einer Number Needed to Benefit (NNTB) von 167 beziehungsweise 334 im Vergleich zu anderen Medikamenten aus, die in der Prävention von Herz-Kreislauf-Erkrankungen eingesetzt werden?

Simvastatin (ein lipidsenkendes Medikament aus der Gruppe der Statine) in der Sekundärprävention: In der 4S-Studie, an der Personen teilnahmen, die vor kurzem einen Herzinfarkt erlitten hatten, starben 8% der Teilnehmer, die Simvastatin einnahmen, aber 12% der Teilnehmer, die das Placebo einnahmen. Das bedeutet einen Unterschied von 4%, so dass der NNTB bei 25 lag. Fünfundzwanzig Personen mussten also etwa fünf Jahre lang Simvastatin einnehmen, um den Tod einer Person zu verhindern. Die meisten von uns entscheiden sich für die Einnahme von Statinen nach einem Herzinfarkt.

Statine in der Primärprävention: Die Zehnjahres-NNTBs für Statine in der Primärprävention liegen bei entsprechender Anwendung bei etwa 30. Dreißig Personen müssen etwa 10 Jahre lang ein Statin einnehmen, damit bei einer Person keine atherosklerotische Herz-Kreislauf-Erkrankung auftritt.

Ezetimibe (ein Cholesterinabsorptionshemmer) in der Sekundärprävention: Wenn 50 Personen mit akutem Koronarsyndrom zusätzlich zu einem Statin sieben Jahre lang Ezetimibe einnehmen, wird eine Person ein kardiovaskuläres Ereignis vermeiden.

Dies sind die Zahlen, die wir mit wirksamen Medikamenten in Verbindung bringen – NNTBs von 25 bis 50. Sehr viel mehr Menschen müssen eine langkettige Omega-3-Ergänzung einnehmen, um ein einzelnes koronares Herzkrankheitsereignis oder den Tod zu verhindern. Langkettige Omega-3-Fettsäuren (mit NNTBs von 167 beziehungsweise 334), sind viel weniger wirksam als diese Medikamente und fast alle Menschen, die diese Nahrungsergänzungsmittel einnehmen, werden nicht davon profitieren.

Haben sich die Schlussfolgerungen in Bezug auf fettem Fisch geändert? Schützt er unsere Herzen?

Leider haben wir keine zusätzlichen Studien gefunden, die die Menge an ölhaltigem Fisch, die die Teilnehmer gegessen haben, erhöht hätten. Das bedeutet, dass wir die Auswirkungen des vermehrten Verzehrs von öligem Fisch auf die Gesundheit des Herz-Kreislauf-Systems noch immer nicht vollständig verstehen. Fisch und Meeresfrüchte sind nährstoffreich und reich an einer Vielzahl anderer Nährstoffe (wie z.B. Vitamin D, Kalzium, Jod, Selen, Eiweiß), so dass sie auch ohne kardiovaskuläre Vorteile nützlich sind.

Welche Auswirkungen hat die vegetarische/vegane Version von Omega-3, ALA?

Eine Erhöhung der ALA-Aufnahme macht wahrscheinlich wenig oder keinen Unterschied in Bezug auf die Gesamtmortalität, die kardiovaskuläre Mortalität, die Mortalität bei koronaren Herzkrankheiten und die Ereignisse bei koronaren Herzkrankheiten. Eine erhöhte ALA-Zufuhr kann jedoch das Risiko von kardiovaskulären Krankheitsergebnissen und Herzrhythmusstörungen leicht verringern. Auch hier sind diese Auswirkungen gering: 500 Personen müssten ihre ALA-Zufuhr über mehrere Jahre hinweg erhöhen, um zu verhindern, dass eine Person ein CVD-Ereignis erleidet, und 91 Personen müssten die ALA-Zufuhr erhöhen, um zu verhindern, dass eine Person eine Arrhythmie erleidet.

Gibt es Pläne, diese Übersicht bald wieder zu aktualisieren?

Der Review muss aktualisiert werden, sobald weitere große und qualitativ hochwertige Studien über den Verzehr von ölhaltigem Fisch und/oder die Erhöhung der ALA-Aufnahme vorliegen. Wir hoffen, dass dies bald geschieht. Es laufen keine weiteren sehr großen Studien über langkettige Omega-3-Nahrungsergänzungsmittel, die eine automatische Aktualisierung auslösen werden, obwohl einige große Studien weitere Ergebnisdaten zur Verfügung stellen könnten.

Zum Original-Interview mit Dr. Lee Hooper auf Englisch. Text Adaptiert und übersetzt von Cochrane Deutschland.

Zum Review: Abdelhamid AS, Brown TJ, Brainard JS, Biswas P, Thorpe GC, Moore HJ, et al. Omega-3 fatty acids for the primary and secondary prevention of cardiovascular disease. Cochrane Database Syst Rev. 2020;Issue 2:CD003177. DOI: 10.1002/14651858.CD003177.pub5

Mehr über Cochrane Heart.

Anmerkung: Aus Gründen der besseren Lesbarkeit wird auf die gleichzeitige Verwendung männlicher und weiblicher Sprachformen verzichtet. Sämtliche Personenbezeichnungen gelten gleichermaßen für alle Geschlechter.

Cochrane Nutrition: das weite Feld der evidenzbasierten Ernährung

Thu, 02/27/2020 - 09:55

“Ernährung ist einer der wichtigsten Faktoren, die zur Entstehung von kardiovaskulären Erkrankungen beitragen und auf die wir einen direkten Einfluss haben“, so Solange Durão, Co-Direktorin von Cochrane Nutrition – des Cochrane-Felds zum Thema Ernährung. Dieser auf einem Interview mit Solange Durão basierende Artikel stellt die breitgefächerte Arbeit von Cochrane Nutrition vor und schließt unsere Serie zum Thema „Ernährung und kardiovaskulären Erkrankungen“ auf Wissen Was Wirkt ab.

„Der Mensch ist, was er isst“, schrieb einst der deutsche Philosoph Ludwig Feuerbach. Dass die Nahrung, die wir zu uns nehmen, eine umfassende Bedeutung für unser Sein hat, ist auch die Grundannahme von Cochrane Nutrition, dem Cochrane-Feld – (Cochrane Fachgebiet) für Evidenz rund um die Ernährung. Dabei geht es aber nicht um intellektuelle Nahrung, sondern ganz irdisch um den Einfluss der Ernährung auf unsere Gesundheit –auch auf die Entstehung von kardiovaskulären Erkrankungen.

„Die Arbeit von Cochrane Nutrition beschränkt sich nicht auf bestimmte Themen wie Herz-Kreislauf-Erkrankungen, sondern deckt ein breites Spektrum von ernährungsbezogenen Fragen ab“, erklärt Solange Durão, „sie reicht von Ernährungsmedizin bis hin zu Public Health-Themen rund um Ernährung“.

Zu den relevanten ernährungsbezogenen Reviews, so Durão, zählen alle Reviews, die eines der folgenden Themen abdecken:

  • Allgemeine Ernährung und Essgewohnheiten; Lebensmittel; angereicherte Lebensmittel, Nahrungsprodukte und Getränke, Nährstoffe und bioaktive Substanzen,
  • Erziehungs- und Bildungsinterventionen bezüglich Ernährung,
  • Alle eindeutig ernährungsbezogen Leitlinien, Programme oder unterstützenden Maßnahmen.

Was damit im Einzelnen gemeint ist, lässt sich auf der Webseite von Cochrane Nutrition nachlesen. Hier finden sich auch zahlreiche Reviews zu Ernährungsinterventionen und kardiovaskulären Erkrankungen.

Als eines von 13 ‚Cochrane Feldern’ (mehr Informationen zu ‚Cochrane fields‘ gibt es auf der cochrane.org Webseite; mehr zu den Organisationsstrukturen von Cochrane auf Wikipedia) hat Cochrane Nutrition laut Durão „die Vision, zentrale Kontaktstelle für alle systematischen Übersichtsarbeiten von Cochrane zum Thema Ernährung zu sein. Wir beteiligen uns an einer Reihe von Aktivitäten, die alle darauf abzielen, die Relevanz, Reichweite und Qualität von Cochrane Reviews zum Thema Ernährung zu steigern, die Methoden für die Erstellung von Cochrane Reviews zu verbessern, und die Nachhaltigkeit des Feldes zu sichern.“

Die Aktivitäten von Cochrane Nutrition sind vielfältig: Von Schulungen zur Erstellung von Cochrane Reviews, der Präzisierung der Review-Fragen oder Titel, über die Methodenforschung bis hin zur Verbreitung von Cochrane Reviews an die verschiedenen Zielgruppen. So half die Gruppe auch mit bei der Auswahl der Zusammenfassungen in vereinfachter Sprache von 150 Cochrane Reviews zu Ernährungsthemen, die letztes Jahr auf Deutsch übersetzt wurden und in „Cochrane Kompakt“ frei verfügbar sind.

Cochrane Nutrition wird gemeinsam von Cochrane South Africa, dem südafrikanischen medizinischen Forschungsrat, dem Centre for Evidence-based Health Care und der Stellenbosch University betrieben.

Dabei werden die Co-Direktorinnen Solange Durão und Celeste Naude von einem lokalen Managementkomitee und einem Koordinationsteam unterstützt, das sich aus Forschern aus dem Themenfeld zusammensetzt. Darüber hinaus leitet der zehnköpfige internationale Beirat von Cochrane Nutrition die strategischen Aktivitäten des Feldes.

„Wir arbeiten auch mit anderen Organisationen zusammen, die unsere Vision teilen“, erklärt Durão. Evidence Aid zum Beispiel ist seit 2017 ein Partner. „Unser Netzwerk wächst stetig. Es besteht derzeit aus etwa 160 Personen mit unterschiedlichen Fachkenntnissen. Wir stützen uns auf dieses Netzwerk, um beispielsweise potenzielle Review-Autoren, Gutachter oder Einzelpersonen zu finden, die zu Projekten beitragen können. In Zukunft hoffen wir, unser Netzwerk von Mitwirkenden zu erweitern und Cochrane Nutrition zu einer aktiven, globalen Stimme für evidenzbasierte Ernährung zu machen, die von einer kritischen Masse von Menschen weltweit geteilt wird.“

„Wir wollen auch weiterhin die Erstellung relevanter, qualitativ hochwertiger Cochrane Reviews unterstützen, die auf die Bedürfnisse aller unserer Zielgruppen eingehen und Mehrwert für die gesundheitliche Entscheidungsfindung haben.“, betont Solange Durão.

Text: Interview mit Solange Durão, mit Input vom Team von Cochrane Nutrition, zusammengefasst und übersetzt von Cochrane Deutschland und Cochrane Schweiz.

Anmerkung: Wenn Sie sich für die Arbeit von Cochrane Nutrition interessieren, können Sie hier den halbjährlichen Newsletter abonnieren.

2.14 Wenn der „Mittelwert“ kein Mittel zur Erklärung der Ergebnisse ist

Mon, 02/17/2020 - 14:32

Um die Ergebnisse klinischer Studien zu kommunizieren, nutzt man oft Mittelwerte. Diese können jedoch leicht in die Irre führen, wie diese Folge unserer „Schlüsselkonzepte“ zeigt.

Dies ist der 26. Beitrag einer Blogserie zu „Schlüsselkonzepten zur besseren Bewertung von Aussagen zu Behandlungen“, die im Rahmen des Projektes Informed Health Choices erarbeitet wurden. Jeder der insgesamt 36 Blogbeiträge befasst sich mit einem Schlüsselkonzept, das dabei hilft, Aussagen zu Wirkungen von Behandlungen besser verstehen und einordnen zu können.

1. Der Mittelwert sagt nichts über die Verteilung der Einzelergebnisse aus

Betrachten wir als Beispiel die Durchschnittsgröße von Schülern in drei Schulklassen. Diese ist in den Klassen A, B und C in der folgenden Abbildung zwar gleich, doch die Verteilung der Größen der einzelnen Schüler ist jeweils sehr unterschiedlich.

Dies gilt es auch für Durchschnittswerte von Behandlungsergebnissen zu bedenken. Es ist sehr unwahrscheinlich, dass eine Behandlung bei sämtlichen Patienten annähernd gleich wirkt. Wie stark und in welchen Mustern die Wirkung zwischen einzelnen Patienten einer Behandlungsgruppe variiert, kann ein wichtiges Ergebnis einer klinischen Studie sein, das sich am Mittelwert allein nicht ablesen lässt.

2. Die Verteilung der Ergebnisse kann ungleichmäßig sein

Im oben stehenden Beispiel der Durchschnittsgröße der Schüler von Schulklasse C sind die Ergebnisse in zwei in sich homogene Untergruppen verteilt. Die eine liegt deutlich oberhalb, die andere unterhalb des Durchschnittswertes (mit anderen Worten, jeweils drei der sechs Schüler sind gleich groß). Auch die Größenverteilung in den Klassen A und B ist nicht besonders realistisch. In real existierenden Schulklassen gibt es zum Beispiel oft einzelne Schüler, die erheblich größer oder kleiner als die anderen sind. Solche „Ausreißer“ können sich stark auf die Durchschnittsgröße der gesamten Klasse auswirken.

In einer klinischen Studie könnte eine solche Situation etwa so aussehen: Patienten werden gebeten, ihre Schmerzen nach einer Behandlung auf einer Skala von 0-100 einzustufen. Die Ergebnisse fallen folgendermaßen aus:

Behandlung A: Bei 99 Patienten haben sich die Schmerzen um 10 Punkte gebessert; bei 1 Person besserten sich die Schmerzen um 50 Punkte.

Behandlung B: Bei 99 Patienten haben sich die Schmerzen ebenfalls um 10 Punkte gebessert; bei 1 Person verschlimmerten sie sich dagegen um 50 Punkte.

Im Durchschnitt beträgt die Verbesserung in Gruppe A 10,4 Punkte und in Gruppe B 9,4 Punkte. Auf Basis dieser Durchschnittswerte schneidet die Behandlung bei Gruppe A besser ab, dabei waren in Wirklichkeit für 99 Prozent der Personen beide Behandlungen gleichermaßen wirksam.

Ebenso können zwei Gruppen das gleiche Durchschnittsergebnis aufweisen, obwohl es den meisten Teilnehmern mit Behandlung A besser geht, es aber nur einem Patienten mit Behandlung B richtig gut geht, wie im folgenden Beispiel gezeigt wird:

In beiden Fällen sind die Mittelwerte irreführend, da einzelne Personen mit extremen Ergebnissen – sogenannte Ausreißer – den Durchschnitt nach oben beziehungsweise nach unten verschieben. Dieser ist daher für die Population insgesamt nicht repräsentativ. Im Umgang mit solchen Ausreißeren ist es sehr wichtig zu überprüfen, ob es sich dabei um einen validen Messwert oder um einen Messfehler handelt. Allerdings darf man solche Ausreißer in Studien nicht einfach nach Gutdünken zu Messfehlern erklären und aus der statistischen Auswertung herauswerfen. Vielmehr sollte man schon von vornherein einen Grenzwert definieren, ab dem Messwerte als vermeintlich fehlerhaft verworfen werden. Eine gängige (wenn auch letztlich willkürliche) Definition wäre beispielsweise, Einzelwerte, die sich mehr als 2,5 Standardabweichungen vom Mittelwert, als Ausreißer zu behandeln. Der Umgang mit Ausreißern ist allerdings eine eigene, ziemlich komplexe Disziplin der Statistik.

3. Der Mittelwert zeigt nicht, wie viele Personen eine klinisch relevante Verbesserung erfahren haben

Der Durchschnittswert reicht oft nicht aus, um eine Aussage darüber machen zu können, in wie weit ein Patient eine wirklich relevante Verbesserung erfährt. Diese Veränderung wird auch als minimaler wichtiger Unterschied bezeichnet.

Wenn man im folgenden Beispiel den Durchschnitt betrachtet, scheint es den Teilnehmern von Gruppe C (durchschnittliche Verbesserung = 5) besser als denen von Gruppe D (durchschnittliche Verbesserung = 4) zu gehen.

Wenn jedoch eine Veränderung um mindestens 7 Punkte erforderlich ist, damit ein Patient diese überhaupt bemerkt, hat kein Patient in Gruppe C eine merkliche Veränderung erfahren, jedoch 2 Personen in Gruppe D. Im Hinblick auf den Anteil von Patienten, die eine relevante Verbesserung erfahren haben, schneidet Gruppe D also besser als Gruppe C ab.

Der Durchschnitt ist in diesem Beispiel irreführend, da er nicht wiederspiegelt, welche Patienten eine relevante Veränderung erfahren haben. Wenn der Durchschnitt in einer Gruppe höher ist, bedeutet das also nicht notwendigerweise, dass die Behandlung bei dieser Gruppe wirksamer war.

Zusammenfassung:

Am Mittelwert als Kennwert für die zentrale Tendenz einer Verteilung führt in der Statistik kaum ein Weg vorbei. Doch es gilt zu bedenken, dass Mittelwerte auf mehrere Weisen irreführend sein können. Ist die Verteilung der Ergebnisse ungleichmäßig, kann der Durchschnittswert durch extreme „Ausreißer“ beeinflusst werden. Das kann dazu führen, dass eine Behandlung mehr oder weniger wirksam erscheint, als sie es im Gros der Fälle tatsächlich ist. Darüber hinaus bietet uns der Durchschnitt keine Informationen dahingehend, wie viele Patienten eine klinisch bedeutende Verbesserung erfahren haben.

Was bedeutet das in der Praxis? Wenn Sie zum Beispiel Forschungsberichte lesen, sollten Sie nicht allein auf die Mittelwerte zweier Behandlungsgruppen vertrauen, um zu entscheiden, welcher Gruppe es besser geht. Suchen Sie nach weiteren Informationen dazu, wie die Ergebnisse verteilt sind und was eine relevante Veränderung in der Messskala darstellt.

Anmerkung: Aus Gründen der besseren Lesbarkeit wird auf die gleichzeitige Verwendung männlicher und weiblicher Sprachformen verzichtet. Sämtliche Personenbezeichnungen gelten gleichermaßen für alle Geschlechter.

Übergewicht : Darf’s auch ein bisschen mehr sein?

Mon, 02/03/2020 - 09:07

Jedes Kilo zu viel verkürze das Leben, sagen die einen. Andere dagegen glauben, dass ein bisschen mehr auf den Rippen sogar nützen könnte. In unserer Blogserie zu „Ernährung und kardiovaskuläre Erkrankungen“ geht es in diesem sechsten Artikel um den Forscher-Streit über den Zusammenhang zwischen Body Mass Index (BMI) und Sterblichkeit. Das Thema ist ein Lehrstück darüber, wie schwer es sein kann, die Ergebnisse großer Beobachtungsstudien zu deuten.

„Ich bin nicht dick! Nein, mein Herr! Nur kräftig gebaut!“ So wie dem Comic-Gallier Obelix geht es vielen Menschen: Dicksein ist Ansichtssache. Manche finden sich trotz oder gerade wegen des Rettungsrings um den Bauch gut so, wie sie sind. Andere hadern mit jedem vermeintlich überzähligen Pfund und stürmen gerade zum Jahresanfang voller guter Vorsätze auf die Joggingstrecke oder konsultieren Diätratgeber.

Als halbwegs objektives und unkompliziertes Maß für die Körpermasse hat sich der Body Mass Index (BMI) durchgesetzt. Er berechnet sich aus dem Körpergewicht in Kilogramm geteilt durch das Quadrat der Körpergröße in Metern. Der Weltgesundheitsorganisation WHO zufolge entsprechen Werte zwischen 18,5 und 24,9 Normalgewicht, mit 1,80 Meter sollte man (oder Frau) demnach zwischen 60 und 81 Kilo wiegen. Niedrigere Werte gelten als Untergewicht, von Übergewicht spricht man ab einem BMI von 25 als Übergewicht und von Fettleibigkeit oder Adipositas ab einem BMI von 30. Sie beginnt für den 1,80-Meter-Mensch bei einem Gewicht von 97 Kilo.

So bemessen sind offiziellen Zahlen des Robert-Koch-Instituts zufolge zwei Drittel der Männer (67 %) und gut die Hälfte der Frauen (53 %) in Deutschland übergewichtig. Knapp ein Viertel der Erwachsenen beider Geschlechter ist fettleibig. Österreicher und Schweizer sind im Schnitt etwas schlanker, in beiden Ländern liegt der Anteil der Übergewichtigen und Adipösen bei gut 40 Prozent.

Die Ursache für Übergewicht und Adipositas ist in den meisten Fällen eine Kombination aus ungünstigen Ernährungsgewohnheiten und Bewegungsmangel. Sie führt zu einem Überschuss in der Kalorienbilanz, den der Körper in Form von Fettgewebe einlagert (siehe auch den Artikel Ernährung und kardiovaskuläre Erkrankungen – eine neue Serie auf Wissen Was Wirkt)

Dabei ist Körperfett per se weder gut noch böse. Ein bisschen Speck als Isolierschicht und Speicherstoff für schlechtere Zeiten gehört von Natur aus zu einem gesunden, wohlgenährten Körper. Wer jedoch allzu große Mengen davon mit sich herumträgt, bekommt Probleme. Und das nicht nur in Form der sozialen und ästhetischen Erwartungen unserer Gesellschaft, unter denen viele übergewichtige Menschen leiden. Wenn aber schon die Treppe in den ersten Stock eine bergsteigerische Herausforderung darstellt, wird Dicksein auch ganz real zur Quälerei.

Vor allem jedoch spielt Fettleibigkeit die erste Geige im „tödlichen Quartett“ des metabolischen Syndroms, zu dem sich noch Bluthochdruck, erhöhte Blutfette und Insulinresistenz gesellen. Diese Symptomkombination gilt neben dem Rauchen als wichtigster Risikofaktor für Herz-Kreislauferkrankungen und andere Zivilisationskrankheiten wie Diabetes oder Krebs und damit als eine der Hauptursachen für vorzeitige und vermeidbare Todesfälle in Industriestaaten.

Über welche biologischen Mechanismen das überschüssige Fett die anderen schädlichen Veränderungen nach sich zieht, ist nicht vollständig geklärt. „Fettgewebe ist jedenfalls nicht nur ein passiver Kalorienspeicher“, sagt Michael Leitzmann, Direktor des Instituts für Epidemiologie und Präventivmedizin an der Universität Regensburg: „Vor allem das sogenannte Viszeralfett im Bauchraum produziert eine Vielzahl von Hormonen und greift damit aktiv in den Stoffwechsel ein. Hat man zu viel davon, so verschiebt sich das Gleichgewicht dieser Stoffe auf Dauer offenbar in Richtung Krankheit.“

Echte Fettleibigkeit ist also ein erheblicher Risikofaktor für potentiell tödliche Krankheiten. Aber wie steht es um die große Zahl der Übergewichtigen, die nur ein paar Kilos zu viel mit sich herumtragen? Müssen auch diese Menschen schädliche Auswirkungen ihrer Fettpolster fürchten? Oder gilt für sie vielmehr der Spruch „ein bisschen rund ist gesund“?

Das Adopositas-Paradoxon – Realität oder nur „ein Haufen Müll“?

Über diese Frage ist unter Wissenschaftlern in den letzten Jahren ein erstaunlich erbitterter Streit entbrannt. Den Anfang machte 2005 eine Studie von Wissenschaftlern um Katherine Flegal von der amerikanischen Gesundheitsbehörde CDC im Fachblatt JAMA. Flegal nutzte Daten des National Health and Nutrition Examination Survey, einer seit 1971 mehrfach aufgelegten Kohortenstudie, für die Tausende repräsentativ ausgewählte Amerikaner über Jahre hinweg immer wieder nach ihrem Lebensstil befragt und medizinisch untersucht wurden. Für Fettleibige mit einem BMI über 30 hatte die Analyse erwartungsgemäß schlechte Nachrichten: Auf das Jahr 2000 und die gesamte Bevölkerung der Vereinigten Staaten (damals gut 280 Millionen) hochgerechnet, waren demnach unter Fettleibigen im Vergleich zu Normalgewichtigen rund 112.000 zusätzliche Todesfälle aufgetreten. Auch Untergewichtige hatten wie erwartet eine leicht erhöhte Sterblichkeit. Doch für Übergewichtige (BMI zwischen 25 und 30) zeigte sich unerwartet der umgekehrte Effekt: Sie hatten ein deutlich geringeres Sterberisiko als ihre normalgewichtigen Mitmenschen.

Diese Ergebnisse legen nahe, dass „ein bisschen rund“ tatsächlich gesund ist und offenbar mit der Definition von „Normalgewicht“ etwas nicht stimmt. Flegal war durchaus nicht die Erste, die auf dieses sogenannte Adipositas-Paradoxon stieß. Es war bereits aus einer Reihe von Studien bekannt, etwa zu koronarer Herzkrankheit, Blut-Hochdruck, Diabetes oder chronischem Nierenversagen. Auch sie kamen zu dem Schluss, dass übergewichtige und zum Teil selbst leicht adipöse Patienten dieser Leiden offenbar bessere Überlebenschancen haben, als Normalgewichtige. Flegal hatte dies nun auch für das wichtige Maß der Gesamt-Sterblichkeit („all-cause-mortality“) gezeigt. 2013 legte sie dann im Fachblatt JAMA mit einer systematischen Übersichtsarbeit samt Metaanalyse nach, welche auf Daten aus fast hundert Studien mit annähernd drei Millionen Teilnehmern basierte. Auch diesmal schnitten übergewichtige Teilnehmer am besten ab – ihr Sterberisiko lag sechs Prozent unter jenem von Normalgewichtigen.

Viele ihrer Kollegen aus der Ernährungswissenschaft wollten davon allerdings nichts hören. Zu Flegals entschiedensten Kritikern zählt Walter Willett von der Harvard Medical School in Boston, Amerikas wohl prominentester Ernährungsmediziner. Sein Kommentar in einem Radiointerview zu Flegals Studie von 2013: „Das ist ein Haufen Müll, niemand sollte seine Zeit damit vergeuden, das zu lesen.“

Von Rauchern und dünnen Kranken

Starke Worte. Willett stößt sich vor allem daran, dass Flegal zwei Störfaktoren, sogenannte Confounder, nicht angemessen berücksichtigt habe, welche die Statistik zugunsten der Übergewichtigen verzerren. Störenfriede Nummer eins sind Raucher. Weil Nikotin den Appetit zügelt macht rauchen tatsächlich schlank. Gleichzeitig ist ihre Sterblichkeit wegen der zahlreichen Gesundheitsgefahren des Rauchens deutlich erhöht. Dadurch verzerren Raucher die Statistik zuungunsten des Normalgewichts, obwohl ihr erhöhtes Sterberisiko ursächlich nichts mit ihrem schlankeren Körper zu tun hat.

Ganz ähnlich ist dies mit den „dünnen Kranken“: Schon lange vor der Erstdiagnose können sich ernsthafte Krankheiten wie Krebs als schleichender Gewichtsverlust bemerkbar machen. Die in Studien offiziell noch als gesund eingestuften Betroffenen solcher versteckten Frühsymptome sind dann also schlank, weil krank, und nicht anders herum – reverse Kausalität nennen Epidemiologen einen solchen Effekt. Sowohl dünne Raucher als auch dünne Kranke führen also zu vermehrten Todesfällen unter Normalgewichtigen und verzerren dadurch das Gesamtbild.

Solche Confounder sind der große Knackpunkt von Beobachtungsstudien wie dem National Health and Nutrition Examination Survey, weil sich ihre verzerrenden Effekte nur schwer von echten Ursache-Wirkungszusammenhängen unterscheiden lassen. Mit Lehrbuch-Confoundern wie Alter, Geschlecht, Bildung und Einkommen lässt sich noch umgehen, subtilere Störgrößen dagegen lassen sich oft nur schwer identifizieren und noch schwerer von echten Effekten entwirren.

Die bessere Alternative wären im Prinzip randomisierte, kontrolliere Studien (RCTs). In solchen Studien unterscheiden sich die Angehörigen von Test- und Kontrollgruppe im Idealfall nur in dem zu untersuchenden Merkmal (in diesem Fall der BMI-Kategorie) und sind sich ansonsten möglichst ähnlich. Für den Zusammenhang von BMI und Sterblichkeit ist dies jedoch kaum machbar, weil man Studienteilnehmer schon aus ethischen Gründen kaum dazu verdonnern kann, sich im Namen der Wissenschaft dicke Fettpolster anzufressen.

Beobachtungsstudien sind daher für viele epidemiologische Fragen das Beste, was wir haben. Um die störenden Effekte der Confounder möglichst klein zu halten, gibt es verschiedene Möglichkeiten. Ein Weg ist, die Daten bestimmter Probanden, die das Ergebnis verzerren würden (zum Beispiel jene von Rauchern) von vornherein aus der Auswertung auszuschließen. Alternativ kann man versuchen, Confounder durch statistische Korrekturfaktoren zu kompensieren. Nur, welcher dieser beiden Wege ist der bessere? Um eben diese Frage geht es im erbitterten Forscherstreit zwischen den Lagern von Flegal und Willet.

Flegal setzt auf Korrekturfaktoren, die in der Statistik beispielsweise den Effekt des Rauchens ausgleichen sollen. Doch das ist leichter gesagt als getan: Wie viel raucht der einzelne Studienteilnehmer, wie tief inhaliert er, wie lange muss jemand das Rauchen aufgegeben haben, um nicht mehr als Raucher zu gelten? Weil Studiendaten auf all diese Fargen meist keine genauen Antworten geben können, basieren Korrekturverfahren auf mehr oder minder gewagten Mutmaßungen.

Wie repräsentativ ist eine Studie, wenn mehr als die Hälfte aller Datensätze von vornherein rausfliegen?

Viele Forscher, darunter auch der inzwischen emeritierte Walter Willett und sein Nachfolger in Harvard, Frank Hu, setzen stattdessen auf eine anderen Umgang mit Confoundern, nämlich eine strenge Auslese der in der Analyse berücksichtigten Probanden. Am Ende bleiben im Idealfall nur noch Studienteilnehmer übrig, die wirklich repräsentativ für den zu untersuchenden Zusammenhang sind. Das Problem mit diesem Ansatz: Er kann zum Ausschluss eines Großteils der Probanden führen.

So geschehen in der 2016 in The Lancet publizierten Studie der Global BMI Mortality Collaboration (GBMC) , an der auch Willett und Hu beteiligt waren. In ihrer Metaanalyse werteten die Forscher 239 Beobachtungsstudien aus aller Welt aus, nutzen jedoch nur die Daten von streng selektierten Teilnehmern. Berücksichtigt wurde nur, wer niemals geraucht hatte, zu Studienbeginn gesund war und danach wenigstens fünf Jahre überlebt hatte. Auf diee Weise blieben allerdings von den ursprünglich fast elf Millionen Teilnehmern weniger als vier Millionen übrig. Unter den handverlesenen Probanden fehlte vom Adipositas-Paradoxon denn auch jede Spur. Das geringste Sterberisiko hatten Normalgewichtige mit einem BMI zwischen 20 und 25. Für Übergewichtige mit einem BMI zwischen 25 und 27,5 fand die Studie ein im Vergleich dazu um sieben Prozent erhöhtes Sterberisiko, für einen BMI zwischen 27,5 und 30 war die Sterblichkeit bereits um 20 Prozent erhöht. Zur Einordnung: Raucher von mehr als 10 Zigaretten am Tag haben gegenüber Nichtrauchern ein doppelt bis dreifach erhöhtes Sterberisiko.

Zwei Studien, die zu weiten Teilen auf demselben Datenfundament stehen und doch zu ganz unterschiedlichen Ergebnissen kommen. Da stellt sich die Frage, welcher der beiden Ansätze der richtige ist: Kommt es auf einen realistischen Bevölkerungsquerschnitt an oder haben streng selektierte Daten die höhere Aussagekraft? Aus der wissenschaftlichen Debatte um diese Frage wurde schnell eine veritable Schlammschlacht zwischen den Lagern von Flegal und Willett, in der sich die Beteiligten gegenseitig der Manipulation und Rosinenpickerei bezichtigen.

Dabei hat das Thema „BMI und Sterblichkeit“ noch andere Streitfragen parat. So ist der BMI als Standardmesslatte für dick oder dünn durchaus umstritten. Er ist zwar einfach und praktisch, ignoriert aber die individuell unterschiedliche Konstitution verschiedener Menschen. So erreichen Bodybuilder ohne ein Gramm Fett zu viel auf den Rippen dank Muskelmasse leicht BMI-Werte von mehr als 30. Und auch unter Normalverbrauchern unterscheidet der BMI nicht zwischen physiologisch aktivem Viszeralfett und relativ harmlosen Unterhautfett. Alternativen wie den Body Shape Index (BSI), in dessen Berechnung auch der Bauchumfang einfließt, haben sich bisher aber noch nicht wirklich durchgesetzt.

Schließlich diskutieren Forscher auch die Idee einer „metabolically healthy obesity“. Unter Fettleibigen finden sich nämlich durchaus auch solche ohne metabolisches Syndrom. Ob diese „gesunden Dicken“ tatsächlich auf Dauer rund und gesund bleiben oder ob sie früher oder später doch noch erkranken, ist allerdings die nächste Streitfrage.

Fragen Sie ihren Arzt!

Sich als Laie in diesem Gefecht der Argumente ein Bild zu machen fällt nicht leicht. Zudem gilt wie immer, dass sich Erkenntnisse aus epidemiologischen Daten nicht automatisch auf den Einzelfall übertragen lassen.

Liegt der BMI deutlich über 25 hält es Präventivmediziner Michael Leitzmann aber schon für sinnvoll, sich Gedanken zu machen. „Für den ersten Schritt gilt die vielleicht etwas banale, aber fast alternativlose Empfehlung: Sprechen Sie mit ihrem Arzt darüber.“ Eine gründliche Anamnese und weitere Untersuchungen wie ein Bluttest helfen, gemeinsam mit dem Arzt den individuellen Handlungsbedarf einzuschätzen und gegebenenfalls den aussichtsreichsten Weg zum Abnehmen einzuschlagen. Der führt in den meisten Fällen über eine Ernährungsumstellung und mehr Bewegung. Es gibt gute Evidenz dafür, dass diese Kombination tatsächlich zu einer Gewichtsreduktion führt – ganz gleich, ob man nun zum Jahresbeginn oder sonst wann damit anfängt.

Text: Georg Rüschemeyer

2.13 Angaben zu relativen Risiken können irreführend sein

Mon, 01/27/2020 - 09:09

Wir leben heute im Zeitalter von „Big Data“, mit Zugriff auf so viel mehr Informationen als alle unsere Vorfahren es jemals hatten. Mit einer kurzen Google-Suche kann man zu fast allem eine Statistik finden – aber kann man ihr auch vertrauen? Wir müssen sehr umsichtig sein, wenn wir die vielen Daten, mit denen wir konfrontiert werden, auch richtig interpretieren wollen.

Dies ist der 25. Beitrag einer Blogserie zu „Schlüsselkonzepten zur besseren Bewertung von Aussagen zu Behandlungen“, die im Rahmen des Projektes Informed Health Choices erarbeitet wurden. Jeder der insgesamt 36 Blogbeiträge befasst sich mit einem Schlüsselkonzept, die wichtig dafür sind, Aussagen zu Wirkungen von Behandlungen besser verstehen und einordnen zu können. 

Statistische Behauptungen in den Medien

Beim Zeitungslesen könnte man den Eindruck bekommen, dass so ziemlich alles irgendwie krebserregend ist. Die Daily Mail, ein britisches Boulevardblatt, berichtet beispielsweise, dass Dinge wie Deodorants, Suppen, Sonnencreme und sogar Oralsex das Risiko für bestimmte Krebsarten erhöhen können[1]. Viele dieser Behauptungen mögen durchaus auf guter wissenschaftlicher Evidenz über statistische Risikofaktoren beruhen. Doch bevor wir voreilige Schlüsse ziehen und Anderen entsprechende Handlungsempfehlungen geben, müssen wir uns hier die Frage stellen, bis zu welchem Grad solche Aussagen verlässlich sind. Es ist eminent wichtig, die Fakten zu prüfen, und nicht einfach alles, was unsere Facebook-Freunde teilen, als der Weisheit letzter Schluss zu betrachten. Ein wichtiger Vorbehalt gegenüber Schlagzeilen nach dem Schema „X erhöht das Risiko von Y um Z Prozent“ lautet, dass eine statistische Assoziation von X und Y noch lange keinen kausalen Zusammenhang bedeutet. Darüber haben wir bereits in einem früheren Schlüsselkonzept ausführlich gesprochen. Kaum weniger wichtig ist es, Angaben zu Risiken auf ihre Aussagekraft zu prüfen.

Wenn man beispielsweise liest, dass gemäß einer Studie „bei Frauen, die zur Körperhygiene jeden Tag Talkum anwenden, eine um 40% höhere Wahrscheinlichkeit besteht, Eierstockkrebs zu entwickeln“ [2], ist man vielleicht derart verängstigt, dass man dieses Produkt nie wieder anrührt. Aber: Diese Statistik für sich allein genommen hat wenig Aussagekraft. Denn wir wissen nicht:

  • Wie viele Personen Talkum in der Studie anwendeten.
  • Wie viele Personen insgesamt an der Studie teilnahmen.
  • Wie viele Frauen in der Untersuchungs- bzw. Kontrollgruppe Eierstockkrebs hatten (Anwenderinnen von Talkum im Vergleich zu Frauen, die es nicht anwendeten).
  • Diese Statistik sagt nichts über viele andere Faktoren aus, die hier eine Rolle spielen könnten. In diesem Beispiel ergab die Studie lediglich, dass nur bei postmenopausalen Frauen ein erhöhtes Risiko bestand, wenn Talkum direkt im Schambereich angewendet wurde. Auch wurde berichtet, dass in der „Talkum-Gruppe“ mehr übergewichtigere Personen waren als in der „Nicht-Talkum-Gruppe“. Dies ist in diesem Fall von besonderer Bedeutung, da Übergewicht ein bekannter Risikofaktor für Eierstockkrebs ist. [3]

Das Problem ist, dass diese Statistik (eine um 40% höhere Wahrscheinlichkeit) ein relatives Risikos [AP1] darstellt. Ein relatives Risiko ist eine Art der Berichterstattung eines Risikos in Prozentsätzen, aber nur in Relation zur Vergleichsgruppe und nicht unter Berücksichtigung der Gesamtzahl der betroffenen Personen oder Krankheitsfälle. Diesen Punkt betont Dr. Jodie Moffat von Cancer Research UK: „Es ist wichtig, darauf hinzuweisen, dass nur sehr wenige Frauen, die Talkum anwenden, jemals Eierstockkrebs entwickeln werden. [2]

Relatives oder absolutes Risiko?

Es gibt viele verschiedene Arten, Risiken zu bestimmen. Das relative Risiko, manchmal auch als Risiko-Verhältnis bezeichnet, stellt den Unterschied zwischen zwei Gruppen einfach dar. Es kann jedoch irreführend sein, da es nicht die ursprüngliche Anzahl der Fälle wiedergibt. Nehmen wir als Beispiel folgende Zahlen einer fiktiven Studie:

  • 100 Teilnehmer wurden mit einem Arzneimittel behandelt; von diesen litt ein Teilnehmer unter einen Herzinfarkt = 1% Risiko für einen Herzinfarkt
  • 100 Teilnehmer wurden mit einem Arzneimittel NICHT behandelt; von diesen erlitten zwei Teilnehmer einen Herzinfarkt = 2% Risiko für einen Herzinfarkt

Man könnte vielleicht denken, dass die Differenz von einer Person von Hundert nicht allzu groß ist. Das relative Risiko wird jedoch ermittelt, indem man die 1 % und die 2 % vergleicht. Die resultierende Aussage lautet, dass „Personen, die dieses Arzneimittel nicht einnehmen, ein zweifach höheres Risiko für einen Herzinfarkt haben“, oder umgekehrt, dass „dieses Arzneimittel das Risiko für einen Herzinfarkt um 50% senkt“. Dies kann der Wahrheit entsprechen und in anderen Studien auch bestätigt werden. Dennoch kann es sein, dass dieses Arzneimittel nicht so wirksam ist, wie es scheint; Der Unterschied könnte lediglich zufällig sein. Aus diesem Grund muss der Umstand, dass zwischen den Gruppen nur eine Gesamtdifferenz von 1% bestand, ebenfalls genannt werden – wir bezeichnen dies als die absolute Risikodifferenz.

Number needed to treat

Ein weiteres nützliches Maß, das in der Medizin eingesetzt wird, um Risiken besser einodnen zu können, ist die „Number needed to treat“ (NNT) – also die Anzahl der Personen, die theoretisch behandelt werden müssen, damit eine von ihnen einen Nutzen davon hat.
Im obigen Beispiel betrüge die NNT 100, da ja bereits festgestellt wurde, dass das Arzneimittel an 100 Personen verabreicht werden muss, damit bei einer Person ein Herzinfarkt verhindert wird. Arzneimittel können Nebenwirkungen haben oder sehr kostspielig sein. Wenn also nicht viele Personen einen Nutzen davon haben, ist der Aufwand es zu verabreichen, vielleicht zu hoch.

Weitere Überlegungen

In die Überlegungen muss auch einfließen, wie hoch überhaupt die Wahrscheinlichkeit ist, dass ein bestimmtes Ergebnis eintritt. Man stelle sich beispielsweise ein Arzneimittel vor, dass die Wahrscheinlichkeit dafür, dass man eine bestimmte Krankheit bekommt, um 50% senkt. Das Arzneimittel verursacht jedoch Nebenwirkungen, und das Grundrisiko, die Krankheit überhaupt zu bekommen, liegt bei 2 von 100. In diesem Fall könnte eine Behandlung sinnvoll sein, solange der Nutzen in einem vernünftigen Verhältnis zu den Nebenwirkungen steht. Wenn jedoch das Risiko, die Krankheit überhaupt zu bekommen, nur bei 2 von 10.000 liegt, ist die präventive Behandlung wahrscheinlich nicht sinnvoll, auch wenn die relative Wirkung des Arzneimittels dieselbe ist.

Das relative Risiko kann zur Darstellung der Risikozunahme oder -reduktion von Krankheits- oder Risikofaktoren dienen (wie im Beispiel mit dem Talkum oben). Bei größeren Probandengruppen ist das relative Risiko relativ zuverlässig. Bei der Analyse von Studien mit kleineren Stichprobengrößen oder Studien, die seltenere Krankheiten untersuchen, kann es jedoch leicht einen falschen Eindruck vermitteln. Daher ist es wichtig, alles, was man in Zeitungen oder auch in wissenschaftlichen Fachzeitschriften liest, mit Vorsicht zu genießen, solange man nicht sämtliche Fakten kennt. Es muss sich nicht unbedingt um „Fake News“ handeln, kann aber dennoch irreführend sein.

Das nächste Mal, wenn Sie es mit einem relativen Risiko zu tun haben, fragen Sie sich auch, was das absolute Risiko ist.

Text: Gareth Grant

Übersetzt von:

Redaktion: Cochrane Deutschland

Zum Originaltext

Zu den Quellenangaben

Anmerkung: Aus Gründen der besseren Lesbarkeit wird auf die gleichzeitige Verwendung männlicher und weiblicher Sprachformen verzichtet. Sämtliche Personenbezeichnungen gelten gleichermaßen für alle Geschlechter.

Kein Herz für Nahrungsergänzungsmittel?

Thu, 01/16/2020 - 09:06

„Die richtige Dosis an Vitaminen & Mineralstoffen ist Grundlage für eine gesunde Herzfunktion“ – so oder ähnlich werben derzeit einige Hersteller von Nahrungsergänzungsmitteln (NEMs). In wie weit stimmt das? Und können NEMs den Erhalt unserer Herzgesundheit unterstützen beziehungsweise das Risiko einer Erkrankung reduzieren? Dieser fünfte Artikel unserer „Wissen Was Wirkt“ – Serie zu Ernährung und kardiovaskulären Erkrankungen setzt sich mit der Frage auseinander, ob es Evidenz gibt, dass Vitamin- und Mineralstoffsupplemente Einfluss auf die Entstehung koronarer Herzkrankheiten haben.

Dieser Beitrag vertritt die persönliche Sicht von Dr. Anja Dahten, Ernährungswissenschaftlerin und Mitarbeiterin von Cochrane Deutschland.

Die Aussage, dass Vitamine und Mineralstoffe für eine gesunde Herzfunktion sorgen, stimmt natürlich grundsätzlich, denn unser Organismus kann ohne essentielle Nährstoffe langfristig nicht funktionieren – auch nicht unser Herz. Wenn es allerdings um die Frage geht, ob durch die zusätzliche Zufuhr von Vitaminen und Mineralstoffen in Form von Nahrungsergänzungsmitteln unsere Herzgesundheit verbessert werden kann, wird die Sache deutlich komplexer. Als Ernährungswissenschaftlerin trete ich dem Versprechen, dass NEMs unsere Herzgesundheit verbessern können, sehr kritisch gegenüber. Im Folgenden erkläre ich, warum.

Die Fakten – Welche Wirkungen können wir von einem Nahrungsergänzungsmittel erwarten?

FAKT Nr. 1
NEMs sind definitionsgemäß Lebensmittel und werden rein rechtlich auch so behandelt. Sie durchlaufen kein aufwendiges Zulassungsverfahren (wie Arzneimittel), sondern unterliegen lediglich einer formalen lokalen Registrierungspflicht. Das Produkt darf dann tatsächlich „zeitgleich mit erfolgter Anzeige (…) in den Verkehr gebracht werden.“

Fazit: Der Fakt, dass ein Nahrungsergänzungsmittel registriert wurde, sagt nichts über die Unbedenklichkeit bezüglich seiner Sicherheit und schon gar nicht seiner Wirkung aus.

FAKT Nr. 2
Vielleicht haben Sie sich schon einmal gefragt, warum es nicht mehr so zahlreiche „vielversprechende“ Lebensmittel im Supermarkt gibt, die unsere Gesundheit verbessern und unsere Abwehrkräfte stärken wollen? Seit Ende des Jahres 2012 müssen auf europäischer Ebene alle sogenannten gesundheitsbezogenen Angaben von Lebensmitteln (Health Claims), von der Europäischen Behörde für Lebensmittelsicherheit (EFSA) überprüft und genehmigt worden sein. Dies schließt auch die Sicherheit des Produktes mit ein. Zur Zulassung bedarf es u. a. einer überzeugenden Anzahl klinischer Studien an gesunden Probanden. Die überwiegende Mehrheit aller beantragten Health Claims wurde bisher abgelehnt.

Fazit: Aussagen zu gesundheitsverbessernden Wirkungen durch den Genuss bestimmter Lebensmittel sind derzeit auf EU-Ebene nicht überzeugend belegbar.

FAKT Nr. 3
Die gesundheitsfördernde Wirkung von im Handel erhältlichen NEMs kann laut Verbraucherschutz derzeit nicht lückenlos durch die Behörden geprüft werden.

Fazit: Wir Verbraucher müssen eigenverantwortlich informierte Entscheidungen treffen. Unterstützende Informationen mit Bezug auf aktuelle Untersuchungen finden Sie in Deutschland u. a. beim Bundesinstitut für Risikobewertung (BfR) und auf den Webseiten der unabhängigen Verbraucherzentralen der Bundesländer.

Meine, daraus folgenden Hinweise für die Praxis
  • Seien Sie skeptisch, wenn Ihnen NEMs versprechen, Krankheiten heilen oder lindern zu können – auch wenn sie noch so „herzlich“ wirken. In diesem Fall halten Sie entweder ein nicht zugelassenes Arzneimittel in der Hand, von dem Sie die Nebenwirkungen nicht kennen oder ein nicht geprüftes Nahrungsergänzungsmittel, von dem Sie keine Wirkung erwarten sollten. Beides ist meiner Meinung nach nicht zu empfehlen.
  • Seien Sie kritisch, wenn NEMs Ihnen versprechen, dass sie das Risiko reduzieren können, eine Herz-Erkrankung zu bekommen. Dieser Fakt muss transparent nachgewiesen worden sein.
  • Am plausibelsten ist es, dass ein NEM Nährstoffe enthält, die zum Erhalt der „normalen“ physiologischen Funktionen beitragen.

Dennoch, Aussagen zur gesundheitsfördernden Wirkung von NEMs entsprechen nicht immer dem aktuellen Stand der Forschung, da der Prozess von der Einreichung bis zur Zulassung Jahre dauern kann.

Die Forschung – Wie ist der aktuelle Stand?

Bereits im Mai 2018 warnte die Online-Zeitschrift ärzteblatt.de: „Fast kein Nahrungsergänzungsmittel senkt das Risiko für Herzkrankheiten“. Diese Aussage wurde auf die Ergebnisse einer sehr umfangreichen systematischen Übersichtsarbeit mit Metaanalyse vom Juni 2018 gestützt. Untersucht wurden 179 randomisierte kontrollierte Studien zur Verwendung von verschiedenen Vitaminen und Mineralstoffen, die zwischen Januar 2012 bis Oktober 2017 publiziert wurden. Weder einzelne Komponenten (Vitamin D, Calcium, Vitamin C, Betacarotin und Selen) noch gemischte Multivitaminpräparate zeigten hier einen nachweisbaren Nutzen für die Prävention von Herz-Kreislauf-Erkrankungen, Myokardinfarkten oder Schlaganfällen. Auch generell leben wir wohl mit NEMs nicht länger, denn die Gesamtmortalität blieb sowohl mit als auch ohne NEMs unverändert. Allein Folsäure (mit und ohne Niacin) verringerte in dieser Übersichtsarbeit das Risiko eines Schlaganfalls. Für einen aussagekräftigen Beweis bedarf es jedoch weiterer Studien.

Noch im gleichen Jahr machen sowohl die Deutsche Gesellschaft für Neurologie als auch die Deutsche Schlaganfall-Gesellschaft auf die Ergebnisse einer weiteren umfassenden Metaanalyse aufmerksam. In diese wurden alle relevanten Studien eingeschlossen, die zwischen Januar 1970 und August 2016 publiziert wurden. Die aktuelle Schlussfolgerung im Ärzteblatt war: „Nahrungsergänzungsmittel wie Vitamine und Mineralien können das Risiko nicht vermindern, an einem Hirninfarkt oder einer Herzkrankheit zu sterben“.

Selbst der große Hoffnungsträger Vitamin D enttäuschte: Während sich in einem Cochrane-Review aus dem Jahr 2014 (56 eingeschlossenen Studien; 95,286 Teilnehmende) zumindest „einige Evidenz“ bezüglich der Senkung von Herzinfarkten und Schlaganfällen zeigte, konnte dieses Ergebnis in einer aktuellen, umfangreichen Metaanalyse von 2019 nicht bestätigt werden. Auch nach mehr als einem Jahr zusätzlicher Vitamin D Einnahme, veränderten sich das Risiko für Herzinfarkt und Schlaganfall nicht.

Die Praxis – Glauben statt Wissen?!

Befragt man statista nach aktuellen (ab 2018) Erhebungen zu Umsatzverteilungen von Nahrungsergänzungsmitteln im deutschsprachigen Raum (Deutschland, Österreich, Schweiz), so erhält man die Information, dass laut IQVIA zumindest in Deutschland „rund 2,1 Milliarden Euro mit Nahrungsergänzungsmitteln umgesetzt wurden“. Dabei ist die Tendenz zu den Vorjahren steigend. Von den NEMs entfielen dabei 10 Prozent auf vermeintliche „Herz- und Kreislaufmittel“.

Die oben angeführten aktuellen Forschungsergebnisse weisen darauf hin, dass die aktuelle wissenschaftliche Evidenz den Konsum von NEMs, insbesondere von „Herz- und Kreislaufmitteln“, nicht überzeugend rechtfertigt. Deshalb investiere ich lieber (auch um meinen Neujahrsvorsätzen gerecht zu werden) in einen gesünderen Lebensstil mit mehr Bewegung, aber weniger tierischen Fetten und Zucker. Dieser unterstützt dann auf natürliche Weise meine Herzgesundheit – und kostet nicht einmal mehr.

Herzlichst,

Anja Dahten (Autorin)

Kein Herz für Nahrungsergänzungsmittel?

Thu, 01/16/2020 - 09:06

„Die richtige Dosis an Vitaminen & Mineralstoffen ist Grundlage für eine gesunde Herzfunktion“ – so oder ähnlich werben derzeit einige Hersteller von Nahrungsergänzungsmitteln (NEMs). In wie weit stimmt das? Und können NEMs den Erhalt unserer Herzgesundheit unterstützen beziehungsweise das Risiko einer Erkrankung reduzieren? Dieser fünfte Artikel unserer „Wissen Was Wirkt“ – Serie zu Ernährung und kardiovaskulären Erkrankungen setzt sich mit der Frage auseinander, ob es Evidenz gibt, dass Vitamin- und Mineralstoffsupplemente Einfluss auf die Entstehung koronarer Herzkrankheiten haben.

Dieser Beitrag vertritt die persönliche Sicht von Dr. Anja Dahten, Ernährungswissenschaftlerin und Mitarbeiterin von Cochrane Deutschland.

Die Aussage, dass Vitamine und Mineralstoffe für eine gesunde Herzfunktion sorgen, stimmt natürlich grundsätzlich, denn unser Organismus kann ohne essentielle Nährstoffe langfristig nicht funktionieren – auch nicht unser Herz. Wenn es allerdings um die Frage geht, ob durch die zusätzliche Zufuhr von Vitaminen und Mineralstoffen in Form von Nahrungsergänzungsmitteln unsere Herzgesundheit verbessert werden kann, wird die Sache deutlich komplexer. Als Ernährungswissenschaftlerin trete ich dem Versprechen, dass NEMs unsere Herzgesundheit verbessern können, sehr kritisch gegenüber. Im Folgenden erkläre ich, warum.

Die Fakten: – Welche Wirkungen können wir von einem Nahrungsergänzungsmittel erwarten?

Fakt no.1
NEMs sind definitionsgemäß Lebensmittel und werden rein rechtlich auch so behandelt. Sie durchlaufen kein aufwendiges Zulassungsverfahren (wie Arzneimittel), sondern unterliegen lediglich einer formalen lokalen Registrierungspflicht. Das Produkt darf dann tatsächlich „zeitgleich mit erfolgter Anzeige (…) in den Verkehr gebracht werden.“

Fazit: Der Fakt, dass ein Nahrungsergänzungsmittel registriert wurde, sagt nichts über die Unbedenklichkeit bezüglicher seiner Sicherheit und schon gar nicht seiner Wirkung aus.

Fakt no.2
Vielleicht haben Sie sich schon einmal gefragt, warum es nicht mehr so zahlreiche „vielversprechende“ Lebensmittel im Supermarkt gibt, die unsere Gesundheit verbessern und unsere Abwehrkräfte stärken wollen? Seit Ende des Jahres 2012 müssen auf europäischer Ebene alle sogenannten gesundheitsbezogenen Angaben von Lebensmitteln (Health Claims), von der Europäischen Behörde für Lebensmittelsicherheit (EFSA) überprüft und genehmigt worden sein. Dies schließt auch die Sicherheit des Produktes mit ein. Zur Zulassung bedarf es u. a. einer überzeugenden Anzahl klinischer Studien an gesunden Probanden. Die überwiegende Mehrheit aller beantragten Health Claims wurde bisher abgelehnt.

Fazit: Aussagen zu gesundheitsverbessernden Wirkungen durch den Genuss bestimmter Lebensmittel sind derzeit auf EU-Ebene nicht überzeugend belegbar.

Fakt no. 3
Die gesundheitsfördernde Wirkung von im Handel erhältlichen NEMs kann laut Verbraucherschutz derzeit nicht lückenlos durch die Behörden geprüft werden.

Fazit: Wir Verbraucher müssen eigenverantwortlich informierte Entscheidungen treffen. Unterstützende Informationen mit Bezug auf aktuelle Untersuchungen finden Sie in Deutschland u. a. beim Bundesinstitut für Risikobewertung (BfR) und auf den Webseiten der unabhängigen Verbraucherzentralen der Bundesländer.

Meine, daraus folgenden Hinweise für die Praxis
  • Seien Sie skeptisch, wenn Ihnen NEMs versprechen, Krankheiten heilen oder lindern zu können – auch wenn sie noch so „herzlich“ wirken. In diesem Fall halten Sie entweder ein nicht zugelassenes Arzneimittel in der Hand, von dem Sie die Nebenwirkungen nicht kennen oder ein nicht geprüftes Nahrungsergänzungsmittel, von dem Sie keine Wirkung erwarten sollten. Beides ist meiner Meinung nach nicht zu empfehlen.
  • Seien Sie kritisch, wenn NEMs Ihnen versprechen, dass sie das Risiko reduzieren können, eine Herz-Erkrankung zu bekommen. Dieser Fakt muss transparent nachgewiesen worden sein.
  • Am plausibelsten ist es, dass ein NEM Nährstoffe enthält, die zum Erhalt der „normalen“ physiologischen Funktionen beitragen.

Dennoch, Aussagen zur gesundheitsfördernden Wirkung von NEMs entsprechen nicht immer dem aktuellen Stand der Forschung, da der Prozess von der Einreichung bis zur Zulassung Jahre dauern kann.

Die Forschung – Wie ist der aktuelle Stand?

Bereits im Mai 2018 warnte die Online-Zeitschrift ärzteblatt.de: „Fast kein Nahrungsergänzungsmittel senkt das Risiko für Herzkrankheiten“. Diese Aussage wurde auf die Ergebnisse einer sehr umfangreichen systematischen Übersichtsarbeit mit Metaanalyse vom Juni 2018 gestützt. Untersucht wurden 179 randomisierte kontrollierte Studien zur Verwendung von verschiedenen Vitaminen und Mineralstoffen, die zwischen Januar 2012 bis Oktober 2017 publiziert wurden. Weder einzelne Komponenten (Vitamin D, Calcium, Vitamin C, Betacarotin und Selen) noch gemischte Multivitaminpräparate zeigten hier einen nachweisbaren Nutzen für die Prävention von Herz-Kreislauf-Erkrankungen, Myokardinfarkten oder Schlaganfällen. Auch generell leben wir wohl mit NEMs nicht länger, denn die Gesamtmortalität blieb sowohl mit als auch ohne NEMs unverändert. Allein Folsäure (mit und ohne Niacin) verringerte in dieser Übersichtsarbeit das Risiko eines Schlaganfalls. Für einen aussagekräftigen Beweis bedarf es jedoch weiterer Studien.

Noch im gleichen Jahr machen sowohl die Deutsche Gesellschaft für Neurologie als auch die Deutsche Schlaganfall-Gesellschaft auf die Ergebnisse einer weiteren umfassenden Metaanalyse aufmerksam. In diese wurden alle relevanten Studien eingeschlossen, die zwischen Januar 1970 und August 2016 publiziert wurden. Die aktuelle Schlussfolgerung im Ärzteblatt war: „Nahrungsergänzungsmittel wie Vitamine und Mineralien können das Risiko nicht vermindern, an einem Hirninfarkt oder einer Herzkrankheit zu sterben“.

Selbst der große Hoffnungsträger Vitamin D enttäuschte: Während sich in einem Cochrane-Review aus dem Jahr 2014 (56 eingeschlossenen Studien; 95,286 Teilnehmende) zumindest „einige Evidenz“ bezüglich der Senkung von Herzinfarkten und Schlaganfällen zeigte, konnte dieses Ergebnis in einer aktuellen, umfangreichen Metaanalyse von 2019 nicht bestätigt werden. Auch nach mehr als einem Jahr zusätzlicher Vitamin D Einnahme, veränderten sich das Risiko für Herzinfarkt und Schlaganfall nicht.

Die Praxis – Glauben statt Wissen?!

Befragt man statista nach aktuellen (ab 2018) Erhebungen zu Umsatzverteilungen von Nahrungsergänzungsmitteln im deutschsprachigen Raum (Deutschland, Österreich, Schweiz), so erhält man die Information, dass laut IQVIA zumindest in Deutschland „rund 2,1 Milliarden Euro mit Nahrungsergänzungsmitteln umgesetzt wurden“. Dabei ist die Tendenz zu den Vorjahren steigend. Von den NEMs entfielen dabei 10 Prozent auf vermeintliche „Herz- und Kreislaufmittel“.

Die oben angeführten aktuellen Forschungsergebnisse weisen darauf hin, dass die aktuelle wissenschaftliche Evidenz den Konsum von NEMs, insbesondere von „Herz- und Kreislaufmitteln“, nicht überzeugend rechtfertigt. Deshalb investiere ich lieber (auch um meinen Neujahrsvorsätzen gerecht zu werden) in einen gesünderen Lebensstil mit mehr Bewegung, aber weniger tierischen Fetten und Zucker. Dieser unterstützt dann auf natürliche Weise meine Herzgesundheit – und kostet nicht einmal mehr.

Herzlichst,

Anja Dahten (Autorin)

Subgruppenanalysen können irreführend sein

Thu, 12/19/2019 - 08:49

Die Einnahme von Aspirin als Blutverdünner gehört zur Standardbehandlung nach einem Herzinfarkt und ist wissenschaftlich gut belegt[2]. In einer recht bekannten Studie, die die Einnahme von Aspirin zur Behandlung von Herzinfarkten untersuchte, zeigte sich bei Teilnehmern mit den Sternzeichen Zwillinge und Waage allerdings kein statistisch signifikanter Nutzen des Medikaments[1]. Wie kann das sein?

Ein solcher vermeintlicher Widerspruch kann entstehen, wenn man kleine Gruppen von Studienteilnehmern innerhalb einer Studie isoliert betrachtet. Insgesamt wurde die Wirksamkeit von Aspirin durchaus nachgewiesen.

Die Untersuchung einer Untergruppe von Teilnehmern mit bestimmten Eigenschaften bezeichnet man als „Subgruppenanalyse“. Eines der Probleme von Subgruppenanalysen ist die erhöhte Wahrscheinlichkeit von statistisch signifikanten, aber in Wirklichkeit falschpositiven Ergebnissen. Denn je mehr Charakteristika von Subgruppen analysiert werden (z.B. Geschlecht, Alter, Augenfarbe, Sternzeichen), desto wahrscheinlicher findet sich auf irgendeiner der Charakteristika zufällig ein statistisch signifikanter Effekt [3]. Dies soll nachfolgend anhand eines fiktiven Beispiels illustriert werden:

Die Marmeladenbrot-Studie

Angenommen, die Autoren einer Studie möchten untersuchen, ob Marmeladenbrote die Lebenszufriedenheit verbessert. Dafür nehmen sie 1000 Teilnehmer in diese Studie auf; 500 davon essen eine Woche lang zu jeder Mittagsmahlzeit Marmeladenbrote, während die anderen 500 ihr übliches Mittagessen zu sich nehmen. Endlich ist es soweit, die Studie wird ausgewertet, die Ergebnisse liegen vor: Zur großen Enttäuschung der Autoren zeigt sich keine statistisch signifikante Verbesserung der Lebenszufriedenheit nach dem Verzehr vieler Marmeladenbrote.

Daraufhin machen die Wissenschaftler eine Reihe von Subgruppenanalysen, um herauszufinden, ob die Wirkung der Marmeladenbrote bei unterschiedlichen Teilnehmern unterschiedlich ausfällt.

Zuerst untersuchen sie mögliche Unterschiede bei Männern und Frauen, aber offenbar stellte sich in keiner dieser Subgruppen irgendein statistisch signifikanter Nutzen ein. Dann betrachten sie getrennt Teilnehmer über und unter einer Körpergröße von 1,50 Meter, aber auch das war offenbar nicht mit einem statistisch signifikanten Nutzen verbunden. Anschließend werden Subgruppenanalysen nach Gewicht, Frisur, Beruf, Familienstand, Alter, Lungenfunktion und Cholesterinspiegel durchgeführt; alle ohne Erfolg.

Doch dann ein Treffer: Es stellt sich heraus, dass bei Teilnehmern mit grünen Augen nach täglichem Genuss von Marmeladenbroten eine statistisch signifikante Verbesserung der Lebenszufriedenheit eintrat. In Wirklichkeit hat die Augenfarbe natürlich keinerlei Einfluss auf die Wirksamkeit von Marmeladenbroten zur Verbesserung der Lebenszufriedenheit. Doch rein zufällig wies die Subgruppe von grünäugigen Teilnehmern, die Marmeladenbrote verzehrte, eine höhere Lebenszufriedenheit auf. Je öfter man schaut, desto größer wird das Risiko solcher falsch-positiven Ergebnisse (im Prinzip wie: je öfter ich würfle, desto größer ist die Wahrscheinlichkeit, dass zufällig zwei Mal nacheinander eine 6 gewürfelt wird und damit “mehr Glück” als meine Mitspieler habe).

Falschnegative Ergebnisse

Subgruppenanalysen können auch zu falschnegativen Ergebnissen führen, d. h. eine tatsächlich vorhandene Wirkung nicht erkennen. Neben dem gleichen Sachverhalt wie eben bei den Falschpositiven illustriert wurde, kann bei falschnegativen Ergebnissen die Subgruppengröße ein zusätzlicher Grund sein: die Subgruppe hat nicht genug Teilnehmer, um eine Wirkung erkennen zu können [3]. So deuteten frühere Studien auf Basis von Subgruppenanalysen darauf hin, dass Aspirin nach einem Schlaganfall nur bei Männern das Risiko eines weiteren Schlaganfalls oder Todes reduzierte [4]. Tatsächlich ist der Nutzen bei Frauen genauso groß, die Anzahl von Frauen mit Schlaganfall in dieser Studie war aber nicht ausreichend, um diesen Effekt zu belegen [5].

Wohlgemerkt: Richtig angewandt, sind Subgruppenanalysen ein sehr nützliches Instrument. Zum Beispiel wurde durch Subgruppenanalysen in Studien zur Untersuchung von Halsoperationen bei Patienten mit teilblockierten Arterien zutreffend nachgewiesen, dass verschiedene Eigenschaften wie Alter, vorherige Schlaganfälle und Herzinfarkte die mit dem Eingriff verbundenen Risiken beeinflussen [6].

Fazit

Allzu oft werden Subgruppenanalysen vor Beginn einer Studie schlecht oder gar nicht geplant [7]. Manchmal werden Behandlungseffekte innerhalb der Subgruppen wegen der geringen Anzahl von relevanten Teilnehmern übersehen. Die Durchführung einer Vielzahl von Subgruppenanalysen erhöht die Wahrscheinlichkeit, dass scheinbar signifikante Effekte in Wirklichkeit ausschließlich auf den Zufall zurückzuführen sind. Schlussfolgerungen zur Wirksamkeit einer Behandlung, die allein aus Subgruppenanalysen gezogen werden, können sehr irreführend sein und sind mit Vorsicht zu genießen.

Text: Ed Walsh

Übersetzt von:

Redaktion: Cochrane Deutschland

Zum Originaltext

Zu den Quellenangaben

Anmerkungen:

Dies ist der 24. Beitrag einer Blogserie zu einer Zusammenstellung von „Schlüsselkonzepten zur besseren Bewertung von Aussagen zu Behandlungen“, die im Rahmen des Informed Health Choices Projektes erarbeitet wurden. Jeder der insgesamt 36 Blogbeiträge befasst sich mit einem der Schlüsselkonzepte, die als wichtig dafür erachtet werden, Aussagen zu Wirkungen von Behandlungen besser verstehen und einordnen zu können. 

Aus Gründen der besseren Lesbarkeit wird auf die gleichzeitige Verwendung männlicher und weiblicher Sprachformen verzichtet. Sämtliche Personenbezeichnungen gelten gleichermaßen für alle Geschlechter.

Pages