Het regent nepmedicijnen
Pil of placebo?
De FDA laat medicijnen toe waarvan onvoldoende is aangetoond dat ze werken.
Dat concludeert Don van Ravenzwaaij uit zijn onderzoek aan de RUG, dat hij samen met John Ioannidis uitvoerde.
De FDA keurt medicijnen goed als er twee onderzoeken zijn die afzonderlijk een positieve werking aantonen. Daarbij wordt achterwege gelaten hoeveel pogingen er in totaal zijn gedaan.
Om aan te tonen dat het beleid van de FDA niet deugt, maakte Van Ravenzwaaij simulaties, gebaseerd op echte data.
Alleen met simulaties kun je laten zien hoe waarschijnlijk het is dat de FDA überhaupt tot een juiste beslissing kan komen.
Het probleem zit ‘m niet alleen in het beleid, maar ook in de traditionele manier waarop data worden geïnterpreteerd.
Van Ravenzwaaij pleit voor een nieuw beleid, waarbij de FDA alle gedane testen meeweegt én nagaat hoe sterk het bewijs van elke afzonderlijke poging daadwerkelijk is.
Leestijd: 9 minuten (1640 woorden)
De FDA is hét bepalende orgaan voor het testen en goedkeuren van medicijnen. En dat al sinds 1962. Om ervoor te zorgen dat alleen werkende en ongevaarlijke medicijnen op de markt komen, volgt de instantie een strikt protocol. ‘Slechte’ medicijnen krijgen we dus alleen als de FDA van dat protocol afwijkt. Althans, dat zou je denken.
Volgens haar eigen beleid keurt de FDA medicijnen goed, wanneer twee klinische onderzoeken overtuigend (lees: statistisch bewezen) een positieve werking aantonen. ‘Wat er echter niet is vastgelegd in dat beleid, is of dat twee succesvolle onderzoeken uit twee pogingen zijn, of uit vijf of uit twintig’, zegt Van Ravenzwaaij. ‘En dat is geen theoretisch probleem. Het gebeurt geregeld dat slechts twee uit meerdere pogingen succesvol zijn.’
Raak of mis
Je hebt geen statistiek nodig om te begrijpen dat dit niet de bedoeling kan zijn. Het is alsof je iemand die twintig keer de trekker overhaalt en twee keer raak schiet, een goede schutter noemt.
Maar hoe vaak trekt de FDA nou echt een verkeerde conclusie? Om dat uit te vinden, simuleerde Van Ravenzwaaij verschillende situaties op basis van echte onderzoeken. Want hoe vaak het in de praktijk daadwerkelijk misgaat, kun je volgens hem alleen met gesimuleerde data aantonen. ‘Alleen met gesimuleerde data ken je de echte waarheid.’
Gebruik je ‘echte’ data, dan weet je niet of het medicijn ook echt werkt of niet. Je hebt dan immers alleen het statistische bewijs van de geteste steekproeven. Maar je kunt niet toetsen of de FDA juiste beslissingen neemt, als je niet weet wat de juiste beslissing is. Met een simulatie kan dat wel.
Financiële belangen
Met een simulatie kun je fictieve data genereren op basis van bijvoorbeeld werkende of niet werkende medicijnen. Vervolgens kun je kijken wat er misgaat als je de FDA-procedure toepast op deze virtuele medicijnen. Dit stelt je in staat om te testen hoe vaak de FDA een medicijn toe zou laten onder de aanname dat het geneesmiddel werkt, én hoe vaak dat zou gebeuren bij de aanname dat een medicijn níet werkt. Alleen op deze manier kun je toetsen hoe (on)waarschijnlijk het is dat het beleid van de FDA de juiste beslissingen oplevert, aldus Van Ravenzwaaij. ‘We concluderen dat het in een heel groot deel van de gevallen misgaat. En dat er door strikte toepassing van dit beleid nieuwe medicatie op de markt komt die helemaal niet werkt.’
De geldigheid van conclusies
Don van Ravenzwaaij werkt als docent en onderzoeker bij het Centrum voor Psychometrie en Statistiek van de Faculteit Gedrags- en Maatschappijwetenschappen aan de RUG. Daar onderzoekt hij onder meer de geldigheid van conclusies die wetenschappers met traditionele statistiek uit hun onderzoeksdata halen.
De traditionele ‘p-waardenstatistiek’ kijkt naar de waarschijnlijkheid van data, aan de hand van een verklaring van de wereld. Hij vergelijkt deze manier van interpreteren met andere methoden, zoals de Bayesiaanse statistiek. Bayesiaanse statistiek combineert meerdere mogelijke verklaringen en de relatieve kansen daarop tot een genuanceerder resultaat.
Betekent dat dan ook dat er medicijnen op de markt komen, waarvan de negatieve bijwerkingen worden achtergehouden? Dat gebeurt zeker, stelt van Ravenzwaaij. ‘Er spelen grote financiële belangen bij de goedkeuring van nieuwe medicatie. Mijn collega John Ioannidis heeft hier veel over gepubliceerd, maar daar gaat dit onderzoek niet over.’
Hij wil geen voorbeelden noemen van dergelijke medicijnen. Niet omdat hij er geen weet, maar omdat hij er zijn vingers niet aan wil branden. Bovendien gaat het niet om dat ene farmaceutische bedrijf waar het toevallig verkeerd ging, maar om de procedure als geheel, vindt Van Ravenzwaaij. ‘De boodschap die we willen uitsturen is: deze policy kan tot verkeerde beslissingen leiden!’
Moord
Hoe kan het toch dat een grote instantie met zo’n belangrijke taak zo een blinde vlek in haar beleid heeft? Volgens Van Ravenzwaaij heeft dat veel te maken met de manier waarop de traditionele statistiek werkt. Hoe dramatisch dit in de praktijk mis kan gaan, blijkt uit het verhaal van Sally Clark.
Sally Clark had twee jonge baby’s die kort na elkaar overleden. Na de dood van haar tweede zoontje werd zij aangeklaagd en veroordeeld voor de moord op haar kinderen. De openbare aanklager redeneerde dat de kans dat twee jonge kinderen in hetzelfde gezin aan wiegendood overlijden, te klein is om de gebeurtenissen aan het toeval toe te schrijven. Kinderarts Roy Meadow getuigde dat de kans op wiegendood circa een op 8500 is. De kans op een tweede wiegendood is dan een op 8500 in het kwadraat. ‘Een kans van ongeveer een op 73 miljoen’, rekent Van Ravenzwaaij voor. ‘Dat is zo ontzettend onwaarschijnlijk dat de traditionele statistiek automatisch concludeert dat het alternatief waar moet zijn: Sally Clark heeft haar twee kinderen vermoord.’
Net zoals de FDA alleen de twee succesvolle pogingen meetelt, maakte de rechtbank de fout om een uitsnede van de werkelijkheid als totalitair bewijs te zien. Dat een vrouw haar twee kinderen vermoordt, is ongeveer negen keer zo onwaarschijnlijk als twee gevallen van wiegendood binnen één gezin, aldus Van Ravenzwaaij. Bovendien zijn er nog andere verklaringen mogelijk, zoals een genetische afwijking bij de kinderen. Pas vijf jaar later zag de rechtbank in dat de bewijsvoering geen hout sneed en werd Sally Clark vrijgelaten.
P-hacking
Een ander probleem dat de traditionele statistiek onder druk zet, is het zogenoemde p-hacking. P-hacking staat voor het manipuleren van je onderzoeksdata, zodat je alleen het resultaat krijgt dat je hebben wilt. De naam verwijst naar de p-waardes die de traditionele statistiek gebruikt om hypotheses te bewijzen of te verwerpen. De meest gangbare methode van p-hacking is het selectief verwijderen van onderzoeksdata die het resultaat negatief beïnvloeden, legt Van Ravenzwaaij uit. ‘Met als doel je p-waarde net onder die magische grens van 5 procent te laten vallen. En dat is uiteraard heel onethisch, dat is niet de juiste manier van onderzoeken.’
Zelfs met de beste bedoelingen kan het toch gebeuren dat onderzoekers ‘verkeerde’ data eruit halen. En aan de andere kant: ‘Als een onderzoeker kwaad wil en bewust aan data-torture doet, gaat het fout ongeacht welke statistiek de onderzoeker gebruikt.’
Ondertussen in Nederland…
De procedures en voorwaarden voor toelating in Europa en Nederland zijn in grote lijnen vergelijkbaar met die van de FDA. Vaak dienen farmaceutische bedrijven een Europese aanvraag in bij de European Medicines Agency (EMA). Deze laat de aanvraag vervolgens door de nationale autoriteiten beoordelen. Het Nederlandse College ter Beoordeling van Geneesmiddelen (CBG) speelt daarbij een belangrijke rol.
Als de EMA een medicament goedkeurt, geldt die toelating in principe voor heel Europa. ‘Fabrikanten moeten bij een goedkeuringsaanvraag wel álles inleveren wat zij weten over de effectiviteit en bijwerkingen’, benadrukt professor Marcel Bouvy, die lid is van het CBG. ‘Een soort van cherry-picking, waarbij je alleen eruit haalt wat goed ging, mag natuurlijk niet.’
De afweging om geneesmiddelen tot de markt toe te laten verschilt per middel. ‘Het is maatwerk’, zegt Bouvy. ‘Soms zijn er ziektes waarvoor anders helemaal geen remedie is. Dan moet je de afweging maken of je patiënten met helemaal niets laat zitten, óf dat je ze toegang geeft tot een middel waarbij je eventuele risico’s op de koop toeneemt.’
Gelukkig weet Van Ravenzwaaij een goed alternatief voor het FDA-beleid: Bayesiaanse statistiek. ‘Bayesiaans’ heeft niets te maken met de gevangenis, maar is een andere vorm van statistiek die verschillende scenario’s en relatieve kansen combineert. Het verschil tussen de twee methoden kun je je als volgt voorstellen.
Een beetje gek
Als je je collega Don met zijn paraplu naar buiten ziet lopen, zijn daar twee mogelijke verklaringen voor: of het regent, of het regent niet en Don is een beetje gek (of er is een andere reden dat hij zijn paraplu meeneemt). Om erachter te komen hoe groot de kans is dat het daadwerkelijk regent, zoek je uit hoe waarschijnlijk het is dat het in deze tijd van het jaar überhaupt regent (zeg 30 procent) of dat het droog is (70 procent). Die percentages koppel je aan de respectievelijke kansen dat Don zijn paraplu meeneemt bij regen (zeg 80 procent) en de kans dat Don zijn paraplu meeneemt bij droog weer (zeg 10 procent).
Om Dons gedrag te verklaren, combineer je nu deze kansen en bereken je de kans dat het regent en Don zijn paraplu meeneemt (30 procent x 80 procent = 24 procent) én de kans dat het droog is en Don zijn paraplu meeneemt (70 procent x 10 procent = 7 procent). We hebben nu de kans berekend dat Don zijn paraplu meeneemt onder verschillende mogelijke verklaringen. We weten dan hoeveel groter de kans is dat het regent als je Don met zijn paraplu naar buiten ziet lopen (in dit geval: 24 procent is meer dan drie keer zo groot als 7 procent, dus de kans dat het regent is iets meer dan drie keer zo groot als de kans dat het droog is). Om Dons gedrag te verklaren, combineer je dus verschillende mogelijke verklaringen. ‘Je kijkt naar een model van de wereld, relatief tot een ander model van de wereld.’
‘En dit is het grote verschil’, aldus Van Ravenzwaaij. ‘Met de traditionele statistiek toets je maar één mogelijke verklaring. En omdat het erg onwaarschijnlijk is dat Don met zijn paraplu rondloopt als het droog is, concludeer je dus dat het regent.’
Dankzij het huidige testbeleid van de FDA regent het vooralsnog medicijnen die mogelijk niet beter werken dan een placebo. En dus pleit Van Ravenzwaaij voor een nieuw beleid, waarbij de instantie alle gedane testen meeweegt én nagaat hoe sterk het bewijs van elke afzonderlijke poging daadwerkelijk is. ‘De FDA moet een onderscheid maken op basis van het aantal pogingen dat nodig was om tot twee geslaagde proeven te komen’, aldus Van Ravenzwaaij. ‘En dat onderscheid moeten ze meenemen in het eindoordeel.’