• Het belang van open data

  Bang voor pottenkijkers

  Moet een onderzoeker zijn data beschikbaar stellen aan de wereld? Stiekem wel, vinden vrijwel alle wetenschappers. Maar in de praktijk houden ze hun data liever voor zichzelf.
  in het kort

  Wanneer een wetenschapper de ruwe data opvraagt bij een publicatie, stuit zo’n verzoek vaak op problemen. Collega’s komen met smoezen of leveren een rudimentaire dataset.

  Toch eisen VSNU, onderzoeksfinancier NWO en veel tijdschriften dat data ter beschikking worden gesteld aan wie daarom vraagt. Ook de RUG eist dat ruwe data centraal worden bewaard.

  In de praktijk is er echter weinig controle of onderzoekers dat ook echt doen.

  Wanneer data niet beschikbaar zijn, is het repliceren en controleren van onderzoek moeilijk.

  Rink Hoekstra is een van de initiatiefnemers van het Peer Reviewers Openness Initiative. Ondertekenaars weigeren vanaf 1 januari om artikelen te reviewen als er geen verantwoording wordt afgelegd over de data.

  ‘We hopen dat als voldoende mensen zich aansluiten, tijdschriften hun beleid gaan aanpassen.’

  Tegenstanders vrezen echter voor de privacy van hun proefpersonen. Anderen zijn bang dat hun gegevens worden gebruikt voor makkelijke publicaties, of zelfs gestolen.

  Hoekstra is niet overtuigd. Niet het eigen ego, maar het belang van de wetenschap moet vooropstaan, zegt hij.

  volledige versie

  Leestijd: 9 minuten (1702 woorden)

  Heel bijzonder, dat artikel in Nature Neuroscience, vond RUG-psycholoog Hedderik van Rijn. De onderzoeker – niet de minste in het veld – kwam met een spectaculaire theorie. Een doorbraak misschien zelfs. Alleen… was het dat wel? Of konden zijn bevindingen ook anders geïnterpreteerd worden? Met een theorie uit 1890?

  Van Rijn deed wat je van een consciëntieus wetenschapper kunt verwachten. Hij overlegde het met Niels Taatgen van artificiële intelligentie met wie hij regelmatig publiceert. Samen stuurden ze een mail. Of de geachte collega hen de data kon toesturen?

  Zeker kon dat, antwoordde de collega, die Van Rijn niet bij naam wil noemen. Het zou immers maar zo kunnen dat deze wetenschapper invloed heeft op toekenning van zijn volgende grant proposal. ‘Alleen duurde het maar en duurde het maar. Uiteindelijk hebben we weer gemaild en gewezen op de policy van Nature.’ Die eist immers dat auteurs hun data ‘promptly’ beschikbaar moeten stellen aan lezers, zónder ‘undue qualifications’.

  Gehusseld

  ‘Uiteindelijk kregen we een dataset toegestuurd’, vertelt Van Rijn. ‘Alleen was dat de meest rudimentaire dataset die je maar kon bedenken. Hij was zo door elkaar gehusseld dat de sequentie-analyse die we wilden doen, om te kijken naar de gevolgen van het herhaaldelijk uitvoeren van een taak, niet meer mogelijk was. En dus kon je uit de gegevens alleen nog maar het effect halen dat het onderzoek ondersteunde.’

  ‘We hebben het er nog over gehad’, zegt Taatgen. ‘Moesten we dit nu pikken of er herrie over gaan schoppen? Dat laatste hebben we dus niet gedaan, maar je houdt er wel een vieze smaak aan over. Jammer.’

  Het geval staat niet op zichzelf. Na de Stapelaffaire in 2011 probeerde de Tilburgse statisticus Jelte Wicherts het uit: hij mailde tientallen psychologen om hun data, zodat hij ze opnieuw kon analyseren voor een artikel in Plos One. In slechts één op de tien gevallen volgde een welwillende reactie. En dat waren, bleek uiteindelijk, degenen die de sterkste studies hadden gepubliceerd.

  Y-schijf

  Nu, enkele jaren later, is de situatie is nauwelijks veranderd. Taatgen kent de smoezen uit eigen ervaring. ‘Meestal zeggen ze dat ze het even moeten opzoeken en dan krijg je ze uiteindelijk toch niet’, zegt hij.

  Statisticus Rink Hoekstra van de RUG: ‘Het is opvallend hoeveel mensen nét een nieuwe computer hebben gekregen, of hoeveel harddrives er zijn gecrasht als je om data vraagt’, zegt hij.

  Niet dat er geen verandering op til is. Sinds de Stapelaffaire staat het belang van transparantie en controleerbaarheid hoog op de agenda in wetenschapsland. De vereniging van universiteiten, VSNU, hanteert de regel dat ruwe onderzoeksgegevens tien jaar bewaard moeten blijven en ter beschikking moeten worden gesteld aan collega-onderzoekers als die daar om vragen. Bovendien moeten ze zo worden opgeslagen dat ze in een minimum aan tijd beschikbaar zijn.

  Elders aan de RUG

  Open data? Dat speelt natuurlijk niet alleen bij sociale wetenschappen. Iedereen zou zijn data beschikbaar moeten stellen, aldus het PRO-initiatief. Een snelle rondgang leert echter dat ook daar bezwaren leven.

  Ecoloog Irene Tieleman heeft twijfels. ‘Als ecoloog heb ik onder andere mijn bedenkingen bij de interpretatie van getallen zonder dat een auteur de context kent. In ecologisch onderzoek is variatie in de omgeving waarin gemeten is van wezenlijk belang. Dat vang je niet even in een database’, stelt ze.

  RUG-natuurkundige Gerco Onderwater, die behalve aan de RUG ook werkzaam is voor CERN in Straatsburg, heeft vergelijkbare bedenkingen, zelfs al is ‘zijn’ instituut een schoolvoorbeeld van openheid. Iedereen kan zo inloggen op de Open Data-portal en aan de slag met de meetgegevens.

  ‘Het publiek heeft de kennis en rekenkracht helemaal niet om iets met al die data te kunnen’, betoogt hij. ‘Data alleen brengen je niet naar het antwoord. Het gaat om de expertise en de interpretatie ervan. Tegelijk kun je er altijd wel iets uithalen. Als je gaat zoeken, kun je vinden wat je wilt. Het zet de deur open naar confirmation bias.’

  Bovendien heeft hij twijfels bij het wantrouwen dat uit die gedwongen openheid spreekt. ‘Het past in het straatje van totale argwaan’, zegt hij. ‘En geen vertrouwen in je collega-wetenschappers.’ En of dat nu goed is?

  UMCG-onderzoekster Marieke Wichers, die onlangs een ERC Consolidator Grant van anderhalf miljoen euro binnensleepte voor het verzamelen van data voor depressieonderzoek, is ook niet overtuigd. ‘Openheid is heel goed natuurlijk’, zegt ze. ‘Dat verbetert de kwaliteit van het onderzoek.’ Ze vreest echter voor een ‘verkeerde incentive’.

  Als mooie datasets – zoals degene die zij straks gaat verzamelen – zo gemakkelijk beschikbaar zijn, zullen mensen ze gaan gebruiken voor snelle publicaties. En dat zou de kwaliteit van de wetenschap juist verminderen, in plaats van verbeteren, stelt Wichers.

  In het geval van de RUG betekent dat dat ruwe data op de y-schijf moeten worden bewaard. Maar gebeurt dat ook? Beau Oldenburg die een onderzoek deed over delen en opslag van data bij sociologie in Nederland ontdekte vorig jaar dat programmaleiders vaak denken dat data netjes worden opgeslagen, terwijl de praktijk anders is.

  Meedenkbrigade

  Het protocol bij sociale wetenschappen is duidelijk, zegt Tom Postmes, die voorzitter is van een facultaire commissie die zich bezighoudt met de opslag van ruwe data. De onderzoekers van sociologie en psychologie moeten hun data centraal opslaan en bij publicatie een ‘publication package’ hebben. Promovendi kunnen niet verdedigen en studenten hun master- of bachelorthese niet afronden als dat niet op orde is. Maar senior onderzoekers?

  ‘Dat weten we eigenlijk niet’, geeft Postmes toe. ‘Iedere onderzoeker is op de hoogte van het protocol en we werken aan een manier om te controleren of ze dat ook werkelijk navolgen.’ Een snelle check bij psychologie en sociologie zag er goed uit, maar harde gegevens heeft hij niet. Handhaving zal in toekomst in elk geval niet met harde hand gebeuren, maar eerder in de vorm van een ‘meedenkbrigade’. Want: ‘Elke dataset heeft weer zijn eigenaardigheden waar je zorgvuldig mee om moet gaan. We willen samen met onderzoekers uitzoeken hoe je dit het beste kunt aanpakken.’

  Duidelijk is dat de weg naar verbetering is ingeslagen. Alleen gaat het voor sommigen niet snel genoeg. Na een geanimeerde discussie op een congres in Amsterdam vorig jaar, besloot Rink Hoekstra niet langer te wachten en startte met een groep van acht collega’s uit de rest van de wereld het Peer Reviewers Openness Initiative.

  Hoekstra en andere ondertekenaars kondigen aan vanaf 1 januari 2017 geen artikelen meer te reviewen als er zonder reden geen ruwe data bijgeleverd worden. Gebeurt dat toch, dan stuurt hij het terug. Pas als er verantwoording is afgelegd over de data, gaat hij aan de slag. ‘Dat is lastig voor het tijdschrift’, beseft hij. ‘Maar we hopen dat als voldoende mensen zich aansluiten, tijdschriften hun policy gaan aanpassen. Ik wil de default veranderen.’

  De voordelen van een cultuuromslag zijn namelijk groot. Onderzoek is beter te controleren en te repliceren: kernwaarden van de wetenschap. ‘Het wordt meteen zichtbaar als mensen hun data niet netjes bijhouden of proefpersonen schrappen om de conclusies er mooier uit te laten komen’, zegt hij. ‘Open data zorgen ervoor dat fouten snel kunnen worden rechtgezet.’

  ‘Stelen’ van gegevens

  Hij ziet geen reden om géén openheid te betrachten – en met ‘open’ bedoelt hij: algemeen toegankelijk, dus niet alleen voor reviewers of voor collega’s of verborgen op een aparte server. ‘Mensen zeggen bijvoorbeeld dat ze zoveel moeite hebben gedaan om die data te verzamelen, dat ze ze niet willen weggeven. Een persoonlijk argument. Maar ik ben zo naïef dat ik vind dat wetenschappers moeten werken aan de verspreiding van kennis en niet aan het boosten van hun eigen ego en carrière’, stelt hij.

  Ook Oldenburg kwam die angst tegen bij de promovendi die ze interviewde over dataopslag. ‘Hoewel ze aangeven dat ze zich ervan bewust zijn dat dit een onwetenschappelijke houding is, vinden ze het oneerlijk als anderen ‘zomaar’ gebruik zouden kunnen maken van hun data’, schrijft ze.

  En dan is er de angst voor het ‘stelen’ van gegevens. Onderzoekers vrezen dat hun data uit een repository worden gepikt door iemand die dan net doet alsof hij ze zelf heeft verzameld. Reëel? ‘Zoiets zal snel worden herkend’, denkt Hoekstra. ‘En de keerzijde van zo’n publicatie is potentieel gezichtsverlies. En dat is dodelijk in de wetenschap.’

  Vingerafdruk

  Hij gelooft dan ook niet dat de risico’s van openheid echt zo groot zijn. ‘Je moet een fundamentele discussie niet laten vervuilen door randverschijnselen.’

  Toch zijn er ook voorstanders die Hoekstra’s initiatief níet tekenen. Jacob Jolij heeft een fundamenteler bezwaar: de privacy van zijn proefpersonen. ‘Wij werken bijvoorbeeld veel met EEG-scans’, zegt Jolij. ‘Maar je hersengolven zijn net zo uniek als een vingerafdruk. Zou jij willen dat je vingerafdrukken zomaar op het internet staan?’

  Dan kun je wel zeggen dat je dergelijke gegevens moet anonimiseren, maar Jolij heeft daar geen absoluut vertrouwen in. ‘De algoritmen om grote datasets te analyseren worden steeds beter. We weten gewoon niet wat we eruit moeten halen om te garanderen dat het niet herleidbaar is’, waarschuwt hij.

  Daar komt bij dat proefpersonen misschien getekend hebben om mee te werken aan het ene onderzoek, maar niet willen dat hun data voor iets anders worden gebruikt. ‘Stel, het is een onderzoek over cognitie, waarin ook gegevens over sekse en ras zijn meegenomen, en iemand gebruikt dat voor een onderzoek over intelligentie en ras? Dat wil je misschien helemaal niet.’

  Privacy

  Open data? Prima, zegt Jolij. Maar hou de gegevens op een facultaire server, waar ze alleen toegankelijk zijn voor belanghebbenden. Het is misschien een muur die je opwerpt, maar ‘ik vind dat mijn proefpersonen wel een muur verdienen’.

  Van Rijn en Taatgen zagen in elk geval geen bezwaar – de ervaring met Nature Neuroscience in het achterhoofd. Negen andere wetenschappers vanuit de RUG volgden hun voorbeeld. In totaal ondertekenden 270 mensen het initiatief van Hoekstra en de zijnen. Genoeg?

  ‘Het is niet krankzinnig veel’, geeft Hoekstra toe. ‘Maar wel genoeg. Als editors het fenomeen vaker tegenkomen, kan het wel degelijk iets in beweging zetten.’ Bovendien: het initiatief is nog maar enkele weken geleden gestart: er zijn tien maanden te gaan om meer medestanders te werven.

  En die privacy? ‘Het lijkt wel alsof mensen de kleine lettertjes van het PRO Initiative niet lezen’, zegt Hoekstra. ‘Het enige dat wij doen is vragen om óf data beschikbaar te stellen, of anders een verklaring te geven. Waarbij elke verklaring voldoende is.’