Mardi 19 juin 2018, 12h30-14h, session "The replication crisis", LPL, B011


#1

Bonjour everyone!

Nous vous proposons un brown bag session sur la crise de la reproductibilité (replication crisis). À vos agenda :

Le jeudi 24 mai prochain de 12h30 à 14h en salle B011 du LPL (pensez à apporter vos gamelles!)

La discussion s’articulera autour du post initié par Noel :

Venez nombreux!

Stéphane et Anne-Sophie

ps. Rassurez-vous, comme on le verra, il ne s’agit que de reproduction d’expériences!


#2

ATTENTION !!! CHANGEMENT DE DATE, mardi 19 juin :
Notre brown bag session sur la crise de la reproductibilité aura finalement lieu le mardi 19 juin, toujours de 12H30 à 14H au LPL, salle B011.

Venez nombreux !
Anne-Sophie et Stéphane.


#3

La crise de la reproductibilité, c’est quoi ?

Le terme “crise de la reproductibilité” (replication crisis, replicability or reproductibility crisis en anglais) apparaît dans le domaine des Sciences au milieu des années 2000.

Des études montrent en effet qu’un nombre inattendu de résultats expérimentaux reportés et publiés dans les revues scientifiques sont difficiles voire impossibles à reproduire (que ce soit par des équipes indépendantes ou par les chercheurs ayant eux-mêmes réalisés l’étude originale).

On parle ici de crise parce que le critère de reproductibilité est à la base de la Science expérimentale qui consiste à décrire les phénomènes “reproductibles”.

Ces problèmes de reproductibilité ont été constatés :

  • en Médecine (Ioannidis, John P. A. (August 1, 2005), PLoS Medicine. 2 (8), “Why Most Published Research Findings Are False”,
    Summary : There is increasing concern that most current published research findings are false. The probability that a research claim is true may depend on study power and bias, the number of other studies on the same question, and, importantly, the ratio of true to no relationships among the relationships probed in each scientific field. In this framework, a research finding is less likely to be true when the studies conducted in a field are smaller; when effect sizes are smaller; when there is a greater number and lesser preselection of tested relationships; where there is greater flexibility in designs, definitions, outcomes, and analytical modes; when there is greater financial and other interest and prejudice; and when more teams are involved in a scientific field in chase of statistical significance. Simulations show that for most study designs and settings, it is more likely for a research claim to be false than true. Moreover, for many current scientific fields, claimed research findings may often be simply accurate measures of the prevailing bias. In this essay, I discuss the implications of these problems for the conduct and interpretation of research.)
    Ioannidis, John P. A.(2016). PLoS Medecine 13 (6), “Why Most Clinical Research Is Not Useful”).

  • en Psychologie (Joseph P. Simmons, Leif D. Nelson and Uri Simonsohn, Psychological Science 22(11) 1359-1366, “False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant”,
    Abstract : In this article, we accomplish two things. First, we show that despite empirical psychologists’ nominal endorsement of a low rate of false-positive findings (< .05), flexibility in data collection, analysis, and reporting dramatically increases actual false-positive rates. In many cases, a researcher is more likely to falsely find evidence that an effect exists than to correctly find evidence that it does not. We present computer simulations and a pair of actual experiments that demonstrate how unacceptably easy it is to accumulate (and report) statistically significant evidence for a false hypothesis. Second, we suggest a simple, low-cost, and straightforwardly effective disclosure-based solution to this problem. The solution involves six concrete requirements for authors and four guidelines for reviewers, all of which impose a minimal burden on the publication process.).

  • Encore en Psychologie, sur une étude à grande échelle (Open Science Collaboration, Science, 28 Aug 2015, Vol. 349, Issue 6251, “Estimating the reproducibility of psychological science”,
    Abstract: Reproducibility is a defining feature of science, but the extent to which it characterizes current research is unknown. We conducted replications of 100 experimental and correlational studies published in three psychology journals using high-powered designs and original materials when available. Replication effects were half the magnitude of original effects, representing a substantial decline. Ninety-seven percent of original studies had statistically significant results. Thirty-six percent of replications had statistically significant results; 47% of original effect sizes were in the 95% confidence interval of the replication effect size; 39% of effects were subjectively rated to have replicated the original result; and if no bias in original results is assumed, combining original and replication results left 68% with statistically significant effects. Correlational tests suggest that replication success was better predicted by the strength of original evidence than by characteristics of the original and replication teams.)

  • En Science en général, à partir d’un sondage effectué au sein de la communauté scientifique (Baker, Monya, 26 May 2016, Nature, 533 (7604): 452-454, “1,500 scientists lift the lid on reproducibility”,
    More than 70% of researchers have tried and failed to reproduce another scientist's experiments, and more than half have failed to reproduce their own experiments. Those are some of the telling figures that emerged from Nature's survey of 1,576 researchers who took a brief online questionnaire on reproducibility in research. The data reveal sometimes-contradictory attitudes towards reproducibility. Although 52% of those surveyed agree that there is a significant 'crisis' of reproducibility, less than 31% think that failure to reproduce published results means that the result is probably wrong, and most say that they still trust the published literature.)

Est-ce que le problème se limite à la Psychologie et à la Médecine ? C’est pas sûr… (Achenbach, Joel, The Washington Post, 10 September 2015, “No, science’s reproducibility problem is not limited to psychology”)


#4

La crise de la reproductibilité, pourquoi ?

Les causes de cette crise sont certainement multiples. D’après la communauté scientifique sondée par Nature (Baker, Monya, 26 May 2016, Nature, 533 (7604): 452-454, “1,500 scientists lift the lid on reproducibility”), en voici les principales raisons :

La notion de “biais de publication” (publication bias en anglais) fait référence à un problème rencontré en Science expérimentale lorsque on utilise la méthodologie des tests d’hypothèses (statistical hypothesis test en anglais).

Dans ce type de design expérimental, un test est appliqué aux données pour détecter si un effet (un phénomène) est statistiquement significatif compte tenu du bruit expérimental. Le résultat du test est soit négatif (l’effet n’est pas détecté avec cette expérience et ces données associées), soit positif (le test passe le seuil statistique de significativité fixé par l’expérimentateur, par exemple une risque de α = 0.05). Dans le cas d’une mesure positive, l’expérimentateur concluera que l’effet existe et il se trompera dans le cas où ce résultat est un FAUX-POSITIF, c’est-à-dire dans le cas où une fluctuation statististique est interprétée à tort comme une détection de l’effet.

Le biais de publication mentionné plus haut réside dans le fait que les revues scientifiques favorisent fortement la publication de résultats positifs (détection d’un effet) et par conséquent des résultats FAUX-POSITIFS.

Ce biais ne suffit pas néanmoins à expliquer la proportion trop élevée de FAUX-POSITIFS comme observée par l’Open Science Collaboration, Science, 28 Aug 2015, Vol. 349, Issue 6251, “Estimating the reproducibility of psychological science”.

Pour augmenter le nombre de FAUX-POSITIFS, il faut en plus suivre de mauvaises pratiques (qui sont pourtant assez courantes). Des exemples mentionnés dans Joseph P. Simmons, Leif D. Nelson and Uri Simonsohn, Psychological Science 22(11) 1359-1366, “False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant”) :

  • Lorsque l’effet n’est pas significatif, rajouter des sujets à l’étude!
  • Eliminer les données qui masquent l’effet!
  • Choisir les co-variables qui rendent l’effet significatif!
  • … voir l’article

#5

La crise de la reproductibilité, que faire ?

Plusieurs pistes sont proposées :


#6

Encore un complément tout beau tout frais sur la généralisation de nos études de groupes à la réalité des individus


Lack of group-to-individual generalizability is a threat to human subjects research
10.1073@pnas.1711978115.pdf (908.9 KB)