Le Monde – La rencontre de Google et de Descartes

La rencontre de Google et de Descartes

Les sciences du vivant, comme d’autres disci­plines scientifiques, sont en train de vivre une métamorphose dans leur façon d’appré­hender leurs objets d’étude. Une métamor­phose directement liée à la quantité de données qu’il est à présent possible de produire en un temps re­cord. On séquence aujourd’hui, en quelques heures, le génome de n’importe quel être vivant, plusieurs centaines de millions de lettres d’ADN. Cela concerne aussi bien les organismes macroscopiques (les hu­mains en particulier) que les innombrables microbes qui peuplent les océans, nos intestins, les sols et même les nuages. On peut également connaître l’ac­tivité de ces génomes avec une précision inouïe, cel­lule par cellule, en séquençant en masse les produits des gènes exprimés. Le temps où le séquençage d’un seul gène de quelques centaines de lettres d’ADN oc­cupait une équipe de recherche pendant des mois n’est pourtant pas si lointain.

Ce changement d’échelle s’impose à tous les biolo­gistes et demande des compétences en informatique, nouvelles pour nombre d’entre eux. Il appelle aussi une révision profonde des formations scientifiques. Il a en outre fondamentalement bousculé les cadres de pensée. En effet, ces données massives donnent un aperçu exhaustif et global d’un processus cellulaire ou du génome d’un organisme. Elles permettent d’identifier des liens entre l’information génétique et certaines caractéristiques biologiques, telles des pré­dispositions génétiques à certaines maladies. Mais par nature ces liens ne sont que des corrélations, plus ou moins fortement soutenues par des probabilités, et non pas des liens de causalité.

Les tenants du « big data », façon Google, estiment qu’avec suffisamment de données les liens entre sé­quences génétiques et caractéristiques particulières deviendront tous apparents et que la quantité aura valeur de lien de cause à effet. Pourtant, même soute­nue par une probabilité forte, une corrélation positive entre deux variables n’implique pas forcément que l’une détermine l’autre. En témoigne cette étude pa­rue en 2012 dans le New England Journal of Medicine établissant une corrélation positive entre la consom­mation de chocolat par les habitants d’un pays et le nombre de prix Nobel obtenus par ses scientifiques ! On peut trouver comme cela quantité de variables qui suivent les mêmes trajectoires et sont corrélées. En conclure que les variations d’une variable causent les variations de l’autre est pour autant hâtif.

La question se pose pourtant : les « big data » et les corrélations qui en découlent ont-­elles valeurs de dé­monstration ? Peuvent­-elles remplacer l’approche ex­périmentale et faire fi des tests de causalité ? Les deux approches ne sont en fait pas exclusives, mais au con­traire complémentaires. Les approches à grande échelle constituent un outil précieux pour explorer les phénomènes biologiques complexes et révéler des relations insoupçonnées entre des variables. Ces corrélations doivent cependant être considérées comme autant d’hypothèses à tester. A ce jour, rien ne rem­place la force des tests expérimentaux et l’analyse cartésienne pour identifier des liens de causalité.

Si la nécessité de cette étape expérimentale est par­fois remise en question parce qu’elle est longue et onéreuse, elle n’en reste pas moins un pilier essentiel de la compréhension.

Par Nicolas Gompel & Benjamin Prud’homme. Publié dans Le Monde le 8 octobre 2014