La rencontre de Google et de Descartes
Les sciences du vivant, comme d’autres disciplines scientifiques, sont en train de vivre une métamorphose dans leur façon d’appréhender leurs objets d’étude. Une métamorphose directement liée à la quantité de données qu’il est à présent possible de produire en un temps record. On séquence aujourd’hui, en quelques heures, le génome de n’importe quel être vivant, plusieurs centaines de millions de lettres d’ADN. Cela concerne aussi bien les organismes macroscopiques (les humains en particulier) que les innombrables microbes qui peuplent les océans, nos intestins, les sols et même les nuages. On peut également connaître l’activité de ces génomes avec une précision inouïe, cellule par cellule, en séquençant en masse les produits des gènes exprimés. Le temps où le séquençage d’un seul gène de quelques centaines de lettres d’ADN occupait une équipe de recherche pendant des mois n’est pourtant pas si lointain.
Ce changement d’échelle s’impose à tous les biologistes et demande des compétences en informatique, nouvelles pour nombre d’entre eux. Il appelle aussi une révision profonde des formations scientifiques. Il a en outre fondamentalement bousculé les cadres de pensée. En effet, ces données massives donnent un aperçu exhaustif et global d’un processus cellulaire ou du génome d’un organisme. Elles permettent d’identifier des liens entre l’information génétique et certaines caractéristiques biologiques, telles des prédispositions génétiques à certaines maladies. Mais par nature ces liens ne sont que des corrélations, plus ou moins fortement soutenues par des probabilités, et non pas des liens de causalité.
Les tenants du « big data », façon Google, estiment qu’avec suffisamment de données les liens entre séquences génétiques et caractéristiques particulières deviendront tous apparents et que la quantité aura valeur de lien de cause à effet. Pourtant, même soutenue par une probabilité forte, une corrélation positive entre deux variables n’implique pas forcément que l’une détermine l’autre. En témoigne cette étude parue en 2012 dans le New England Journal of Medicine établissant une corrélation positive entre la consommation de chocolat par les habitants d’un pays et le nombre de prix Nobel obtenus par ses scientifiques ! On peut trouver comme cela quantité de variables qui suivent les mêmes trajectoires et sont corrélées. En conclure que les variations d’une variable causent les variations de l’autre est pour autant hâtif.
La question se pose pourtant : les « big data » et les corrélations qui en découlent ont-elles valeurs de démonstration ? Peuvent-elles remplacer l’approche expérimentale et faire fi des tests de causalité ? Les deux approches ne sont en fait pas exclusives, mais au contraire complémentaires. Les approches à grande échelle constituent un outil précieux pour explorer les phénomènes biologiques complexes et révéler des relations insoupçonnées entre des variables. Ces corrélations doivent cependant être considérées comme autant d’hypothèses à tester. A ce jour, rien ne remplace la force des tests expérimentaux et l’analyse cartésienne pour identifier des liens de causalité.
Si la nécessité de cette étape expérimentale est parfois remise en question parce qu’elle est longue et onéreuse, elle n’en reste pas moins un pilier essentiel de la compréhension.
Par Nicolas Gompel & Benjamin Prud’homme. Publié dans Le Monde le 8 octobre 2014