"Ce que les services secrets biélorusses stockent dans leurs caves, c’est aussi du Big Data"

Quelqu’un qui affiche sur son compte Twitter « Tous des idiots. Regardez autour de vous » semble peu enclin aux analyses diplomatiques et autocritiques. Il est un fait qu’Evgeny Morozov, un doctorant biélorusse de 29 ans de l’université de Harvard, s’est fait connaître par les critiques acerbes de l’industrie des nouvelles technologies et de ses chefs de file qu’il a publiées sur son blog et, plus récemment, par un article où le New York Times le qualifiait d’« ennemi verbal de l’Internet ». Dans une interview à ARTE Future, Evgeny Morozov dévoile les liens entre la collecte de données à grande échelle orchestrée par Google et Facebook et les compagnies d’assurance, la série « Mad Men » et les services secrets biélorusses – et aussi pourquoi nous devons nous méfier des prophéties d’épidémies de grippe.

Evgeny Morozov

ARTE Future : Comment définissez-vous le phénomène du Big Data ?

Evgeny Morozov : Je donnerais une définition standard : il s’agit de données trop complexes ou volumineuses pour pouvoir être traitées par des systèmes informatiques et bases de données standard. C’est la première définition utilisée par certains acteurs de l’industrie de l’informatique. Depuis lors, les limites de cette expression se sont élargies. A présent, tous les types d’ensembles de données qui contiennent plus d’une variable et plus d’une ligne de données sont considérés, pour une raison ou une autre, comme des Big Data. Ainsi, les tableaux et feuilles de calcul que vous avez sous Excel se transforment comme par magie en Big Data, ce qui ne me paraît pas très pertinent pour poursuivre les analyses ; mais c’est malheureusement ainsi qu’évolue le débat public sur le Big Data. Lorsque j’écris sur le Big Data, j’essaie généralement de garder à l’esprit la première définition, à savoir qu’il faut procéder à une collecte de données de grande envergure et onéreuse, et aussi analyser ces données de façon approfondie, ce qui ne peut être assuré par des outils standard. Je fais de mon mieux pour ne pas risquer de tomber dans les déductions et catégories simplistes qui émergent actuellement, mais qui ne sont pas les seules. Nous sommes confrontés à des catégories déductives similaires lorsque les gens de Silicon Valley parlent, par exemple, de gouvernement ouvert ou de ville intelligente. Il faut simplement savoir qu’il y a des définitions un peu plus techniques et travailler à partir de celles-ci.

Essayez-vous parfois d’imaginer l’ampleur réelle du Big Data aujourd’hui ?

Comment dire… je ne suis pas un fétichiste du Big Data. Si vous me prouvez qu’il y a plus de données sauvegardées aujourd’hui qu’hier ça ne me fera pas forcément réagir. Cela tient au fait qu’à présent, nous avons davantage d’outils pour mesurer les choses et de bases de données pour les stocker, mais cela n’est pas forcément révélateur de la réalité sous-jacente. Le fait d’avoir plus d’instrument de détection et de stockage est intéressant pour les personnes qui étudient la détection, le stockage de données, les outils de communication et de stockage, et les archives. Cela n’entraîne pas forcément des changements qualitatifs dans notre manière de vivre ni de travailler. Je comprends le besoin qu’ont certaines personnes dans l’industrie d’associer des chiffres à la situation présente mais, personnellement, je n’y attache pas grande importance. Je sais que la substance du Big Data a été élaborée et alimentée par des acteurs et que ceux-ci sont responsables de programmes de collecte et de stockage de ces données qui produisent ces chiffres. Ce n’est pas comme si une force supérieure nous imposait de plus en plus de données ; je vois les choses différemment. Ce n’est pas la première fois que nous sommes confrontés à des chiffres ; des initiatives dans ce sens ont déjà été menées par le passé, bien avant Internet, pour rassembler autant de connaissances humaines que possible, certaines sous forme mathématique, d’autres au niveau linguistique, ou alors de façon plus universelle, par exemple dans les encyclopédies.

Que vous inspirent les « big four » des nouvelles technologies d’information et de communication - Amazon, Apple, Facebook et Google – et leur approche en matière de Big Data ?

Je ne pense pas que ces entreprises procèdent vraiment différemment de ce que n’importe quelle compagnie d’assurance faisait avec ses données il y a 50 ans. Et ce n’est pas très différent de ce que ferait n’importe quelle autre entreprise si elle pouvait collecter des données. Les entreprises essaient d’améliorer les services qu’elles proposent, de prédire le comportement de leurs clients ou utilisateurs et, là aussi, tout dépend de votre définition du Big Data et de son ambigüité. On peut affirmer que le modèle commercial de Google dépend intégralement du Big Data parce que la société cherche à mettre en adéquation les besoins des internautes avec les offres des publicitaires, en s’appuyant intelligemment sur les encarts publicitaires que Google a mis en place dans d’autres systèmes. Je ne suis pas convaincu de la validité de leur discours car il dilue complètement le sens du terme Big Data. En fin de compte, on peut dire que Google utilise des données pour vendre de la publicité. Génial, me direz-vous. Sauf qu’en regardant la série Mad Men, vous constaterez que ces gens-là utilisaient déjà des données pour vendre leurs publicités, sauf que le produit fini était très différent de ce que propose Google. Mais eux s’appuyaient sur des études de marché. Mon boulot consiste à affranchir le débat public sur le Big Data d’une partie du battage médiatique qu’il suscite, du caractère exceptionnel et unique que l’on associe à ce phénomène. En la matière, le risque est que les gens assimilent tout type de données au Big Data et en tirent ensuite des conclusions erronées. A mon sens, un projet comme la Recherche dans le graphe Facebook se base sur les données que Facebook collecte auprès de ses utilisateurs. Ça, c’est un autre service mais je ne vois pas trop en quoi, du point de vue philosophique, il pourrait être différent de tous les autres.

Alors qu’y a-t-il de neuf dans le Big Data ?

Le fait que les données deviennent des marchandises, soient plus faciles à vendre et à obtenir. Pour moi, c’est ça l’aspect le plus intéressant. Ce n’était pas comme ça il y a cinquante ans. Une compagnie d’assurance collectait ses propres données, idem pour un constructeur automobile et, ensuite, ils constituaient leurs propres ensembles de données. Ceux-ci n’étaient pas faciles à commercialiser, mais ce n’était pas impossible. Des sociétés d’études de marché réalisaient des sondages, collectaient des données et les vendaient. Cela dit, les échanges de données n’étaient pas aussi fluides, voire quasi automatiques, que ceux qui se développent aujourd’hui au niveau des audiences pour la publicité. Par exemple, il y a eu l’année dernière un barouf sur les tendances identifiées par Google et sa capacité à prédire les épidémies de grippe à partir de fréquence d’utilisation de son site. Cette initiative paraissait prometteuse et il semblait que les prévisions de Google étaient meilleures que celles du Center for disease control (centre de lutte contre les maladies) mais, en fin de compte, il est apparu que ce mécanisme n’était pas parfaitement opérationnel pour cause de boucles de rétroaction et de boucles médias. En effet, lorsque les gens découvrent dans les médias les tendances identifiées par Google, ils adaptent leur comportement en conséquence, ce qui se traduit par des résultats moins fiables. Cela ne veut pas dire que le système de Google ne marche pas mais simplement que les apports traditionnels de la sociologie, par ex. sur l’influence du savoir sur le comportement des masses, sur les médias et la communication, et peut-être aussi sur la cybernétique s’agissant des boucles de rétroaction, restent valables et ne vont pas disparaître du simple fait du Big Data. Nous devons donc nous demander sérieusement si les intérêts des entreprises qui collectent ces informations et qui réalisent ces prédictions ne risquent pas de remettre partiellement en question ces modèles s’agissant de l’intérêt général.

Vous avez grandi en Biélorussie et voyagé dans des pays comme le Tadjikistan où les nouvelles technologies et le Big Data sont loin d’être répandus. A votre avis, vivons-nous ici dans une bulle hystérique ?

Je pense que l’on confond deux niveaux de Big Data. Je n’affirmerais pas que les services secrets biélorusses ne collectent pas une masse d’information sur les internautes, ni qu’ils n’ont pas de vastes caves où seraient stockées des tonnes de dossiers, peut-être même sous forme papier. Pour moi, cela s’apparente au Big Data. Ils ne sont peut-être pas corrompus de la même manière que les zozos de Silicon Valley. Ils n’utilisent pas les mêmes termes, ne lisent pas les dernières contributions d’un spécialiste obtu de capital-risque sur l’évolution potentielle du Big Data. Mais cela ne veut pas dire non plus que les services secrets biélorusses ne sont pas impliqués dans la circulation de divers points de données en format numérique. Pas besoin de savoir exactement en quoi consiste le Big Data pour participer à ce phénomène. Le fait qu’il n’y ait pas 25 conférences par jour ou d’autres manifestations consacrées au Big Data dans des pays comme la Biélorussie, le Tadjikistan, la Moldavie ou l’Azerbaïdjan ne signifie pas que ces pays ne sont pas impliqués, en particulier au niveau gouvernemental, dans des activités que n’importe quel observateur raisonnablement averti associerait au Big Data. Oui, nous sommes effectivement en présence d’une bulle à la mode de Silicon Valley, mais cela a toujours été le cas.

Propos recueillis par Felix Zeltner