Les data, faciles à collecter, mais difficiles à traiter

Qu’évoque la notion de «Big Data » aux  pionniers de la Silicon Valley et de San Francisco ? Que signifie pour leur branche l’augmentation exponentielle des données ? Le reporter d’ARTE Future Felix Zeltner s’est rendu sur la Côte ouest pour faire le point.

Catalin Voss (@MyHumbleSelf) étudie l’informatique à Stanford et a fondé la startup Sension, un projet de reconnaissance informatique des émotions et mimiques du visage humain. Catalin Voss a 18 ans et a grandi près de Heidelberg. Adolescent, il avait déjà réussi à programmer un podcast iTunes sur iOS. Les médias le surnomment volontiers « l’enfant prodige de Silicon Valley ».

« Les ordinateurs sont capables de reconnaître des modèles parmi des quantités incroyables de données. C’est très important. Pour les activités boursières, le développement est proche de la perfection. Notre startup vise à pronostiquer le comportement humain à partir de données. Nous voulons donner des yeux à la machine. Nous développons actuellement une application pour Google Glass qui sera à même de lire les émotions ou les impacts cognitifs éducatifs sur le visage d’un interlocuteur. Ce qui pourrait aider les autistes ou les personnes atteintes de la maladie d’Alzheimer  à vaincre certaines barrières. Nous filmons ainsi les données de jusqu’à 100 points d’intérêt du visage. Les heures de vidéos produites lors de nos tests sont aussi importantes que des séquences entières de recherche sur Google. Malgré tout, pour moi, la notion de « Big Data », ça me fait plutôt penser à un type sorti de Standford ou titulaire de je ne sais quel MBA qui n’a pas la moindre idée de ce dont il parle mais qui veut à tout prix fonder une entreprise high tech. »

Jay Nath (@Jay_Nath) est Chief Innovation Officer de San Francisco. Ces dernières années, c’est lui qui a fait passer l’administration municipale à l’ère numérique. Dès 2009, la métropole est la première grande ville à communiquer via Twitter avec ses administrés. Aujourd’hui, ce mode de communication fait partie du B A BA de nombreuses entreprises et institutions. En 2010, Jay Nath a transféré sur la Toile toutes les bases de données publiques de la ville (police, pompiers, transports en commun) sur le portail https://data.sfgov.org. Des dizaines d’applications ont vu le jour, lesquelles permettent aux habitants de San Francisco de s’informer sur le taux de criminalité, les stations de recyclage ou l’heure du prochain passage d’un bus dans leur quartier.

« Nous croyons aux données accessibles à tous et au droit des citoyens à en prendre possession. Nous nous considérons comme les administrateurs de ces données, mais nous mettons un soin particulier à préserver la sphère privée. Certaines données sont très petites, elles remplissent de simples tableurs, d’autres, se composent de millions de données individuelles qui se chiffrent à présent en gigaoctets.  Nous gérons des quantités incroyables d’informations, des données sur les transports aux taux de criminalité. Certaines sont sur des serveurs, d’autres dans le cloud. Et grâce aux capteurs placés dans des objets - Internet of Things – il y en a toujours plus. Pour moi, Big Data sera la prochaine révolution en matière de gouvernement et d’administration. »

 

L’informaticien Michael Buckwald, 25 ans, est cofondateur et directeur général de Leap Motion (@LeapMotion). Sa startup planche sur un petit boîtier allongé équipé de caméras et de capteurs à LED capable de reconnaître les mouvements des doigts et permettant à son utilisateur de commander certains programmes de son ordinateur juste en bougeant les mains. Les fans de cinéma connaissent ce type de commande tridimensionnelle depuis la sortie du film Minority Report. Leap Motion a communiqué sa structure de données et a mis en place une plate-forme de distribution pour que les développeurs du monde entier puissent mettre au point des applications.

« La visualisation de grandes quantités de données est devenue plus simple. Jour après jour, nous produisons probablement des téraoctets de données. J’imagine qu’à l’avenir, quand tu chercheras « chien » sur YouTube, en quelques secondes apparaîtra un espace tridimensionnel physique où tu auras un aperçu des 400 000 résultats proposés et tu pourras plus facilement les passer en revue. »

 

Jeremy Stoppelman (@jeremys) est directeur général et cofondateur de Yelp, une des plus vieilles startups de San Francisco. Fondée en 2004, Yelp a débuté sous forme d’un forum où les usagers aimant écrire pouvaient évaluer leurs restaurants, bars ou commerces favoris. Depuis, Yelp est devenue une entreprise internationale qui vaut des millions et est cotée en bourse. La petite startup d’alors occupe à présent trois étages dans un complexe industriel fraîchement rénové du centre de San Francisco. Yelp collecte les données d’une bonne centaine de millions d’usagers mensuels ainsi que de quelque 60 000 clients annonceurs.

« Il est facile de rassembler des données, mais il est difficile d’y voir clair ». Notre cœur de métier, ce sont les recommandations : il nous faut donc mettre le paquet sur les services de proximité. Il faut extraire un contexte de la masse de données. Comme ça, l’application peut me dire « le temps va bientôt se gâter, mais il y a un super ciné au coin de la rue ». Et là, ça devient vraiment intéressant. »

 

En 2008, Danae Ringelmann (@gogoDanae), cofonde la plate-forme de crowdfunding IndieGogo : les internautes du monde entier peuvent y présenter leurs projets et cofinancer entre eux. Ses parents avaient une petite entreprise de déménagement à San Francisco et ont toujours dû se démener pour s’en sortir financièrement. A leur grand dam, Danae a donc commencé par démarcher le monde de la finance, puis les grandes banques. Constatant que ses idées n’avaient aucune chance dans les circuits traditionnels, elle a cofondé la première plate-forme mondiale de crowdfunding. Aujourd’hui, IndieGogo  collecte des données des milliers de campagnes en ligne ou d’internautes.

«  Ce qui est intéressant avec le crowdfunding, ce sont avant tout les données qui touchent aux éventuels clients. Celui qui dépose un projet sur Indiegogo, teste ses idées sur des milliers d’internautes. Et quand il parvient au bon dosage entre la qualité du pitch, les contreparties du financement, la promotion sur les réseaux sociaux, la transparence dans l’usage des fonds, s’il trouve une bonne équipe, il ne tarde pas à intéresser des personnes prêtes à s’occuper de son produit ou de son idée. De nombreuses petites entreprises qui ont vu le jour en passant par nous ont ensuite pu disposer de précieuses données personnalisées pour convaincre les investisseurs. »

 

Depuis 2009, Josh Constine (@JoshConstine) écrit pour Techcrunch, un des principaux blogs de la région de San Francisco dédiés aux technologies. Lorsque des dépêches de taille comme la reprise d’Instagram par Facebook fusent sur la Toile, Josh, 28 ans, lutte à la seconde près contre d’autres blogs. Celui qui envoie son post en premier gagne la meilleure place chez Google ou sur les réseaux sociaux. « Pour Instagram, j’ai été devancé de 45 secondes. » Quand Josh ne s’occupe pas des flashs d’actualité, il écrit des essais sur les tendances actuelles comme les drones ou Big Data.

« Toutes les entreprises de nouvelles technologies se rendent compte qu’elles doivent accumuler de grandes quantités de données pour rester à la page. Ce qui fait la différence, c’est de savoir faire quelque chose de porteur avec ces données. Récemment, j’ai écrit un papier pour expliquer comment Facebook tente d’établir un contexte à partir de ses masses de données : l’entreprise stocke actuellement quelque  300 petaoctets. La nouvelle fonction  de recherche Graph Search permet de mettre en avant n’importe quel post Facebook  et un catalogue de Java Scripts a été lancé pour que les développeurs puissent se servir. Quant à Presto, la machine qui soutient la gigantesque armada de serveurs de Facebook, elle a été rendue accessible aux développeurs. Autre sujet passionnant à mes yeux : l’histoire de BloomReach, une entreprise qui recense des millions de sites Web et compare les recherches des internautes avec leurs achats réels. A partir de ces quantités démentielles de données, des annonces personnalisées voient le jour et il est possible de mieux adapter les portails marchands aux profils des usagers. »

 

Guido Jouret (@gjouret) est responsable du nouveau département IoT (Internet of Things) du groupe de télécommunications Cisco. L’entreprise se définit comme le système nerveux du Net, car dans le monde entier, ce sont souvent des routeurs Cisco qui relient sociétés, bâtiments ou moyens de transports. Le quartier général de Cisco est situé dans la Silicon Valley, c’est la plaque tournante des nouveaux secteurs d’activités d’une entreprise qui pèse des milliards. Selon Guido Jouret, toutes les trois semaines, Cisco rachète une nouvelle startup afin d’intégrer sa technologie et son personnel.

« Big Data, ça veut dire passer de faits basés sur des données à des prévisions basées sur des données. A l’heure actuelle, les entreprises stockent toutes les données qu’elles peuvent, sans trop savoir ce qu’elles vont en faire.  La collecte et le stockage ne reviennent pas trop cher. Les entreprises le font, même si au final, 90 % des données sont parfaitement inutiles. Les constructeurs automobiles allemands collectent chaque jour un terabyte de données : la plupart des nouvelles voitures seront bientôt connectées. Avec les données à grande échelle, mon secteur a une grande responsabilité quant à la sphère privée, surtout depuis le scandale de la NSA. Même si le gouvernement n’a jamais eu accès à nos données, nous devons adopter un code de bonne conduite en matière de Big Data et d’Internet des objets. »