Yahoo a publié une tonne de données utilisateur anonymisées pour aider les scientifiques de l'apprentissage automatique

L'apprentissage automatique s'installe dans toutes sortes d'applications, des voitures autonomes à la reconnaissance d'images en passant par les moteurs de recommandation en ligne. Mais à moins que vous ne soyez un Google ou un Facebook, il est difficile de mettre la main sur le type d'ensembles de données massifs et réels nécessaires pour tester et valider les programmes d'apprentissage automatique.

Yahoo a aidé à rectifier cela avec la publication jeudi de ce qu'il a appelé le "plus grand" ensemble de données jamais mis à la disposition des scientifiques de l'apprentissage automatique. Il s'agit d'une collection d'interactions utilisateur anonymisées avec les flux d'informations sur des sites comme Yahoo News et Yahoo Sports.

INSIDER: Comment le chef des données de TD Ameritrade conduit le changement

Yahoo dit qu'il y a 110 milliards d'événements dans le fichier - ou 110 milliards d'enregistrements lorsqu'un utilisateur a cliqué sur un article d'actualité ou a pris une autre mesure dans le flux - et qu'il comprend 13,5 To de données, ou 1,5 To compressé. C'est plus de dix fois la taille du précédent plus grand ensemble de données publié, selon Yahoo.

Yahoo

Les données proviennent d'interactions avec son fil d'actualités, la zone en rouge ci-dessus

"Les données sont la pierre angulaire de la recherche en apprentissage automatique", a déclaré la société. "Cependant, l'accès à des ensembles de données véritablement à grande échelle est un privilège qui était traditionnellement réservé aux chercheurs en apprentissage automatique et aux scientifiques des données travaillant dans de grandes entreprises - et hors de portée pour la plupart des chercheurs universitaires."

L'apprentissage automatique fait référence à une classe de programmes qui "apprennent" et améliorent leur capacité à résoudre des problèmes au fil du temps. Un exemple précoce était la détection du spam, mais l'apprentissage automatique est utilisé pour la reconnaissance d'images, la traduction de langues et une myriade d'autres tâches, dont certaines pour les entreprises. Google a récemment déclaré qu'il "repensait tout ce que nous faisons" autour de l'apprentissage automatique.

Les informaticiens créent des modèles et écrivent des algorithmes pour guider les systèmes d'apprentissage automatique, mais ils ont besoin de grands ensembles de données sur lesquels tester ces modèles et les améliorer.

Ils peuvent utiliser des ensembles de données synthétiques créés artificiellement, mais ceux-ci ne reflètent pas le désordre et le comportement imprévisible des humains en ligne, a déclaré Suju Rajan, directeur de la recherche de Yahoo pour la science de la personnalisation..

 "Les données du monde réel sont en désordre, elles présentent de nombreux défis, et ces défis ne sont pas nécessairement pris en compte lorsque quelqu'un crée un ensemble de données artificielles", a-t-elle déclaré. "Si vous ne tenez pas compte de mon comportement, l'algorithme que vous créez risque de ne pas fonctionner aussi bien."

Elle s'attend à ce que les scientifiques utilisent les données pour aider à construire de meilleurs moteurs de recommandation, comme ceux sur Netflix et Amazon. Mais elle dit que cela pourrait également conduire à d'autres domaines de recherche, comme la récupération d'informations, le classement des flux sociaux et même l'ingénierie des systèmes, en aidant les fournisseurs de cloud à décider comment traiter les données lorsque les utilisateurs interagissent avec elles..

Les données des utilisateurs devaient être disponibles pour téléchargement jeudi via le programme de partage de données Webscope de Yahoo Labs, une bibliothèque d'ensembles de données anonymisés pour une utilisation non commerciale.

Il est basé sur les interactions des utilisateurs avec Yahoo News, Sports, Finance, Movies et Real Estate. Les données ont été recueillies plus de quatre mois au début de l'année dernière auprès de 20 millions d'utilisateurs de Yahoo. En plus des données d'interaction, il comprend des informations démographiques catégorisées, comme la tranche d'âge et le sexe, pour un sous-ensemble des utilisateurs. Il publie également le titre, le résumé et les phrases clés des articles de presse connexes.

Yahoo indique que le plus grand ensemble de données précédent, publié l'année dernière par la société de marketing en ligne Criteo, était de 1 To et comprenait quelque 4 milliards d'événements.

Il dit que son objectif est d'égaliser un peu les règles du jeu pour les chercheurs universitaires, qui ont souvent plus de liberté pour poursuivre des projets à long terme que leurs pairs dans les entreprises, mais qui n'ont pas les données du monde réel pour le faire..

"Ils pourraient être en mesure de résoudre des problèmes d'une manière que nous pouvons utiliser chez Yahoo, ou de trouver de nouveaux problèmes de recherche auxquels nous n'avons même pas encore pensé", a déclaré Rajan..

Rejoignez les communautés Network World sur Facebook et LinkedIn pour commenter des sujets qui vous tiennent à cœur.