Yahoo llança un conjunt de dades gratuït de 13,5 TB per a l'Acadèmia

Yahoo ha llançat un gegantí conjunt de dades d'aprenentatge automàtic de 13,5 TB per a la comunitat d'investigació acadèmica que espera fomentar la innovació (i potser reforçar els productes de Yahoo, és clar).



El conjunt de dades, totalment anònim, conté al voltant de 110.000 milions d'esdeveniments de dades d'interacció extretes d'uns 20 milions d'usuaris de Yahoo entre febrer i maig de l'any passat. Tots aquests usuaris van fer alguna cosa als canals de notícies d'un dels llocs principals de Yahoo, que inclou la seva pàgina d'inici, Yahoo News, Yahoo Sports i Yahoo Finance.

A més, el conjunt de dades també conté informació sobre la franja d'edat, el gènere i les dades geogràfiques generalitzades d'un subconjunt d'aquests 20 milions d'usuaris.





'En el costat de l'article, estem publicant el títol, el resum i les frases clau de l'article de notícies pertinent. Les dades d'interacció estan marcades amb l'hora local rellevant i també contenen informació parcial sobre el dispositiu en què l'usuari va accedir als canals de notícies, la qual cosa permet un treball interessant en recomanacions contextuals i mineria de dades temporals', diu l'anunci de Yahoo.

D'acord amb TechCrunch , investigadors de la Universitat Carnegie Mellon, la Universitat de Califòrnia a San Diego i el Centre de Ciència de Dades UMass Amherst planegen utilitzar el conjunt de dades de Yahoo en els seus propis estudis. En general, tenir accés a un volum tan gran d'informació del 'món real' hauria d'ajudar els investigadors a crear algorismes d'aprenentatge automàtic que es validin millor amb el que realment fan els usuaris.



Per exemple, el conjunt de dades de Yahoo podria ajudar els investigadors a entendre millor com crear algorismes que mostrin notícies interessants? i com que tothom té accés al mateix conjunt de dades sobre què fan clic els usuaris, els investigadors podrien comparar les seves tècniques i resultats per veure quines estratègies funcionen. el millor.

'Les dades són l'element vital de la investigació en aprenentatge automàtic. Tanmateix, l'accés a conjunts de dades realment a gran escala és un privilegi que tradicionalment s'ha reservat als investigadors d'aprenentatge automàtic i als científics de dades que treballen en grans empreses. i fora de l'abast de la majoria dels investigadors acadèmics', diu l'anunci de Yahoo.

Recomanat pels nostres editors

Consells de Yahoo Mail Yahoo emetrà alertes sobre atacs patrocinats per l'estat

'Els científics investigadors de Yahoo Labs han gaudit durant molt de temps treballant en problemes d'aprenentatge automàtic a gran escala inspirats en productes orientats al consumidor. Això ens ha permès avançar en el pensament en àrees com la classificació de cerca, la publicitat computacional, la recuperació d'informació i l'aprenentatge automàtic bàsic. Un aspecte clau d'interès per a la comunitat investigadora externa ha estat l'aplicació de nous algorismes i metodologies al trànsit de producció i a conjunts de dades a gran escala recopilats a partir de productes reals.'

Aquí esperem que Yahoo no utilitzi aquestes tècniques per augmentar l'atractiu del seu publicitat massa, però. L'empresa recentment va resoldre un plet basat en la seva pràctica d'escanejar els correus electrònics dels usuaris i proporcionar-los publicitat rellevant per al contingut d'aquests correus electrònics. Tot i que Yahoo té previst seguir fent això, i assenyala que no ha fet res dolent (ni un tribunal ho ha determinat va fer qualsevol cosa dolenta), els termes de l'acord inclouen que Yahoo accepta construir nous sistemes que analitzin els correus electrònics 'després que un usuari de Yahoo Mail pugui accedir al correu electrònic a la seva safata d'entrada', no quan va arribar per primera vegada als servidors de Yahoo.

Recomanat