Socialmediagigant Reddit, dat momenteel op het punt staat om naar de beurs te gaan, heeft naar verluidt een lucratieve datadeal gesloten met techreus Google. Volgens informatie van persbureau Reuters, gebaseerd op drie betrouwbare bronnen, is de deal naar schatting jaarlijks zestig miljoen dollar waard. Deze overeenkomst betreft het leveren van data voor de training van Google’s kunstmatige intelligentie (AI).
Kunstmatige intelligentie
Google is de eerste partij die bereid is om tegen betaling toegang te krijgen tot de overvloedige bron van informatie op Reddit. Met meer dan zeventig miljoen actieve gebruikers en ruim zestien miljard talige uitingen op het discussieforum, biedt Reddit een waardevolle dataset voor het trainen van AI-modellen.
Beursgang van Reddit
Naast het enorme bereik voor adverteerders, begint Reddit ook een rol te spelen in het leveren van trainingsdata voor AI-modellen. Dit draagt bij aan de commerciële waarde van het bedrijf, wat zeker interessant is voor investeerders nu Reddit zich klaarmaakt voor een beursgang. Het gebruik van dergelijke data voor AI-training roept echter ethische vragen op, en het is essentieel dat dergelijke overeenkomsten voldoen aan privacy- en gebruiksrichtlijnen.
Toestemming en databronnen
Het gebruik van trainingsdata voor AI-modellen vereist expliciete toestemming. Partijen mogen niet zomaar alle beschikbare data van een website gebruiken en exploiteren. Typische databronnen die gebruikt worden voor de training van Language Model (LLM) systemen zijn onder andere Common Crawl, RefinedWeb, The Pile, Wikipedia, en in dit geval, Reddit. Deze bronnen voorzien AI-modellen van diverse taalinput om de systemen zo effectief mogelijk te trainen.
Hoewel de datadeal tussen Reddit en Google een aanzienlijk bedrag vertegenwoordigt, blijft het onduidelijk waar de specifieke interesse van Google naar uitgaat. Google bezit zelf al doorlopende taalinput van miljarden internetgebruikers. Deze deal kan wijzen op een verdere verdieping van Google’s AI-capaciteiten of op het verkrijgen van specifieke inzichten en patronen vanuit het unieke gebruikersbestand van Reddit.