Keep or toss? De waarde van data

Begin september kreeg ik de kans om naar Berlijn af te reizen om de Data Natives conferentie bij te wonen. Dit driedaagse evenement focust zich op alles wat met data science en internet te maken heeft. Het evenement heeft 4 podia met start-up pitches, revolutionaire ideeën over de impact van data op de samenleving en in-depth technische presentaties. Er was voor ieder wat wils. Er was zelfs een volledige dag gewijd aan de ethiek en technologie van Web3. Ik heb er veel geleerd en ik hier wil graag een aantal verrassende (en filosofische) inzichten delen. Ik vraag me af; blijft data het nieuwe goud?

De kosten van data

In ons werk verzamelen we elke seconde enorme hoeveelheden data. Elke klik, scroll, impressie, exit-intentie, weergave, invoer of fout wordt vastgelegd. We leggen petabytes aan informatie vast met de grote ambitie om inzicht te krijgen in het gedrag van bezoekers en manieren om de functies of lay-outs van onze websites te manipuleren om conversieratio’s en inkomsten te verhogen. De revolutie van data science heeft aangetoond dat data, mits op de juiste manier gebruikt, enorm kan bijdragen aan zakelijk succes. Datagedreven werken is de nieuwe gouden standaard. Toch is het verkrijgen van deze data geen goedkope of gemakkelijke taak. We hebben experts nodig om de website tracking in te stellen om het gedrag dat we willen onderzoeken, te meten. Bovendien moeten we al deze data opslaan. De meesten van ons zullen hiervoor de cloud gebruiken. Dit betekent dat al deze data ergens in de wereld in enorme server centers wordt opgeslagen.

Maar hebben we al deze data echt nodig?

Deze vraag kwam in mij op bij een van de presentaties op Data Natives. In een interessante presentatie legde Lior Barak de noodzaak uit van een Return Of Investment (ROI)-model op datapunten, en niet alleen op ‘data’ in het algemeen. Hij betoogde dat, nu we hebben aangetoond dat data een hoge ROI heeft, we kritischer kunnen worden en dit ROI-model kunnen gaan optimaliseren. Hebben we alle data die we opslaan echt nodig? Het bijhouden en opslaan van data is duur.

Barak voerde daarom aan dat we de ROI van elke meting moeten bepalen in plaats van de data als geheel. Als we de meting gebruiken in een van onze voorspellende modellen of als het een belangrijke bijdrage levert aan onze inzichten, is het waardevoller dan wanneer het gewoon op een server staat, niet echt bijdraagt aan iets en alleen maar ruimte in beslag neemt waarvoor je betaalt. Hij stelde daarom een value based scheme voor waarin elke meting die werd opgeslagen zijn eigen ROI kreeg. Op deze manier is het gemakkelijker om te beslissen welke data we wel willen bewaren en welke niet. Hierdoor worden we efficiënter in onze data opslag en data gebruik. Bovendien, als de verzamelde data persoonsgegevens zijn, zou deze aanpak ook meer in lijn zijn met de Algemene Verordening Gegevensbescherming (AVG).

Ik vind dat we kritischer moeten zijn over hoe we onze data verzamelen en bewaren. Moeten we echt alles opslaan wat Google Analytics verzamelt? Kunnen we data-efficiënter zijn? Ik denk dat onze meetplannen niet alleen moeten bevatten wat er moet worden gemeten, maar ook wat niet. Mocht dit nog te rigoureus zijn, kan een meetplan als alternatief al wel een voorstel bevatten van hoe lang we data bewaren. Bedenk je eens, gaat 6 jaar oude data ons nog steeds inzicht geven in de ervaringen van onze huidige bezoekers?

De vruchten plukken van data

Een tweede belangrijk onderwerp op de conferentie ging over de privatisering van data. In verschillende presentaties werd ingegaan op de volgende stap in de data revolutie. Discussies over data governance, het monitoren van het gebruik en misbruik van data, en ervoor zorgen dat de winst ten goede komt aan de juiste mensen, hadden de overhand tijdens de conferentie.

De laatste dag stond volledig in het teken van de ethiek en technologie van Web3. Web3 wordt over het algemeen gezien als de derde grote iteratie van het World Wide Web. In zijn talk beschreef Jan Sell (Coinbase) deze iteraties als volgt:

  • Web1: Read. Dit is het oorspronkelijke wereldwijde web waarin websites door professionals zijn gebouwd om door het publiek alleen-lezen te worden geconsumeerd.
  • De tweede iteratie, Web2: Read & Write, is de sociale revolutie waar platforms waarmee het publiek niet alleen kan lezen, maar ook inhoud kan produceren, domineren (Write).
  • De toekomstige derde iteratie, Web3: Read, Write & Own, is de decentralisatie revolutie. Web3 verschuift van de grote gecentraliseerde platforms op internet naar privé platforms waarin alle gebruikers hun eigen data bezitten.

Web3

Web3 geeft het publiek de mogelijkheid om te profiteren van hun data. De branche heeft laten zien dat gebruikersdata van ongelooflijke waarde zijn. Daarnaast wordt het publiek zich steeds meer bewust van de oneerlijkheid in de verdeling van de winst. Als internetgebruiker laat je je gegevens achter op bijna elke website die je bezoekt (zodra je de cookies accepteert). Er vindt een transactie plaats waarbij gebruikersgegevens worden verzameld in ruil voor (gratis) gebruik van het platform of de website. Met behulp van deze data hebben BigTech- en e-commercebedrijven hun omzet met succes met enorme bedragen verhoogd. Deze rijkdom wordt echter niet rechtstreeks gedeeld met de mensen die hun data hebben bijgedragen. Bijgevolg is er een groeiend gevoel dat deze oorspronkelijke deal oneerlijk is. De gegenereerde winst uit de data van een gebruiker weegt veel zwaarder dan de kosten die de gebruiker maakt om het platform of de website te gebruiken.

Web3 zorgt voor een eerlijkere verdeling. De technologie zorgt voor een beter bezit van je data en om meer controle te hebben over wie deze gebruikt en voor welke prijs. De paneldiscussie tussen Gilbert Hill, Robin Lehmann en Merlene Ronstedt liet zien hoe Data Unions al de eerste stappen zetten in het onderwijzen van mensen om vaardiger te worden in het eigenaar worden van hun data. Zij stellen dat je als gebruiker die data genereert, moet kunnen delen in de (financiële) winst die deze data oplevert. Dit is ook in overeenstemming met de AVG, die een wettelijke grond biedt om meer zeggenschap te hebben over hoe je gegevens worden gebruikt.

De toekomst

Als we deze trend doortrekken naar de toekomst, zal de introductie van Web3 grote gevolgen hebben. Wanneer bedrijven alle gebruikers moeten vergoeden voor het gebruik van hun data, worden gebruikersgegevens een duur goed. Dit zal ook grote gevolgen hebben voor online experimenten. Gebruikersgegevens vormen de basis van ons online experimenteerwerk en met de stijgende kosten zullen we geavanceerder moeten worden in het gebruik van deze data.

Ik ben van mening dat, met het Web3 tijdperk op komst, het gebruik van het hierboven beschreven ROI-model nog aantrekkelijker wordt. Het geeft ons een eerste stap om te bepalen voor welke data punten/soorten data we in de toekomst bereid zouden zijn te betalen, naast het directe voordeel van lagere kosten. Toch kunnen we ook andere methodes overwegen die de hoeveelheid data die we gebruiken kunnen verminderen. Bijvoorbeeld; gerichte segmentatie, waardoor alleen data wordt verzameld van het soort gebruikers waarin je geïnteresseerd bent, en daardoor de hoeveelheid gegevens die we verzamelen vermindert. Als alternatief heeft het gebied van data science een grotere vaardigheid getoond in het genereren van nauwkeurige inzichten en voorspellingen uit steeds kleinere steekproeven. Exploitatie van deze technieken kan ons ook helpen om geavanceerder te worden in ons datagebruik.

Als experimenteer industrie denk ik dat we data als het nieuwe goud moeten behandelen. Gegevens zijn, net als goud, een steeds duurder wordende grondstof met een stabiele waardepropositie. Daarbij, de waarde van data zal, net als goud, een sociale constructie blijven: het is waardevol omdat we het er allemaal over eens zijn dat het zo was en in de toekomst zal zijn.

Naomi Smulders - data scientist

Naomi raakt geïnspireerd door data, menselijk gedrag en design. Als data scientist bij Online Dialogue werkt zij precies op dat snijvlak. Het samenwerken met collega’s, die stuk voor stuk experts zijn op het gebied van data, psychologie, UX of conversie strategie, geeft haar de kans om haar achtergrond in de psychologie te integreren met kennis van data science. Zo kunnen we bij Online Dialogue experimenteren om te optimaliseren. Perfect.