Data-analyse vraagt om gezond verstand
Hoe vertaal je de steeds grotere hoeveelheden beschikbare data naar zinvolle beslissingen? Dat vraagt om goede data-analyse en dat is bepaald geen vanzelfsprekendheid.
Detective Sherlock Holmes slaat de spijker op de kop: ‘It’s human nature to see only what we expect to see.’ Deze quote is een van de belangrijkste waarschuwingen aan iedereen die met Big Data aan de slag gaat. We moeten voorkomen dat data-analyse tot ongelukken leidt door gebrekkige interpretatie. Data-analyse vraagt daarom om het uitschakelen van vooroordelen en verwachtingen en het inschakelen van het gezond verstand.
Als je maar genoeg data verzamelt en genoeg verschillende analyses uitvoert, dan komt er altijd wel een opvallende correlatie uit naar voren. Wie op deze manier rücksichtslos de rekenkracht van een computer misbruikt, komt tot tal van conclusies die niet erg relevant of zelfs misleidend zijn. Daar moeten we goed voor oppassen, zeker in een tijd waarin soms een beeld van Big Data ontstaat als een machine waar je naar believen grote hoeveelheden data ingiet, om er vervolgens, als de machine klaar is met number crunching, kant-en-klare oplossingen uit te halen. De werkelijkheid is een stuk weerbarstiger. Het feit dat we grote hoeveelheden data kunnen modelleren is op zich alleen maar zinvol als we de context van de data niet vergeten, want zonder die context verliezen de data hun waarde. Het realiseren van succesvolle toepassingen op het gebied van Big Data is vaak een proces vol tegenslagen. Een proces van bloed, zweet en tranen.
Voorkom foute conclusies
Een goede data scientist is zich van de genoemde risico’s zeer bewust en is juist getraind om er heel kritisch op te zijn. Centraal daarin staat Simpsons paradox. Deze paradox is aan niet-statistici eenvoudig uit te leggen met een voorbeeld. Uit statistieken blijkt dat zeelieden die overboord zijn geslagen zonder reddingsvest vaker konden worden gered dan de zeelieden die wel een reddingsvest droegen. Dat druist in tegen de intuïtie, maar blijkt bij nadere analyse heel goed verklaarbaar. De zeelieden bleken er namelijk vooral in slechte weersomstandigheden voor te kiezen wel een reddingsvest te dragen – omstandigheden waarin redden moeilijk of soms onmogelijk is. Maar het voorbeeld leidt natuurlijk niet tot de conclusie dat je je vest moet uittrekken om je reddingskans te verhogen.
Dit voorbeeld laat zien hoe belangrijk de context van data is voor verantwoorde conclusies. Het is zaak om scherp te blijven opletten dat data-analyse niet lichtzinnig wordt uitgevoerd en dat patronen niet zomaar worden vertaald naar conclusies. Het is typerend voor de wereld waarin een data scientist opereert: als je gegevens op een handige manier combineert, komen daar soms onwaarschijnlijke resultaten uit. Een foute conclusie kan levensgevaarlijk zijn. Het zal de eerste keer niet zijn dat op basis van een data-analyse wordt besloten om het gebruik van zwemvesten dan maar te staken. In overdrachtelijke zin dan.
Gezocht: goede data scientists
Nu Big Data steeds meer vervlochten raakt in de maatschappij, moeten we ongelukkige conclusies zien te voorkomen. Daarom moeten we data-analyse vooral niet volledig overlaten aan een krachtige computer die heel slimme dingen kan. Number crunching is immers slechts het (relatief eenvoudige) begin van een analyse en staat of valt met een data scientist met de competenties van Sherlock Holmes. De moeilijkheid zit vooral in het kunnen begrijpen of interpreteren van de resultaten, mogelijk met interessante inzichten voor de opdrachtgever tot gevolg.
Het gaat er dan ook om dat we data scientists opleiden die goed met Simpsons paradox kunnen omgaan, zodat ze scherp en kritisch zijn bij het interpreteren van de data. Zo kunnen ze zonder tunnelvisie op zoek gaan naar echte causale relaties, die ze samen met anderen ook kunnen duiden.
Die goede data scientists zijn geen overbodige luxe. Zeker in een omgeving met grote hoeveelheden data – big and messy – is het vaak lang niet zo eenvoudig om relaties tussen variabelen te begrijpen als in de relatief eenvoudige casus van de reddingsvesten. Dat benadrukt de noodzaak dat data scientists meer moeten zijn dan slimme jongetjes en meisjes die handig zijn met statistiek. Ze moeten tegenslagen aankunnen bij het zoeken naar en begrijpen van significante resultaten. En ze moeten zich als geen ander kunnen inleven in de context waaruit de data afkomstig zijn. Dat alles maakt dat baanbrekende Big Data-projecten nooit op routine zullen worden uitgevoerd. Want ook al deugen de economische onderzoeksmodellen en zijn de conclusies statistisch valide, dat wil nog niet zeggen dat je je gezonde verstand moet uitschakelen.
Dit artikel is een episode uit het boek Wij zijn big data van Sander Klous en Nart Wielaard. Zij onderzochten de manier waarop bedrijfsleven en samenleving maximaal kunnen profiteren van inzichten die kunnen worden verschaft met behulp van data-analyse.
Zelf aan de slag met big data?
Het TIAS programma Waardecreatie met Big Data Analytics laat aan de hand van theorie én praktijk zien hoe data kunnen worden omgezet in nieuwe kansen, producten & diensten en verdienmodellen. Leer in 4 sessies van 2 dagen hoe analyse en gebruik van big data optimaal waarde creëren voor uw afdeling en/of organisatie.
Meer informatie over het programma