Panamanysvääjät, datanne ei ole isoa

Veroparatiiseja käsittelevä 11,5 miljoonan asiakirjan aineisto on pieni. Lopettakaa panttaaminen ja vapauttakaa se data.

Profiilikuva
Kirjoittaja on toimittaja ja startup-liikemies.

Vuosi sitten saksalaislehti Süddeutsche Zeitung sai käsiinsä Mossack Fonseca -lakitoimiston materiaalit, joista on nyt paljastunut valtavasti veroparatiiseihin varojaan piilottaneita päättäjiä. Hetkinen. ”Vuosi sitten”? Ja nyt vasta alkoivat paljastukset?

Mashable-uutispalvelun perusteellisessa artikkelissa kerrotaan, kuin 400 tutkivaa journalistia oli pitänyt tietovuodon salaisuutena kokonaisen vuoden ajan. Mitä ihmeen nysväämistä? Ja miksi datan kimpussa oli 400 toimittajaa? Olisiko kannattanut palkata pääasiassa data-analyytikkoja?

Yle kertoi tänään, että ”Tähän mennessä läpikäydyssä materiaalissa ei ole löytynyt suomalaisia poliitikkoja kuten ministereitä tai kansanedustajia tai keskeisiä virkamiehiä. Heidät on kartoitettu systemaattisilla tietohauilla valtavasta tietoaineistosta.” Ihanko totta? Ettei tähän mennessä ole löytynyt. Jos vielä vuosi venaillaan, saattaa löytyä joku rosvo poliitikoistakin.

Perinteisen medianpäivittelyyn data-aineiston suuruudesta tiivistyy jotain ajalle oleellista. Materiaalin määrä, 11,5 miljoonaa asiakirjaa, saattaa tuntua tavallisesta toimittajasta isolta määrältä tekstiä, kuvia ja taulukoita, eihän sitä jaksa selata erkkikään. Mutta pilvipalvelimilla toimivalle datanmurskaamisjärjestelmälle 2,6 teran analysointi, siivous ja järjestäminen ei ole vaikea tehtävä.

Vaikka en tiedä aineiston analysoinnista käytetyistä louhintamenetelmistä mitään tarkempaa, tiedän jo arkityöstäni että nykyisin tietoa pystytään louhimaan ja ymmärtämään valtavalla vauhdilla. Esimerkiksi Facebook analysoi yli kymmenen miljardia Facebook-viestiä päivässä, puhumattakaan muusta datasta. Ja tekee samaan syssyyn taikoja, esimerkiksi löytää juuri sinua kiinnostavat tarjoukset seinällesi.