Panamanysvääjät, datanne ei ole isoa
Veroparatiiseja käsittelevä 11,5 miljoonan asiakirjan aineisto on pieni. Lopettakaa panttaaminen ja vapauttakaa se data.
Vuosi sitten saksalaislehti Süddeutsche Zeitung sai käsiinsä Mossack Fonseca -lakitoimiston materiaalit, joista on nyt paljastunut valtavasti veroparatiiseihin varojaan piilottaneita päättäjiä. Hetkinen. ”Vuosi sitten”? Ja nyt vasta alkoivat paljastukset?
Mashable-uutispalvelun perusteellisessa artikkelissa kerrotaan, kuin 400 tutkivaa journalistia oli pitänyt tietovuodon salaisuutena kokonaisen vuoden ajan. Mitä ihmeen nysväämistä? Ja miksi datan kimpussa oli 400 toimittajaa? Olisiko kannattanut palkata pääasiassa data-analyytikkoja?
Yle kertoi tänään, että ”Tähän mennessä läpikäydyssä materiaalissa ei ole löytynyt suomalaisia poliitikkoja kuten ministereitä tai kansanedustajia tai keskeisiä virkamiehiä. Heidät on kartoitettu systemaattisilla tietohauilla valtavasta tietoaineistosta.” Ihanko totta? Ettei tähän mennessä ole löytynyt. Jos vielä vuosi venaillaan, saattaa löytyä joku rosvo poliitikoistakin.
Perinteisen medianpäivittelyyn data-aineiston suuruudesta tiivistyy jotain ajalle oleellista. Materiaalin määrä, 11,5 miljoonaa asiakirjaa, saattaa tuntua tavallisesta toimittajasta isolta määrältä tekstiä, kuvia ja taulukoita, eihän sitä jaksa selata erkkikään. Mutta pilvipalvelimilla toimivalle datanmurskaamisjärjestelmälle 2,6 teran analysointi, siivous ja järjestäminen ei ole vaikea tehtävä.
Vaikka en tiedä aineiston analysoinnista käytetyistä louhintamenetelmistä mitään tarkempaa, tiedän jo arkityöstäni että nykyisin tietoa pystytään louhimaan ja ymmärtämään valtavalla vauhdilla. Esimerkiksi Facebook analysoi yli kymmenen miljardia Facebook-viestiä päivässä, puhumattakaan muusta datasta. Ja tekee samaan syssyyn taikoja, esimerkiksi löytää juuri sinua kiinnostavat tarjoukset seinällesi.
Digitaalisen tiedon analysointiin liittyy tietysti ongelmia, varsinkin jos iso osa materiaalista on kuvamuodossa. Tähänkin on toki nykyään tarjolla huippuluokan ohjelmistoja ja tekoälyä.
Mutta vielä takaisin tuohon ”tähän mennessä läpikäydyssä materiaalissa ei ole löytynyt”. Onko se vitsi? Oletteko ajatelleet esimerkiksi ajaa julkisia verorekistereitä ristiin panamatiedostojen kanssa? Okei, sori. Vähän vyön alle meni.
Mutta se suurin kysymys: Voisitteko jo lopettaa panttaamisen ja viikon välein tihkuttamisen? Avatkaa datanne ja antakaa meidän dataihmisten tehdä työmme. Journalisti ei vuoden 2016 portinvartija, datan tulee olla vapaata.
Teidän datanne ei ole isoa.