Blogit

Trendejä ja ilmiöitä netistä ja tulevaisuudesta.

Data myllertää sosiaalitieteitä

Blogit Kohinaa 24.6.2015 13:07
Kari A. Hintikka
Kirjoittaja on verkostotutkija, futuristi ja konsepti- ja käytettävyyssuunnittelija Otavan Opistolla.

Vallankumous on liioittelua, mutta sosiaali- ja yhteiskuntatieteissä kuohuu. Eri tieteenalojen leikkauspisteissä kuhisevat laskennalliset sosiaalitieteet.

Voidaan myös puhua datatieteestä. Helsingissä järjestettiin kuluneella viikolla Aalto-yliopiston ICCSS, yksi alan ensimmäisistä konferensseista.

Ihmisen sosiaalisen käyttäytymisen analysoijien tausta on yhä useammin esimerkiksi biologiassa tai fysiikassa. Osa on lukenut vaikkapa sosiologiaakin, mutta se ei ole nykyään välttämätöntä ihmisverkostojen dynamiikan mallintamiseksi.

Viime vuosina on tapahtunut kaksi asiaa, jotka ovat mullistamassa yhteiskuntatieteitä. Ensimmäinen on datan vaivaton koneellinen keruu ja analysointi internetistä, kuten Wikipediasta tai IMDB-elokuvatietokannasta. Toisekseen sosiaalinen media mahdollistaa laajat ja syvät aineistot niin ihmisten profiileista kuin käytöksestäkin.

Uusi tutkimustapa menee yksinkertaistettuna näin: Ensin louhitaan dataa netissä koneellisesti sovelluksella.

Sen jälkeen annetaan koneen analysoida tulokset joko itsetehdyllä tai valmiilla algoritmilla. Sitten julkaistaan tulokset.

Muutos on järisyttävä muun muassa sosiologiassa. Aiemmin haastateltiin esimerkiksi 1000 ihmistä ja analysoitiin tuloksia vuosi tai kaksi.

Nyt voi tarkastella vaikkapa 100 000 naisnäyttelijän työllistymistä vuodesta 1929 alkaen, kuten Mark Lutter on tehnyt. Aineistona hänellä oli 400 000 elokuvan tiedot Internet Movie Databasesta.

 

Verkostoanalyysi on tyyppiesimerkki alan ripeästä kehityksestä. Menetelmällä selvitetään valitun aihepiirin keskinäisiä kytköksiä, kuten pörssiyhtiöiden keskinäiset sidonnaisuudet yhtiöiden hallituspaikoissa.

Viime vuosisadan alkupuolella verkostoanalyysi oli hidasta. Parhaimmillaan tutkijat saattoivat piirtää vain hyvin pieniä verkostoja käsityönä, kuten ketkä ovat taajaman vaikutusvaltaisimmat ihmiset.

Verkostoanalyysi oli lähes henkitoreissaan vuosituhannen vaihteesssa. Analyyseja tehtiin jo tietokoneella ja UCINET-sovelluksella, mutta se on erittäin vaikeakäyttöinen.

Vuonna 2008 tutkijoille tarjoutui Gephi, avoimen lähdekoodin sovellus. Sen avulla lähes kuka vain tekee parin tunnin opiskelulla vaikkapa visualisoinnin omista Facebook-verkostoistaan. Myös datan louhintaan löytyy runsaasti valmistyökaluja.

En väitä, että tieteen tekemisestä on tullut joiltain osin liian helppoa. Mutta ainakin sen rajat alkavat hieman hämärtyä.

Tutkijoita ja data-analyytikkoja houkutellaan liike-elämään. Sosiaalisen median jäteillä, kuten Facebookilla, on sisäinen ja akateemisesti validi tutkimusyksikkö.

Vuosi sitten paljastui, että Facebook on manipuloinut lähes 700 000 ihmisen tunteita sosiaalipsykologisessa kokeessaan. Stanley Milgramin simuloitu sähköshokkikoe 40 ihmisellä 1960-luvulla jää vaatimattomasti varjoon.

Niin ikään The Guardianin kaltaiset laatulehdet käyttävät datajournalismia, joka lähestyy datatiedettä. Lehti muun muassa analysoi laajasti Lontoon mellakoita 2011.

Wired-lehden Chris Anderson kirjoitti provokatiivisesti tieteellisen teorian lopusta vuonna 2008.

 

Data-analyysissa ei välttämättä tarvita perinteistä, etukäteistä hypoteesia tai oletusta vaan katsotaan, mitä koneesta pullahtaa. Jos joillakin asioilla näyttäisi olevan jonkinlainen yhteys tai kytkös, niin se voidaan tulkita havainnoksi.

Tässä kohden datatieteellä on vielä tekemistä. Ovatko valitut tarkastelukohteet relevantteja ja mistä ne oikeastaan kertovat?

Datatiede vaikuttaa epäilemättä arkiseen tieteentekemiseen ja rahoitukseen. Data on nyt seksikästä ja miljoonien ihmisten tutkiminen kuulostaa vaikuttavalta.

Perinteinen tiede ei kuitenkaan vielä lähiaikoina katoa mihinkään. Pikemminkin tieteen tehostumisessa on yhä tärkeämpää, että aineistolle esitetään oikea kysymys, kuin että kone kertoo oikean vastauksen.