Silmän­lumetta

Tekoälyn avulla kuka tahansa voi luoda toisista yhä aidompaa ääntä ja kuvaa. Teknologialle on käyttöä opetuksesta rikoksiin.

Voit myös kuunnella jutun ääniversiona. Lukijana toimii a.i.materin koneääni Ilona.

Brittiläisen energiayh­tiön toimitusjohtajan puhelin soi maaliskuussa 2019.

Puhelimessa oli hänen pomonsa, saksalaisen emoyhtiön toimitusjohtaja Johannes. Pomo pyysi siirtämään kiireellisesti 220 000 euroa unkarilaiselle pankkitilille. Siirto piti tehdä heti, jotta yritys välttyisi myöhästymissakolta.

Pyyntö oli ”melko outo”, toimitusjohtaja pohti myöhemmin. Hän kuitenkin tunnisti pomonsa puheen sävelen ja lievän saksalaisen aksentin. He olivat jutelleet lukuisia kertoja aiemminkin.

Toimitusjohtaja siirsi rahat. Johannes soitti ja kertoi, että emoyhtiö oli siirtänyt brittiyhtiölle rahaa tilien tasaamiseksi.

Iltapäivällä Johannes soitti taas. Tarvittiin toinen tilisiirto Unkariin. Tällä kertaa puhelu tuli Itävallasta. Aiemmin luvatut tasausrahat eivät vielä näkyneet tilillä ja toimitusjohtajaa alkoi epäilyttää. Hän soitti suoraan numeroon, josta Johanneksen yleensä tavoitti.

Johannes vastasi. Samaan aikaan aiemmasta numerosta yritettiin soittaa. Toimitusjohtaja kuvaili absurdia tilannetta myöhemmin vakuutusyhtiölle: ”Väärä Johannes vaati saada puhua kanssani, kun olin vielä puhelimessa oikean Johanneksen kanssa!”

Brittiyhtiön toimitusjohtaja oli joutunut ensimmäisen tiedetyn syväväärennöshui­jauksen uhriksi.

Syväväärennökset ovat kuvia, videoita ja ääntä, jotka näyttävät ja kuulostavat aidoilta, mutta ovat tekoälyn luomia synteettisiä esityksiä. Englannissa käytetään sanaa deepfake.

Teknologialla voidaan lukea äänikirjaa tai palauttaa edesmennyt näyttelijä valkokankaalle. Oslossa on käynnissä projekti, jossa tekoälyn avulla luotu lapsihahmo auttaa poliiseja oppimaan, miten haastatella hyväksikäytön tai väkivallan uhriksi joutuneita lapsia.

Syväväärennösteknologia on kuitenkin kuin keittiöveitsi, jolla voidaan pilkkoa tomaattia tai tehdä henkirikos.

Naisia on jo vuosia nöyryytetty syväväärennetyllä pornolla. Väärennöksiä tehdään paitsi julkisuuden henkilöistä myös tavallisista ihmisistä tai vaikkapa journalisteista. Naisia tekoälyn avulla alastomaksi riisuvalla sovelluksella on luotu alastonkuvia myös lapsista.

Vuonna 2022 useat eurooppalaiset pormestarit luulivat keskustelleensa videopuhelussa Kiovan pormestarin Vitali Klytškon kanssa. Todellisuudessa kyseessä oli taitava syväväärennös.

Berliinin pormestarin Franziska Giffeyn epäilykset heräsivät vasta 15 minuutin keskustelun jälkeen, kun ”Klytško” oli alkanut puhua siitä, miten ukrainalaiset pakolaiset huijaavat Saksan valtiota ja heidät pitäisi palauttaa takaisin Ukrainaan.

Suomessa esimerkiksi pääministeri Sanna Marinista (sd) on nettifoorumilla luotu syväväärennetty äänimalli ja hänen kasvonsa on toistuvasti liitetty pornoon. Katsojan ja kuulijan on kuitenkin edelleen helppo tunnistaa, että kyse on väärennöksistä.

Kun Marinista kotibileissä kuvatut tanssivideot lähtivät kesällä leviämään, monissa suomalaistoimituksissa pohdittiin, voivatko videot olla syväväärennöksiä.

Suomen Kuvalehti kokeili luoda syväväärennösvideon yhdistämällä toimittajista Pipsa Havulasta ja Aurora Rämöstä kuvatut videot. Väärennöksen luominen vaati GAN-teknologiaa hyödyntävän ilmaisen Deepfacelab-nimisen sovelluksen lataamisen ja noin 40 minuutin mittaisen opetusvideon seuraamisen. Deepfacelab irrotti lähdevideoista noin 2700–5000 kasvokuvaa, joilla sen annettiin treenata 40 tuntia. Ohjelman automaattiasetuksilla tehtyä videota voit katsella jutussa. Väärennöksestä saisi uskottavamman asetuksia säätämällä, pidemmällä treenausajalla, suuremmalla lähdemateriaalimäärällä ja jälkikäsittelyllä. Jutun lopusta voit katsoa Tom Cruisesta tehdyn syväväärennöksen, jonka on tehnyt erikoistehosteita ammatikseen tekevä Chris Ume.

Oikea-aikaisella, taidokkaasti tehdyllä ja laajalle levitetyllä syväväärennöksellä voidaan manipuloida osakemarkkinoita, aiheuttaa mellakoita tai häiritä vaaleja.

Uhrit voivat kuitenkin olla myös tavallisia ihmisiä.

Euroopan unionin lainvalvontaviraston Europolin innovaatiolaboratorio on tuoreessa raportissaan todennut, että syväväärennösteknologia epäilemättä synnyttää uudenlaista rikollisuutta, jossa rikotaan yksityisyyttä ja henkilökohtaista turvallisuutta. Väärennöksillä voidaan nolata, ahdistella tai kiristää ihmisiä tai loukata heidän kunniaansa. Ne myös helpottavat identiteettivarkauksia.

”Vielä tällä hetkellä tavallinen pasianssinpelaaja ei pysty tekemään uskottavaa syväväärennöstä rikollisiin tarkoituksiin, mutta sovellukset käyvät koko ajan helpommiksi”, keskusrikospoliisin tutkija Lauri Tavi sanoo.

”Uskon, että tämä voi koskettaa kaikkia: Toiselle voidaan tehdä haittaa ihan alkaen koulukiusaamisesta aikuisten työelämään.”

Onko ihmisellä tekijänoikeus omiin kasvoihinsa tai ääneensä? Onko rikos liittää toisen kasvot lailliseen pornografiaan tai muokata toisen ääni sanomaan jotakin sellaista, mitä tämä ei oikeasti ole sanonut?

Syväväärennösteknologia asettaa uudenlaisia kysymyksiä myös lainsäätäjille.

Syväväärennöksissä käytetään kuvaa, videota tai ääntä ihmisestä. Toisen ihmisen valokuvien ja videoiden käsitteleminen voi olla tietosuojasääntelyn mukaista henkilötietojen käsittelyä, johon pitäisi olla lupa.

Kun joku muokataan tekemään tai sanomaan jotakin sellaista, mitä tämä ei tosiasiassa ole tehnyt tai sanonut, tekijä voi syyllistyä kunnianloukkaukseen.

Kuitenkin esimerkiksi poliitikosta tehty parodia ei välttämättä täytä minkään rikoksen tunnusmerkistöä, sillä se voidaan katsoa sananvapauden harjoittamiseksi.

Vielä vuonna 2022 syväväärennetyn pornon levittäminen saattoi Suomessa olla kunnianloukkaus. Seksuaalirikoslainsäädäntö muuttui vuodenvaihteessa, ja teko voidaan nyt tulkita seksuaalisen kuvan luvattomaksi levittämiseksi. Uhrin asema paranee.

”Suostumuksesta tulee lähtökohta seksuaalirikoksissa. Jos suostumus puuttuu, voidaan olla rikollisen toiminnan piirissä”, syväväärennöksiin perehtynyt juristi Mika Pirttisalo sanoo.

Suomen rikoslaki antaa nyt melko hyvät mahdollisuudet puuttua syväväärennetyn pornon valmistamiseen ja levittämiseen, Pirttisalo arvioi.

Avoimia kysymyksiä on kuitenkin paljon. “Epäselvää esimerkiksi on, voidaanko ihminen tuomita samasta syväväärennysteosta sekä tietosuojasääntelyn että rikosoikeuden nojalla. Lopputulokseen saattaa vaikuttaa myös se, millaiseksi syväväärennöksiä koskeva valmisteilla oleva EU-sääntely muotoutuu.”

Suomen oikeussaleissa ei tiettävästi ole käsitelty syväväärennöksiin liittyviä rikoksia.

Britanniassa käytiin vuonna 2019 oikeutta huoltajuuskiistasta, jossa äiti yritti todistaa isän väkivaltaisuuden väärennetyllä ääninauhalla. Äiti oli nauhoittanut puhelun ja muokannut ääninauhaa ilmaisella ohjelmalla ja verkosta löytyvillä ohjeilla. Muokatulla nauhalla vaikutti siltä kuin isä olisi uhannut äitiä ja lasta väkivallalla. Väärennös kuitenkin paljastui nauhan taustatiedoista eli metadatasta.

Puheteknologian professori Tomi Kinnu­nen Itä-Suomen yliopistosta kertoo pohtineensa sitä, miten ihmisten itsestään verkossa julkaisemaa materiaalia voidaan väärinkäyttää.

”Itse miettisin, mitä ääntä, videota ja kuvaa itsestään sosiaaliseen mediaan lataa. Mitä enemmän dataa on, sitä enemmän on mahdollisuuksia väärinkäyttää sitä”, Kinnunen sanoo.

Toisaalta nykypäivänä mikä tahansa nauhoitus voi altistaa syväväärennöksen uhriksi, huomauttaa apulaisprofessori Duc Tien Dang Nguyen Bergenin yliopiston informaatiotieteen ja mediatutkimuksen laitokselta. Hänestä elämän jakamista sosiaalisessa mediassa on turha kammoksua.

”Tämä Zoom-puhelukin on sinulle riski. Näen kasvosi eri kuvakulmista ja pystyisin rakentamaan niistä melko uskottavan syväväärennöksen.”

”On parempi kehittää kriittistä ajattelua ja medialukutaitoa kuin vältellä ja pelätä.”

Syväväärennökset perustuvat syviin neuroverkkoihin. Ne ovat koneoppimisen malleja, joiden laskentaprosessi jäljittelee biologisten hermoverkkojen toimintaa.

Teknologia on ottanut jättimäisiä harp­pauksia viime vuosina. Yksi syy on yhdysvaltalaisen tekoälytutkijan Ian Goodfellowin ja hänen kollegoidensa vuonna 2014 kehittämä GAN-malli. Siinä yksi neuroverkko toimii ikään kuin toisen kriitikkona, jonka tehtävänä on tunnistaa, mitkä esitykset ovat ai­toja ja mitkä koneen luomuksia. Neuroverkot opettavat itse itseään.

Kun luodaan puhesynteesi, eli keinotekoista, ihmiseltä kuulostavaa puhetta, neuroverkko opetetaan tekstien ja niitä vastaavien äänitiedostojen avulla tuottamaan puhetta. Laatu on parhaimmillaan niin hyvää, ettei ihmiskorva enää erota keinotekoista puhetta ihmisen puheesta.

Jos halutaan, että puhe kuulostaa tietyltä henkilöltä, yleistä puhesyntetisaattoria ikään kuin hivutetaan kuulostamaan häneltä. Puheesta irrotetaan yksilöiviä piirteitä, joita hyödynnetään synteesin ohjaamisessa.

Puheen kloonaus on sitä helpompaa ja lopputulos sitä uskottavampi, mitä enemmän puhetta on saatavilla. Parhaimmilla neuroverkkomalleilla vain muutama sekunti studiolaatuista ääntä riittää luomaan kenen tahansa puheesta äänimallin.

Brittiläisen toimitusjohtajan huijauksessa oli asiantuntijoiden mukaan käytetty kaupallista puhesynteesipalvelua, joita on nykyisin laajasti saatavilla. Koska tekijöitä ei ole saatu kiinni, ei tiedetä, mistä pomon ääni oli napattu. Vastaavan kaltaisia huijauksia on kuitenkin myöhemmin tehty lisää. Monista suurten yritysten toimitusjohtajista on kuitenkin löydettävissä esimerkiksi konferenssipuheita tai videohaastatteluita, joista ääntä voidaan poimia kloonaamista varten.

Kansainvälisen, kaikille avoimen syväväärennettyjen äänien tunnistushaasteen ASVspoofin verkkosivuilta voi kuunnella, miltä tutkijoiden luoma keinotekoinen puhe kuulostaa. Etenkin A10:ksi nimettyä puhesynteesiä on vaikeaa erottaa oikean ihmisen puheesta.

Entä jos syväväärennökset saavuttavat pisteen, jonka jälkeen emme voi enää tietää, mikä on totta?

”Skenaario, jossa emme voi enää luottaa kuvaan tai ääneen, on hieman huolestuttava. Ja siihen epäilemättä tullaan menemään”, Tomi Kinnunen ennustaa.

Dang Nguyen suhtautuu tulevaisuuteen optimistisesti, kunhan vastateknologiaa kehitetään ja medialukutaitoa vahvistetaan. Sekä Dang Nguyen että Kinnunen työskentelevät syväväärennöksiä tunnistavan vastateknologian parissa.

Kinnunen uskoo, että tulevaisuudessa esimerkiksi puhelimiin tulee ominaisuus, joka hälyttää, jos herää epäilys, ettei soittajan ääni ole aito. Se olisi auttanut Britanniassa huijauksen kohteeksi joutunutta toimitusjohtajaa.

Palvelupuhelinten ja puhelinkeskusten suojaamiseen on jo kaupallisesti saatavilla ohjelmistoja.

Myös syväväärennettyjen videoiden tunnistusta kehitetään koko ajan. Ohjelmia on jo tavallisille ihmisille saatavilla ilmaiseksi verkossa. Laatu kuitenkin vaihtelee.

Jos tunnistusteknologia ei toimi automaattisesti, ihmisen pitää itse osata epäillä katsomaansa tai kuulemaansa. Ongelmana on, että tällä hetkellä moni ei edes tiedä, mitä syväväärennökset ovat.

”Välillä on jäänyt mielikuva, että Suomessakaan ei ole vielä ihan herätty siihen, mitä tämä käytännössä tarkoittaa ja mitä seu­rauksia tällä on.”

Lopulta voi käydä niin, ettei aitoonkaan materiaaliin enää uskota. Jo nyt monet poliitikot eri puolilla maailmaa ovat väittäneet aitoa, omalle maineelleen kiusallista mate­riaalia syväväärennetyksi.

Jos ihminen on jatkuvasti epävarma näkemiensä asioiden todenperäisyydestä, kriittinen ajattelu väsyy. Tällöin myös oikean tiedon leviäminen voi hiipua.

Se voi johtaa tilanteeseen, jossa kansalaisilla ei enää ole juuri minkäänlaista yhteistä, jaettua todellisuutta. 

Alla oleva video on esimerkki siitä, millaisia syväväärennöksiä kokenut tiimi pystyy luomaan. Videolla ei ole oikea Tom Cruise. Niillä esiintyy häntä taitavasti imitoiva Miles Fisher, jolle erikoistehosteita ammatikseen tekevä Chris Ume on kiinnittänyt Cruisen kasvot. Tekemiseen on käytetty samaa Deepfacelab-ohjelmaa, jolla Suomen Kuvalehden video tehtiin. Lisäksi on käytetty Machine Editor -ohjelmaa.