Huijausten uusi aikakausi alkoi jo – ”Kuvat, videot ja puheääni tarjoavat hyödyllistä dataa väärentäjille”

Tekoälyn nopea kehittyminen on tehnyt väärennösten tunnistamisesta vaikeaa jopa alan parhaille tutkijoille.

Teksti
Pauli Reinikainen
Kuvat
Markus Pentikäinen
9 MIN

Törmäsitkö sosiaalisessa mediassa epäilyttävän oloiseen Tom Cruiseen tai Joe Bideniin? Julkisuuden henkilöistä tehdyt syväväärennökset (englanniksi deepfake) ovat arkipäivää, mutta todellinen uhka yksittäiselle käyttäjälle voi vaania sosiaalisen median ulkopuolella. Ja juuri siksi yhä useampi tutkija on huolissaan.

Videoiksi, kuviksi tai ääneksi naamioiduista syväväärennöksistä on tullut houkutteleva keino huijareille. Vielä muutama vuosi sitten syväväärennöksen saattoi tunnistaa videolla esiintyvän henkilön epäluonnollisista kasvojen liikkeistä ja konemaisesta puheesta. Tekoälyn nopea kehittyminen on kuitenkin tehnyt väärennösten tunnistamisesta vaikeaa jopa alan parhaille tutkijoille.

”Jos ei ole riittävän tarkkaavainen, toisen ihmisen kasvoilla voi osallistua livenä videoneuvotteluun.”

Syväväärennös on sitä vaikeampi tunnistaa, mitä enemmän algoritmeilla on tietoa eli dataa väärennettävästä henkilöstä. Kuvat, videot ja puheääni tarjoavat hyödyllistä dataa väärentäjille. Kaikesta sosiaaliseen mediaan julkaistusta ääni-, kuva- ja videomateriaalista on tullut rikollisille keino opettaa tekoälyalgoritmeja ja luoda syväväärennöksiä lähes kenestä tahansa.

”Riittävällä määrällä aineistoa pystytään luomaan väärennöksiä, jotka menevät täydestä lähiomaisillekin. Vielä helpompaa on huijata satunnaisia ihmisiä. Siihen ei tarvita muuta kuin valokuva”, sanoo tulevaisuuden tutkija ja teknologian kehitystä vuosikymmeniä tutkinut Risto Linturi.

Tulevaisuuden tutkija Risto Linturi on tehnyt itsestään niin hyvän syväväärennöksen, ettei sen aitoutta tunnistanut edes oma puoliso.

Deepfake-videoita luodaan käyttämällä neuroverkkoa, joka on suunniteltu jäljittelemään ihmisaivojen toimintaa ja oppimiskykyä.

Karkeasti kuvaillen se menee näin: neuroverkon opetusvaiheessa yksi tekoäly analysoi dataa ja yrittää muodostaa mahdollisimman tarkkoja kopioita alkuperäisistä kuvista ja videoista.

Opetuksessa tärkeässä roolissa on toinen, niin sanottu luokitteleva tekoäly eli diskriminaattori. Sen tehtävänä on etsiä virheitä neuroverkon luomista kopioista.

Tekoälyt oppivat vuoron perään toisiltaan – toinen oppii jatkuvasti parantamaan kopiota ja toinen oppii erottamaan virheitä yhä tarkemmin. Lopulta paras lopputulos väärennöksestä jää voimaan.

Kuvakaappaus Risto Linturin tekemältä videolta, johon Synthesian tekoälygeneraattori on tuottanut ”puhuvan kaksosen” .

Tietokoneiden prosessoritehon kasvaessa prosessi nopeutuu ja kone kehittyy yhä taitavammaksi.

”Tällä tavoin neuroverkko oppii tekemään kuvia ja videoita, joita diskriminaattori ei tunnista koneen tekemiksi. Opetusvaiheen jälkeen järjestelmä toimii yksin”, Risto Linturi kertoo.

Kansainväliset huippututkijat kehittävät keinoja syväväärennösten tunnistamiseksi. Yksi heistä on New Yorkissa sijaitsevan Binghamtonin yliopiston professori Yu Chen.

”Syväväärennöksiä voidaan käyttää hyviin tarkoituksiin, mutta valitettavasti väärinkäytökset ovat kasvussa. Vain yhdessä vuodessa väärennösten virheet kuten epäluonnollisuudet ihmisen kasvonpiirteissä ovat vähentyneet. Se tekee työstämme erittäin haastavaa”, Yu Chen kertoo TM:lle Teams-haastattelussa.

© Binghamton University

Tutkijoilla on kova työ pysyä tekoälyn kehityksen perässä, sanoo Binghamtonin yliopiston professori Yu Chen. Hän uskoo silti, että se on mahdollista.


Chenin työryhmän kehittämässä menetelmässä videoista etsitään ”sormenjälkiä”, jotka voisivat paljastaa, että jokin osa videosta ei olekaan kameran kuvaamaa vaan peräisin esimerkiksi tekoälyä hyödyntävistä editointityökaluista. Aitous – tai väärennös – voi paljastua etsimällä videosta väitetyn kuvauspaikan sähköverkon taajuutta.

Sähköverkon taajuus vaihtelee eri maissa: Suomessa käytettävän sähkövirran taajuus on 50 hertsiä, Yhdysvalloissa sen sijaan 60 hertsiä. Taajuudessa voidaan kuitenkin havaita alueellisesti pieniä vaihteluita, sillä esimerkiksi ukonilma ja rakennustyömaat voivat aiheuttaa odottamattomia heittoja sähkövirtaan.

”Taajuusmuutosten avulla pyrimme havaitsemaan, onko video kuvattu oikeasti siellä, missä julkaisija väittää sen kuvatun”, Chen sanoo.

Väärennösten etsimiseen käytetään luonnollisesti myös tekoälyä. Sen avulla pyritään havaitsemaan virheitä videolla esiintyvän henkilön huulten liikkeissä ja kasvonpiirteissä.

”Tekoäly ei vielä osaa jäljitellä kaikkia mikroilmeitä ja pienten lihasten liikkeitä kasvoissa. Näistä puutteista voidaan parhaassa tapauksessa tunnistaa syväväärennös. Joissain tapauksissa väärennöksen voivat paljastaa virheet silmien heijastuksissa,” Chen kertoo.

Jos ei videoihin kannata enää luottaa, sama pätee ääneen.

Yu Chen kertoo törmänneensä äskettäin Yhdysvaltain presidentti Joe Bidenin väärennettyyn puheeseen, jossa tämä ohjeisti kansalaisia äänestämään tulevissa presidentinvaaleissa. Tutkija ei olisi erottanut tekoälyn luomaa ääntä aidosta, ellei puheen tavallisesta poikkeava sisältö olisi paljastanut totuutta.

Syväväärennetty audioraita voi paljastua analysoimalla äänen taajuutta. Chenin mukaan on tyypillistä, että tekoälyllä luodun puheäänen taajuus eroaa ihmisen luonnollisen puheen taajuudesta.

Vertaamalla aitoa ja epäiltyä väärää audioraitaa voidaan siis paljastaa väärä. Harvalla tavallisella somekäyttäjällä tosin on tällaista teknologiaa käytössään.

Todellinen vaara voi piillä huijauksissa, jotka perustuvat syväväärennöksen ja aidon henkilön välisiin keskusteluihin. Maailmalla kyseisiä huijausyrityksiä on raportoitu muun muassa Teams-palavereissa.

”Jos ei ole riittävän tarkkaavainen, toisen ihmisen kasvoilla voi osallistua livenä videoneuvotteluun”, Risto Linturi kertoo.

Hän on testannut tätä itse ja onnistunut luomaan väärennöksen, joka reagoi Teams-palaverissa kysymyksiin korkeintaan parin sekunnin viiveellä. Linturi kertoo, että väärennös onnistuu internetistä ladattavilla ohjelmistoilla.

Käytännössä idea on sama kuin esimerkiksi Snapchat-mobiilisovelluksen kasvofilttereissä, joilla kasvojen ilmeitä voi vääristellä tai kasvot voi vaihtaa piirroshahmoiksi.

Linturin kuvaama deepfake-teknologia on kuitenkin selvästi kehittyneempää.

Käytännössä Linturi toteutti väärennöksen asentamalla päänsä ympärille telineen, joka kannattelee älypuhelinta tai kevyttä kameraa kasvojen edessä. Telinettä tarvitaan pitämään puhelin paikoillaan. Vapaalla kädellä lopputulos olisi selvästi huonompi.

”Onneksi moni vanhempi on ymmärtänyt, ettei lasten kuvia ole syytä laittaa nettiin”, Risto Linturi sanoo.

Linturi käytti testissään iPhonea, jonka ominaisuudet sopivat hänen mukaansa parhaiten syväväärennösten tekemiseen.

”Tarkkuus, jolla esimerkiksi iPhone kykenee mittaamaan kasvojen mikroilmeet, ei vastaa aivan ihmisen oikeita kasvoja, mutta etenkin isoissa etäpalavereissa se voi mennä täydestä, kun kuvanlaatu ei useinkaan ole täydellinen ja lisäksi keskustelussa voi olla verkkoyhteydestä aiheutuvia viiveitä”, hän selvittää.

Tekoälyä käytetään skannaamaan kasvojen ilmeitä. Linturi käytti xpression camera-virtuaalikamerasovellusta, joka muuttaa eleet väärennetyn henkilön eleiksi.

Teams-keskustelussa muut osallistujat näkevät väärentäjän valitsemat kasvot, jotka on kopioitu valokuvasta. Ilmeet ja puheen sisältö ovat kuitenkin taustalla olevan puhujan – tässä tapauksessa Risto Linturin.

”Videolla näkyvät minun ilmeeni ja joko minun ääneni tai muunnettu ääni. Muunnetun äänen laatu on sitä parempi, mitä pidempi viive videossa on. Omassa luonnollisessa puheessani on paljon viiveitä ja katkoja, joten ihmiset eivät huomaa kovin helposti eroa aidon ja syväväärennöksen välillä”, Linturi kertoo.

ChatGPT:n kehittäjä, puoliksi Microsoftin omistuksessa oleva OpenAI esitteli äskettäin uusimman tekoälyversionsa kykyjä reaaliaikaisessa keskustelutilanteessa. GPT-4o (o viittaa sanaan omni, suomeksi kaikki) kykenee jo lähes luonnolliseen, kahden aidon ihmisen väliseen vuorovaikutukseen. Keskimääräistä vasteaikaa on saatu lyhennettyä runsaaseen 300 millisekuntiin. Se vastaa ihmisen reagointinopeutta keskustelussa.

Nopea kehitystahti on saanut Risto Linturin vakuuttuneeksi keinoälyn kyvyistä. Samalla huoli riskeistä kasvaa.

Verrattain laadukkaan väärennöksen tekeminen onnistuu jo teini-ikäiseltä.

”Tekoäly osaa puhua toisen keskustelijan päälle ja se tunnistaa, jos joku haluaa keskeyttää puheen. Kun GPT-4o tulee pian yleiseen käyttöön, tekoäly voi soittaa ihmisille ympäri maailmaa, käydä keskusteluja ja huijata melkein jokaista.”

OpenAI on rajannut tekoälymallin uusimman version vain tiettyihin kehittäjän valitsemiin vakioääniin, mutta tämä ei Linturin mukaan vähennä huijausten riskiä.

”Mallin tukena voi käyttää ohjelmaa, joka muuntaa minkä tahansa puheen. Siksi äänen väärentäminen alkaa olla aika rutiininomaista. Olen tehnyt omasta äänestäni väärennöksen, jota edes vaimoni ei erottanut aidosta. Eikä sen tekeminen maksa kuin joitakin kymppejä kuussa.”

Äänen väärentämiseen perustuvat puhelin- tai etäpalaverihuijaukset asettavat työpaikat ja yhteisöt uudenlaisen haasteen eteen. Linturin mukaan yksittäisen käyttäjän luotettavuus on todennettava samaan tapaan kuin pankkipalveluissa.

”Jos kyseessä on henkilö, joka käsittelee rahoja yrityksessä, hänen täytyy olla erityisen huolellinen, ettei luota kenenkään kasvoihin tai ääneen. Operaattoreiden on mahdollista turvata keskustelut niin, että käyttäjänä tiedän tasan tarkkaan, kuka minulle soittaa. Tähän on tulevaisuudessa mentävä.”

Syväväärennöksiä voi käytännössä tehdä kuka tahansa aiheesta kiinnostunut.

Verrattain laadukkaan väärennöksen tekeminen onnistuu jo teini-ikäiseltä. Väärennökseen tarvittavaa aineistoa voi tallentaa somevideoista ja tv-ohjelmista.

Kun materiaalia on riittävästi, uhrin suuhun voi syöttää sanoja tekstikomennoilla käyttämällä edullista tekoälyohjelmistoa, joka hoitaa loput.

Professori Yu Chenin mukaan korkealaatuisemmat ja enemmän taloudellisia resursseja vaativat syväväärennökset ovat käytössä poliittisen tai taloudellisen disinformaation levittämisessä. Niiden takana on usein valtiollisia toimijoita.

”Tekoäly-yhtiöiden kaikelle kansalle tarkoitetut kaupalliset palvelut ovat rajattuja ja kontrolloituja, eikä niiden avulla päästä yhtä laadukkaaseen lopputulokseen. Toisin on silloin, kun tekijät ovat valtiollisia toimijoita tai isoja yrityksiä, joilla rajoitteita ei ole.”

Suomen kaltaisen pienen kielialueen etuna on, ettei syväväärennöksissä tarvittavaa dataa ole tarjolla yhtä paljon kuin isoilla kielialueilla. Rikollisten ei ole yhtä helppoa laatia suomenkielisiä syväväärennöksiä.

Lähitulevaisuudessa saamme joka tapauksessa olla entistä valppaampia.

Chen arvioi, että tekoälyn kouluttaminen yhä tehokkaammilla supertietokoneilla merkitsee syväväärennösten yleistymistä videoneuvotteluissa ja reaaliaikaisissa videotallennuksissa.

”Syväväärennöksiä voidaan upottaa erilaisiin tapahtumiin kuten yritystilaisuuksiin, poliittisiin tapahtumiin ja sosiaalisen median chatteihin. Se tarkoittaa, että pian emme voi luottaa mihinkään.”

Risto Linturi on samoilla linjoilla. Hän toivoo, että lainsäädäntö sopeutuu ennen pitkää uudenlaisen rikollisuuden kitkemiseen.

”Syväväärennöksillä voidaan pilata yritysten tai yksittäisten ihmisten maine. Siksi vahingollisen väärennöksen tekemisen pitäisi olla huomattavasti sanktioidumpaa kuin kunnianloukkaus nykyisin, koska syväväärennöksistä jää elinikäinen jälki verkkoon. Onneksi moni vanhempi on ymmärtänyt, ettei lasten kuvia ole syytä laittaa nettiin”, Linturi sanoo.

F-Securen Laura Kankaala muistuttaa, ettei syväväärennösten tunnistusohjelmiin tule luottaa aukottomasti. © F-Secure

Näin voit tunnistaa syväväärennöksen

Voit hyödyntää edullisia tekoälyohjelmia, jotka on suunniteltu tekoälyllä tehtyjen kuvien ja videoiden tunnistamiseen. Yksi tällainen palvelu on Ai or Not. Osa kyseisistä ohjelmista on maksuttomia, kuten Is It Ai? ja Deepware Scanner.

Tunnistusohjelmiin ei pidä luottaa sinisilmäisesti, sillä ne eivät välttämättä tunnista esimerkiksi resoluutioltaan huonolaatuisia valokuvia tai videoita. Ohjelmat eivät välttämättä tunnista korkealaatuisia syväväärennöksiä.

Tekstipohjaisesta sisällöstä on käytännössä mahdotonta sanoa, onko teksti luotu kielimallilla.

Ole erityisen varovainen, jos saat video- tai ääniviestin, joka kuulostaa tai näyttää tuttavasi lähettämältä, mutta jossa pyydetään toimimaan nopeasti, esimerkiksi lähettämään rahaa tai klikkaamaan linkkiä. Näissä tilanteissa on hyvä ottaa yhteyttä kyseiseen henkilöön esimerkiksi soittamalla.

Vinkit antoi F-Securen kybertiedustelupäällikkö Laura Kankaala.


Artikkeli on ilmestynyt alun perin 5. syyskuuta 2024 Tekniikan Maailmassa.