hän 19.10.2024

Pelkäätkö tekoälyn ylivaltaa, Roman Yangarber?

Professori kouluttaa kielimalleja ja vaalii uhanalaisia kieliä. Tekoälyn kehitysloikat lyövät ällikällä kokeneenkin tutkijan.

Teksti: Pasi Kivioja
Kuvat: Jonne Räsänen

8 MIN

Tarkoitus oli, että kone oppisi ennustamaan seuraavia siirtoja lautapelissä.

Harvardin yliopiston tutkijat syöttivät tekoälyn kielimallille valtavan määrän dataa Othello-pelin siirroista. Kielimalli oppii suuresta tekstiaineistosta, pystyy vastaamaan kysymyksiin, tuottamaan tekstiä ja käymään keskusteluja.

Se teki kuitenkin jotakin yllättävää.

Kone kehitti Othellon pelilaudasta sisäisen mallinnuksen ja selvitti jotenkin myös pelin säännöt, vaikka kukaan ei ollut kertonut niitä sille. Kukaan ei ollut kertonut, että mitään pelilautaa tai sääntöjä ylipäätään oli olemassa.

Harvardin Othello-tutkimus julkaistiin vuonna 2023. Roman Yangarber käyttää sitä usein esimerkkinä, kun puhuu tekoälyn kyvykkyydestä. Siitä, kun kone oppii yllättäen odottamattomia asioita.

Yangarber on professori Helsingin yliopiston digitaalisten ihmistieteiden osastolla. Hän sanoo, että tutkijat eivät tarkalleen tiedä, mitä Othello-esimerkin kaltaisessa tilanteessa tapahtuu.

Tiedetään, että kielimallin on löydettävä uusia tapoja datan tiivistämiseksi, kun sen määrä kasvaa. Kun tekoäly löytää datasta yllättäviä kuvioita tai yhteneväisyyksiä, kielimallissa tapahtuu kehitysloikka. Sitä kutsutaan emergentiksi ilmiöksi.

Vaikka Yangarber on kokenut tekoälytutkija, ilmiö on jopa hänestä vähän pelottava.

Mutta mikä siinä pelottaa? Sekö että Terminator-elokuvien tekoäly Skynet herää, saavuttaa tietoisuuden ja tuhoaa ihmiskunnan? Yangarber naurahtaa kuivasti.

”Jokin siellä heräilee.”

Loppujen lopuksi tekoäly ja ihmisaivot ovat neuroverkkoja, joiden sisällä on miljardeja yhteyksiä. Lienee ajan kysymys, milloin tekoäly ajaa oppijana ihmisestä ohi. Eikä tiedetä, mihin se johtaa.

Yangarber tekee työtä lingvistiikan ja tietojenkäsittelytieteen risteyksessä. Kielet ja tekoäly ovat hänen tutkimuksensa kulmakiviä.

Hän johtaa kahdeksan vuotta jatkunutta Revita-projektia, jossa tutkitaan, kuinka ihmiset oppivat kieltä ja miten heitä voisi auttaa tekoälyn avulla. Ohjelmassa tekoäly räätälöi kielitehtävät käyttäjän tason mukaan. Sovellus toimii nyt suomeksi ja venäjäksi, ja parhaillaan rakennetaan italian ja englannin kielimalleja.

Yangarber on hyödyntänyt tekoälyä muissakin projekteissaan. Yhdessä tehdään tekoälyn avulla media-analyysia verkossa ja etsitään nousevia uhkia, kuten terrorismia, rajat ylittävää rikollisuutta ja epidemioita. Esimerkiksi Google-haut flunssaoireista voivat olla indikaattori jostain vakavammasta, jos ihmiset alkavat esittää kysymyksiä, joita he eivät normaalisti kysyisi.

”Kymmenen vuotta sitten ei ollut nykyisenkaltaisia vahvoja kielimalleja, vaan tekoälyn hyödyntäminen perustui koneoppimisen algoritmeihin. Niitä on ollut olemassa 1950-luvulta lähtien.”

Tuoreempi, uutisia koskeva disinformaatiotutkimus on vielä varhaisessa vaiheessa. Sitä varten kerätään tuhansia esimerkkejä sekä disinformaatiosta että oikeista uutisista.

”Koska tarkoituksena on opettaa tekoälyä erottamaan ne toisistaan, kielimallille pitää selittää, mikä on disinformaatiota. Jos uutinen on hyvin kirjoitettu, siitä on vaikeampi päätellä, onko se tosiuutinen vai tarkoituksellista disinformaatiota.”

”OpenAI liioittelee Chat GPT:n ominaisuuksia julkisuudessa. Yhtiö käyttää orjia, tai ainakin hyvin halpaa työvoimaa.”

Yksi tunnetuimmista kielimalleista on kalifornialaisen OpenAI-yrityksen kehittämä Chat GPT. Se on generatiivinen tekoälysovellus ja laaja kielimalli, joka on viime vuosina ottanut huimia harppauksia eteenpäin. Uusin versio 4o julkaistiin viime keväänä, ja se on kaksi vuotta vanhempaan 3.5-versioon nähden edistyneempi, nopeampi ja paremmin koulutettu.

Financial Timesin mukaan OpenAI:n liikevaihto on jo 1,9 miljardia euroa, ja se on yksi nopeimmin kasvavista teknologiayrityksistä maailman historiassa. Voi olla, että Chat GPT ja muut kielimallit ovat internetin ja kännyköiden tulon jälkeen merkittävin viestintäteknologinen edistysaskel.

Roman Yangarber pitää Chat GPT:tä tekniikaltaan erinomaisena ja hyödyllisenä työkaluna muun muassa kielten opiskelussa. Sen sijaan hänellä tuntuu olevan paljon sanottavaa OpenAI-yhtiöstä – eikä mitään kovin myönteistä.

”OpenAI liioittelee Chat GPT:n ominaisuuksia julkisuudessa, eikä kerro rehellisesti, että yhtiö käyttää orjia, tai ainakin hyvin halpaa työvoimaa”, hän väittää.

Chat GPT ei ole kouluttanut itse itseään. Siihen on tarvittu ihmistyöntekijöitä.

”Työntekijät käsittelevät ja luokittelevat tuhansittain ohjelmalle tulevia tietopyyntöjä, mutta yhtiö antaa ymmärtää, että heidän kielimallinsa tekee sen. He haluavat ihmisten luulevan, että on olemassa jokin itsestään kehittyvä älykkyys. He tekevät näin kaupallisista syistä.”

Yangarber tarkoittaa halpatyövoimalla annotoijia eli merkitsijöitä. Annotoijat ovat ihmisiä, jotka osallistuvat tekoälyn kouluttamiseen ja kehittämiseen. He merkitsevät, arvioivat ja korjaavat kielimallien kouluttamiseen käytettävää dataa.

He voivat kirjoittaa esimerkkivastauksia ja vuoropuheluja, joiden avulla kielimalli oppii oikeanlaisia vastauksia eri kysymyksiin. Vaikka annotoijien työ on avainasemassa tekoälymallien kehittämisessä, heistä ei juuri puhuta.

Time-lehti paljasti viime vuonna, että OpenAI on ostanut alihankintana kenialaista halpatyövoimaa. Sen käyttämä alihankkija, San Franciscoon rekisteröity Sama-niminen yritys on rekrytoinut työvoimaa Kenian lisäksi Ugandasta ja Intiasta.

Chat GPT:n kielelliset kyvyt ovat satoja miljardeja sanoja sisältävän koulutusaineiston ansiota. Aineisto on peräisin muun muassa avoimilta verkkosivustoilta, uutisartikkeleista ja kirjallisuudesta, mutta myös erilaisilta foorumeilta, joissa sisältö voi olla mitä hyvänsä.

Annotoijat auttavat suodattamaan haitallista sisältöä, jotta kielimalli oppii tunnistamaan ja estämään sen tuottamisen. Työntekijöiden on kerrottu altistuneen verkon pimeimmistä nurkista kaavitulle järkyttävälle sisällölle.

Sama-yhtiö mainostaa olevansa ”eettinen tekoäly-yhtiö”, joka on pelastanut köyhyydestä yli 50 000 ihmistä. Timen selvityksen mukaan se on kuitenkin maksanut annotoijille vain 1,20–1,80 euroa tunnissa.

Chat GPT-4o itse vaikuttaa tässä asiassa rehelliseltä. Kun siltä kysyy kenialaisten annotoijien kohtelusta, se kertoo reippaasti, että raporttien mukaan he ovat saaneet huonoa palkkaa ja altistuneet haitalliselle sisällölle.

Roman Yangarber on asunut Suomessa yli 20 vuotta. Hän tahtoi puolisonsa kanssa pois New Yorkin stressaavasta elämänrytmistä, kun tytär ilmoitteli tulostaan maailmaan.

Yangarber sanoo ymmärtävänsä suomea, mutta ei halua puhua sitä haastattelussa. Englanniksi professori on polveileva puhuja. Vastaukset eksyvät pitkäksi aikaa aiheesta, kunnes hän havahtuu ja pahoittelee, jos on tullut selittäneeksi liian monimutkaisesti.

Kun Yangarberilta kysyy esimerkiksi, montako kieltä hän puhuu, yksiselitteistä vastausta ei tule. Varmuudella voinee sanoa, että hän puhuu ainakin äidinkieltään venäjää ja sujuvaa amerikanenglantia. Lisäksi hän on opiskellut hepreaa, arabiaa ja kiinaa. Ennen hyvin sujunut italia on hieman ruosteessa.

Kehittämäänsä Revita-ohjelmistoa hän on käyttänyt suomen kielen opiskeluun.

”En sano, että rakensimme Revitan itsellemme, mutta käytin sitä iranilaisen kollegani kanssa joka päivä liki kolmen kuukauden ajan. Meidän piti oppia suomea saadaksemme kansalaisuuden. Läpäisimme kielikokeen, ja minä sain parhaan arvosanan.”

Yangarber on kiinnostunut kielistä, mutta ei ehkä sillä tavalla kuin useimmat:

”Minua kiinnostaa kielen rakenne ja enemmän se, miten kieli toimii, kuin kielellä puhuminen”, hän sanoo.

Professori Roman Yangarber käytti kehittämäänsä ohjelmistoa suomen kielen opiskeluun ja sai kielikokeesta parhaan arvosanan.

Yangarber oli pikkupoika, kun hänen juutalaista sukua ollut perheensä lähti pakolaisina Neuvostoliitosta 1970-luvulla.

Neuvostoliittoa oli syytetty antisemitismistä. Myrskyä tasoitellakseen kommunistihallinto päästi jonkin aikaa juutalaisia lähtemään maasta.

Yangarberia tuntuu kuohuttavan, kun hän muistelee lapsuuttaan Neuvostoliitossa. Hän haroo hiuksiaan ja puuskahtaa: ”Se oli hirveä paikka. En haluaisi puhua siitä.”

Hän kertoo kuitenkin, että juutalaisvastaisuutta ei Neuvostoliitossa mitenkään peitelty. Isä ei saanut töitä, naisia syrjittiin. Oli monenlaisia rajoja, joita ei voinut juutalaisena ylittää.

Yangarberin mieleen syöpyi erityisesti se, kun vanhemmat halusivat laittaa hänet musiikkikouluun. Hän meni kokeisiin, joissa pärjäsi hyvin, mutta lähtiessään hän kuuli koulun rehtorin kommentin opettajalle.

”En ikinä unohda sitä. Hän katsoi minua ja sanoi: ’Onpa harmi, ettemme voi ottaa häntä, koska juutalaisten kiintiö on täynnä.’ Jo 7-vuotiaana ymmärsin, mitä tapahtui.”

Lopulta Roman silti sai koulusta paikan, kun joku toinen luopui omastaan. Näkymätön polttoleima oli kuitenkin jo lyöty hänen otsaansa.

Perheellä oli alun perin Neuvostoliiton lupa muuttaa Israeliin, mutta siellä sodittiin, joten Yangarberien perhe muutti vuodeksi Italiaan. He olisivat halunneet mennä Kanadaan, mutta päätyivät Yhdysvaltoihin, New Yorkiin.

Manhattanille saapuminen oli täydellinen shokki.

”Autot olivat kaksi kertaa pitempiä kuin olin ikinä nähnyt. En puhunut englantia, mutta opin sen nopeasti. Italiaakin olin oppinut Italiassa kadulla”, Yangarber kertoo.

Nuorta miestä kiinnostivat koulussa tietokoneet, ja hän pääsi opiskelemaan alaa New York Universityyn.

”Kun tein maisterintutkintoani, en vielä ajatellut, että kielet olisivat minun juttuni. Ne olivat minulle kuin salainen harrastus. Nyt ymmärrän, että olin alusta asti niistä kiinnostunut.”

Yangarber on käynyt Venäjällä viimeksi ennen koronapandemiaa, jolloin hän viritteli yhteistyötä venäläisten tutkijakollegoiden kanssa. Se kuitenkin loppui yhdessä viikossa, kun Venäjän hyökkäyssota alkoi keväällä 2022.

Yangarber on syvästi järkyttynyt nyky-Venäjän toimista.

”Sanat eivät riitä kuvaamaan, mitä ajattelen Venäjästä. En ole kokenut sitä kotimaakseni enää pitkään aikaan. Se on painajainen.”

Yangarber kertoo lukeneensa aiemmin päivittäin Venäjä-uutisia, mutta kahteen vuoteen hän ei ole sitä voinut enää tehdä, koska ne masentavat.

Professoria harmittaa toinenkin tekemättä jäänyt tutkimus. Aiheena olisivat olleet Venäjällä puhutut marin, mordvan, udmurtin ja komin kaltaiset suomalais-ugrilaiset kielet, joita maan hallitus ei rohkaise opiskelemaan. Osa niistä on jo kuollut, joitakin puhuu enää kourallinen ihmisiä.

”On uskomatonta, että vielä on ihmisiä, jotka puhuvat näitä kieliä. Mutta kun kieli kuolee, heidän kulttuurinsa kuolee. Tämä oli minulle suuri epäonnistuminen. Aina oli jokin maaginen syy, miksi ei ollut oikea hetki meidän yhteistyöllemme.”

Professori ei ole huolissaan turvallisuudestaan, vaikka kritisoi julkisesti entistä kotimaataan. Hän sanoo kuitenkin pelkäävänsä Venäjää ja sen vaikutusta länteen.

”Minua harmittaa, ettei sen maan valtavaa voimaa ole käytetty hyvään.”

Ilmoita asiavirheestä