Suomalaisten sotapäiväkirjat verkkoon: Kansallisarkisto muuttaa kaikki talvi- ja jatkosodan päiväkirjat digitaaliseksi tekstiksi

Hankkeeseen etsitään nyt vapaaehtoisia tukemaan tekoälyn työtä ja varmistamaan, että tekoäly oppii tekemään oikeita tulkintoja.

digitalisaatio
Teksti
Kalle Virtapohja

Kansallisarkisto aloittaa kevään aikana hankkeen, jonka tavoitteena on muuttaa tekoälyn avulla kaikki talvi- ja jatkosodan aikaiset sotapäiväkirjat digitaaliseksi tekstiksi ja verkossa haettaviksi. Kansallisarkiston vs. pääjohtaja Päivi Happonen kertoo, että Suomi hyödyntää aktiivisesti tekoälyä myös digitaalisen tutkimusprosessin kehittämisessä.

”Innovatiiviseen hankkeeseen etsitään nyt vapaaehtoisia tukemaan tekoälyn työtä. Olemme kehittäneet tekoälyä niin, että se osaa erottaa sarakkeita ja tulkita sarakkeissa olevaa käsinkirjoitettua tietoa. Silti tarvitaan vielä ihmisiä varmistamaan, että tekoäly oppii tekemään oikeita tulkintoja”, Happonen kertoo.

Sotapäiväkirjat ovat rintamalla käsin tehtyjä muistiinpanoja sotatapahtumista. Niihin on merkitty muun muassa joukkojen sijainti, liikkeet, tehtävät ja käskyt sekä kuolleiden määrä ja muut tappiot.

 

Digitoidut sotapäiväkirjat luetaan käyttäen HTR-teknologiaa. Handwritten Text Recognition perustuu kognitiiviseen tekoälyyn, jonka avulla luodaan käsin kirjoitetuista sivuista tekstintunnistusmalleja. Tekoäly osaa lukea näitä lähes virheettömästi.

Uudet menetelmät kehitettiin laajassa EU-hankkeessa yhdessä Innsbruckin yliopiston kanssa. Hankkeessa Kansallisarkisto tuotti suuren määrän opetusaineistoa tekoälyn avuksi, ja aloitti 1800-luvun tuomiokirjojen koneellisen lukemisen. Prosessointia on jatkettu, ja tällä hetkellä tuomiokirjoista on koneluettavassa muodossa yli kolme miljoonaa aukeamaa.

Tekoäly mullistaa historiantutkimusta. Digitoiduista aineistoista voi hakea hakutoiminnolla esimerkiksi tiettyjen rangaistusten lukumääriä tai tietoa vaikka omista esivanhemmistaan.

”Meillä on viime sodista 26 589 sotapäiväkirjaa digitoituna. Talvi- ja jatkosodan sekä Lapin sodan sotapäiväkirjoista on 1,2 miljoonaa kuvaa”, kertoo tekoälyprojektista vastaava kehittämispäällikkö Maria Kallio-Hirvonen.