Kone lukee vanhoja käsikirjoituksia sinua paremmin – tutkimusalusta tunnistaa käsinkirjoitetun tekstin

Kansallisarkisto on mukana EU:n rahoittamassa READ-hankkeessa (engl. Recognition and Enrichment of Archival Documents), jossa luodaan tutkijoiden käyttöön virtuaalinen tutkimusalusta, joka tunnistaa automaattisesti käsinkirjoitetun tekstin ja sisältää hakuominaisuudet digitaalisesta arkistoaineistosta. Hanke oli ehdolla digitalisaation Suunnannäyttäjäksi vuonna 2018.

Taidackos luke wanhan kielen? Vanhojen käsinkirjoitettujen tekstien lukeminen voi tuottaa välillä vaikeuksia, kun mustekynällä piirretyt kauniit koukerot on kirjoitettu kielellä, jota nykylukija ei enää taida. Kansallisarkisto on mukana EU:n rahoittamassa READ-hankkeessa (engl. Recognition and Enrichment of Archival Documents), jossa luodaan tutkijoiden käyttöön virtuaalinen tutkimusalusta, joka tunnistaa automaattisesti käsinkirjoitetun tekstin ja sisältää hakuominaisuudet digitaalisesta arkistoaineistosta.

READ-hankkeessa jatketaan Transkribus-alustan kehittämistä, jonka tavoitteena on tulevaisuudessa tarjota käsialantunnistusmalleja myös julkiseen käyttöön. Tämä edistää ennen kaikkea digitoitujen aineistojen käytettävyyttä. Monitieteinen projekti on kahminut mukaan 14 tutkimus- ja muistiorganisaatiota, joiden työntekijät edustavat eri kansallisuuksia ja tieteenaloja tietojenkäsittelytieteistä humanistisiin tieteisiin. Yhteistyökumppaneiden väliset etäisyydet ja kommunikaatio eri tieteenalojen välillä ovat haastaneet projektia, mutta etäneuvotteluilla ja yhteisellä wiki-alustalla hankkeen eri osapuolet ovat voineet tutustua toistensa tekemään työhön ja sisältöihin.

Käsinkirjoitetun tekstin koneellinen tunnistaminen edellyttää runsaasti puhtaaksikirjoitettua opetusaineistoa ja Kansallisarkistossa suuri osa tästä on tuotettu vapaaehtoisvoimin yhteistyössä sukututkijoiden ja opiskelijoiden kanssa. Muun muassa 1800-luvun tuomiokirjojen tunnistusmalli perustuu pelkästään vapaaehtoisten tuottamaan opetusdataan, joka on poikkeuksellista Euroopan mittakaavassa.

Kansallisarkiston digitoituja aineistoja on käytetty laajasti hankkeessa. Kansallisarkistossa on vuosien 2017 ja 2018 aikana kehitetty käsinkirjoitetun tekstin tunnistusmalleja 1800-luvun tuomiokirja- ja väestöhistorian aineistoille. Malleja voidaan jatkossa soveltaa muun muassa Ruotsin Kansallisarkiston vastaaviin aineistoihin. Näin ollen arkiston asiakkaat ja tutkijat voivat helposti tehdä hakuja miljoonia sivuja kattaviin digitoituihin kokoelmiin.

Hankkeessa kehitetty tutkimusalusta Transkribus on aktiivisessa käytössä ja käyttäjät lataavat alustalle keskimäärin 3000 kuvaa päivässä. Tutkimusalustan algoritmit pystyvät tunnistamaan eriaikaisia ja -kielisiä käsinkirjoitettuja ja painettuja tekstejä erinomaisella tarkkuudella. Lisäksi alustan hakutoimintojen avulla on mahdollista tehdä suuriin aineistokokonaisuuksiin tarkkoja asiasanahakuja. Tämä edistää laajojen digitoitujen aineistojen käytettävyyttä merkittävästi.

Digioppimme:

Oppe wanha ia noori, mutta oppii se konekin!

Vuoden 2018 Suunnannäyttäjät-kilpailuun ilmoittautui yhteensä 30 tiimiä. Kilpailussa haettiin erityisesti kansalaisten arkea helpottavia digihankkeita, -projekteja ja -kokeiluja. Kilpailun kannalta tärkeäksi nähtiin myös se, että digitalisaatiotekoon osallistui henkilöitä useammasta organisaatiosta. Lisäksi kilpailussa arvostettiin sitä, että mukaan ilmoitetun digiteon lopputuloksia voidaan hyödyntää myös muissa organisaatioissa.

Päivitetty: 5.2.2020