Anoppi-hanke

Henkilötietoja sisältävien asiakirjojen automaattinen anonymisointi ja sisällönkuvailu (Anoppi)

OM042:00/2018 Kehittäminen

Oikeusministeriön vetämässä Anoppi-hankkeessa toteutetaan kaksi kieliteknologiseen tekoälyyn perustuvaa työkalua, joiden avulla tuomioistuinratkaisujen ja muiden viranomaispäätösten anonymisointia ja sisällönkuvailua voidaan automatisoida. Sovelluksilla voidaan parantaa aineistojen sähköistä saatavuutta esimerkiksi päätöksenteossa ja tutkimuksessa.

Hankkeen perustiedot Käynnissä

Hankenumero OM042:00/2018

Asianumerot VN/5161/2018

Asettaja oikeusministeriö

Toimikausi/aikataulu 1.10.2018 – 31.12.2020

Asettamispäivä 26.10.2018

Tavoitteet ja tuotokset

Hankkeessa toteutettava oppiva anonymisointityökalu (ANOPPI) kykenee automaattisesti tunnistamaan ja merkitsemään dokumentissa anonymisoinnin kannalta keskeiset ilmaukset ja näiden väliset yhteydet, esimerkiksi eri tavoin tehdyt viittaukset samaan henkilöön. Analyysin perusteella työkalu tarjoaa anonymisoijalle valmiin ehdotuksen anonymisoidusta dokumentista sekä joustavat välineet mahdollisesti vielä tarvittavien muutosten tekemiseksi. Tässä työssä tarvittava kieli- ja semanttisen laskennan teknologia tunnistaa tekstidokumentissa olevia käsitteellisiä viittauksia henkilöihin, organisaatioihin, paikkoihin ja muihin tietoihin.

Samaa teknistä ratkaisua ja ohjelmistoja tullaan käyttämään myös aineistojen automaattiseen sisällönkuvailuun, jossa etsitään dokumentista sen sisällön kannalta keskeisiä käsitteitä. Tällainen oppiva automaattinen annotointi (APPI) mahdollistaa dokumenttien älykkään haun ja linkityksen muihin aineistoihin, esimerkiksi oikeustapausten yhdistämisen toisiin vastaaviin tapauksiin ja niihin liittyvään lainsäädäntöön. Oikeustapausten sisällönkuvailu esimerkiksi tuomioistuinten asianhallintajärjestelmissä (Ritu, Sakari, Tuomas, jne.), muiden viranomaisten asianhallinnassa ja Finlex-järjestelmässä on samalla tavalla kallista käsityötä kuin anonymisointikin, ja on siksi nykyisin hyvin puutteellista.

Tiivistelmä

Oikeusministeriön vetämässä Anoppi-hankkeessa toteutetaan kaksi kieliteknologiseen tekoälyyn perustuvaa työkalua, joiden avulla tuomioistuinratkaisujen ja muiden viranomaispäätösten anonymisointia ja sisällönkuvailua voidaan automatisoida. Sovelluksilla voidaan parantaa aineistojen sähköistä saatavuutta esimerkiksi päätöksenteossa ja tutkimuksessa.

Lähtökohdat

Julkisen sektorin eri toimijat tuottavat valtavia määriä tietoaineistoja ja dataa, jonka saaminen avoimesti muiden viranomaisten, yritysten ja kansalaisten käyttöön olisi hyödyllistä, mutta tietoon liittyvien tietosuojakysymysten takia se ei ole mahdollista. Julkishallinnon päätösten ja oikeustapausten parempi saatavuus mahdollistaa aiempien päätösten hyödyntämisen uusien asioiden käsittelyssä, ja on merkityksellistä viranomaiskäytännön ja lainkäytön tutkimuksessa.

Hankkeessa on kyse tekstidokumenteissa olevien nimettyjen entiteettien anonymisoinnista datan avointa käyttöä ja julkaisemista varten. Henkilötietojen suojaamiseen ja yksityisyyden suojaan liittyvät ongelmat voidaan ratkaista pseudonymisoimalla tai anonymisoimalla avoimesti julkaistavaa dataa. Tällöin esimerkiksi henkilöiden nimet korvataan systemaattisesti neutraaleilla nimillä, kuten ”Henkilö A”. Käytämme jatkossa yksinkertaisuuden vuoksi termiä “anonymisointi” viittaamaan myös hieman yksinkertaisempaan pseudonymisointiin, jossa alkuperäiset nimet ovat helpommin palautettavissa kontekstitiedon avulla. Yhteisenä haasteena sekä anonymisoinnissa että sisällönkuvailussa on, että molemmat ovat asiantuntemusta vaativaa kallista käsityötä ja aineistot ovat usein erittäin laajoja. Hankkeessa tarkastellaan viranomaisaineistoista erityisesti tuomioistuinten ratkaisuaineistoja, joilla on monilla tavoin vaikutusta kansalaisiin ja yrityksiin.

Lisätietoja