ANOPPI-projektet

Projekt för automatisk anonymisering av dokument som innehåller personuppgifter och beskrivning av innehållet i dokumenten

OM042:00/2018 Projekt

I projektet som leds av justitieministeriet ska det att tas fram två språkteknologiska AI-verktyg med hjälp av vilka arbetet med anonymisering och innehållsbeskrivning i domstolsavgöranden och andra myndighetsbeslut kan automatiseras. Med verktygen kan material i högre grad bli digitalt tillgängligt t.ex. inom beslutsfattande och forskning.

Projektets basuppgifter Pågår

Projektets nummer OM042:00/2018

Ärendenummer VN/5161/2018

Projektets arrangör justitieministeriet

Mandattid 1.10.2018 – 31.12.2020

Datum för tillsättande 26.10.2018

Mål och resultat

Det självlärande anonymiseringvertyget (ANOPPI) som tas fram i projektet ska automatiskt kunna identifiera och markera de uttryck som är väsentliga med tanke på anonymisering samt sambanden mellan dem, t.ex. olika hänvisningar till samma person. På basis av analysen producerar verktyget ett förslag till ett anonymiserat dokument och erbjuder smidiga redskap för att göra behövliga ändringar i dokumentet. Verktyget utnyttjar språkteknologi och semantisk beräkning för att identifiera begrappsliga referenser till personer, företag, orter och annan information.

Samma tekniska lösning och programvara kommer att användas för generering av automatiska innehållsbeskrivingar så att verktyget hämtar fram de mest centrala begreppen ur innehållet. Det självlärande automatiska annoterinsverktyget (APPI) ska möjliggöra smart sökning och länkning av dokument till annat material, t.ex. förena rättsfall med andra motsvarande fall och med relevant lagstiftning. Produktionen av innehållsbeskrivingar till rättsfall, t.ex. i domstolarnas ärendehanteringssystem (Ritu, Sakari, Tuomas, o.s.v.), i andra myndigheters ärendehanteringssystem och i Finlex-systemet, är på samma sätt som anonymisering dyrt manauellt arbete, och därför har det i nuläget skötts bristfälligt.

Sammandrag

I projektet som leds av justitieministeriet ska det att tas fram två språkteknologiska AI-verktyg med hjälp av vilka arbetet med anonymisering och innehållsbeskrivning i domstolsavgöranden och andra myndighetsbeslut kan automatiseras. Med verktygen kan material i högre grad bli digitalt tillgängligt t.ex. inom beslutsfattande och forskning.

Utgångspunkter

Inom den offentliga sektorn produceras enorma mängder av informationsmaterial och data som med fördel kunde finnas tillgängligt för andra myndigheter, företag och medborgare, men som på grund av dataskyddsfrågor inte kan publiceras offentligt. Bättre tillgång till myndighetsbeslut och rättsfall ger möjlighet atta utnyttja tidigare beslut vid behandlingen av nya ärenden. Tillgången till detta material är viktigt också för forskning som gäller myndighetspraxis och rättstillämpning.

Projektet handlar om anonymisering av namngivna entiteter i dokument för att möjliggöra dokumentens användning och publicering. Problem i anslutning till skydd för personuppgifter eller integritetsskydd kan lösas genom pseudonymisering eller anonymisering av data som ska publiceras. Detta innebär att t.ex. personens namn systematisk ersätts med ett neutralt namn, såsom "Personen A". För enkelhetens skull används termen "anonymisering" i detta sammanhang även för pseudonymisering, i vilket det ursprungliga namnet kan lättare bli återställd med hjälp av kontextinformation. En gemensam utmaning såväl när det gäller anonymisering som innehållsbeskriving är att båda kräver sakkunskap och är dyrt manuellt arbete. Dessutom handlar det ofta om ett stort antal material. Projektet fokuserar speciellt på domstolsavgöranden, som på många sätt påverkar medborgare och företag.

Ytterligare uppgifter