Anonymisering af domsafgørelser

Erik Nielsen

Redaktionschef Erik Nielsen, Schultz, udtaler:

Anonymiseringsværktøjet giver en kæmpe effektivitetsforøgelse og samtidig en stor sikkerhed for kvalitet.

Schultz leverer avancerede informationsløsninger til tusindvis af daglige brugere i danske kommuner, fagbevægelse/a-kasse og private virksomheder.  Bl.a. webportalen afgoerelsesdatabasen.dk hvor mange domsafgørelser fra danske domstole offentliggøres.

I de offentliggjorte dokumenter er det meget vigtigt at alle parter optræder anonymt.  Dvs. at navne og andre oplysninger, der kan identificere personer og virksomheder etc., skal fjernes, men på en måde så dokumenternes mening er uændret.

Medarbejdere hos Schultz har i lang tid foretaget anonymiseringer af domme manuelt.  Det er et stort og tidskrævende arbejde der kræver at man holder tungen lige i munden så intet overses, og så alle navne etc. erstattes på samme måde overalt i et dokument.

Schultz overvejede om man kunne anvende software til at lette dette arbejde og engagerede Progresso til at analysere mulighederne og designe en løsning.

Systemarkitektur og projektledelse

Progressos analyse viste at en fuldautomatisk løsning ville kunne identificere personnavne o.a. med ganske høj sikkerhed, men ikke med absolut sikkerhed.  Da der er tale om meget personfølsomme data, ville en manuel kontrol/efterredigering dermed være nødvendig.

Derfor designede Progresso løsningen med et fuldautomatisk modul som udfører hovedparten af arbejdet, og et semiautomatisk modul hvor anonymiseringer justeres af en redaktør:

Grafik over overordnet procesdesign

Begge moduler er indbygget i Schultz' XML dokument-pipeline fra dokumentkilde (domstolene) til offentliggørelse (webportaler).

Et stringent API danner interface mellem de to moduler.  Det automatiske modul kategoriserer og angiver en værdi for sikkerheden af hver identifikation, som dernæst vises med farvekodning i det semiautomatiske modul.  Det semiautomatiske modul præsenterer alle variabler fra det fuldautomatiske modul i et oversigtspanel, og der stilles adskillige automatiske operationer til rådighed for brugeren.  Dermed sikres at efterredigering af et dokument kan foretages meget hurtigt uden at miste overblikket eller overse detaljer.

Progresso producerede alle design- og styringsdokumenter til projektet og udførte projektledelsen.

Fuldautomatisk modul

Software stack
  1. Perl   og
    Bracmat
  2. Windows Server

Center for Sprogteknologi (CST) har produceret det fuldautomatiske modul ud fra specifikationer fra Progresso.

Modulet er baseret på lingvistisk forskning, og udviklerne på CST har sørget for at modulet er tilpasset sproget i domsafgørelser.  Desuden har CST programmeret modulet så det passer til Schultz' retningslinjer for anonymisering.

Modulet finder de fleste elementer som skal anonymiseres, og sørger for at kategorisere disse og systematisk foreslå substitutioner såsom person1, person2, virksomhed1, by1, kontonummer1 etc. for de samme navne, virksomheder, byer, kontonumre m.v. gennem hele XML-dokumentet.

Computerstøttet efterredigering – semiautomatisk modul

Progresso har produceret det semiautomatiske modul som kan anvendes selvstændigt eller sammen med det fuldautomatiske modul.

Det består af en brugergrænseflade som sørger for at vise og holde styr på alle anonymiseringer, bl.a. fra det fuldautomatiske modul.  Alle ændringer kontrolleres og nummereres automatisk, og automatiske oversigtslister hjælper brugeren med at holde styr på detaljerne i hvert XML-dokument.

Software stack
  1. DHTML og ActiveX
  2. XMetaL Author
  3. Windows
Schultz ønskede en løsning baseret på XMetaL Author.

De foreslåede anonymiseringer vises farvekodet svarende til en vurderet præcision for den automatiske identificering. Dette hjælper brugeren med at fokusere sin arbejdsindsats.

En række features er tilgængelige så brugeren kan søge, erstatte, redigere and omnummerere anonymiseringerne én eller flere ad gangen.

Også dette modul følger stramt Schultz' retningslinjer for anonymisering, og alle substitutioner overholder princippet med kategorisering og nummerering såsom person1, person2, virksomhed1, by1, kontonummer1 etc.

Se også videnskabelig artikel baseret på projektet.