Byrådsdata kan skabe vejen for juridiske standardafklaringer.
- Nyheder
- Sprogdata til AI
Kan kommuner udstille tekst og sprogdata åbent til træning af kunstig intelligens? Ikke endnu, men et projekt med 5 kommuner og Digitaliseringsstyrelsen, tager udgangspunkt i kommunale byrådsdata og afventer juridisk vurdering, som kan bidrage til at få standardafklaringer på området.
Kunstig intelligens – og særligt generativ AI – rummer et stort potentiale i den offentlige sektor, både når det gælder effektivisering og besparelser.
Men de sprogmodeller, der i fremtiden skal hjælpe os, er endnu ikke teknologisk modne nok til at udnytte deres fulde potentiale i det danske samfund. Sprogmodeller fungerer nemlig kun så godt som de data, de er trænet på, og der er mangel på dansk tekstdata til at understøtte denne træning.
I regeringens nye strategiske indsats for kunstig intelligens fra december 2024 fremhæves netop behovet for tilgængeliggørelse af tekstdata gennem initiativ 4 (s. 14). Samtidig sættes fokus på de juridiske udfordringer omkring ophavsret og GDPR, som i dag begrænser tilgængeligheden af offentlige tekstdata.
Dette er udgangspunktet for et projekt, som Open Data DK og Digitaliseringsstyrelsen netop nu arbejder på: at undersøge muligheden for at gøre kommunale tekstdata fra byråds- og udvalgsmøder tilgængelige.
Projektet kort fortalt
Fem kommuner deltager i projektet ved at stille deres byrådsdata til rådighed: Tønder Kommune, Aarhus Kommune, Kalundborg Kommune, Favrskov Kommune og Vejle Kommune. Sammen med Open Data DK og Digitaliseringsstyrelsen har de udarbejdet en række juridiske spørgsmål, som nu er sendt videre til afklaring hos Kammeradvokaten.
Du kan læse mere om projektet i en tidligere nyhed her.
Hvad er udfordringen med åbne tekstdata til AI-træning?
De fleste kommuner har allerede deres dagsordener, referater og bilag fra byrådsmøder frit tilgængelige på deres hjemmesider. I princippet er disse data derfor “tilgængelige” og kan muligvis allerede være blevet høstet af store tech-virksomheder til brug for AI-træning på dansk.
Men der opstår juridiske udfordringer – især med hensyn til ophavsret og GDPR. Eksempelvis er det uklart, hvem der ophavsretsmæssigt “ejer” f.eks. et bilag fra et byrådsmøde.
I forhold til personoplysninger stiller projektet spørgsmål som:
- Må tekstdata fra borgerhenvendelser, hvor borgeren har givet samtykke til offentliggørelse, bruges til AI-træning?
- Hvad sker der, hvis en borger senere trækker sit samtykke tilbage?
- Må navne på borgere og byrådsmedlemmer i udvalgssager indgå i de data, der bruges til AI-træning? Er reglerne de samme for borgere og politikere?
- Hvordan håndteres historiske data, f.eks. oplysninger om personer, der har været døde i over 10 år?
Dette er blot nogle af de spørgsmål, der kræver juridisk afklaring. Målet er at skabe standardafklaringer, som kan hjælpe både dataejere og dataanvendere med at forstå, under hvilke betingelser sprogdata – herunder data fra byråd og udvalg – må bruges til udvikling af kunstig intelligens.
Juridiske og tekniske motorveje for byrådsdata
Arbejdet i projektet bliver ofte omtalt som etablering af “motorveje”, der skal gøre det nemmere for kommunerne at udstille data til udvikling af kunstig intelligens.
Når vejen først er lagt inden for én type datasæt, kan andre kommuner og datasæt nemmere “køre med”, indtil der opstår behov for nye juridiske afklaringer, f.eks. indenfor andre domæner.
Naturligvis vil nogle domæner indebære større juridisk kompleksitet end andre. Sundhedsområdet, der f.eks. indeholder mange personfølsomme oplysninger, kræver mere omfattende afklaringer. Derfor giver det mening at starte med et domæne med lavere juridisk kompleksitet – som kommunale byrådsdata– for at bane vejen for tilgængelige tekstdata i og fra det offentlige.
Fælles for de fleste danske kommuner er, at de bruger det samme system i forbindelse med udarbejdelse, lagring og publicering af mødemateriale fra kommunernes møder, f.eks. byrådsmøder. Som en del af projektet undersøges muligheden for at inddrage virksomheden bag, da det formodentlig kan gøre det lettere at opskalere projektet med flere kommuner efterfølgende. På den måde vil man relativt hurtigt kunne få et større datasæt og en kontinuerlig indsamling og publicering af kommunale sprogdata.
Vi ser frem til i det nye år at bidrage til at skabe flere retningslinjer og udpege andre domænespecifikke kommunale sprogdata, der kan afprøves som åbne data.
_________________________
Billede: AI-genereret i Chatgpt, Dall-E