Denne afhandling består af seks selvstændige artikler inden for maskinlæring og økonomi.
Det første og andet papir diskuterer maskinlæring inden for det juridiske system og undersøger, i hvilket omfang retsafgørelser kan estimeres ud fra gerningsmandens karakteristika. De resterende kapitler beskriver metoder til automatisk tekstgenkendelse af håndskrevne dokumenter og præsenterer forskellige implementeringsmuligheder.
Det første kapitel analyserer beslutningstræers forudsigelsesevne til domstolsafgørelser.
Ved hjælp af maskinlæringsmodeller finder vi ud af, at strafudmålingsudfald i høj grad er
forudsigelig, og at der med kun et lille antal af variable kan opnås en stigning på 20 procentpoint i forhold til at forvente det mest almindelige udfald. Det andet kapitel diskuterer
virkningerne af socioøkonomisk status på risikoen for en ubetinget dom. Resultaterne indikerer, at arbejdsløse lovovertrædere er mere tilbøjelige til at blive fængslet, og at dette
ser ud til at hænge sammen med at være arbejdsløs og have gentagende lovovertrædelser.
Derudover forsøger dette kapitel også at forudsige risikoen for tilbagefald til kriminalitet
og finder, at tilbagefald til kriminalitet kan forudsiges, idet den estimerede risiko for
tilbagefald er signifikant højere for personer med flere lovovertrædelser sammenlignet med
personer uden registreret tilbagefald.
Det tredje kapitel præsenterer en fremgangsmåde for automatisk transskribering af historiske arkiver. Først introducerer dette papir en unsupervised dokumentklassificering,
som testes på sygeplejerskejournaler, hvor klassificeringen af sygeplejerskedokumenterne
muliggør identifikation af alle behandlede og ikke-behandlede tilfælde, i stikprøven. Den
anden del af dette kapitel er en automatisk håndskrevet tekstgenkendelsesprocedure baseret
på et attention-netværk. Det fjerde kapitel præsenterer den største digitale database
af håndskrevne navne, som viser sig nyttig til at overføre læring til andre håndskrevne
datasæt. Til dette formål præsenterer vi resultater på den danske og amerikanske folketælling,
hvilket forbedrer den opnåede nøjagtighed, i forhold til hvis netværket ikke først er trænet
på denne database. Databasen består af navne fra politiregistre fra Danmark i perioden
fra 1890 til 1923, som dækker alle voksne over 10 ˚ar, der er bosat i København på dette
tidspunkt, og udgør samlet set 1.106.020 segmenterede håndskrevne navne. I det femte
kapitel implementerer vi et system til håndskrevet datogenkendelse som kan transskibere
håndskrevne datoer med en nøjagtighed mellem 92% og 100%. Systemet er bygget på en stor digital database bestående af håndskrevne datoer, som er samlet på tværs af
forskellige historiske dokumenter fra mere end 3,1 millioner billeder. Derudover viser vi,
at man reducerer fejlraten på modeller ved først at træne på denne database og derefter på andre applikationer. Dette kapitel anvender også det opbyggede netværk til at levere
automatiske transskriptioner af hele folketællingen i 1916 (ekskl. København). Det sjette
kapitel bruger de automatiske transskriptioner af hele folketællingen fra 1916, der blev
transkriberet i kapitel fem, til at forbinde psykiatriske patienter med indkomstdata. Vi
finder klare sammenhænge, blandet andet at skizofrenipatienter oftere bliver udvalgt til
en præ-frontal lobotomioperation. Der er dog ingen indikationer på, at lobotomipatienter blev udvalgt på baggrund af deres socioøkonomisk klasse, eller at skizofrenipatienter
kom fra generelt dårligere stillede familier, selvom skizofrenipatienter hyppigere ikke var
i stand til at arbejde, allerede fra en ung alder, på grund af psykiske lidelser og hospitalsindlæggelse.
Originalsprog | Engelsk |
---|
Bevilgende institution | |
---|
Vejledere/rådgivere | - Dahl, Christian Møller, Hovedvejleder
- Mellace, Giovanni, Bivejleder
- Wray, Anthony, Bivejleder
|
---|
Dato for forsvar | 7. dec. 2022 |
---|
Udgiver | |
---|
DOI | |
---|
Status | Udgivet - 20. jan. 2023 |
---|
Afhandlingen kan læses på SDUs bibliotek.