Essays in Economics and Data Science

Simon Wittrock

Publikation: AfhandlingPh.d.-afhandling

Abstract

Denne afhandling består af seks selvstændige artikler inden for maskinlæring og økonomi. Det første og andet papir diskuterer maskinlæring inden for det juridiske system og undersøger, i hvilket omfang retsafgørelser kan estimeres ud fra gerningsmandens karakteristika. De resterende kapitler beskriver metoder til automatisk tekstgenkendelse af håndskrevne dokumenter og præsenterer forskellige implementeringsmuligheder.

Det første kapitel analyserer beslutningstræers forudsigelsesevne til domstolsafgørelser. Ved hjælp af maskinlæringsmodeller finder vi ud af, at strafudmålingsudfald i høj grad er forudsigelig, og at der med kun et lille antal af variable kan opnås en stigning på 20 procentpoint i forhold til at forvente det mest almindelige udfald. Det andet kapitel diskuterer virkningerne af socioøkonomisk status på risikoen for en ubetinget dom. Resultaterne indikerer, at arbejdsløse lovovertrædere er mere tilbøjelige til at blive fængslet, og at dette ser ud til at hænge sammen med at være arbejdsløs og have gentagende lovovertrædelser. Derudover forsøger dette kapitel også at forudsige risikoen for tilbagefald til kriminalitet og finder, at tilbagefald til kriminalitet kan forudsiges, idet den estimerede risiko for tilbagefald er signifikant højere for personer med flere lovovertrædelser sammenlignet med personer uden registreret tilbagefald.

Det tredje kapitel præsenterer en fremgangsmåde for automatisk transskribering af historiske arkiver. Først introducerer dette papir en unsupervised dokumentklassificering, som testes på sygeplejerskejournaler, hvor klassificeringen af sygeplejerskedokumenterne muliggør identifikation af alle behandlede og ikke-behandlede tilfælde, i stikprøven. Den anden del af dette kapitel er en automatisk håndskrevet tekstgenkendelsesprocedure baseret på et attention-netværk. Det fjerde kapitel præsenterer den største digitale database af håndskrevne navne, som viser sig nyttig til at overføre læring til andre håndskrevne datasæt. Til dette formål præsenterer vi resultater på den danske og amerikanske folketælling, hvilket forbedrer den opnåede nøjagtighed, i forhold til hvis netværket ikke først er trænet på denne database. Databasen består af navne fra politiregistre fra Danmark i perioden fra 1890 til 1923, som dækker alle voksne over 10 ˚ar, der er bosat i København på dette tidspunkt, og udgør samlet set 1.106.020 segmenterede håndskrevne navne. I det femte kapitel implementerer vi et system til håndskrevet datogenkendelse som kan transskibere håndskrevne datoer med en nøjagtighed mellem 92% og 100%. Systemet er bygget på en stor digital database bestående af håndskrevne datoer, som er samlet på tværs af forskellige historiske dokumenter fra mere end 3,1 millioner billeder. Derudover viser vi, at man reducerer fejlraten på modeller ved først at træne på denne database og derefter på andre applikationer. Dette kapitel anvender også det opbyggede netværk til at levere automatiske transskriptioner af hele folketællingen i 1916 (ekskl. København). Det sjette kapitel bruger de automatiske transskriptioner af hele folketællingen fra 1916, der blev transkriberet i kapitel fem, til at forbinde psykiatriske patienter med indkomstdata. Vi finder klare sammenhænge, blandet andet at skizofrenipatienter oftere bliver udvalgt til en præ-frontal lobotomioperation. Der er dog ingen indikationer på, at lobotomipatienter blev udvalgt på baggrund af deres socioøkonomisk klasse, eller at skizofrenipatienter kom fra generelt dårligere stillede familier, selvom skizofrenipatienter hyppigere ikke var i stand til at arbejde, allerede fra en ung alder, på grund af psykiske lidelser og hospitalsindlæggelse.
OriginalsprogEngelsk
Bevilgende institution
  • Syddansk Universitet
Vejledere/rådgivere
  • Dahl, Christian Møller, Hovedvejleder
  • Mellace, Giovanni, Bivejleder
  • Wray, Anthony, Bivejleder
Dato for forsvar7. dec. 2022
Udgiver
DOI
StatusUdgivet - 20. jan. 2023

Note vedr. afhandling

Afhandlingen kan læses på SDUs bibliotek.

Fingeraftryk

Dyk ned i forskningsemnerne om 'Essays in Economics and Data Science'. Sammen danner de et unikt fingeraftryk.

Citationsformater