Machine Learning with Applications in Economics

Publikation: AfhandlingPh.d.-afhandling

Abstract

Besvarelsen af en række aktuelle politiske spørgsmål, lige fra social mobilitet til langsigtede virkninger af sociale politikker, kræver både nutidige og historiske data. Indtil for nylig har udnyttelsen dog været begrænset, primært på grund af det omfattende arbejde, der kræves for at udnytte historiske, ofte håndskrevne, data i stor skala. Dette har begrænset, hvad der har været muligt at studere, da digitaliseringen af individ-niveau historiske kilder, som f.eks. folketællingsregistre, har været for langsom og dyr til at blive fuldt udnyttet. Nylige fremskridt inden for kunstig intelligens (AI, “artificial intelligence”) og maskinlæring (ML) har dog ændret landskabet.

Denne afhandling har haft to primære mål: For det første er der i afhandlingen blevet udviklet metoder og udnyttet nyeste fremskridt inden for ML for i større grad end nogensinde før at kunne udnytte historiske, håndskrevne dokumenter. For det andet har afhandlingen forsøgt at besvare spørgsmål vedrørende betydningen af tidlige livsomstændigheder og deres langsigtede og flergenerationelle effekter.

Afhandlingen er inddelt i to overordnede emner, der interagerer gennem metodiske bidrag inden for ML, der muliggør empiriske studier, og disses feedback til yderligere forbedringer af de udviklede ML-metoder. Hvert af de to overordnede temaer består af tre artikler, der alle er tæt forbundet, og hvor resultaterne fra de tidligere studier muliggør de senere.

Afhandlingens indledende tre kapitler omhandler udviklingen af nye state-of-the-art metoder inden for ML for dokumentdigitalisering og genkendelse af håndskrift (HTR, “handwritten text recognition”). Artiklernes primære bidrag er (1) udvikling af en alsidig, modulær, end-to-end “pipeline” til transformation af scannede historiske dokumenter til data, der er klar til statistisk analyse, (2) udvikling og klargøring af de største offentligt tilgængelige databaser af håndskrevne navne og datoer, og (3) udvikling af neurale netværk til transskribering af billeder.

Afhandlingens næste tre kapitler omhandler betydningen af tidlige livsomstændigheder og sociale politikker på langsigtede og flergenerationelle udfald. Disse er baseret på en stor database omkring sundhedsplejerskebesøg for børn i København født mellem 1959 og 1967, som vi ved hjælp af forskellige ML metoder, der er blevet udviklet i afhandlingen, har været i stand til at transskribere (ud fra håndskrevne sundhedsplejerskejournaler) og dernæst kørt sammen med dansk registerdata. Denne database gør det muligt at studere langsigtede og flergenerationelle effekter af sundhedsplejerskebesøg, og vi evaluerer her effekten af et vs. tre års sundhedsplejerskebesøg, hvor vi viser, at særligt børn, der fra start er dårligt stillet, er blevet positivt påvirket at initiativet. Afhandlingens sidste kapitel studerer forskellene imellem sundhedsplejersker og viser, at der er store forskelle på, hvor godt det går børn, alt afhængig af om de bliver tildelt en særlig god fremfor mere gennemsnitlig sundhedsplejerske. Tilsammen bidrager studier med ny viden om, hvordan vi bedst kan designe politiske tiltag, så de, der har mest brug for dem, får mest muligt ud af dem.

vert kapitel er selvstændigt, men alligevel tæt sammenkoblet, og viser, hvordan udvikling indenfor AI gavner forskning på tværs af forskellige områder, bl.a. ved at revolutionere muligherne indenfor udnyttelse af historiske data. Omend ej en del af afhandlingen har denne bidraget til motivationen bag det computer software, jeg har udviklet til transskribering af dokumenter, og dette software danner fundamentet for fire af afhandlingens kapitler (3-6), og er desuden brugt af andre forskningsprojekter samt Link-Lives projektet, der “[...] er et tværfagligt forskningsprojekt, der etablerer historiske livsforløb og familieforbindelser ved at forbinde folketællinger og arkivernes kilder om dåb, vielser og begravelser.”.
OriginalsprogEngelsk
Bevilgende institution
  • Syddansk Universitet
Vejledere/rådgivere
  • Dahl, Christian Møller, Hovedvejleder
  • Wüst, Miriam, Bivejleder, Ekstern person
Dato for forsvar10. jan. 2024
Udgiver
DOI
StatusUdgivet - 21. dec. 2023

Note vedr. afhandling

Afhandlingen kan læses på SDUs bibliotek. 

Fingeraftryk

Dyk ned i forskningsemnerne om 'Machine Learning with Applications in Economics'. Sammen danner de et unikt fingeraftryk.

Citationsformater