Representation Learning from Text and Structured Data

Rui Zhang

Publikation: AfhandlingPh.d.-afhandling

Abstrakt

Tekst og netværk er to almindelige former for data. De kan altid bruges samme til at beskrive forskellige applikationer, såsom kommentarsystemer, sociale netværk, og akademiske netværk. Dataanalyse bliver vigtig nu. Det er et afgørende spørgsmål
at præsentere tekst- og netværksdata på en effektiv måde. Mange repræsentation læringsmodeller er blevet foreslået til dette problem. Men de fleste metoder har brug for dataetiketter, komplekse systemer og/eller højdimensionelle vektorer for
at opnå de gode repræsentationer, og dette er ofte udfordrende for beregning og lagring af både upstream og downstream applikationer. Derfor adresserer denne afhandling ovenstående udfordringer og yder bidrag til repræsentationslæring på tekst- og tekstbaserede netværksdata.


Til tekstrepræsentation læring foreslås en multi-label-læringsmodel baseret på semantisk etiketlæring for at kategorisere tekstbaserede publikationer med hierarkisk
kategoristruktur. Denne model lærer først repræsentationer af publikationer og kategorier. Derefter genkender og videregiver modellen den matchende information hierarkisk. Endelig opnår denne model bedre forudsigelser i hierarkisk kategori af publikationer.


Til tekstbaserede netværksdata foreslås først en metapath-baseret repræsentationsmodel. Denne model kan lære lavdimensionelle repræsentationer for målknuder fra deres tekstattributter og topologiske strukturer ved hjælp af en kaskadestyret selvovervåget læring mekanisme. For at overvinde begrænsningen af metapath og reducere de ekstra omkostninger, foreslår vi også en selvovervåget metapath-fri algoritme med relationsbaseret nabo-graf kontrastlæring. Denne model kan producere globale repræsentationer ved at lære alle knudepunkter og links. Repræsentationerne kan bruges til mange downstream-opgaver. Modellen udkonkurrerer de nyeste metoder.


Samlet set giver afhandlingen en omfattende gennemgang af eksisterende repræsentation læringsmetoder og foreslår nye metoder baseret på dyb læring for at producere meget mere effektive og effektive repræsentationer til tekst og netværk. Bidragene er empirisk valideret på adskillige datasæt og opgaver i den virkelige verden.
OriginalsprogEngelsk
Bevilgende institution
  • Syddansk Universitet
Vejledere/rådgivere
  • Zimek, Arthur, Hovedvejleder
  • Schneider-Kamp, Peter, Bivejleder
Dato for forsvar20. maj 2022
UdgivelsesstedOdense
Udgiver
DOI
StatusUdgivet - 25. maj 2022

Note vedr. afhandling

Afhandlingen kan læses på SDUs bibliotek.

Fingeraftryk

Dyk ned i forskningsemnerne om 'Representation Learning from Text and Structured Data'. Sammen danner de et unikt fingeraftryk.

Citationsformater