Project Details
Description
Data mining methods typically provide some result even if there are no significant patterns to mine from a given data set. Even data mining experts often cannot easily assess the validity and usefulness of results.
For the application of unsupervised data mining methods this lack of evaluation
methodology and, as a consequence, this lack of reliability, is a serious
impediment. The project targets this open problem with a focus on outlier detection by formalizing perturbation techniques and their impact, unifying perturbation-based ensemble techniques, development of a perturbation-based evaluation measure, ensemble selection based on internal evaluation measures, studying relations between dataset characteristics and behavior of methods and measures under perturbation, and developing new instance spaces for the model selection in outlier detection applications.
For the application of unsupervised data mining methods this lack of evaluation
methodology and, as a consequence, this lack of reliability, is a serious
impediment. The project targets this open problem with a focus on outlier detection by formalizing perturbation techniques and their impact, unifying perturbation-based ensemble techniques, development of a perturbation-based evaluation measure, ensemble selection based on internal evaluation measures, studying relations between dataset characteristics and behavior of methods and measures under perturbation, and developing new instance spaces for the model selection in outlier detection applications.
Layman's description
Data mining metoder, der anvendes på forskellige problemstillinger fra forskellige områder af ikke-ekspert brugere, vil typisk give et eller andet resultat, selv om der ikke er nogen egentlige eller tydelige mønstre eller fakta at uddrage fra de foreliggende data. Det er derfor svært for brugeren, ja selv for eksperter, at vurdere resultaternes
gyldighed og anvendelighed. Så selv om en metode rapporterer klynger eller ekstreme observationer til brugeren, har brugeren ikke pålidelige teknikker til at vurdere gyldigheden af sådanne resultater.
Denne mangel på pålidelighed kan gøre efterfølgende skridt og konklusioner
fejlbehæftede eller meningsløse.
Dette projekt sigter mod at forbedre de teoretiske teknikker til forståelse af data
mining, hvilket har praktisk relevans i forbindelse med at sikre en bedre forståelse af evalueringsprocedurerne til klyngedannelse, forbedring af ensembler og evaluering af detektion af ekstreme observationer, samt identifikation af relationer mellem datasætegenskaber og metodekvalitet.
gyldighed og anvendelighed. Så selv om en metode rapporterer klynger eller ekstreme observationer til brugeren, har brugeren ikke pålidelige teknikker til at vurdere gyldigheden af sådanne resultater.
Denne mangel på pålidelighed kan gøre efterfølgende skridt og konklusioner
fejlbehæftede eller meningsløse.
Dette projekt sigter mod at forbedre de teoretiske teknikker til forståelse af data
mining, hvilket har praktisk relevans i forbindelse med at sikre en bedre forståelse af evalueringsprocedurerne til klyngedannelse, forbedring af ensembler og evaluering af detektion af ekstreme observationer, samt identifikation af relationer mellem datasætegenskaber og metodekvalitet.
Status | Finished |
---|---|
Effective start/end date | 01/09/2021 → 31/08/2024 |
Related prizes
-
Best Research Paper Award (SIAM SDM 2024)
Anderberg, A. (Recipient), Bailey, J. (Recipient), Campello, R. J. G. B. (Recipient), E. Houle, M. (Recipient), Marques, H. O. (Recipient), Radovanović, M. (Recipient) & Zimek, A. (Recipient), 2024
Prize: Prizes, scholarships, distinctions