Du er ikke logget ind
Beskrivelse
Datamining is een proces waarbij verborgen en nuttige informatie uit de gegevens wordt gehaald. Outlier-detectie is een fundamenteel onderdeel van datamining en heeft de laatste tijd veel aandacht gekregen van de onderzoeksgemeenschap. Een uitb¿ter is een gegevensobject dat afw¿kt van andere waarnemingen. Het detecteren van uitbijters heeft belangrijke toepassingen bij het opschonen van gegevens en bij het opsporen van abnormale punten voor fraudedetectie, beursanalyse, inbraakdetectie, marketing, netwerksensoren. De meeste van de bestaande onderzoeksinspanningen richten zich op numerieke datasets die niet direct toepasbaar zijn op categorische datasets waar het weinig zin heeft de gegevens te ordenen en afstanden tussen datapunten te berekenen. Bovendien vereisen een aantal van de huidige outlier detectiemethoden kwadratische tijd met betrekking tot de datasetgrootte en hebben ze meestal meerdere scans van de data nodig; deze eigenschappen zijn onwenselijk wanneer de datasets groot zijn. Deze dissertatie richt zich op en evalueert, experimenteel, een aanpak voor uitbijterdetectie die is toegespitst op categorische sets. Bovendien is dit een eenvoudig, schaalbaar en efficiënt algoritme voor uitbijterdetectie dat het voordeel heeft om uitbijters te ontdekken in categorische of numerieke datasets door per