Du er ikke logget ind
Beskrivelse
Mustererkennung befasst sich traditionell uberwiegend mit numerischenDaten, also mit Vektoren von reellwertigen Merkmalen. Seltenerwird eine symbolische Reprasentation verwendet.Eine spezielle Kategorie der Daten, namlich Symbolketten(Strings), wurde lange Zeit vernachlassigt, teilweise wegen derscheinbar nicht vorhandenen Notwendigkeit und teilweise wegendes damit verbundenen hohen Rechenaufwands. Erst in jungsterZeit, veranlasst durch die Forschung in unterschiedlichenGebieten, wie Spracherkennung und Bioinformatik, wecktenSymbolketten ein hoheres Interesse unter den Forschern imGebiet der Mustererkennung. Zwei grosse Familien der Mustererkennungsalgorithmen --distanzbasierte und kernelbasierte -- konnen auf Symbolkettenangewandt werden, indem man ein Distanzmass (und, in manchenFallen, einen Mittelwert) oder eine Kernelfunktion furSymbolketten definiert. String-Varianten vonselbstorganisierenden Karten und LVQ wurden bereits im Kontext vonSpracherkennung implementiert. Sie basierten jedoch auf der feature distance, die verschiedene Nachteile hat. Auchzahlreiche Kernels fur Strings sind schon bekannt, derenAnwendbarkeit ist jedoch auf bestimmte Bereiche begrenzt. In dieser Dissertation werden mathematisch und biologischbegrundete Distanzmasse und Mittelwerte, wie auch Kernels furStrings definiert. Darauf basierend werden verschiedeneklassische Algorithmen fur Datenvisualisierung, Klassifizierung und Clustering fur Anwendungen an Stringsadaptiert. Deren Gute wird auf kunstlichen und naturlichenDatensatzen getestet. Es wird gezeigt, dass sich dieAlgorithmen auf dieselbe Art und mit derselben Zielsetzung wiefur numerische Daten auch auf Strings anwenden lassen. Weiteremogliche Anwendungsbereiche, neben den oben erwahnten, schliessenMarketing, Optimierung von Schnittstellen undVerhaltenswissenschaften im Allgemeinen ein.