MENÜ MENÜ  

cover

Pattern Recognition Algorithms for Symbol Strings

Igor Fischer

ISBN 978-3-8325-0557-8
171 pages, year of publication: 2004
price: 40.50 €
Clustering

Mustererkennung befasst sich traditionell überwiegend mit numerischen Daten, also mit Vektoren von reellwertigen Merkmalen. Seltener wird eine symbolische Repräsentation verwendet. Eine spezielle Kategorie der Daten, nämlich Symbolketten (Strings), wurde lange Zeit vernachlässigt, teilweise wegen der scheinbar nicht vorhandenen Notwendigkeit und teilweise wegen des damit verbundenen hohen Rechenaufwands. Erst in jüngster Zeit, veranlasst durch die Forschung in unterschiedlichen Gebieten, wie Spracherkennung und Bioinformatik, weckten Symbolketten ein höheres Interesse unter den Forschern im Gebiet der Mustererkennung.

Zwei große Familien der Mustererkennungsalgorithmen -- distanzbasierte und kernelbasierte -- können auf Symbolketten angewandt werden, indem man ein Distanzmaß (und, in manchen Fällen, einen Mittelwert) oder eine Kernelfunktion für Symbolketten definiert. String-Varianten von selbstorganisierenden Karten und LVQ wurden bereits im Kontext von Spracherkennung implementiert. Sie basierten jedoch auf der feature distance, die verschiedene Nachteile hat. Auch zahlreiche Kernels für Strings sind schon bekannt, deren Anwendbarkeit ist jedoch auf bestimmte Bereiche begrenzt.

In dieser Dissertation werden mathematisch und biologisch begründete Distanzmaße und Mittelwerte, wie auch Kernels für Strings definiert. Darauf basierend werden verschiedene klassische Algorithmen für Datenvisualisierung, Klassifizierung und Clustering für Anwendungen an Strings adaptiert. Deren Güte wird auf künstlichen und natürlichen Datensätzen getestet. Es wird gezeigt, dass sich die Algorithmen auf dieselbe Art und mit derselben Zielsetzung wie für numerische Daten auch auf Strings anwenden lassen. Weitere mögliche Anwendungsbereiche, neben den oben erwähnten, schließen Marketing, Optimierung von Schnittstellen und Verhaltenswissenschaften im Allgemeinen ein.

Keywords:
  • Mustererkennung
  • Zeichenketten
  • Bioinformatik

Buying Options

40.50 €