Studien zur Mustererkennung , Bd. 24
So steht am Ausgangspunkt dieser Arbeit die Fragestellung, ob unter Verzicht auf eine Volltexterkennung eine automatisierte Schlagworterkennung in diesen Korpora ohne Nutzung von Spezialwörterbüchern fehlertolerant gegenüber historischen oder OCR-bedingten Schreibvarianten möglich ist. Hier betritt die Arbeit Neuland im Umfeld der Weiterentwicklung und des Einsatzes von intelligenten Algorithmen der Bildverarbeitung und Mustererkennung und Klassifizierung. Sie entwickelt eine umfassende Methodik zur Schlagworterkennung, -lokalisierung und -annotation und trägt dabei neue wissenschaftliche Erkenntnisse zu den folgenden Punkten bei:
* Dokumentrestaurierung: Es werden typische Bildstörungen wie Schattenbildung, Schieflage und Dokumentverzerrungen modellunabhängig über die Kombination bekannter und die Entwicklung neuer Verfahren korrigiert
* Vorklassifikation: Anhand neuer robuster Merkmale und eines entscheidungsĀbaumbasierten Verfahrens findet eine Zeichenvorklassifizierung statt
* Erkennung: Entwicklung einer lernfähigen zeichen-, kontext- und ganzwortbasierten Teiltexterkennung unter Extrahierung hierarchisch organisierter Layoutinformation
* Systemerstellung: Organisation der Arbeitsschritte der Digitalisierung, Segmentierung, Layoutanalyse, Bildrestaurierung, Textteilerkennung und Schlagwortlokalisation automatisiert oder schrittweise benutzergesteuert.
Dazu wird ausgehend von Beiträgen der aktuellen wissenschaftlichen Diskussion ein Erkenner für Zeichen altdeutscher Fonts entwickelt, der mit Hilfe von Gruppen Neuronaler Netze bzw. Support-Vektor-Maschinen eine Klassifizierung mit überwachten Verfahren vornimmt. Darüber hinaus entwirft der Autor ein kontextbasiertes Omnifont-Erkennungssystem beruhend auf unüberwachter Clusteranalyse und implementiert es auch. Die Erkennungsparameter Precision und Recall liegen hier im Schnitt bei 97.5% bzw. 92.5%. Schließlich wird bei der Schlagwortsuche ein optimistisches Kombinationsverfahren vorgestellt, mit dessen Hilfe eine Rangordnung auf Basis eines gewichteten Mehrheitsvotums der beteiligten Erkenner entsteht, bei der in mehr als 90% aller Fälle der beste Treffer bereits das gesuchte Schlagwort darstellt.
KAUFOPTIONEN
40.50 € | ||
Nur noch 2 Ex. auf Lager | ||
Versandkostenfrei innerhalb Deutschlands |
Wollen auch Sie Ihre Dissertation veröffentlichen?