Teilautomatisierte Verschlagwortung Von in Altdeutschen Schriftfonts Gesetzten Texten Mit Hilfe Lernender Verfahren

- Criticism of the Works of Novelists, Poets, Playwrights, Short-Story Writers, and Other Creative Writers Who Liv

Lothar Mischke

Bog

Format
Bog, paperback
Tysk
302 sider

Indgår i serie
Studien Zur Mustererkennung

Normalpris: kr. 599,95

Medlemspris: kr. 539,95 For at købe bogen til medlemspris skal du have et medlemskab med Shopping-fordele. Du kan prøve medlemskabet gratis i 7 dage. Medlemskabet fornyes automatisk og kan altid opsiges.

Leveringstid: Mangler, normalt 2-7 uger
Split betalingen op med

Beskrivelse

Die Dissertation von Lothar Mischke lasst sich in aktuelle Forschungsbestrebungen zur Wahrung des kulturellen Erbes, insbesondere durch den Aufbau historischer Teilkorpora zu Literatur einer bestimmten Epoche, ausgewahlter Autoren oder eines Genres einordnen. Alle diese Bestrebungen haben mit der Tatsache zu kampfen, dass Texte deutscher Sprache vor 1930 im Allgemeinen in altdeutschen Schriftfonts gesetzt sind, die in sich stark differieren. Dadurch entziehen sie sich einer automatischen Digitalisierung mit den gangigen OCR-Programmen. Da zudem vor der Rechtschreibreform 1901 vielfaltige historische Schreibungen auftreten, die sich von modernen Schreibungen deutlich unterscheiden, war man bisher darauf angewiesen, zur Unterstutzung spezieller OCR-Software in der Erkennungsphase wie auch in Suchanfragen fur jede Sprachregion und Epoche spezielle Worterbucher und Grammatikmodelle bereitzustellen, was mit hohem Aufwand verbunden ist. So steht am Ausgangspunkt dieser Arbeit die Fragestellung, ob unter Verzicht auf eine Volltexterkennung eine automatisierte Schlagworterkennung in diesen Korpora ohne Nutzung von Spezialworterbuchern fehlertolerant gegenuber historischen oder OCR-bedingten Schreibvarianten moglich ist. Hier betritt die Arbeit Neuland im Umfeld der Weiterentwicklung und des Einsatzes von intelligenten Algorithmen der Bildverarbeitung und Mustererkennung und Klassifizierung. Sie entwickelt eine umfassende Methodik zur Schlagworterkennung, -lokalisierung und -annotation und tragt dabei neue wissenschaftliche Erkenntnisse zu den folgenden Punkten bei: * Dokumentrestaurierung: Es werden typische Bildstorungen wie Schattenbildung, Schieflage und Dokumentverzerrungen modellunabhangig uber die Kombination bekannter und die Entwicklung neuer Verfahren korrigiert * Vorklassifikation: Anhand neuer robuster Merkmale und eines entscheidungsbaumbasierten Verfahrens findet eine Zeichenvorklassifizierung statt * Erkennung: Entwicklung einer lernfahigen zeichen-, kontext- und ganzwortbasierten Teiltexterkennung unter Extrahierung hierarchisch organisierter Layoutinformation * Systemerstellung: Organisation der Arbeitsschritte der Digitalisierung, Segmentierung, Layoutanalyse, Bildrestaurierung, Textteilerkennung und Schlagwortlokalisation automatisiert oder schrittweise benutzergesteuert. Dazu wird ausgehend von Beitragen der aktuellen wissenschaftlichen Diskussion ein Erkenner fur Zeichen altdeutscher Fonts entwickelt, der mit Hilfe von Gruppen Neuronaler Netze bzw. Support-Vektor-Maschinen eine Klassifizierung mit uberwachten Verfahren vornimmt. Daruber hinaus entwirft der Autor ein kontextbasiertes Omnifont-Erkennungssystem beruhend auf unuberwachter Clusteranalyse und implementiert es auch. Die Erkennungsparameter Precision und Recall liegen hier im Schnitt bei 97.5 % bzw. 92.5 %. Schliesslich wird bei der Schlagwortsuche ein optimistisches Kombinationsverfahren vorgestellt, mit dessen Hilfe eine Rangordnung auf Basis eines gewichteten Mehrheitsvotums der beteiligten Erkenner entsteht, bei der in mehr als 90 % aller Falle der beste Treffer bereits das gesuchte Schlagwort darstellt.

Læs hele beskrivelsen

Detaljer

SprogTysk
Sidetal302
Udgivelsesdato31-07-2007
ISBN139783832516314
Forlag Logos Verlag Berlin
Nummer i serien24
FormatPaperback
Udgave0

Størrelse og vægt

Vægt1292 g

Dybde2,7 cm

10 cm

21,5 cm

28,1 cm

Teilautomatisierte Verschlagwortung Von in Altdeutschen Schriftfonts Gesetzten Texten Mit Hilfe Lernender Verfahren

- Criticism of the Works of Novelists, Poets, Playwrights, Short-Story Writers, and Other Creative Writers Who Liv

Findes i disse kategorier...

Se andre, der handler om...