Methoden der lexikalischen Nachkorrektur OCR-erfasster Dokumente

Methoden der lexikalischen Nachkorrektur OCR-erfasster Dokumente

Beschreibung

vor 19 Jahren
Das maschinelle Lesen, d. h. die Umwandlung gedruckter Dokumente
via Pixelrepräsentation in eine Symbolfolgen, erfolgt mit heute
verfügbaren, kommerziellen OCR-Engines für viele Dokumentklassen
fast schon fehlerfrei. Trotzdem gilt für die meisten
OCR-Anwendungen die Devise, je weniger Fehler, desto besser.
Beispielsweise kann ein falsch erkannter Name innerhalb eines
Geschäftsbriefes in einem automatisierten System zur
Eingangsspostverteilung unnötige Kosten durch Fehlzuordnungen o.ä.
verursachen. Eine lexikalische Nachkorrektur hilft, verbleibende
Fehler von OCR-Engines aufzuspüren, zu korrigieren oder auch mit
einer interaktiven Korrektur zu beseitigen. Neben einer
Realisierung als nachgelagerte, externe Komponente, kann eine
lexikalische Nachkorrektur auch direkt in eine OCR-Engine
integriert werden. Meinen Beitrag zur lexikalischen Nachkorrektur
habe ich in zehn Thesen untergliedert: These T1: Für eine
Nachkorrektur von OCR-gelesenen Fachtexten können Lexika, die aus
thematisch verwandten Web-Dokumenten stammen, gewinnbringend
eingesetzt werden. These T2: Das Vokabular eines Fachtexts wird von
großen Standardlexika unzureichend abgedeckt. Durch Textextraktion
aus thematisch verwandten Web-Dokumenten lassen sich Lexika mit
einer höheren Abdeckungsrate gewinnen. Zudem spiegeln die
Frequenzinformationen aus diesen Web-Dokumenten die des Fachtexts
besser wider als Frequenzinformationen aus Standardkorpora. These
T3: Automatisierte Anfragen an Suchmaschinen bieten einen
geeigneten Zugang zu den einschlägigen Web-Dokumenten eines
Fachgebiets. These T4: Eine feingliedrige Fehlerklassifikation
erlaubt die Lokalisierung der beiden Hauptfehlerquellen der
webgestützten Nachkorrektur: • falsche Freunde, d. h. Fehler, die
unentdeckt bleiben, da sie lexikalisch sind • unglückliche
Korrekturen hin zu Orthographie- oder Flexions-Varianten These T5:
Falsche Freunde werden durch eine Kombination mehrerer OCR-Engines
deutlich vermindert. These T6: Mit einfachen Heuristiken wird ein
unglücklicher Variantenaustausch der Nachkorrekturkomponente
vermieden. These T7: Mit einer Vereinheitlichung zu Scores lassen
sich diverse OCR-Nachkorrekturhilfen wie etwa Wort-Abstandsmaße,
Frequenz- und Kontextinformationen kombinieren und zur Kandidaten-
sowie Grenzbestimmung einsetzen. These T8: OCR-Nachkorrektur ist
ein multidimensionales Parameteroptimierungsproblem, wie z. B.
Auswahl der Scores, deren Kombination und Gewichtung,
Grenzbestimmung oder Lexikonauswahl. Eine graphische Oberfläche
eignet sich für eine Untersuchung der Parameter und deren
Adjustierung auf Trainingsdaten. These T9: Die Software zur
Parameteroptimierung der Nachkorrektur der Resultate einer
OCR-Engine kann für die Kombination mehrerer OCR-Engines
wiederverwendet werden, indem die Einzelresultate der Engines
wieder zu Scores vereinheitlicht werden. These T10: Eine
Wort-zu-Wort-Alignierung, wie sie für die Groundtruth-Erstellung
und die Kombination von OCR-Engines notwendig ist, kann durch eine
Verallgemeinerung des Levenshtein-Abstands auf Wortebene effizient
realisiert werden.

Kommentare (0)

Lade Inhalte...

Abonnenten

15
15
:
: