OCR als Ergänzung zu Rikaichamp

harerod · 14.03.22 16:40

Ich muss zugeben, dass ich seit langem nicht mehr so begeistert von einer Neuanschaffung war, wie von einer OCR-Software. Ich bin so an dem Punkt wo ich die Bedeutung einer ganzen Menge von Kanji verstehe (2000++), aber die Lesungen im jeweiligen Kontext nicht sicher weiß. Daher ist es hilfreich, beim Lesen schnell die korrekte Kanji-Lesung nachschlagen zu können.
Durch diesen Thread habe ich von "ABBYY" erfahren und mir eine Teststellung besorgt:
Thread-Bestes-japanisches-OCR-Zeichenerkennung?highlight=abby

Hier ein kurzer Erfahrungsbericht, nach ca. einer Woche mit dem neuen Spielzeug:

OCR als Ergänzung zu Rikaichamp
Insbesondere beim Lesen von analogen Quellen (z.B. Büchern), ist der OCR Editor aus dem ABBYY Finereader-Paket eine hervorragende Ergänzung zum Browser-AddOn Rikaichamp.
Mit Hilfe eines OCR-Editors werden Bildquellen in eine HTML-Datei gewandelt. Diese Datei kann anschließend in den Webbrowser geladen werden und als digitale Quelle mit Rikaichamp-Unterstützung gelesen werden.
Auf dem Bildschirm (siehe Anhang) können gleichzeitig der OCR-Editor und der Webbrowser geöfnet sein, so dass ein laufender Vergleich zwischen analogem Original und digitaler Kopie möglich ist.
Nach Vergleich der ABBYY Finereader Teststellung ("https://pdf.abbyy.com/download/") mit mehreren freien Texterkennungsdiensten, fiel die Kaufentscheidung für "ABBYY Finereader 15 Corporate" nicht schwer. Die oben beschriebenen Funktionen stehen schon ab der einfachsten "Standard"-Lizenz zur Verfügung. Entgegen der Herstellerangaben läuft diese Version schon unter Windows 7 und höher. Beim Kauf lohnt sich der Vergleich von Angeboten, ich habe neu 175€ statt 299€ (inkl. Ust.) für die permanente 15er Corporate-Lizenz bezahlt. Permanent Standard 15 habe ich neu für unter 120€ gesehen.

AwesomeSepp · 14.03.22 20:13

Klingt interessant, eigentlich genau das was ich suche um mal ein physisches Buch mit elektronischer Unterstützung zu lesen. Denn das Suchen unbekannter Wörter, und sei es auch nur um die richtige Lesung zu verifizieren ist ein Zeitfresser. Bisher habe ich deshalb mich auf Material eingeschossen, wofür ich auch ein Hörbuch habe.
Aber... Schon der Vergleich der ersten Zeile sagt mir, verlässlich und fehlerfrei arbeitet es nicht. In der ersten Zeile fand ich schon 5 Fehler. Bei umsonst software würde ich da evtl. drüberwegschauen, aber für über 100,- Euro?
Dumme Frage deshalb: Wie gehst Du mit dieser hohen Fehlerquote um?

Yano · 14.03.22 21:27

(14.03.22 20:13)AwesomeSepp schrieb: Dumme Frage deshalb: Wie gehst Du mit dieser hohen Fehlerquote um?

Ich habe das ABBY seit Jahren, wende es nur auf PDF-Dateien an und nicht auf Scans von Büchern o.ä.
Bei perfekten PDFs funktioniert ABBY zwar reibungslos, irrt sich aber selbst da manchmal. Wenn man nicht extrem sattelfest in der Sprache ist, z.B. Niveau JLPT Null oder minus eins, ist das irritierend. Darum arbeite ich auch weiterhin nur direkt vom Ausdruck der PDF. Wenn die schlecht leserlich ist, kannst du OCR ohnehin vergessen. Manche Kollegen sagen, die Alternative von Adobe sei besser, aber das wird wohl nicht viel Unterschied ausmachen. Ich kaufe mir nicht zusätzlich noch ein anderes OCR-Programm, ich muß ja manchmal meinen Diesel volltanken...

Vor 40 Jahren habe ich in Japan eine Präsentation eines Scanner-und OCR-Systems gesehen. Es war ungefähr so groß wie fünf Kühlschränke. Es konnte nur Englisch, hatte eine Fehlerquote von gut einem Prozent, und für das Geld hätte man sich auch ein kleines Appartment in Tokyo Stadtmitte kaufen können. Es ist alles viel billiger geworden seitdem, aber die Hauptfunkionalität hat kaum zugenommen. Sogenannte KI guckt im Internet nach was so ähnlichem und präsentiert das, was zu heimtückischen Fehlern führt, denn alles sieht so sauber aus und fehlerlos. Muß man aufpassen wie Schießhund, auch heutzutage.

harerod · 14.03.22 23:30

AwesomeSepp: Welche fünf Fehler in der ersten Spalte meinst Du? Der Upload war leider runtergerechnet, da dieses Forum ein Dateigrößenlimit beim Upload hat. Hier nochmal das Bild in hoher Auflösung:
http://www.harerod.de/nihongo/pics/ABBYY_Reading.jpg
Hier der Text für Dich zur Korrekturvorlage: "切り傷もあれば、擦り傷もある。青痣になっている箇所は、無数にあった。常人なら、死んでいるんじゃないかと思った。"

Auf Deine konkrete Frage: bei OCR-Fehlern meldet sich mein Sprachgefühl. Wenn Okurigana nicht passen, wundere ich mich über die Formulierung. Wenn Kanji nicht passen, wundere ich mich über den Sinn. Deswegen ist es mir auch wichtig, die Bildquelle gleichzeitig offen zu haben. Aber gerade bei der hier beschriebenen Anwendung finde ich die Erkennungsquote extrem gut. Jeder Erkennungsfehler lässt sich gut nachvollziehen: Fehler im Papier, Tintendurchschlag von der Rückseite, Störungen im Schriftbild.

梨ノ木 · 15.03.22 00:52

(14.03.22 23:30)harerod schrieb: AwesomeSepp: Welche fünf Fehler in der ersten Spalte meinst Du? Der Upload war leider runtergerechnet, da dieses Forum ein Dateigrößenlimit beim Upload hat. Hier nochmal das Bild in hoher Auflösung:
http://www.harerod.de/nihongo/pics/ABBYY_Reading.jpg
Hier der Text für Dich zur Korrekturvorlage: "切り傷もあれば、擦り傷もある。青痣になっている箇所は、無数にあった。常人なら、死んでいるんじゃないかと思った。"

Die Fehler (auf der rechten Seite deines Screenshots)

im Buch: 擦り傷
rechte Seite: 載り傷

im Buch: 青痣
rechte Seite: 解戲

im Buch: 箇所
rechte Seite: 節册

im Buch: 常人なら
rechte Seite: 就格ダら

harerod · 15.03.22 12:00

Hallo Birnbaum, danke, dass Du mir die Tomaten von den Augen gepflückt hast.
Ich hatte ein anderes Bild hochgeladen, als geplant.

Was ist passiert? Die OCR verhaspelt sich, je nach Bildauflösung, mit den Furigana. Das von mir oben gezeigte Bild zeigt das html auf Basis der ersten Erkennung:
http://www.harerod.de/nihongo/pics/ABBYY_Reading.jpg <- mit Fehlern

Ich korrigiere die Fehler vor der Konvertierung nach html raus und korrigiere beim Lesen nochmal nach. Eigentlich hätte dieses Bild gezeigt werden sollen:
http://www.harerod.de/nihongo/pics/ABBYY_Reading2.jpg <- überarbeitete Version

Zur Illustration habe ich nochmal die OCR dieser Seite neu gestartet. Im folgenden Bild sieht man das Ergebnis vor der Nachbearbeitung. Die von Euch dankenswerterweise aufgezeigten Fehler sind tatsächlich als "unsicher" von der OCR markiert. Man sieht auch, dass nicht alle Furigana Probleme machen, die meisten werden ignoriert.
Einen zweiten typischen Fehler habe ich weiter unten markiert - eine Störung im Papier, die fälschlicherweise als Komma erkannt wird (な、).
Außerdem werden beim Zeilenumbruch Lehrzeichen eingefügt (z.B. 6. Zeile: "神聖魔法").
http://www.harerod.de/nihongo/pics/ABBYY_Reading3.jpg <- direkt nach der Erkennung
Wie bereits erwähnt, korrigiere ich das alles während der Vorbereitung (1..2min pro Seite) und während des Lesens raus. Insgesamt für mich in diesem Anwendungszweck kein wirkliches Problem.

AwesomeSepp, nachdem mir 梨ノ木 nun aufgezeigt hat warum ich Deine Frage nicht verstanden hatte, antworte ich nun etwas detaillierter auf Deinen Post:

AwesomeSepp: "Denn das Suchen unbekannter Wörter, und sei es auch nur um die richtige Lesung zu verifizieren ist ein Zeitfresser."
Dann kennst Du sicher den Fall, dass Du die Bedeutung einzelner Kanji tatsächlich weißt, aber Dir bei der Lesung im vorliegenden Kontext nicht sicher bist. Genau dafür verwende ich eben Rikaichamp.
Die Fehlerkorrektur der OCR ist auch kein wirkliches Problem. Zum einen schreibe ich im IME blind im IME-Japanischen Layout. D.h. auch Sonderzeichen, wie 「」（）... sind kein Problem. Zur Not habe ich hier einen Spickzettel: http://www.harerod.de/nihongo/#IME
Der Finereader OCR-Editor ist weitgehend per Tastaturkürzeln bedienbar. Ist also der von mir gewünschte Bereich per Maus ausgewählt, geht die restliche Textbearbeitung flink auf der Tastatur. Ich kann Dir nur empfehlen, die einwöchige Teststellung mal auszuprobieren. Ich war nach ein paar Minuten begeistert. Im Programm selber war ich nach zwei Tagen drin. Das ist im Vergleich zu dem Gesamtaufwand der im Lernen der japanischen Sprache draufgeht absolut vernachlässigbar.

AwesomeSepp: "Bei umsonst software würde ich da evtl. drüberwegschauen, aber für über 100,- Euro?"
Der Sinn meines Posts sollte sein, ein Lesekonzept für Einsteiger zu zeigen, insbesondere auch mit dem Schwerpunkt "Webbrowser/Rikaichamp". Such einfach nach "Japanisch OCR" und Du wirst eine Menge Angebote finden. Was mich betrifft, kenne ich OCR noch aus den späten 1980ern. Komplett mit Handscannern und ähnlichem Gefrett. Ich kann nur sagen, dass mir der OCR-Editor im Finereader locker "über 100€" wert ist.
Meine bisherige Vorgehensweise beschreibe ich auch hier: http://www.harerod.de/nihongo/#DICT <- Im Endeffekt Handschrifterkennung vom Wacom Tablet im Google Translator und dann füttern dieser Daten in Rikaichamp oder jisho.org.

Das entscheidende an der hier vorgestellten OCR-Methode ist, dass ich mit verhältnismäßig geringem Aufwand, große Musterdatenengen mit recht guter Qualität für mein neuronales Netzwerk bekomme.

AwesomeSepp: "Dumme Frage deshalb: Wie gehst Du mit dieser hohen Fehlerquote um?"
Das ist keine dumme Frage. Japanisch Lernen ist für mich vor allem ein Hobby. Ich freue mich einfach, dass ich Fortschritte mache.
Ich fange jetzt nach fünf Jahren ernsthaften Lernens mit Krücken das Lesen von einfachen Büchern an (das vorgelegte Beispiel ist ein Fantasy Roman). Zum Vergleich - bei Englisch hat das bei mir keine drei Jahre gedauert, mit ungleich geringerem Lernaufwand.

frostschutz · 15.03.22 12:43

Deine Handyfotos (oder so einer dieser Overhead-Stab-Buch-Scanner?) sehen nicht optimal aus, ungleichmäßige Beleuchtung / "Wolken" im Bild, und viel Randbereich (Matte, Finger) in der Aufnahme, da wird also auch noch ein guter Teil der Kameraauflösung verschenkt. Das könnte der OCR zusätzliche Schwierigkeiten bereiten. Vielleicht kannst du etwas unterlegen, so daß die Seite den Kamerabereich besser ausfüllt, und für besseres Licht sorgen. Ganz perfekt wird es wohl nie.

Hast du einen Flachbettscanner, nur um zu vergleichen, ob die Fehlerrate dort besser ist? (Scan mit 300~600dpi)

Flachscanner sind sehr umständlich für Bücher, wenn man sie nicht gerade zerschneidet und dann einen ADF damit füttert (was oft auch nicht richtig funktioniert, wenn das Papier sehr dünn ist). Mein letztes Scanprojekt ist eine ganze Weile her, damals hab ich mir ein Buch günstig gebraucht gekauft um es zu opfern. ;-) Aber der Scanner liefert eben theoretisch das gleichmäßig beleuchtete unverzerrte Bild, das man mit einer Kamera nur mit hohem Aufwand hinbekommt. (Auch bei Scannern gibts große Qualitätsunterschiede, CCD vs. CIS und solche Sachen. Da macht der uralte gebrauchte Scanner von Ebay teils bessere Bilder als das neue Multifunktionsgerät.)

Heute braucht man das OCR zum Glück nur noch selten, es gibt doch inzwischen viele Sachen fertig als Ebook (auch wenn man dort teils mit dem Kopierschutz kämpfen muss).

梨ノ木 · 15.03.22 15:37

(15.03.22 12:00)harerod schrieb:
AwesomeSepp schrieb:"Bei umsonst software würde ich da evtl. drüberwegschauen, aber für über 100,- Euro?"
Der Sinn meines Posts sollte sein, ein Lesekonzept für Einsteiger zu zeigen, insbesondere auch mit dem Schwerpunkt "Webbrowser/Rikaichamp".

Da frage ich mich ob die 150-200 Euro nicht besser in z.B. ein Kindle und Abos für z.B. kindle-unlimited und audible (da hat amazon-japan nun auch auf 聴き放題umgestellt) investiert.

Die gekauften Bücher/Audiodateien DRM frei zu bekommen, damit man sie z.B. in HTML umwandeln (->Browser->Yomichan/Rikaichamp) / auf einem beliebigen Player abspielen kann, ist ebenfalls kein größeres Problem.

Sprich: wenn ich ~200 Euro investieren würde, dann in sowas wie ein Kindle und ein z.B. ein paar Monate kindle-unlimited und/oder Audible auf Amazon-Japan). Oder man kauft sich einzelne Kindle-Bücher, die ca. 5 Euro kosten. So bekommt ein Japanischlerner vermutlich schnell Lese/Hörmaterial für die ersten 2-3 Jahre zusammen - und danach* benötigt man auch keine spezielle Hilfe mehr um Papierbücher zu lesen - klar muss man Kanji/Wörter nachschlagen, aber das hält sich 1. in Grenzen und 2. kann man sich z.B. die Wörter handschriftlich rausschreiben (nette Übung) und sie dann irgendwann mal nachschlagen.

Leseeinsteiger benötigen allerdings nicht jede Woche (oder öfter) ein neues Buch - und es müssen heutzutage auch keine Papierbücher sein. Von daher sehe ich für einen typischen Lerner keinen Grund für die Anschaffung eines Programms für 150-200 Euro.

[*ich bin nun in Jahr vier - lese Bücher fast ausschließlich auf dem Kindle unter Zuhilfenahme auf dem Gerät installierter 国語辞典. Papierbücher lese ich selten, aber auch das geht mittlerweile recht gut - je nach Buch und Autor - 村上春樹 z.B. hat einen eher unkomplizierten Schreibstil.]

harerod · 15.03.22 16:30

Hallo frostschutz, die "Handyphotos" sind von einer Canon 6D, auf Stativ, mit automatischer Auslösung alle 4s und Tageslicht gemacht. Das Buch liegt auf dem Fußboden und ich blättere einfach nur die Seiten um. Der Vorteil ist vor allem, dass der Vorgang sehr buchschonend ist. Die Aufnahmen sind schon etwas älter und waren nie für OCR gedacht.
Ich habe Möglichkeiten, bessere Bildqualität (Scanner, anderer Kameraaufbau) zu erzeugen, das wird dann wohl nicht in dieser Geschwindigkeit gehen.

Für mich ist das Lesen von Papier aufgrund meiner nicht mehr ganz frischen Augen extrem anstrengend. Daher habe ich diese Aufnahmen zunächst gemacht, um auf dem PC zoomen zu können (Anzeige: Irfanview, bei Bedarf kurz "Auto-adjust colors"). Wörter nachschauen in diesem Fall per IME oder Handschrifterkennung. So lese ich seit ca. zwei Jahren einfachere Texte (Manga).

Die hier vorgestellte OCR bereitet die Aufnahmen vollautomatisch auf und liefert so (für mich) akzeptable Ergebnisse.

Natürlich bevorzuge ich "nativ digitale" Quellen. Online Nachrichten sind ja zum Glück automatisch maschinenlesbar (Rikaichamp).
Aber manchmal hat man es halt mit einem Stapel Papier zu tun. Das im Beispiel gezeigte Büchlein ist von 1998 und schon lange außer Druck. Aber es steht neben ein paar Dutzend Geschwisterchen hier im Regal.

AwesomeSepp · 15.03.22 20:19

Hi, auf Arbeit kann ich zwar mitlesen aber nicht am Diskurs teilnehmen, deshalb meine späte Antwort.

(14.03.22 16:40)harerod schrieb: Mit Hilfe eines OCR-Editors werden Bildquellen in eine HTML-Datei gewandelt. Diese Datei kann anschließend in den Webbrowser geladen werden und als digitale Quelle mit Rikaichamp-Unterstützung gelesen werden.

Das Prinzip, der Workflow ist mir schon klar, mich würde nur mal praktisch interessieren, wie gehst Du mit der hohen Fehlerquote um? Und wir sollten wirklich bei machbarem Testszenario bleiben, also Foto mit der Freihand-Handykamera. Kein Hochleistungsscanner oder professionelle Kamera mit Stativ. Machts was es verspricht, dann zahle ich gern. Mein Eindruck anhand des Screenshots war einfach, es leistet nicht was es verspricht. Deshalb würde mit interessieren, vergleichst Du wirklich jedes Zeichen? Da bist Du doch nach 5 Minuten fertig mit der Welt.

Für mich (als Leser) ist wichtig, dass es zu 99% fehlerfrei funktioniert, also ein Fehler pro Seite wäre tolerabel (ich rechne da den Preis schon mit ein). Ich habe wenig Bock nach dem Scan Bild und html Zeichen für Zeichen abzugleichen, um dann die Fehler manuel auszubessern. Als Leser, nope, nicht mal als Freeware würde ich das nutzen bei der Fehlerquote. Und für über 100 Euro, nope nope.
Das mag für Leute passen, die Material digitalisieren wollen.

PS: OK, man könnte das Foto lesen, und nur im Fall des unbekannten Worts rüberswitchen zum Scan, dann sähe ich sofort ob da ein Fehler ist, im guten Fall ist kein Fehler und es nachschlagen. Nur bei Fehler hilfts nix. Aber, dann reists mich ja auch aus dem Leseflow wenn ich erst mal suchen muss wo das unbekannte Wort auf dem Scan steht. Und bei Fehler finde ich das Wort dann nicht, es ist ja nicht da. Also auch doof.

OCR als Ergänzung zu Rikaichamp
Verfasser	Nachricht