OCR für Japanisch

Mikasa · 08.03.15 14:16

(07.03.15 15:16)Yano schrieb: Eigentlich ist Japanisch in sauberer Druckqualität nicht so schwer zu OCRen.

Druckqualität ist schon wohl schon gegeben, da ich ja meine Bücher im Originaldruck (keine Xerographien oder gar Faxe etc.) einscannen möchte.

(07.03.15 15:16)Yano schrieb: zuletzt intensiver um die Jahrhundertwende mit diesem Thema auseinandergesetzt.

Ich bin mir gar nicht sicher, ob ich zur Jahrtausendwende schon mal am Flachbettscanner gesessen hatte. Im Institut waren für spezielle Aufgaben lange noch Handscanner im Gebrauch. Schade um deine schöne Geschäftidee. Gegen träge Industrie und stürmische Internetentwicklung war da wohl nichts zu machen.

Mayavulkan · 08.03.15 17:47

(08.03.15 14:16)Mikasa schrieb:
(07.03.15 15:16)Yano schrieb: Eigentlich ist Japanisch in sauberer Druckqualität nicht so schwer zu OCRen.
Druckqualität ist schon wohl schon gegeben, da ich ja meine Bücher im Originaldruck (keine Xerographien oder gar Faxe etc.) einscannen möchte.

(07.03.15 15:16)Yano schrieb: zuletzt intensiver um die Jahrhundertwende mit diesem Thema auseinandergesetzt.
Ich bin mir gar nicht sicher, ob ich zur Jahrtausendwende schon mal am Flachbettscanner gesessen hatte. Im Institut waren für spezielle Aufgaben lange noch Handscanner im Gebrauch. Schade um deine schöne Geschäftidee. Gegen träge Industrie und stürmische Internetentwicklung war da wohl nichts zu machen.

Probier doch einfach mal die Demoversion von Acrobat. Geht 30 Tage ohne irgendeine Zahlung. Vielleicht hat sich bei XI ja etwas verbessert, aus eigener Erfahrung kenne ih nur X.

Yano · 08.03.15 19:07

Klar probiere ich gerne so kostenlose Demoversion aus. Man kann ja gar nicht genug Malware auf dem PC haben, Hömmir doch uff.
Grad habe ich wieder Scheißendrecke gelöscht, wahrscheinlich nur ein bißchen. Ein massiver Befall von "Strong Signal", das Teil will andauernd Reklame downloaden. Ich habe ihm wehgetan aber austilgen konnte ich es nicht. Inzwischen bin ich mehrere Stunden pro Monat mit der Virenbekämpfung beschäftigt (ich habe etliche PCs).
Vielleicht kaufe ich mir noch eine Schreibmaschine, also einen Teppenklepper, (bezeichnenderweise sind die IBM-Kugelkopfmaschinen [die waren unverwüstlich und immer und überall] auf den Flohmärkten sehr rar gesät), angeblich soll es in Afrika Hersteller von Farbbändern geben. Das Internet kann mich dann mal, und vielleicht bleibe ich korrespondierendes Forumsmitglied, jemand müßte meine Zuschriften einscannen, wenn es denn inhaltlich der Mühe wert sein sollte.
Hugh, ich habe gesprochen.

Mikasa · 08.03.15 19:18

(08.03.15 17:47)Mayavulkan schrieb: Probier doch einfach mal die Demoversion von Acrobat. Geht 30 Tage ohne irgendeine Zahlung. Vielleicht hat sich bei XI ja etwas verbessert, aus eigener Erfahrung kenne ih nur X.

Meine Version wird noch arabisch-indisch geschrieben: "9 Pro"
Aber du hast natürlich recht, es wird Zeit, die römischen "Ziffern" auszuprobieren, also mehrere Jahre Entwicklungsfortschritt zu testen, gerade bei den asiatischen Schriften. Muss allerdings mal sehen, ob mir das nicht doch zu teuer ist zur Anschaffung.

Mikasa · 11.03.15 02:54

Ich habe jetzt einige Bände Japanisch im Sauseschritt durch den Scanner gejagd (ein RICOH Großgerät Kopierer/Drucker/Scanner etc.) und mir als PDFs nach Hause gebeamt. Für Band 2B habe ich 400 dpi gewählt und für 3B 600 dpi. Dann habe ich OCR (Japanisch) über Adobe Acrobat Pro 9 drüber laufen lassen. Mir fehlt die Zeit - und fehlen auch noch Beobachtungen - um systematsiche Ergebnisse vorzutragen, wie sich die Auflösungen auf die OCR-Ergebnisse auswirken.

Ich fange mal "klein" (mit den Furigana und mit 400 dpi) an und ergänze später, falls es nicht belanglosigkeitshalber unerwünscht sein sollte:

Lesen:

- Bei 400 dpi kann ich erst einmal im Scannergebnis die Furigana sehr gut lesen (meine Augen sind froh, wenn ich dabei die Ansicht im Reader auf 200% hochzoome). Schlaufen in den Furigana-Zeichen werden als solche und nicht als bloße Striche dargestellt. Wenn man die Ansicht im Reader etwa auf 600% vergrößert sieht man freilich, dass die Furigana-Linien schon stark pixelig, weil lediglich ein bis zwei Pixel "breit" (besser: "schmal") sind. Ästhetisch ist das dann nicht mehr und man kann auch daraus resultierende OCR-Verfälschungen befürchten.

OCR-Ergebnisse (bei horizontaler Schriftanordnung, in JiS-üblicher Normalschriftgröße):

- Hiragana/Katakana werden gut erkannt. Ich kann sie markieren, kopieren und erhalte die gleichen Zeichen aus der Zwischenablage, die ich im Bild vor mir markiert und kopiert habe.

- Kanji: Die Radikale werden wohl recht gut erkannt (soweit ich bisher getestet habe). Z.B. habe ich auf Seite 27 stichprobenhalber einen Satz markiert und kopiert und kann ihn jetzt hier einfügen: "Beispiel: 彼が昨日この本を持ってきたことは秘密です。" Die darüber gestellten Furigana der Kanji kann ich als eine eigene Zeile mit einem Doppelklick markieren und füge sie hier auch in linearer Aufeinanderfolge ein: "かれきのうほんもひみつ". Und zuletzt noch die folgende Übersetzungs-Zeile aus dem Buch: "Dass er gestern dieses Buch mitgebracht hat，ist ein Geheimnis." Sowohl die deutschen wie die japanischen Zeichen wurden also korrekt erkannt. Sehr schön soweit.
Aber das klappt leider nicht in jeder Zeile, denn es gibt Artefakte in verschiedener Form:
1. Teilweise werden Furiganazeilen gar nicht texterkannt und lassen sich somit auch nicht markieren und kopieren.
2. Teilweise werden die einzelnen Radikale oder Grapheme der Kanji als eigenes Kanji missgedeutet. So wird im Satz "私の専門の仕事ができませんでしたから、おもしろくなかったんです。" (Seite 25) das Kanji "仕" aus dem Kompositum "仕事" ("Beruf") in seine Bestandteile ("イ士") zerlegt, obwohl der restliche Satz korrekt erkannt wurde (Übersetztungszeile: "Meine Arbeit dort hatte nichts mit meinem Fachgebiet zu tun und hat mich deshalb nicht so interessiert").

Bei 600 dpi:

Lesen:

-Bei 600 dpi sind auch die Furigana (bei 600% Zoom im Reader betrachtet) nicht mehr/kaum noch pixelig, sondern schön in ihrer Form wiedergegeben.

OCR-Ergebnisse (bei horizontaler Schriftanordnung, in JiS-üblicher Normalschriftgröße):

Ich kann bei 600 dpi keine grundsätzliche Verbesserung der OCR-Resultate gegenüber 400 dpi-Scannmaterial erkennen. Die gleichen Artefakte kommen erneut vor. Meine Erfahrung ist aber noch sehr begrenzt, das Urteil nicht ausgereift.

Bilanz:

Wohl aufgrund der größeren Dateigröße bei 600dpi sind einige der E-Mails, die ich vom Scanner an meine Email-Adresse verschickt habe, nicht in meiner Mailbox angekommen. Vielleicht ist eine Beschränkung für Emails über 25 MB meinerseits oder Seitens des Scanners Schuld daran (das habe ich noch nicht nachgeprüft).

- Die Gesamt-Dateigröße (als PDF) für JiS Band 1 (Romaji-Version; 161 Doppelseiten) bei 300 dpi beträgt bei mir ~47 MB (nach OCR in deutscher Schrift: ~15 MB)
- Die Gesamt-Dateigröße (als PDF) für JiS Band 2B (161 Doppelseiten) bei 400 dpi beträgt bei mir ~88 MB (nach OCR in japanischer Schrift: ~25 MB)
- Die Gesamt-Dateigröße (als PDF) für JiS Band 3B (176 Doppelseiten) bei 600 dpi beträgt bei mir ~192 MB (nach OCR in japanischer Schrift: ~40 MB)

Ich werde wohl künftig japanische Buchvorlagen standardmäßig mit 400 dpi einscannen. Ein Test mit einem Buch, das keine Furigana verwendet (Saito & Silberstein: "Grundkurs der modernen jp. Sprache", Aufl. v. 1988, 324 Doppelseiten mit 400 dpi als PDF eingescannt: ~124MB, nach OCR in japanischer Schrift: ~38 MB) und dessen Ergebnisse ich über die Zwischenablage und Such- und Markierfunktion auf der digitalisierten Seite des Buches schnell stichprobenartig gegenprüfen konnte, ergab gute Ergebnisse.

astacus · 15.05.15 14:58

(11.03.15 02:54)Mikasa schrieb: Dann habe ich OCR (Japanisch) über Adobe Acrobat Pro 9 drüber laufen lassen.

Habe grade einen Test mit Adobe Acrobat Pro X gemacht und einen kleinen Ausschnitt eines
japanischen Textes OCRen lassen. Acrobat erkennt jedoch nur ein paar Hiragana und sonst nix.
Hier mein Beispiel:

Acrobat erkennt anscheinend nur die blau markierten Teile:

Hat jemand einen Tipp zur Verbesserung?

15.05.15 20:49

Ich kann dort Verunreinigungen im Bild erkennen.
Es könnte helfen, wenn du mal ein Schwellenwertverfahren (http://de.wikipedia.org/wiki/Schwellenwertverfahren) drüber laufen lässt.
Dann bekommst du nur noch (bei passendem Schwellwert) ein sauberes Schwarz-Weiß-Bild.
Möglich ist aber auch, dass das OCR-Programm dies schon selbst macht. Dann kannst du nur hoffen, dass dein Schwellwert besser ist.

astacus · 16.05.15 10:41

(15.05.15 20:49)客人 schrieb: Ich kann dort Verunreinigungen im Bild erkennen.
Es könnte helfen, wenn du mal ein Schwellenwertverfahren (http://de.wikipedia.org/wiki/Schwellenwertverfahren) drüber laufen lässt.

Danke für den Hinweis 客人-san. Aber mittlerweise ist es mir selbstständig gelungen das Problem zu lösen. Der eingescannte Text wurde mit einer Digitalkamera aufgenommen, die naturgemäß keine Angaben zur Auflösung (dpi) macht. Acrobat nimmt also an, die Abbildung sei mit einer Auflösung von 72 dpi (Bildschirmauflösung) und kann damit so recht nichts anfangen.

Wenn man den Scan mit Photoshop künstlich auf 600 dpi einstellt (Menu: image > image size > dpi, ohne resampling!) dann kann Acrobat damit arbeiten und erstellt einen halbwegs brauchbaren Text:

集団帰属主義(主計fh) 自分の帰属する集団に対しτ運命共同体的な仲
間意識を持つこと。例えば公害を出す企業に対してその企業に帰属する
労働者は，市民として抗議しなければならないのに実際は企業の立場に
立って抗議に積極的に参加しないなどは集団帰属意識からといえよう

Selbst die fette Schrift am Anfang wird korrekt erkannt.
Einzig die kleinen Hiragana in den Klammern werden zu Unsinn...

Jetzt muss mir noch jemand erklären was ein Juudankizokushugi ist ;-)

OCR für Japanisch
Verfasser	Nachricht