OCR für Japanisch

02.10.14 01:37

Ich wollte mal fragen ob jemand weiß o es ein ORC Programm für japanische texte gibt. Ich habe zwar ein paar gefunden die taugen aber alle nichts. Wieso auch immer.
Doch ich kann mir nicht vorstellen das es so gar kein gutes gibt. Denn diese art Programme gib es für alle Sprachen also werdne die Japane rndoch wohl auch eines haben?

Oder gibt es ne andere möglichkeit text vom Bild zu trennen so da sich mit dem text arbeiten kann?

Probiert habe ich es mit
http://www.newocr.com/
und
http://maggie.ocrgrid.org/nhocr/

Auch dieses Capture2 text hatte ich mal was ja wohl die größte verarsche war. Obwohl der text in sehr guter Qualität war hat das ding andere zeichen oder gar keine zeichen erkennt.

Die anderen zwie die ich gepostet hatte zeigen wenn sie was anzeigen nur zahlen und lustige striche.

Hier auch mal ein beispiel mit was für einem text ich es versucht habe.
http://up.picr.de/19671067cb.jpg

junti · 02.10.14 01:57

Schau mal in den Thread hier.
Thread-Programm-zur-Kanji-Erkennung

Mayavulkan · 02.10.14 04:24

Acrobat geht eigentlich ganz gut. Zumindest die von mir verwendete Version weist eine lustige Marotte auf: auf Teufel komm raus wird 店 nicht erkannt. Recht abenteuerlich, was statt dessen immer eingesetzt wird. Wirklich immer.

Wirlich perfekt wirds nie. 日 und 目 gehen relativ häufig daneben.

Nishi_san · 02.10.14 17:51

Ok danke^^ und gibts da ne test Verson von?
Und welche version ist momentan die aktuelle von ich denke mal du meinst Adobe Acrobat.

Mayavulkan · 02.10.14 19:49

(02.10.14 17:51)Nishi_san schrieb: Ok danke^^ und gibts da ne test Verson von?
Und welche version ist momentan die aktuelle von ich denke mal du meinst Adobe Acrobat.

Sieht so aus, als gäbe es eine Testversion:

http://www.adobe.com/cfusion/tdrc/index....crobat_pro

Ich hatte nie eine. Die Randbedingungen lesen sich freilich so, dass man sich doch am besten eine Weiterleitungsemail-Adresse einrichtet.
XI haben wir auch nicht im Einsatz. Großkundenlizenzierung ist seit einiger Zeit nicht wirklich befriedigend gelöst. Wird aber eher nicht
schlechter sein als X.

Mikasa · 07.03.15 01:20

Optimale Auflösung für Kanji-OCR:

Statt einen eigenen Thread für meine Frage aufzumachen, ist es vielleicht sinnvoll, hier zu posten. Ich habe vor, meine Literatur einzuscannen, um Volltextsuche nach OCR (z.B. per Adobe direkt in den PDFs) zu ermöglichen und allgemein auch digital auf meine Literatur zugreifen zu können.

Bei lateinischer Schrift habe ich dafür i.d.R 300 dpi gewählt, da dies die empfohlene Auflösung ist, für die die Texterkennungssoftware üblicherweise optimiert ist. Bei sehr kleiner oder sehr großer Schrift kann es sicherlich sinnvoll sein zu variieren, aber i.d.R passte es schon so meiner Erfahrung nach.

Da meine japanische Literatur aber Kanjis enthält und ich bereist anfangen möchte mit dem Einscannen, wollte ich mal in die Runde fragen, ob Erfahrungswerte vorliegen, welche Auflösung sich als Standard bewährt hat. Mir ist klar, dass das auf die Vorlage ankommen kann, aber mir geht es ja um die standardmäßig empfehlenswerte Auflösung.

Es gab schon einmal einen Thread zur Druckauflösung (Thread-Wieviele-dpi-sind-empfehlenswert). Mir geht es hier aber um die Auflösung, die für die OCR-Routinen die geeignetste ist. frostschutz hatte damals die dpi-Zahl 600 ins Spiel gebracht, die natürlich deutlich größere Dateien erzeugt. Gibt es hier im Forum Erfahrungswerte dazu?

Nia · 07.03.15 09:22

Es gab hier neulich einen Thread da gings ums einscannen. moustique und war es rhaessner? sprachen darüber. Moustique schrieb er baut alles .tif.

Weiß nicht ob das hilfreich ist, aber schau mal ob du das wieder findest.... müsste letzte Woche oder so gepostet worden sein... War eine Abschweifung in irgendeinem Thread.

Mayavulkan · 07.03.15 11:39

(07.03.15 01:20)Mikasa schrieb: Optimale Auflösung für Kanji-OCR:

Es gab schon einmal einen Thread zur Druckauflösung (Thread-Wieviele-dpi-sind-empfehlenswert). Mir geht es hier aber um die Auflösung, die für die OCR-Routinen die geeignetste ist. frostschutz hatte damals die dpi-Zahl 600 ins Spiel gebracht, die natürlich deutlich größere Dateien erzeugt. Gibt es hier im Forum Erfahrungswerte dazu?

Hallo,
da muss man zwischen einer rein technischen Frage und den Eigenschaften der Software unterscheiden.
Rein technische scanne ich bei mir alles in 1200 dpi, ggf. sogar in 2400 dpi ein. Letzteres erfordert einen Scanner, an den ich halt nur gelegentlich herankomme. Man muss dazu sagen, dass Speicherplatz bei mir kein Diskussionsthema ist, die unkomprimierten Dateien werden wirklich seeeehr gross.
Die OCR-Software ist durchaus mäkeliger. Acrobat rechnet auf alle Fälle auf 600 dpi zurück (oder weniger), egal in welcher Auflösung das PDF zuvor erzeugt wurde. Und Omnipage fängt über 600 dpi (oder gar 300, bin jetzt nicht sicher) erst gar nicht an.
Von der Qualität der Erkennung funktioniert Acrobat besser als Omnipage, wobei Acrobat sich nicht im Geringsten um das Layout kümmert. Der OCR-Text liegt dann einfach unsichtbar hinter dem Scan. Mit der Zwischenablage kann man diesen Text greifen.
Kritisch ist bei beiden Programmen die Ausrichtung. Beide Programme versuchen das zwar selbst, aber speziell bei Furigana lässt sich Acrobat schon einmal irritieren. Und dann wird halt erst eine halbe Zeile von oben her in Text verwandelt, dann kommen die Furigana, dann der Rest der Zeile, was dann natürlich Tohuwabohu ergibt. Desderwegen richte ich meinen Text vorher mit einem matlab-Skript aus und lasse Acrobat da nicht ran. Dann gehts ganz gut.

Rein von der Ökonomie ist es freilich besser, gleich die elektronische Version zu erwerben (sofern verfügbar natürlich). Man ärgert sich nur am Anfang über die nochmalige Geldausgabe.

Mikasa · 07.03.15 13:55

(07.03.15 11:39)Mayavulkan schrieb: da muss man zwischen einer rein technischen Frage und den Eigenschaften der Software unterscheiden.
Rein technische scanne ich bei mir alles in 1200 dpi, ggf. sogar in 2400 dpi ein. Letzteres erfordert einen Scanner, an den ich halt nur gelegentlich herankomme. Man muss dazu sagen, dass Speicherplatz bei mir kein Diskussionsthema ist, die unkomprimierten Dateien werden wirklich seeeehr gross.
Die OCR-Software ist durchaus mäkeliger. Acrobat rechnet auf alle Fälle auf 600 dpi zurück (oder weniger), egal in welcher Auflösung das PDF zuvor erzeugt wurde. Und Omnipage fängt über 600 dpi (oder gar 300, bin jetzt nicht sicher) erst gar nicht an.

Hallo rhaessner, vielen Dank für die interessanten Hinweise und Erklärungen!
Technisch möchte ich wegen der Dateigröße am unteren oder mittleren Bedarf scannen, weil die Scans per Email vom Scanner "nach Hause" geschickt werden. Mein Privatscanner schafft zwar hohe Auflösungen auch, ist aber zu langsam - umso mehr bei hohen Auflösungen - und hat eine unpraktisch kleine Auflagefläche (kaum > DIN A4). Deswegen scanne ich meist an einem großen Ricoh-Scanner, gleich in PDF. Bei lateinscher Schrift meist mit 300 dpi, manchmal mit 400 dpi.

(07.03.15 11:39)Mayavulkan schrieb: Die OCR-Software ist durchaus mäkeliger. Acrobat rechnet auf alle Fälle auf 600 dpi zurück (oder weniger), egal in welcher Auflösung das PDF zuvor erzeugt wurde. Und Omnipage fängt über 600 dpi (oder gar 300, bin jetzt nicht sicher) erst gar nicht an.

Ich habe bisher nur Erfahrung mit lateinischer Schrift, aber das Herunterrechnen bei Acrobat erfolgt ja offenbar nach der OCR und ist mir prinzipiell willkommen, damit die Datei nicht zu groß bleibt. Oft speichere ich nachträglich noch als "optimiertes PDF", um noch weiter Platz zu sparen. Das Prinzip von Adobe, die Texterkennung sozusagen "über" das Bild zu legen, gefällt mir auch sehr gut. Man kann zwar die OCR-Fehler so schlecht oder nicht erkennen, aber im Falle einer gelungenen Texterkennung ist dafür der Arbeitskomfort recht hoch, wenn man die Originalversion als Bild vor sich sehen will (und das möchte ich).

Omnipage hatte ich in älterer Version längere Zeit auch in Gebrauch, damals nur Textdateien auswerfend. Bei der Unibibliothek finde ich es manchmal gruselig, dass mir zwar ein PDF mit Bilddatei erzeugt wird, die Texterkennung den Text aber tatsächlich simuliert (also kein "Foto" des Originals abbildet). So erscheinen mir dann Texterkennungsfehler als vermeintliches Original. Mir gefällt der Ansatz von Acrobat wie gesagt schon ganz gut, auch wenn ich dort die OCR-Fehler nicht gleich sehen kann. Wie gesagt, alles bisher auf lateinische Schrift bezogen.

(07.03.15 11:39)Mayavulkan schrieb: Kritisch ist bei beiden Programmen die Ausrichtung. Beide Programme versuchen das zwar selbst, aber speziell bei Furigana lässt sich Acrobat schon einmal irritieren. Und dann wird halt erst eine halbe Zeile von oben her in Text verwandelt, dann kommen die Furigana, dann der Rest der Zeile, was dann natürlich Tohuwabohu ergibt. Desderwegen richte ich meinen Text vorher mit einem matlab-Skript aus und lasse Acrobat da nicht ran. Dann gehts ganz gut.

Oh, das hört sich kompliziert an. Dann mache ich doch am Besten erst einmal Tests und warte mit dem generellen Einscannen noch weiter. Es scheint doch etwas schwieriger zu werden. Und ich möchte die Scannarbeit später nicht wiederholen müssen, weil ich im Nachhinein bemerke, dass ich besser anders hätte vorgehen sollen.

Yano · 07.03.15 15:16

Eigentlich ist Japanisch in sauberer Druckqualität nicht so schwer zu OCRen.
Ich habe mich zuletzt intensiver um die Jahrhundertwende mit diesem Thema auseinandergesetzt. Damals bin ich auf WinReader Pro gestossen, Version 5.0, ein sauteures Programm aus J.
Das Problem ist weniger das Erkennen von Kanji, sondern das Erkennen und die Wiedergabe von Texttabellenformatierung, damit du maschinenunterstützt übersetzen kannst ohne alles groß neu zu formatieren und sortieren. Und das Teil war knapp an der Untergrenze, ab wo man produktivgehen konnte.
Mein Projekt war, jedes Jahr Verkaufsprojekte aller japanischen Autos zu sammeln, zu scannen und maschinenunterstützt zu übersetzen und dann den deutschen Autofirmen und Zulieferern zu verkaufen, für je viel weniger, als eine individuelle Übersetzung kosten würde, ein entsprechender Auftrag vom Daimler hatte mich auf diese Idee gebracht.
Naja, wenn dieses Geschäftsmodell funktioniert hätte, dann hätte ich nur noch in den zweiten sechs Monaten des Jahres arbeiten müssen (vielleicht hätte ich dann noch mehr Hafus), aber wie das meistens so ist, man stößt auf Firmen, die sagen absolut super, warum verlangst du eigentlich sowenig Geld? Und man stößt überwiegend auf Desinteresse; und dann kam ja auch das Internet auf...

OCR für Japanisch
Verfasser	Nachricht