Antwort schreiben 
OCR als Ergänzung zu Rikaichamp
Verfasser Nachricht
harerod


Beiträge: 374
Beitrag #11
RE: OCR als Ergänzung zu Rikaichamp
AwesomeSepp, ich kann nur nochmal vorschlagen, dass Du bei Interesse das OCR-Tool selber nach Deiner Vorstellung ausprobierst. Für mich passt der oben ziemlich ausführlich beschriebene Prozess. Ich sitze hier gerade im Sessel und lese gemütlich im Buch, das sieht wirklich so aus, wie auf den Screenshots. Nebenbei sind noch ANKI und jisho.org offen, für die interessanten Fälle und Notizen. Falls ich bei der Grammatik in Stolpern komme, ist imabi.net zur Stelle.
Diesen Vorgang wollte ich Euch vorstellen, sozusagen als Denkanstoß. Ob das für den einen oder anderen zur aktuellen Sprachfähigkeit passt, kann nur jeder für sich entscheiden.
15.03.22 20:35
Webseite des Benutzers besuchen Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
AwesomeSepp


Beiträge: 199
Beitrag #12
RE: OCR als Ergänzung zu Rikaichamp
Ich weiß nicht nur zur Klarstellung: Ich würde gern wissen ob der Scan immer so fehlerhaft ist und wenn ja, wie Du damit umgehst.
Den Ablauf habe ich im Übrigen schon verstanden.

Die Testversion ist 7 Tage limitiert, deswegen werde ich sie testen in 2 Wochen wenn ich Urlaub habe.

「ペーター、お帰り。字は読めるようになったかい?」「ううん、まだ読めないよ。字を読むのは、すごく難しいんだ。」(-- Zitat aus アルプスの少女ハイジ --)
16.03.22 16:48
Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
harerod


Beiträge: 374
Beitrag #13
RE: OCR als Ergänzung zu Rikaichamp
AwesomeSepp: "Ich würde gern wissen ob der Scan immer so fehlerhaft ist und wenn ja, wie Du damit umgehst."
Es ist wohl einfach eine Frage der persönlichen Bedürfnisse. Ich für meinen Fall bin begeistert von der - aus meiner Sicht - geringen Anzahl von Fehlern, die mich in dieser Anwendung nicht stören.
Ich gehe durch den Text und korrigiere die Fehler. Ein, zwei Lesungen pro Kanji kenne ich ja üblicherweise. Die Korrektur selbst ist für mich Lesetraining. Ich habe jetzt die ersten 100 Seiten durch und werde immer schneller.

AwesomeSepp: "Die Testversion ist 7 Tage limitiert, deswegen werde ich sie testen in 2 Wochen wenn ich Urlaub habe."
Schlimmer noch, die Testversion limitiert den Export von Dateien auf 100 Seiten.
Was Du während der Testphase unbegrenzt machen kannst, ist Text von Hand in andere Dateien kopieren. Ich hänge Dir mal ein Template an - umschaltbar zwischen "normal" und "japanisch senkrecht". Einziger Unterschied ist style->"writing-mode: vertical-rl;".
In der Vollversion habe ich dann die von mir gewünschten Styles in den Style-Editor der OCR-Software eingetragen, so dass ich meine bevorzugte Bildschirmschrift "Meiryo size 16" im Fließtext habe. (Weitere Stichworte zu Schriftarten: http://www.harerod.de/nihongo/anki.html#CARDSTYLE)

Allgemein zur Bildqualität und warum ich mein bereits beschriebenes Digitalisierungsverfahren eher nicht anpassen werde: Mein Beispielbuch ist auf dünnem Recyclingpapier, mit den typischen Faserresten, gedruckt. Außerdem scheint eine Menge Tinte von der jeweiligen Rückseite durch.
Ich füttere das Bild so wie im Anhang gezeigt in die OCR, welche eine automatische Kontrastoptimierung vornimmt.
Rein technisch finde ich das recht spannend, wie die Software aus einem Bild mittels Vorfiltern mehrere Kanäle erzeugt, die dann durch den eigentlich OCR-Prozess läuft. Man kann sich diese Artefakte (bei Interesse) anschauen.

   
.html  Louie_Vol1_demo.html (Größe: 3,43 KB / Downloads: 163)
Edit: Text optimiert.
(Dieser Beitrag wurde zuletzt bearbeitet: 16.03.22 18:50 von harerod.)
16.03.22 18:07
Webseite des Benutzers besuchen Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
AwesomeSepp


Beiträge: 199
Beitrag #14
RE: OCR als Ergänzung zu Rikaichamp
Die 100 Seiten Limit werden wohl ok sein, ich lese grds. sehr langsam, also werde ich die 100 Seiten nicht schaffen in einer Woche. Ich werde dann berichten.

「ペーター、お帰り。字は読めるようになったかい?」「ううん、まだ読めないよ。字を読むのは、すごく難しいんだ。」(-- Zitat aus アルプスの少女ハイジ --)
17.03.22 16:30
Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
harerod


Beiträge: 374
Beitrag #15
RE: OCR als Ergänzung zu Rikaichamp
Ich habe vorhin zwei weitere Bände abgelichtet und bei der Gelegenheit den Aufbau kurz festgehalten.

- Ich verwende keine künstliche Beleuchtung, sondern diffus gestreutes Sonnenlicht an einem hellen Tag. Das ergibt eine gleichmäßige Ausleuchtung mit wenig Schattenwurf an den Unebenheiten. Ich hätte noch andere technische Möglichkeiten, aber dieser Ansatz bedeutet den geringsten Aufwand.
- Das Muster auf dem Teppich dient als Orientierungshilfe. Rund um das Buch bleibt ein Rand als Pufferzone, denn das Buch wird sich unweigerlich ein wenig verschieben.
- Als Linse kommt eine relativ lange 100mm Brennweite zum Einsatz, da diese geringe Verzeichnungen macht. Bei kurzen Brennweiten könnte man im gleichen Abstand Aufnahmen machen, auf Kosten der genutzten Auflösung. Auch dieser Schritt ist bei der OCR nicht so kritisch, da die Software einige automatsche Korrekturmöglichkeiten bietet.

Die Kamera ist weitgehend im manuellen Betrieb:
- der Fokus wird von Hand eingestellt, Autofokus ist ausgeschaltet. Das hat den Vorteil, dass sich die Kamera nicht aufgrund von Fremdobjekten verstellt (z.B. beim Umblättern). Außerdem erfolgt die Auslösung ohne merkliche Verzögerung.
- die Blende wird relativ klein eingestellt. Hier 7.1 oder 8. Das gibt mehr als ausreichend Schärfentiefe (eher ein Thema mit dem Vollformatsensor, weniger am Minisensor vom Handy).
- die Belichtungszeit wird so eingestellt, dass sich eine normale oder leicht überbelichtete Aufnahme ergibt (0..0,3 Blendenstufen). Ist das Licht wechselhaft (einzelne Wolken), kann man zur Not die Belichtungsautomatik einstellen (Blende fest, Belichtungszeit wird automatisch nachgestellt).
- Der automatische Auslöser stand heute auf 6 Sekunden Intervall. Das gibt gemütlich Zeit zum Umblättern. Ein Buch mit 300 Doppelseiten ist damit in 15 Minuten abgelichtet. Ist eine Aufnahme mal verschossen (nicht schnell genug umgeblättert, abgerutscht, Finger im Bild), wartet man einfach auf die nächste Auslösung.

Wenn ich solche Aufnahmen mit dem Handy machen müsste, und kein Stativ hätte, würde ich das Handy wohl mit einem Gewicht beschwert auf eine Tischkante legen und die Kamera nach unten blickend überstehen lassen.

Ausblick:
Moderne Kameras, inkl. Handy bieten viele Hilfsfunktionen, z.B. Fernsteuerung, drahtlose Übertragung, externe Stromversorgung und dergleichen.
Ich nutze zwar die Hardware die ich sowieso im Haus habe, die beschriebenen Konzepte lassen sich jedoch auf andere Systeme übertragen. Außerdem ist die gezeigte Methode maximal buchschonend, mit akzeptabler Geschwindigkeit für Gelegenheitsanwendungen. Hochgeschwindigkeitsdigitalisierer arbeiten entweder mit einer recht aufwändigen und raffinierten Mechanik oder zerstören das Buch und ziehen die einzelnen Seiten durch den automatischen Einzelblatteinzug.
https://www.technikhiwi.de/buchscanner-test/
https://www.dokuhaus.com/dokuhaus-blog/b...en-lassen/
   

Edit: Beim "armen Sohn" finden sich dedizierte "Buchscanner", die inklusive OCR-Software teilweise weniger kosten, als die von mir verwendete Software. Ich fände es interessant, wenn jemand von seinen Erfahrungen mit solchen Geräten berichten würde.
(Dieser Beitrag wurde zuletzt bearbeitet: 19.03.22 14:26 von harerod.)
19.03.22 12:45
Webseite des Benutzers besuchen Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
AwesomeSepp


Beiträge: 199
Beitrag #16
RE: OCR als Ergänzung zu Rikaichamp
(19.03.22 12:45)harerod schrieb:  Edit: Beim "armen Sohn" finden sich dedizierte "Buchscanner", die inklusive OCR-Software teilweise weniger kosten, als die von mir verwendete Software. Ich fände es interessant, wenn jemand von seinen Erfahrungen mit solchen Geräten berichten würde.

Zum Thema Qualität der angepriesenen OCR: ich hatte mal so was hier (ist schon länger her, ich weiß aber noch es hat so ausgesehen, aber nicht mehr obs genau der war) Scanstift. Der hat bei englischen Texten wirklich gut funktioniert, also fast fehlerfrei. Man konnte den Text dann auf dem Handy ablesen, abspeichern und sich dann per allerlei Teilen-Funktionen zb. per mail schicken. Wäre wirklich super gewesen wenn man neue Wörter im Roman findet, kurz drübergescannt, alles gemailt, dann Anki-Karten daraus gemacht, und beim nächsten Lesen flutschts. Nur bei japanischen Texten, das war ne Katastrophe, teilweise nichts erkannt, und das was erkannt wurde war zu 90% falsch. Klar kann man nicht unbedingt vergleichen, aber seither bin ich skeptisch, selbst wenn es mit Englisch so gut klappt wie angepriesen.

「ペーター、お帰り。字は読めるようになったかい?」「ううん、まだ読めないよ。字を読むのは、すごく難しいんだ。」(-- Zitat aus アルプスの少女ハイジ --)
(Dieser Beitrag wurde zuletzt bearbeitet: 19.03.22 15:06 von AwesomeSepp.)
19.03.22 15:02
Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
AwesomeSepp


Beiträge: 199
Beitrag #17
RE: OCR als Ergänzung zu Rikaichamp
OK. Test bisher war sehr überraschend.
Habe zuerst mit dem Windows Snipping Tool eine Wikipedia Seite gescreenshottet, als jpeg gespeichert, weil das ist wohl das beste Material, gestochen scharfe Schrift auf einheitlich weißem Hintergrund ohne Beleuchtungsprobleme. Keine Fehler.
Dann, der Hobbit Seite 1, Freihand mit meinem Samsung Handy und mit Schreibtischlampe beleuchtet (kein eigener Schatten auf der Seite). Zwei Fehler, 穴 wurde nicht richtig erkannt, lag aber wohl an den Furigana, hatte ich erwartet, die anderen Male wurde es nämlich richtig erkannt. Interessanterweise wurden be-Furigana-te Kanji im Übrigen richtig erkannt, nur die Furigana waren weg. (Das ist für mich nicht game-breaking).
Alles in allem bin ich seeehr positiv überrascht. Nächster Test wird jetzt Seite 2, die wird wegen der Buchkrümmung noch interessant werden. Und ich habe auch niemanden hier der zwei weitere Hände spenden könnte, mal sehen wie ich es hinspanne.
(Keine Bücher wurden für diesen Test verletzt oder getötet.)

「ペーター、お帰り。字は読めるようになったかい?」「ううん、まだ読めないよ。字を読むのは、すごく難しいんだ。」(-- Zitat aus アルプスの少女ハイジ --)
(Dieser Beitrag wurde zuletzt bearbeitet: 29.03.22 19:09 von AwesomeSepp.)
29.03.22 19:05
Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
harerod


Beiträge: 374
Beitrag #18
RE: OCR als Ergänzung zu Rikaichamp
AwesomeSepp: "eine Wikipedia Seite gescreenshottet, als jpeg"
Anmerkung: JPG ist ein verlustbehaftetes Komprimierungsverfahren. Man könnte bei Bedarf über verlustfreie Verfahren, wie PNG und TIFF, nachdenken.

AwesomeSepp: "Nächster Test wird jetzt Seite 2, die wird wegen der Buchkrümmung noch interessant werden. Und ich habe auch niemanden hier der zwei weitere Hände spenden könnte, mal sehen wie ich es hinspanne."
Schau mal ob Deine Handykamera eine Möglichkeit zur automatischen Intervallauslösung bietet. Wenn nicht direkt integriert, findet sich sicher eine "Äpp". Die grundlegende Idee habe ich ja bereits beschrieben: Thread-OCR-als-Ergänzung-zu-Rikaichamp?pid=153006#pid153006

AwesomeSepp: (Keine Bücher wurden für diesen Test verletzt oder getötet.)
Das wollen wir auch schwer hoffen.
30.03.22 08:56
Webseite des Benutzers besuchen Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
cat


Beiträge: 1.384
Beitrag #19
RE: OCR als Ergänzung zu Rikaichamp
Schöner Fußboden zwinker

Wie macht ihr das, dass das Buch an der entsprechenden Seite offenbleibt, nicht zufällt, keine Hand zu sehen ist, aber totzdem nicht kaputt wird?

Bei professionellen Buchscannern liegt das Buch ja zum Teil "Gesicht nach unten" auf einer gewinkelten Glasplatte auf und wird von unten gescannt, da hält das Gewicht des Buches die Seite offen.
30.03.22 09:17
Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
AwesomeSepp


Beiträge: 199
Beitrag #20
RE: OCR als Ergänzung zu Rikaichamp
Ich mache es so: ich versuche das Buch nicht zu überdehnen, die fotografierte Seite liegt auf dem Tisch, die andere Seite lehnt an der Wand oder bei mir an nem Regal im 90 Grad Winkel. Eine Hand hält das Handy, eine Hand hält die nicht fotografierten Teil des Buches hoch, die fotografierte Seite ist fixiert durch zwei dicke Fachbücher. Wenn ich weiter zur Mitte komme werde ich noch eine kleine Erhöhung unterlegen, noch ein großformatiges Buch, nen Atlas oder so, damit die Seite wirklich eben liegen kann.
Lampe so stellen, dass nichts nen Schatten wirft. So klappt es ganz gut.
Habe dieses Mal mit der Adopbe Scan App gearbeitet, funktioniert wunderbar. Die löst selbst aus, man kann den Bereich nachbearbeiten der gespeichert wird, und es speichert direkt als mehrseitiges PDF. Habe damit auch schon mein Chinesisch Lehrbuch digitalisiert.

Habe nochmal 10 weitere Seiten gelesen, es gab tatsächlich nur sehr wenige Fehler, aufpassen muss man bei "う", das wurde zu manchmal zu "、つ" (was leichter nachvollziehbar ist wenn man sich von oben nach unten geschrieben vorstellt), ab und an werden kleines und großes つ und so verwechselt, einmal wurde ")" nicht erkannt.
Keine Probleme mehr mit Furigana (und derer gab es viele), die waren einfach weg, die Kanji waren aber allesamt richtig.

Witzigerweise habe ich noch immer 99 Seiten in der Trail.

「ペーター、お帰り。字は読めるようになったかい?」「ううん、まだ読めないよ。字を読むのは、すごく難しいんだ。」(-- Zitat aus アルプスの少女ハイジ --)
(Dieser Beitrag wurde zuletzt bearbeitet: 30.03.22 18:10 von AwesomeSepp.)
30.03.22 18:07
Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
OCR als Ergänzung zu Rikaichamp
Antwort schreiben