OCR mit dem iPhone - was ist machbar?

OCR mit dem iPhone. Irgendwie lässt mich das Thema nicht los. Ich wollte mal die Grenzen des Machbaren austesten.

Meine Werkzeuge:

  • Ein iPhone 3GS (ja, ich weiß, die Kamera des 4er ist viel besser.)
  • DocScanner
  • OCRTOOL

Warum zweierlei Tools? DocScanner (4.99 €) beinhaltet kein OCR. Und OCRTOOL (3,99 €) braucht optimale Vorlagen, kann diese aber nicht selbst entsprechend vorbereiten. Deshalb also eine zweistufige (genauer: dreistufige) Arbeitsweise.

1. Das Dokument fotografieren. Das könnte man mit den beiden Tools auch machen. Aber die Kamera des iPhones ist dafür genau so gut geeignet, und wesentlich schneller und unkomplizierter. Klar, das Endergebnis wird um so besser ausfallen, je besser die Aufnahme ist: Ausschnitt, Schärfe (über das ganze Bild), also das iPhone bei der Aufnahme nicht verkannten, und "vernünftige" Ausleuchtung, d.h. zumindest keine Schlagschatten auf dem Bild, sollten beachtet werden.

Ocrimage1
2. Als nächstes kommt DocScanner zum Einsatz. DocScanner erledigt die Aufbereitung des Fotos. Das fotografierte Dokument ist ja auf dem iPhone gespeichert. Also kann dieser und der nächste Schritt in Ruhe, z. B. zu Hause erledigt werden.

Mit DocScanner das gespeicherte Bild auswählen, und den Bildausschnitt wählen.

Ocrimage2
Das ist etwas Pfriemelei, und ein Grund mehr, das in Ruhe zu erledigen. DocScanner wurde folgendermaßen konfiguriert: Weißheit des Hintergrunds: aggressiv, Bild schärfen: an.

Das aufbereitete Bild wird wiederum gespeichert.

Ocrimage

3. Nun kommt OCRTOOL zum Einsatz. Das aufbereitete Bild als sog. Filmrolle verwenden. Und plötzlich klappt es; zumindest, wenn der Text nicht zu umfangreich ist. Unser Beispiel liest sich (ohne jegliche Nachbearbeitung des automatisch erkannten Textes) wie folgt:

Lieber ohne Atom
ln WHS~Komplettgeräten ist Intels Atom~Prozessor häufig zu finden, doch für selbst gebaute Sewer eignet er sich nicht. Atøms unterstümen kein ECC~RAM, die meisten auch kei-ne Hardware-Vinualisierungs~befehle und einige nur 32-Bit-Betriebssysteme. Viele der im Einzelhandel ofierienen Mini-lTX~Mainboards mit Atom-CPUs besitzen bloß zwei SATA-Ports und einen 100-MBit/s-LAN-Chip. Mangels Steckpläuen las-sen sích Netzwerk- und SATA-Adapterkarten nicht gleichzei-tig nachrüsten - aber das wäre ohnehin so teuer, dass man gleich ein besser bestücktes Mainboard kaufen kann. Das Atom-Sewerboard Supermicro X7SPA-H ii] mit sechs SATA- und mei Nemerkpom kostet jedoch rund 200 Euro. Einige „ion“-Mainboards mit Atom-CPU und Nvidia-Chipsatz besit-zen mar vier SATA-Pons und einen G8it~Ethernet-Adapter, sind aber kaum sparsamer als manche Micro~AW~Boards. ln kompakten Mini-ITX-Gehäu-sen lassen sich ohnehin höchs-tens mei 3,5~Zoll-Festpladen leise betreiben; wer mehr Spei-cherkapazität braucht, muss enmeder 2,5~Zoll-Planen neh-men oder teure Gehäuse wie das Chenbro E34169 ~ solche Spezialitäten sprengen den Preisrahmen einer vernünf-tigen Konfigurationsempfeh-lung.

Gar nicht so schlecht, wie ich finde. Vor allem in Anbetracht des doch relativ anspruchsvollen Textes. Die erforderliche Nachbearbeitung des Textes hält sich durchaus im Rahmen.