PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Herausforderung für OCR-Software


Gast
2008-02-15, 09:37:38
Habe hier auf der Arbeit gerade für die Uni Auszüge aus einem Buch kopiert. Die Quali ist gut und ich bin auch an sich schon zufrieden damit, aber man will ja seine Möglichkeiten ausnutzen :cool:.
Ich könnte das Ganze also noch schnell durch den Einzelblatt-Einzug unseres Scanners laufen lassen und dann auf die Scans eine OCR-Software loslassen. Allerdings ist der Content wohl für so 'ne Software nicht ganz einfach. Das Buch ist, wie das eben so ist: Große Zwischenüberschriften, Trennlinien, mathematische Zeichen mitten im Text und frei stehende Formeln, Tabellen und Bilder, um die Text fließt.
Das OCR-Ergebnis muss jetzt nicht unbedingt perfekt sein, aber das Layout sollte einigermaßen erhalten bleiben. Welche Software kann so was?

Gast
2008-02-15, 11:13:11
omnipage soll recht gut sein.

Gast
2008-02-15, 11:54:08
omnipage soll recht gut sein.

Okay, danke. Ich würde dem Programm dann ein PDF zum Fraß vorwerfen, wo die einzelnen Seiten als Bilder drin sind. Das Programm verwandelt das dann in ein durchsuchbares PDF, ja?

Gast
2008-02-15, 12:01:56
Das Programm verwandelt das dann in ein durchsuchbares PDF, ja?

prinzipiell ja, aber so ganz alleine geht das nicht, du musst das ganze auf jeden fall korrekturlesen und fehler ausbessern.

Gast
2008-02-15, 12:42:25
Ich besitze "OmniPage Professional 16". Leider ist das Programm alles andere als gut bei der Texterkennung. Selbst kristallklare Schriften werden (obwohl die erkennung auf hohe Präzision steht) nicht korrekt erkannt. Demo? Gerne:

http://www.abload.de/thumb/zwischenablage01fd5.png (http://www.abload.de/image.php?img=zwischenablage01fd5.png)

http://www.abload.de/thumb/zwischenablage02d6t.png (http://www.abload.de/image.php?img=zwischenablage02d6t.png)

Auch größere Schriften? No Chanse. Es gibt keine perfekte Texterkennung...leider...

Greetings

Gast
2008-02-19, 22:03:24
Finereader 9 von abbyy
http://finereader.abbyy.de/

und als erstes die Seiten "trainieren"