Seite 1 von 1

FineReader 4 auf c't-Heft-CD 4/03

Verfasst: Di, 29. Apr 2003, 19:40
von Doc SoLo
Hi all,

hat jemand besagte Heft-CD? Wenn ja würde mich interessieren, wie groß dieses Programm ist und ob es schon jemand ausprobiert hat.

Ciao,

Doc SoLo

Re: FineReader 4 auf c't-Heft-CD 4/03

Verfasst: Di, 29. Apr 2003, 19:49
von tafkag
Doc SoLo hat geschrieben:
hat jemand besagte Heft-CD? Wenn ja würde mich interessieren, wie groß dieses Programm ist und ob es schon jemand ausprobiert hat.


Ja, 55,4MB, nein. Aber ich installier's mal kurz...

Verfasst: Di, 29. Apr 2003, 19:54
von Doc SoLo
Ich meinte die Größe auf der CD...

Ciao,

Doc SoLo

Verfasst: Di, 29. Apr 2003, 19:55
von wulfman
hier!

ich glaube ich hatte vor einiger zeit einmal einen thread bzgl. seltsamer formulierungen bei der registrierung eines programmes gepostet (newsletterzusendung ja/nein). das war iirc finereader..inzwischen ist der newsletter trotz all meiner bemühungen doch angekommen. watch out, tafkag!

kurz getestet, war aber nicht allzu begeistert - wobei das aber an meinem material gelegen haben könnte. bei guten vorlagen soll das proggie nicht schlecht sein.

mfg
wulfman

Verfasst: Di, 29. Apr 2003, 20:04
von tafkag
Doc SoLo hat geschrieben:
Ich meinte die Größe auf der CD...


Wie gesagt....

wulfman hat geschrieben:
ich glaube ich hatte vor einiger zeit einmal einen thread bzgl. seltsamer formulierungen bei der registrierung eines programmes gepostet (newsletterzusendung ja/nein). das war iirc finereader..inzwischen ist der newsletter trotz all meiner bemühungen doch angekommen. watch out, tafkag!


Ich wusste, ich kannte den Text irgendwoher. Hatte dank der bescheuerten Registrierung keine Lust mehr und da Du es ja schon getestet hast...

Verfasst: Mi, 30. Apr 2003, 09:51
von Cloud
Das Programm ist meinem Scanner beigelegen (ich denke es war Version 4), ich habe es auch schon relativ oft benutzt und bin damit im großen und ganzen zufrieden.

Bis auf einige wenige Ausnahmen wurde eigentlich alles fehlerfrei und vollständig erkannt. Probleme gab es nur bei 30 Jahre alten Büchern mit etwas seltsamen Zeichensätzen, stark kursiver Schrift und weißem Text auf schwarzem Hintergrund (ebenfalls bei alten Büchern, d.h. das weiß war nicht mehr sonderlich weiß).

Verfasst: Di, 6. Mai 2003, 11:52
von Doc SoLo
Nur mal so als Idee: Was passiert denn, wenn man Finereader mit einer gescannten PCP-Seite konfrontiert. Bekommt man da irgendwie Text getrennt von Überschrift getrennt von Bildern heraus? Layout-Erkennung wird ja als Feature mit genannt.

Man könnte nämlich dann eine Datenbank anlegen und die Texte getrennt von den Bildern drin speichern. Das würde uns riesige Möglichkeiten für ein Webfrontend eröffnen: Volltextsuche, alle Beiträge eines Redis, Ausgabe der Suchergebnisse als PDF zum bequemen Lesen (derzeit ja eher anstrengend) und und und...

Natürlich geht das nur, wenn keine Handarbeit fällig wird. Finereader müsste das fast allein hinkriegen, damit es bei der Masse machbar ist.

Ciao,

Doc SoLo

Verfasst: Di, 6. Mai 2003, 13:39
von Cloud
Ich kann es mal testen, wenn ich wieder zu Hause bin. Allerdings bin ich da sehr skeptisch, wenn ich mich nämlich recht erinnere, habe ich das schonmal versucht und es kam gar nichts dabei heraus. Aber ich probiers noch einmal.

Verfasst: Di, 6. Mai 2003, 18:12
von thwidra
Nur als Anmerkung: Ich habe den gleichen Scanner wie Cloud und damit auch diese Programm. Allerdings habe ich das Ding nicht installiert, da ich noch nie sonderliches gebraucht habe. Alle Scans laufen bei mir bisher über die beigelegte MiraScan-Software. Also, falls es klappt, dann kann ich bei was auch immer mithelfen. Muss es nur erklärt bekommen...

Verfasst: Mi, 7. Mai 2003, 09:49
von Cloud
Thwidra hat geschrieben:
Allerdings habe ich das Ding nicht installiert, da ich noch nie sonderliches gebraucht habe. Alle Scans laufen bei mir bisher über die beigelegte MiraScan-Software.

Finreader ist kein Scan-, sondern ein OCR-Programm.

Ich bin gestern nicht dazu gekommen, es mit einem PCPf-Test zu testen, bin mir aber sicher, dass ich das schonmal gemacht habe. Das war allerdings nur mit einer schon bearbeiteten Seite (damit konnte FR absolut nichts anfangen), vielleicht geht es mit einem Original besser. Ich mache mir da aber keine großen Hoffnungen, es ist halt eine sehr alte Version (V4, aktuell ist V6).

Verfasst: Mi, 7. Mai 2003, 18:24
von Doc SoLo
Auf der c't-CD war wohl eine aktuelle Version drauf.

Die Schrift in der PCP ist eigentlich ziemlich optimal für OCR. Keine Serifen, keine zusammenklebenden Buchstaben... Wenn FR das nicht erkennt, wüsste ich nicht, wozu es überhaupt gut sein sollte.

Ciao,

Doc SoLo

Verfasst: Do, 8. Mai 2003, 10:51
von Cloud
Wie gesagt: ich hatte das mit einer bereits bearbeiteten Seite getestet, dass da nichts erkannt wird, ist ja angesichts der Qualität nicht gerade verwunderlich.

Ich habe es jetzt mal mit einem unbearbeiteten Original getestet:
http://www.pcp-forever.de.vu/~wi/tests/Battlezone.jpg

Folgendes ist dabei herausgekommen:
http://www.pcp-forever.de.vu/~ps/test.rar

Mit dem Text hatte die Erkennung ein paar Probleme, andere Texte erkennt es bis auf wenige Ausnahmen (s.o.) eigentlich immer einwandfrei.