Seite 9 von 18
Re: Telexauskunft-Computer 1973
Verfasst: Do 14. Mai 2020, 17:02
von Patrick
mit welcher Software erfolgte die Schrifterkennung? FineReader ?
Grüße
Re: Telexauskunft-Computer 1973
Verfasst: Do 14. Mai 2020, 18:23
von detlef
Patrick hat geschrieben: ↑Do 14. Mai 2020, 17:02
mit welcher Software erfolgte die Schrifterkennung? FineReader ?
Das musst du Werner fragen. Der hat die PDF-Dateien mit OCR-Erkennung erzeugt.
Re: Telexauskunft-Computer 1973
Verfasst: Fr 15. Mai 2020, 12:20
von detlef
detlef hat geschrieben: ↑Do 14. Mai 2020, 18:23
Patrick hat geschrieben: ↑Do 14. Mai 2020, 17:02
mit welcher Software erfolgte die Schrifterkennung? FineReader ?
Das musst du Werner fragen. Der hat die PDF-Dateien mit OCR-Erkennung erzeugt.
Wobei, wie schon gesagt, das was ihr bekommen habt, nicht das direkte Ergebnis der OCR-Software war. Da sind vorher einige Korrekturen gelaufen.
Ich habe hier mal die Liste der unbekannten Orte der unkorrigerten Daten angehängt. Das ist das, was als Ort interpretiert wurde und in offiziellen Ortsliste nicht zu finden waren. Meistens waren es Scanfehler, teilweise fehlte aber auch nur das Komma vor dem Ort, so dass es nicht als eigenes Feld erkannt wurde. Diese Liste wurde schonmal auf 0 reduziert, so dass jetzt nur noch bekannte Orte in der Datenbank stehen. Wenn im Telexverzeichnis Ortbezeichnungen drinstanden, die in offiziellen Listen nicht auftauchten, habe ich die Listen ergänzt. Die Orte müssten also ziemlich fehlerfrei sein. Bis auf einzelne Fehler, die ich bei der Korrektur gemacht habe.
Genauso bin ich bei den Namen vorgegangen. Ich habe eine Wortliste erzeugt und die Worte solange korrigiert, bis dort nur noch lesbare und sinnvoll erscheinende Worte auftauchten. Deswegen gibt es praktisch keine Sonderzeichen oder völlig unsinnige Namen mehr.
Bei den Telexnummern wurde geprüft, dass nur Ziffern enthalten sind (und Bindestriche). Oft waren aber auch z.B. 0, 6 und 8 vertauscht. Das findet man dadurch, dass man die Reihenfolge überprüft. Zum Glück sind die Nummern in dem Verzeichnis aufsteigemd sortiert. Das wäre sind übel geworden.
Das grundlegende Problem bei dem ganzen Projekt war, dass ich mir ein paar Probescans von Werner angeschaut hatte und dachte, das sieht ja super fehlerfrei aus. Ich hatte mit einigen tausend Fehlern gerechnet und dachte, das kriegt man leicht korrigert. Aber das täuschte. Also ich dann die ersten Wortlisten erstellt habe, habe ich stellenweise Fehler in jedem 2. oder 3. Eintrag gefunden. Das sind dann einige zehntausend Fehler.
Also wenn man sowas nochmal machen würde, dann sollte man noch deutlich mehr Aufwand in die OCR-Erkennung stecken. Also maximale Scan-Qualität mit gutem Kontrast und mit den OCR-Einstellungen experimentieren, sofern es welche gibt. Z.B. die Nutzung von Wörterbüchern abschalten. Aber ich fürchte, bei den meisten OCR-Programmen kann man gar nicht viel einstellen.
Das soll jetzt nicht heissen, dass die Scan-Qualität von Werner schlecht war. Er nutzt ja schon professionelles Equipment. Aber da hätte man bestimmt noch optimieren können.
Re: Telexauskunft-Computer 1973
Verfasst: Fr 15. Mai 2020, 17:57
von Patrick
Hallo Detlef,
der Hintergrund meiner Frage kommt aus einer anderen Richtung, die Scan Qualität ist perfekt wenn man bedenkt wie dünn das Papier ist usw.
Der Hintergrund ist nämlich dass meine OCR Software uralt ist und wenn es tatsächlich der neue FineReader sein soll den ich mir eigentlich anschaffen wollte, müßte ich das nochmal detailliert testen. Ich möchte nämlich nicht dass das Programm so "überdesigned" ist dass der Programmierer besser weiß was der Sensor zu lesen gehabt hätte als es tatsächlich ist und zwangsweise die Wörterbücher "durchdrückt". Wenn das nämlich nicht abschaltbar wäre, wäre es für mich keine Option, oder kurz gesagt: ich möchte einen Fehlkauf vermeiden.
viele Grüße
Patrick
Re: Telexauskunft-Computer 1973
Verfasst: Fr 15. Mai 2020, 18:27
von detlef
Wenn man bedenkt, wie dünn das Papier und wie klein die Schrift ist, ist das OCR-Ergebnis schon sehr gut.
Wie gesagt, frag mal Werner. Ich glaube der hat sogar mehrere unterschiedliche Programme im Einsatz.
Re: Telexauskunft-Computer 1973
Verfasst: Fr 15. Mai 2020, 22:50
von Werner
Ich habe alle meine Scans bisher mit dem Original Adobe Acrobat Programm erledigt. Deutsches Wörterbuch ist immer eingeschaltet, ebenso die Scan-Verbessserung, die vor dem OCR Prozess eine evtl. leicht schief eingezogene Seite gerade ausrichtet.
Man könnte es natürlich auch einmal mit dem Finereader machen.
Ich schaue mal nach, ob ich noch die Original-Scandaten, also ohne OCR habe, dann könnte man diese Daten einmal mit einer anderen OCR Software laufen lassen. Kann Euch aber aber erst am Montag berichten, morgen hat meine Frau Geburtstag und es gibt immer noch Präferenzen.
Re: Telexauskunft-Computer 1973
Verfasst: Fr 15. Mai 2020, 22:52
von Werner
detlef hat geschrieben: ↑Fr 15. Mai 2020, 18:27
Wenn man bedenkt, wie dünn das Papier und wie klein die Schrift ist, ist das OCR-Ergebnis schon sehr gut.
Wie gesagt, frag mal Werner. Ich glaube der hat sogar mehrere unterschiedliche Programme im Einsatz.
Stimmt, habe drei OCR-Programme im Einsatz gehabt, aber schon ziemlich am Anfang der ganzen Scannerei mich für Adobe Acrobat entschieden.
Re: Telexauskunft-Computer 1973
Verfasst: Mi 20. Mai 2020, 19:17
von detlef
Wir suchen übrigens immer noch Mitstreiter, die dabei helfen, das Verzeichnis Korrektur zu lesen.
Natürlich ohne Stress und Zeitdruck. Aber jede korrigierte Seite hilft uns weiter.
Re: Telexauskunft-Computer 1973
Verfasst: Do 21. Mai 2020, 15:32
von Patrick
Hallo Detlef,
das erste Drittel meines Blocks kommt heute per eMail als Zwischenstand.
Grüße
Patrick
Re: Telexauskunft-Computer 1973
Verfasst: Do 21. Mai 2020, 18:49
von detlef
Patrick hat geschrieben: ↑Do 21. Mai 2020, 15:32
das erste Drittel meines Blocks kommt heute per eMail als Zwischenstand.
Ist angekommen. Super!