Telexauskunft-Computer 1973
-
- Rank 8
- Beiträge: 782
- Registriert: Mi 1. Jun 2016, 19:46
- Hauptanschluß: 54577 aros d
Re: Telexauskunft-Computer 1973
mit welcher Software erfolgte die Schrifterkennung? FineReader ?
Grüße
Grüße
i-telex:
a.) T1000S : 54577 aros d
b.) T1200SD : 465111 vfw d
i-telex (mobile Anlage) - aktuell offline
11113 t68d 1-Streifen-Maschine
7826519 t68d 2-Streifen-Maschine
piTelex Test - aktuell offline
T1000S : 183282 isoph d
a.) T1000S : 54577 aros d
b.) T1200SD : 465111 vfw d
i-telex (mobile Anlage) - aktuell offline
11113 t68d 1-Streifen-Maschine
7826519 t68d 2-Streifen-Maschine
piTelex Test - aktuell offline
T1000S : 183282 isoph d
-
- Rank 12
- Beiträge: 4072
- Registriert: Do 28. Mär 2019, 09:10
- Wohnort: Marburg
- Hauptanschluß: 7822222 hael d
Re: Telexauskunft-Computer 1973
Das musst du Werner fragen. Der hat die PDF-Dateien mit OCR-Erkennung erzeugt.
Gruß, Detlef
i-Telex: 7822222 (T1000), 114288 (F1300), 211230 (T100Z), 96868 (T37), 24394 (T68d)
Konf.-Dienst: 11160/11161, Rundsender: 11162/11163 , Baudot-Bilder: 11166, Chat-GPT: 11168
Mail-/Fax-Dienst: 11170/11171, News-Ticker: 11180/11181, hist. Ausk.: 40140, Wetter: 717171
i-Telex: 7822222 (T1000), 114288 (F1300), 211230 (T100Z), 96868 (T37), 24394 (T68d)
Konf.-Dienst: 11160/11161, Rundsender: 11162/11163 , Baudot-Bilder: 11166, Chat-GPT: 11168
Mail-/Fax-Dienst: 11170/11171, News-Ticker: 11180/11181, hist. Ausk.: 40140, Wetter: 717171
-
- Rank 12
- Beiträge: 4072
- Registriert: Do 28. Mär 2019, 09:10
- Wohnort: Marburg
- Hauptanschluß: 7822222 hael d
Re: Telexauskunft-Computer 1973
Wobei, wie schon gesagt, das was ihr bekommen habt, nicht das direkte Ergebnis der OCR-Software war. Da sind vorher einige Korrekturen gelaufen.
Ich habe hier mal die Liste der unbekannten Orte der unkorrigerten Daten angehängt. Das ist das, was als Ort interpretiert wurde und in offiziellen Ortsliste nicht zu finden waren. Meistens waren es Scanfehler, teilweise fehlte aber auch nur das Komma vor dem Ort, so dass es nicht als eigenes Feld erkannt wurde. Diese Liste wurde schonmal auf 0 reduziert, so dass jetzt nur noch bekannte Orte in der Datenbank stehen. Wenn im Telexverzeichnis Ortbezeichnungen drinstanden, die in offiziellen Listen nicht auftauchten, habe ich die Listen ergänzt. Die Orte müssten also ziemlich fehlerfrei sein. Bis auf einzelne Fehler, die ich bei der Korrektur gemacht habe.
Genauso bin ich bei den Namen vorgegangen. Ich habe eine Wortliste erzeugt und die Worte solange korrigiert, bis dort nur noch lesbare und sinnvoll erscheinende Worte auftauchten. Deswegen gibt es praktisch keine Sonderzeichen oder völlig unsinnige Namen mehr.
Bei den Telexnummern wurde geprüft, dass nur Ziffern enthalten sind (und Bindestriche). Oft waren aber auch z.B. 0, 6 und 8 vertauscht. Das findet man dadurch, dass man die Reihenfolge überprüft. Zum Glück sind die Nummern in dem Verzeichnis aufsteigemd sortiert. Das wäre sind übel geworden.
Das grundlegende Problem bei dem ganzen Projekt war, dass ich mir ein paar Probescans von Werner angeschaut hatte und dachte, das sieht ja super fehlerfrei aus. Ich hatte mit einigen tausend Fehlern gerechnet und dachte, das kriegt man leicht korrigert. Aber das täuschte. Also ich dann die ersten Wortlisten erstellt habe, habe ich stellenweise Fehler in jedem 2. oder 3. Eintrag gefunden. Das sind dann einige zehntausend Fehler.
Also wenn man sowas nochmal machen würde, dann sollte man noch deutlich mehr Aufwand in die OCR-Erkennung stecken. Also maximale Scan-Qualität mit gutem Kontrast und mit den OCR-Einstellungen experimentieren, sofern es welche gibt. Z.B. die Nutzung von Wörterbüchern abschalten. Aber ich fürchte, bei den meisten OCR-Programmen kann man gar nicht viel einstellen.
Das soll jetzt nicht heissen, dass die Scan-Qualität von Werner schlecht war. Er nutzt ja schon professionelles Equipment. Aber da hätte man bestimmt noch optimieren können.
Du hast keine ausreichende Berechtigung, um die Dateianhänge dieses Beitrags anzusehen.
- Folgende Benutzer bedankten sich beim Autor detlef für den Beitrag:
- ReinholdKoch
Gruß, Detlef
i-Telex: 7822222 (T1000), 114288 (F1300), 211230 (T100Z), 96868 (T37), 24394 (T68d)
Konf.-Dienst: 11160/11161, Rundsender: 11162/11163 , Baudot-Bilder: 11166, Chat-GPT: 11168
Mail-/Fax-Dienst: 11170/11171, News-Ticker: 11180/11181, hist. Ausk.: 40140, Wetter: 717171
i-Telex: 7822222 (T1000), 114288 (F1300), 211230 (T100Z), 96868 (T37), 24394 (T68d)
Konf.-Dienst: 11160/11161, Rundsender: 11162/11163 , Baudot-Bilder: 11166, Chat-GPT: 11168
Mail-/Fax-Dienst: 11170/11171, News-Ticker: 11180/11181, hist. Ausk.: 40140, Wetter: 717171
-
- Rank 8
- Beiträge: 782
- Registriert: Mi 1. Jun 2016, 19:46
- Hauptanschluß: 54577 aros d
Re: Telexauskunft-Computer 1973
Hallo Detlef,
der Hintergrund meiner Frage kommt aus einer anderen Richtung, die Scan Qualität ist perfekt wenn man bedenkt wie dünn das Papier ist usw.
Der Hintergrund ist nämlich dass meine OCR Software uralt ist und wenn es tatsächlich der neue FineReader sein soll den ich mir eigentlich anschaffen wollte, müßte ich das nochmal detailliert testen. Ich möchte nämlich nicht dass das Programm so "überdesigned" ist dass der Programmierer besser weiß was der Sensor zu lesen gehabt hätte als es tatsächlich ist und zwangsweise die Wörterbücher "durchdrückt". Wenn das nämlich nicht abschaltbar wäre, wäre es für mich keine Option, oder kurz gesagt: ich möchte einen Fehlkauf vermeiden.
viele Grüße
Patrick
der Hintergrund meiner Frage kommt aus einer anderen Richtung, die Scan Qualität ist perfekt wenn man bedenkt wie dünn das Papier ist usw.
Der Hintergrund ist nämlich dass meine OCR Software uralt ist und wenn es tatsächlich der neue FineReader sein soll den ich mir eigentlich anschaffen wollte, müßte ich das nochmal detailliert testen. Ich möchte nämlich nicht dass das Programm so "überdesigned" ist dass der Programmierer besser weiß was der Sensor zu lesen gehabt hätte als es tatsächlich ist und zwangsweise die Wörterbücher "durchdrückt". Wenn das nämlich nicht abschaltbar wäre, wäre es für mich keine Option, oder kurz gesagt: ich möchte einen Fehlkauf vermeiden.
viele Grüße
Patrick
i-telex:
a.) T1000S : 54577 aros d
b.) T1200SD : 465111 vfw d
i-telex (mobile Anlage) - aktuell offline
11113 t68d 1-Streifen-Maschine
7826519 t68d 2-Streifen-Maschine
piTelex Test - aktuell offline
T1000S : 183282 isoph d
a.) T1000S : 54577 aros d
b.) T1200SD : 465111 vfw d
i-telex (mobile Anlage) - aktuell offline
11113 t68d 1-Streifen-Maschine
7826519 t68d 2-Streifen-Maschine
piTelex Test - aktuell offline
T1000S : 183282 isoph d
-
- Rank 12
- Beiträge: 4072
- Registriert: Do 28. Mär 2019, 09:10
- Wohnort: Marburg
- Hauptanschluß: 7822222 hael d
Re: Telexauskunft-Computer 1973
Wenn man bedenkt, wie dünn das Papier und wie klein die Schrift ist, ist das OCR-Ergebnis schon sehr gut.
Wie gesagt, frag mal Werner. Ich glaube der hat sogar mehrere unterschiedliche Programme im Einsatz.
Wie gesagt, frag mal Werner. Ich glaube der hat sogar mehrere unterschiedliche Programme im Einsatz.
Gruß, Detlef
i-Telex: 7822222 (T1000), 114288 (F1300), 211230 (T100Z), 96868 (T37), 24394 (T68d)
Konf.-Dienst: 11160/11161, Rundsender: 11162/11163 , Baudot-Bilder: 11166, Chat-GPT: 11168
Mail-/Fax-Dienst: 11170/11171, News-Ticker: 11180/11181, hist. Ausk.: 40140, Wetter: 717171
i-Telex: 7822222 (T1000), 114288 (F1300), 211230 (T100Z), 96868 (T37), 24394 (T68d)
Konf.-Dienst: 11160/11161, Rundsender: 11162/11163 , Baudot-Bilder: 11166, Chat-GPT: 11168
Mail-/Fax-Dienst: 11170/11171, News-Ticker: 11180/11181, hist. Ausk.: 40140, Wetter: 717171
-
Topic author - Rank 12
- Beiträge: 1409
- Registriert: Mi 1. Jun 2016, 14:42
- Wohnort: Aschaffenburg
- Hauptanschluß: 97475 werner d
Re: Telexauskunft-Computer 1973
Ich habe alle meine Scans bisher mit dem Original Adobe Acrobat Programm erledigt. Deutsches Wörterbuch ist immer eingeschaltet, ebenso die Scan-Verbessserung, die vor dem OCR Prozess eine evtl. leicht schief eingezogene Seite gerade ausrichtet.
Man könnte es natürlich auch einmal mit dem Finereader machen.
Ich schaue mal nach, ob ich noch die Original-Scandaten, also ohne OCR habe, dann könnte man diese Daten einmal mit einer anderen OCR Software laufen lassen. Kann Euch aber aber erst am Montag berichten, morgen hat meine Frau Geburtstag und es gibt immer noch Präferenzen.
Man könnte es natürlich auch einmal mit dem Finereader machen.
Ich schaue mal nach, ob ich noch die Original-Scandaten, also ohne OCR habe, dann könnte man diese Daten einmal mit einer anderen OCR Software laufen lassen. Kann Euch aber aber erst am Montag berichten, morgen hat meine Frau Geburtstag und es gibt immer noch Präferenzen.
Viele Grüße
Werner+++
97475 werner d (Lorenz Lo133 Automatik) 7 - 23 Uhr
52880 sie d (Siemens T1200SD)
8869114 mpir d (Lorenz Lo133) 7 - 23 Uhr
68646 wirths d (Siemens T100S)
524211 dtmus d (Siemens T1200BS/MD) 24/7
11301 tst ab d (Siemens t68d)
7826491 =izi d (Minitelex) 24/7
Werner+++
97475 werner d (Lorenz Lo133 Automatik) 7 - 23 Uhr
52880 sie d (Siemens T1200SD)
8869114 mpir d (Lorenz Lo133) 7 - 23 Uhr
68646 wirths d (Siemens T100S)
524211 dtmus d (Siemens T1200BS/MD) 24/7
11301 tst ab d (Siemens t68d)
7826491 =izi d (Minitelex) 24/7
-
Topic author - Rank 12
- Beiträge: 1409
- Registriert: Mi 1. Jun 2016, 14:42
- Wohnort: Aschaffenburg
- Hauptanschluß: 97475 werner d
Re: Telexauskunft-Computer 1973
Stimmt, habe drei OCR-Programme im Einsatz gehabt, aber schon ziemlich am Anfang der ganzen Scannerei mich für Adobe Acrobat entschieden.
Viele Grüße
Werner+++
97475 werner d (Lorenz Lo133 Automatik) 7 - 23 Uhr
52880 sie d (Siemens T1200SD)
8869114 mpir d (Lorenz Lo133) 7 - 23 Uhr
68646 wirths d (Siemens T100S)
524211 dtmus d (Siemens T1200BS/MD) 24/7
11301 tst ab d (Siemens t68d)
7826491 =izi d (Minitelex) 24/7
Werner+++
97475 werner d (Lorenz Lo133 Automatik) 7 - 23 Uhr
52880 sie d (Siemens T1200SD)
8869114 mpir d (Lorenz Lo133) 7 - 23 Uhr
68646 wirths d (Siemens T100S)
524211 dtmus d (Siemens T1200BS/MD) 24/7
11301 tst ab d (Siemens t68d)
7826491 =izi d (Minitelex) 24/7
-
- Rank 12
- Beiträge: 4072
- Registriert: Do 28. Mär 2019, 09:10
- Wohnort: Marburg
- Hauptanschluß: 7822222 hael d
Re: Telexauskunft-Computer 1973
Wir suchen übrigens immer noch Mitstreiter, die dabei helfen, das Verzeichnis Korrektur zu lesen.
Natürlich ohne Stress und Zeitdruck. Aber jede korrigierte Seite hilft uns weiter.
Natürlich ohne Stress und Zeitdruck. Aber jede korrigierte Seite hilft uns weiter.
- Folgende Benutzer bedankten sich beim Autor detlef für den Beitrag (Insgesamt 3):
- Franz • ReinholdKoch • JanL
Gruß, Detlef
i-Telex: 7822222 (T1000), 114288 (F1300), 211230 (T100Z), 96868 (T37), 24394 (T68d)
Konf.-Dienst: 11160/11161, Rundsender: 11162/11163 , Baudot-Bilder: 11166, Chat-GPT: 11168
Mail-/Fax-Dienst: 11170/11171, News-Ticker: 11180/11181, hist. Ausk.: 40140, Wetter: 717171
i-Telex: 7822222 (T1000), 114288 (F1300), 211230 (T100Z), 96868 (T37), 24394 (T68d)
Konf.-Dienst: 11160/11161, Rundsender: 11162/11163 , Baudot-Bilder: 11166, Chat-GPT: 11168
Mail-/Fax-Dienst: 11170/11171, News-Ticker: 11180/11181, hist. Ausk.: 40140, Wetter: 717171
-
- Rank 8
- Beiträge: 782
- Registriert: Mi 1. Jun 2016, 19:46
- Hauptanschluß: 54577 aros d
Re: Telexauskunft-Computer 1973
Hallo Detlef,
das erste Drittel meines Blocks kommt heute per eMail als Zwischenstand.
Grüße
Patrick
das erste Drittel meines Blocks kommt heute per eMail als Zwischenstand.
Grüße
Patrick
- Folgende Benutzer bedankten sich beim Autor Patrick für den Beitrag (Insgesamt 2):
- detlef • ReinholdKoch
i-telex:
a.) T1000S : 54577 aros d
b.) T1200SD : 465111 vfw d
i-telex (mobile Anlage) - aktuell offline
11113 t68d 1-Streifen-Maschine
7826519 t68d 2-Streifen-Maschine
piTelex Test - aktuell offline
T1000S : 183282 isoph d
a.) T1000S : 54577 aros d
b.) T1200SD : 465111 vfw d
i-telex (mobile Anlage) - aktuell offline
11113 t68d 1-Streifen-Maschine
7826519 t68d 2-Streifen-Maschine
piTelex Test - aktuell offline
T1000S : 183282 isoph d
-
- Rank 12
- Beiträge: 4072
- Registriert: Do 28. Mär 2019, 09:10
- Wohnort: Marburg
- Hauptanschluß: 7822222 hael d
Re: Telexauskunft-Computer 1973
Ist angekommen. Super!
Gruß, Detlef
i-Telex: 7822222 (T1000), 114288 (F1300), 211230 (T100Z), 96868 (T37), 24394 (T68d)
Konf.-Dienst: 11160/11161, Rundsender: 11162/11163 , Baudot-Bilder: 11166, Chat-GPT: 11168
Mail-/Fax-Dienst: 11170/11171, News-Ticker: 11180/11181, hist. Ausk.: 40140, Wetter: 717171
i-Telex: 7822222 (T1000), 114288 (F1300), 211230 (T100Z), 96868 (T37), 24394 (T68d)
Konf.-Dienst: 11160/11161, Rundsender: 11162/11163 , Baudot-Bilder: 11166, Chat-GPT: 11168
Mail-/Fax-Dienst: 11170/11171, News-Ticker: 11180/11181, hist. Ausk.: 40140, Wetter: 717171