Telexauskunft-Computer 1973

Videos, Bilder, Publikationen in denen über Fernschreibtechnik gesprochen wird.
Antworten
Benutzeravatar

Patrick
Rank 8
Rank 8
Beiträge: 751
Registriert: Mi 1. Jun 2016, 19:46
Hauptanschluß: 54577 aros d

Re: Telexauskunft-Computer 1973

#81

Beitrag: # 18229Beitrag Patrick »

mit welcher Software erfolgte die Schrifterkennung? FineReader ?
Grüße
Folgende Benutzer bedankten sich beim Autor Patrick für den Beitrag:
JanL
i-telex:
a.) T1000S : 54577 aros d
b.) T1200SD : 465111 vfw d

i-telex (mobile Anlage):
11113 t68d 1-Streifen-Maschine
7826519 t68d 2-Streifen-Maschine

piTelex Test - aktuell offline
T1000S : 183282 isoph d
Benutzeravatar

detlef
Rank 12
Rank 12
Beiträge: 3582
Registriert: Do 28. Mär 2019, 09:10
Wohnort: Marburg
Hauptanschluß: 7822222 hael d

Re: Telexauskunft-Computer 1973

#82

Beitrag: # 18231Beitrag detlef »

Patrick hat geschrieben: Do 14. Mai 2020, 17:02 mit welcher Software erfolgte die Schrifterkennung? FineReader ?
Das musst du Werner fragen. Der hat die PDF-Dateien mit OCR-Erkennung erzeugt.
Gruß, Detlef

i-Telex: 7822222 (T1000), 114288 (F1300), 211230 (T100Z), 96868 (T37), 24394 (T68d)
Konferenzdienst: 11160 / 11161, Rundsender: 11162 / 11163 , Baudot-Bilder: 11166
Chat-GPT: 11168, Mail- und Fax-Dienst: 11170 / 11171, hist. Auskunft 1987: 40140, Wetterdienst: 717171
Benutzeravatar

detlef
Rank 12
Rank 12
Beiträge: 3582
Registriert: Do 28. Mär 2019, 09:10
Wohnort: Marburg
Hauptanschluß: 7822222 hael d

Re: Telexauskunft-Computer 1973

#83

Beitrag: # 18233Beitrag detlef »

detlef hat geschrieben: Do 14. Mai 2020, 18:23
Patrick hat geschrieben: Do 14. Mai 2020, 17:02 mit welcher Software erfolgte die Schrifterkennung? FineReader ?
Das musst du Werner fragen. Der hat die PDF-Dateien mit OCR-Erkennung erzeugt.
Wobei, wie schon gesagt, das was ihr bekommen habt, nicht das direkte Ergebnis der OCR-Software war. Da sind vorher einige Korrekturen gelaufen.

Ich habe hier mal die Liste der unbekannten Orte der unkorrigerten Daten angehängt. Das ist das, was als Ort interpretiert wurde und in offiziellen Ortsliste nicht zu finden waren. Meistens waren es Scanfehler, teilweise fehlte aber auch nur das Komma vor dem Ort, so dass es nicht als eigenes Feld erkannt wurde. Diese Liste wurde schonmal auf 0 reduziert, so dass jetzt nur noch bekannte Orte in der Datenbank stehen. Wenn im Telexverzeichnis Ortbezeichnungen drinstanden, die in offiziellen Listen nicht auftauchten, habe ich die Listen ergänzt. Die Orte müssten also ziemlich fehlerfrei sein. Bis auf einzelne Fehler, die ich bei der Korrektur gemacht habe.

Genauso bin ich bei den Namen vorgegangen. Ich habe eine Wortliste erzeugt und die Worte solange korrigiert, bis dort nur noch lesbare und sinnvoll erscheinende Worte auftauchten. Deswegen gibt es praktisch keine Sonderzeichen oder völlig unsinnige Namen mehr.

Bei den Telexnummern wurde geprüft, dass nur Ziffern enthalten sind (und Bindestriche). Oft waren aber auch z.B. 0, 6 und 8 vertauscht. Das findet man dadurch, dass man die Reihenfolge überprüft. Zum Glück sind die Nummern in dem Verzeichnis aufsteigemd sortiert. Das wäre sind übel geworden.

Das grundlegende Problem bei dem ganzen Projekt war, dass ich mir ein paar Probescans von Werner angeschaut hatte und dachte, das sieht ja super fehlerfrei aus. Ich hatte mit einigen tausend Fehlern gerechnet und dachte, das kriegt man leicht korrigert. Aber das täuschte. Also ich dann die ersten Wortlisten erstellt habe, habe ich stellenweise Fehler in jedem 2. oder 3. Eintrag gefunden. Das sind dann einige zehntausend Fehler.

Also wenn man sowas nochmal machen würde, dann sollte man noch deutlich mehr Aufwand in die OCR-Erkennung stecken. Also maximale Scan-Qualität mit gutem Kontrast und mit den OCR-Einstellungen experimentieren, sofern es welche gibt. Z.B. die Nutzung von Wörterbüchern abschalten. Aber ich fürchte, bei den meisten OCR-Programmen kann man gar nicht viel einstellen.

Das soll jetzt nicht heissen, dass die Scan-Qualität von Werner schlecht war. Er nutzt ja schon professionelles Equipment. Aber da hätte man bestimmt noch optimieren können.
Du hast keine ausreichende Berechtigung, um die Dateianhänge dieses Beitrags anzusehen.
Folgende Benutzer bedankten sich beim Autor detlef für den Beitrag:
ReinholdKoch
Gruß, Detlef

i-Telex: 7822222 (T1000), 114288 (F1300), 211230 (T100Z), 96868 (T37), 24394 (T68d)
Konferenzdienst: 11160 / 11161, Rundsender: 11162 / 11163 , Baudot-Bilder: 11166
Chat-GPT: 11168, Mail- und Fax-Dienst: 11170 / 11171, hist. Auskunft 1987: 40140, Wetterdienst: 717171
Benutzeravatar

Patrick
Rank 8
Rank 8
Beiträge: 751
Registriert: Mi 1. Jun 2016, 19:46
Hauptanschluß: 54577 aros d

Re: Telexauskunft-Computer 1973

#84

Beitrag: # 18240Beitrag Patrick »

Hallo Detlef,
der Hintergrund meiner Frage kommt aus einer anderen Richtung, die Scan Qualität ist perfekt wenn man bedenkt wie dünn das Papier ist usw.
Der Hintergrund ist nämlich dass meine OCR Software uralt ist und wenn es tatsächlich der neue FineReader sein soll den ich mir eigentlich anschaffen wollte, müßte ich das nochmal detailliert testen. Ich möchte nämlich nicht dass das Programm so "überdesigned" ist dass der Programmierer besser weiß was der Sensor zu lesen gehabt hätte als es tatsächlich ist und zwangsweise die Wörterbücher "durchdrückt". Wenn das nämlich nicht abschaltbar wäre, wäre es für mich keine Option, oder kurz gesagt: ich möchte einen Fehlkauf vermeiden.

viele Grüße
Patrick
i-telex:
a.) T1000S : 54577 aros d
b.) T1200SD : 465111 vfw d

i-telex (mobile Anlage):
11113 t68d 1-Streifen-Maschine
7826519 t68d 2-Streifen-Maschine

piTelex Test - aktuell offline
T1000S : 183282 isoph d
Benutzeravatar

detlef
Rank 12
Rank 12
Beiträge: 3582
Registriert: Do 28. Mär 2019, 09:10
Wohnort: Marburg
Hauptanschluß: 7822222 hael d

Re: Telexauskunft-Computer 1973

#85

Beitrag: # 18242Beitrag detlef »

Wenn man bedenkt, wie dünn das Papier und wie klein die Schrift ist, ist das OCR-Ergebnis schon sehr gut.
Wie gesagt, frag mal Werner. Ich glaube der hat sogar mehrere unterschiedliche Programme im Einsatz.
Gruß, Detlef

i-Telex: 7822222 (T1000), 114288 (F1300), 211230 (T100Z), 96868 (T37), 24394 (T68d)
Konferenzdienst: 11160 / 11161, Rundsender: 11162 / 11163 , Baudot-Bilder: 11166
Chat-GPT: 11168, Mail- und Fax-Dienst: 11170 / 11171, hist. Auskunft 1987: 40140, Wetterdienst: 717171
Benutzeravatar

Topic author
Werner
Rank 12
Rank 12
Beiträge: 1368
Registriert: Mi 1. Jun 2016, 14:42
Wohnort: Aschaffenburg
Hauptanschluß: 97475 werner d

Re: Telexauskunft-Computer 1973

#86

Beitrag: # 18251Beitrag Werner »

Ich habe alle meine Scans bisher mit dem Original Adobe Acrobat Programm erledigt. Deutsches Wörterbuch ist immer eingeschaltet, ebenso die Scan-Verbessserung, die vor dem OCR Prozess eine evtl. leicht schief eingezogene Seite gerade ausrichtet.
Man könnte es natürlich auch einmal mit dem Finereader machen.
Ich schaue mal nach, ob ich noch die Original-Scandaten, also ohne OCR habe, dann könnte man diese Daten einmal mit einer anderen OCR Software laufen lassen. Kann Euch aber aber erst am Montag berichten, morgen hat meine Frau Geburtstag und es gibt immer noch Präferenzen.
Viele Grüße :whack:
Werner+++

97475 werner d (7:30 - 22:30 Uhr, Siemens T1000)
52880 sie d (7:30 - 22:30 Uhr, Siemens T1200)
11301 tst ab d (nur abgehend, Lorenz T36)
8869114 mpir d (24/7, SEL Lo133)
622080 afag d (24/7, SEL Lo133 Automatik)
Minitelex:7826491 =izi d
Benutzeravatar

Topic author
Werner
Rank 12
Rank 12
Beiträge: 1368
Registriert: Mi 1. Jun 2016, 14:42
Wohnort: Aschaffenburg
Hauptanschluß: 97475 werner d

Re: Telexauskunft-Computer 1973

#87

Beitrag: # 18252Beitrag Werner »

detlef hat geschrieben: Fr 15. Mai 2020, 18:27 Wenn man bedenkt, wie dünn das Papier und wie klein die Schrift ist, ist das OCR-Ergebnis schon sehr gut.
Wie gesagt, frag mal Werner. Ich glaube der hat sogar mehrere unterschiedliche Programme im Einsatz.
Stimmt, habe drei OCR-Programme im Einsatz gehabt, aber schon ziemlich am Anfang der ganzen Scannerei mich für Adobe Acrobat entschieden.
Viele Grüße :whack:
Werner+++

97475 werner d (7:30 - 22:30 Uhr, Siemens T1000)
52880 sie d (7:30 - 22:30 Uhr, Siemens T1200)
11301 tst ab d (nur abgehend, Lorenz T36)
8869114 mpir d (24/7, SEL Lo133)
622080 afag d (24/7, SEL Lo133 Automatik)
Minitelex:7826491 =izi d
Benutzeravatar

detlef
Rank 12
Rank 12
Beiträge: 3582
Registriert: Do 28. Mär 2019, 09:10
Wohnort: Marburg
Hauptanschluß: 7822222 hael d

Re: Telexauskunft-Computer 1973

#88

Beitrag: # 18342Beitrag detlef »

Wir suchen übrigens immer noch Mitstreiter, die dabei helfen, das Verzeichnis Korrektur zu lesen.
Natürlich ohne Stress und Zeitdruck. Aber jede korrigierte Seite hilft uns weiter. :D
Folgende Benutzer bedankten sich beim Autor detlef für den Beitrag (Insgesamt 3):
FranzReinholdKochJanL
Gruß, Detlef

i-Telex: 7822222 (T1000), 114288 (F1300), 211230 (T100Z), 96868 (T37), 24394 (T68d)
Konferenzdienst: 11160 / 11161, Rundsender: 11162 / 11163 , Baudot-Bilder: 11166
Chat-GPT: 11168, Mail- und Fax-Dienst: 11170 / 11171, hist. Auskunft 1987: 40140, Wetterdienst: 717171
Benutzeravatar

Patrick
Rank 8
Rank 8
Beiträge: 751
Registriert: Mi 1. Jun 2016, 19:46
Hauptanschluß: 54577 aros d

Re: Telexauskunft-Computer 1973

#89

Beitrag: # 18362Beitrag Patrick »

Hallo Detlef,
das erste Drittel meines Blocks kommt heute per eMail als Zwischenstand.
Grüße
Patrick
Folgende Benutzer bedankten sich beim Autor Patrick für den Beitrag (Insgesamt 2):
detlefReinholdKoch
i-telex:
a.) T1000S : 54577 aros d
b.) T1200SD : 465111 vfw d

i-telex (mobile Anlage):
11113 t68d 1-Streifen-Maschine
7826519 t68d 2-Streifen-Maschine

piTelex Test - aktuell offline
T1000S : 183282 isoph d
Benutzeravatar

detlef
Rank 12
Rank 12
Beiträge: 3582
Registriert: Do 28. Mär 2019, 09:10
Wohnort: Marburg
Hauptanschluß: 7822222 hael d

Re: Telexauskunft-Computer 1973

#90

Beitrag: # 18366Beitrag detlef »

Patrick hat geschrieben: Do 21. Mai 2020, 15:32 das erste Drittel meines Blocks kommt heute per eMail als Zwischenstand.
Ist angekommen. Super! :grovel:
Gruß, Detlef

i-Telex: 7822222 (T1000), 114288 (F1300), 211230 (T100Z), 96868 (T37), 24394 (T68d)
Konferenzdienst: 11160 / 11161, Rundsender: 11162 / 11163 , Baudot-Bilder: 11166
Chat-GPT: 11168, Mail- und Fax-Dienst: 11170 / 11171, hist. Auskunft 1987: 40140, Wetterdienst: 717171
Antworten

Zurück zu „Media“