Telexauskunft-Computer 1973

Videos, Bilder, Publikationen in denen über Fernschreibtechnik gesprochen wird.

Moderator: duddsig

Antworten
Benutzeravatar

Patrick
Rank 11
Rank 11
Beiträge: 428
Registriert: Mi 1. Jun 2016, 19:46
Hauptanschluß: 54577 aros d

Re: Telexauskunft-Computer 1973

#81

Beitrag von Patrick »

mit welcher Software erfolgte die Schrifterkennung? FineReader ?
Grüße
Folgende Benutzer bedankten sich beim Autor Patrick für den Beitrag:
JanL
i-telex:
a.) T1000S : 54577 aros d
b.) T1200SD : 465111 vfw d

i-telex (mobile Anlage):
a.) Lo3000 : 185793 tauch d

Benutzeravatar

detlef
Rank 12
Rank 12
Beiträge: 837
Registriert: Do 28. Mär 2019, 09:10
Wohnort: Fronhausen (bei Marburg)
Hauptanschluß: 211230 dege d

Re: Telexauskunft-Computer 1973

#82

Beitrag von detlef »

Patrick hat geschrieben:
Do 14. Mai 2020, 17:02
mit welcher Software erfolgte die Schrifterkennung? FineReader ?
Das musst du Werner fragen. Der hat die PDF-Dateien mit OCR-Erkennung erzeugt.
Gruß, Detlef

i-Telex: 211230 (T100Z), 96868 (T37)
Konferenzdienst: 11160 (de) / 11161 (en)
Auskunft 1987: 40140

Benutzeravatar

detlef
Rank 12
Rank 12
Beiträge: 837
Registriert: Do 28. Mär 2019, 09:10
Wohnort: Fronhausen (bei Marburg)
Hauptanschluß: 211230 dege d

Re: Telexauskunft-Computer 1973

#83

Beitrag von detlef »

detlef hat geschrieben:
Do 14. Mai 2020, 18:23
Patrick hat geschrieben:
Do 14. Mai 2020, 17:02
mit welcher Software erfolgte die Schrifterkennung? FineReader ?
Das musst du Werner fragen. Der hat die PDF-Dateien mit OCR-Erkennung erzeugt.
Wobei, wie schon gesagt, das was ihr bekommen habt, nicht das direkte Ergebnis der OCR-Software war. Da sind vorher einige Korrekturen gelaufen.

Ich habe hier mal die Liste der unbekannten Orte der unkorrigerten Daten angehängt. Das ist das, was als Ort interpretiert wurde und in offiziellen Ortsliste nicht zu finden waren. Meistens waren es Scanfehler, teilweise fehlte aber auch nur das Komma vor dem Ort, so dass es nicht als eigenes Feld erkannt wurde. Diese Liste wurde schonmal auf 0 reduziert, so dass jetzt nur noch bekannte Orte in der Datenbank stehen. Wenn im Telexverzeichnis Ortbezeichnungen drinstanden, die in offiziellen Listen nicht auftauchten, habe ich die Listen ergänzt. Die Orte müssten also ziemlich fehlerfrei sein. Bis auf einzelne Fehler, die ich bei der Korrektur gemacht habe.

Genauso bin ich bei den Namen vorgegangen. Ich habe eine Wortliste erzeugt und die Worte solange korrigiert, bis dort nur noch lesbare und sinnvoll erscheinende Worte auftauchten. Deswegen gibt es praktisch keine Sonderzeichen oder völlig unsinnige Namen mehr.

Bei den Telexnummern wurde geprüft, dass nur Ziffern enthalten sind (und Bindestriche). Oft waren aber auch z.B. 0, 6 und 8 vertauscht. Das findet man dadurch, dass man die Reihenfolge überprüft. Zum Glück sind die Nummern in dem Verzeichnis aufsteigemd sortiert. Das wäre sind übel geworden.

Das grundlegende Problem bei dem ganzen Projekt war, dass ich mir ein paar Probescans von Werner angeschaut hatte und dachte, das sieht ja super fehlerfrei aus. Ich hatte mit einigen tausend Fehlern gerechnet und dachte, das kriegt man leicht korrigert. Aber das täuschte. Also ich dann die ersten Wortlisten erstellt habe, habe ich stellenweise Fehler in jedem 2. oder 3. Eintrag gefunden. Das sind dann einige zehntausend Fehler.

Also wenn man sowas nochmal machen würde, dann sollte man noch deutlich mehr Aufwand in die OCR-Erkennung stecken. Also maximale Scan-Qualität mit gutem Kontrast und mit den OCR-Einstellungen experimentieren, sofern es welche gibt. Z.B. die Nutzung von Wörterbüchern abschalten. Aber ich fürchte, bei den meisten OCR-Programmen kann man gar nicht viel einstellen.

Das soll jetzt nicht heissen, dass die Scan-Qualität von Werner schlecht war. Er nutzt ja schon professionelles Equipment. Aber da hätte man bestimmt noch optimieren können.
Du hast keine ausreichende Berechtigung, um die Dateianhänge dieses Beitrags anzusehen.
Folgende Benutzer bedankten sich beim Autor detlef für den Beitrag:
ReinholdKoch
Gruß, Detlef

i-Telex: 211230 (T100Z), 96868 (T37)
Konferenzdienst: 11160 (de) / 11161 (en)
Auskunft 1987: 40140

Benutzeravatar

Patrick
Rank 11
Rank 11
Beiträge: 428
Registriert: Mi 1. Jun 2016, 19:46
Hauptanschluß: 54577 aros d

Re: Telexauskunft-Computer 1973

#84

Beitrag von Patrick »

Hallo Detlef,
der Hintergrund meiner Frage kommt aus einer anderen Richtung, die Scan Qualität ist perfekt wenn man bedenkt wie dünn das Papier ist usw.
Der Hintergrund ist nämlich dass meine OCR Software uralt ist und wenn es tatsächlich der neue FineReader sein soll den ich mir eigentlich anschaffen wollte, müßte ich das nochmal detailliert testen. Ich möchte nämlich nicht dass das Programm so "überdesigned" ist dass der Programmierer besser weiß was der Sensor zu lesen gehabt hätte als es tatsächlich ist und zwangsweise die Wörterbücher "durchdrückt". Wenn das nämlich nicht abschaltbar wäre, wäre es für mich keine Option, oder kurz gesagt: ich möchte einen Fehlkauf vermeiden.

viele Grüße
Patrick
i-telex:
a.) T1000S : 54577 aros d
b.) T1200SD : 465111 vfw d

i-telex (mobile Anlage):
a.) Lo3000 : 185793 tauch d

Benutzeravatar

detlef
Rank 12
Rank 12
Beiträge: 837
Registriert: Do 28. Mär 2019, 09:10
Wohnort: Fronhausen (bei Marburg)
Hauptanschluß: 211230 dege d

Re: Telexauskunft-Computer 1973

#85

Beitrag von detlef »

Wenn man bedenkt, wie dünn das Papier und wie klein die Schrift ist, ist das OCR-Ergebnis schon sehr gut.
Wie gesagt, frag mal Werner. Ich glaube der hat sogar mehrere unterschiedliche Programme im Einsatz.
Gruß, Detlef

i-Telex: 211230 (T100Z), 96868 (T37)
Konferenzdienst: 11160 (de) / 11161 (en)
Auskunft 1987: 40140

Benutzeravatar

Topic author
Werner
Rank 12
Rank 12
Beiträge: 867
Registriert: Mi 1. Jun 2016, 14:42
Wohnort: Aschaffenburg
Hauptanschluß: 97475 werner d

Re: Telexauskunft-Computer 1973

#86

Beitrag von Werner »

Ich habe alle meine Scans bisher mit dem Original Adobe Acrobat Programm erledigt. Deutsches Wörterbuch ist immer eingeschaltet, ebenso die Scan-Verbessserung, die vor dem OCR Prozess eine evtl. leicht schief eingezogene Seite gerade ausrichtet.
Man könnte es natürlich auch einmal mit dem Finereader machen.
Ich schaue mal nach, ob ich noch die Original-Scandaten, also ohne OCR habe, dann könnte man diese Daten einmal mit einer anderen OCR Software laufen lassen. Kann Euch aber aber erst am Montag berichten, morgen hat meine Frau Geburtstag und es gibt immer noch Präferenzen.
Viele Grüße :whack:
Werner+++
Fernschreibstelle Aschaffenburg
Platz 1: 97475 werner d (Siemens T1200BS)
Platz 2: 571304 zollb d (Siemens T100S)
Platz 3: 11301 tst ab d (Lorenz T36)
Platz 4: 249575 giejr d (Siemens T1200SD), Mobilfunkfernschreiber
Bildlocher: 97482 (bitte i-Telex Anleitung lesen)

Benutzeravatar

Topic author
Werner
Rank 12
Rank 12
Beiträge: 867
Registriert: Mi 1. Jun 2016, 14:42
Wohnort: Aschaffenburg
Hauptanschluß: 97475 werner d

Re: Telexauskunft-Computer 1973

#87

Beitrag von Werner »

detlef hat geschrieben:
Fr 15. Mai 2020, 18:27
Wenn man bedenkt, wie dünn das Papier und wie klein die Schrift ist, ist das OCR-Ergebnis schon sehr gut.
Wie gesagt, frag mal Werner. Ich glaube der hat sogar mehrere unterschiedliche Programme im Einsatz.
Stimmt, habe drei OCR-Programme im Einsatz gehabt, aber schon ziemlich am Anfang der ganzen Scannerei mich für Adobe Acrobat entschieden.
Viele Grüße :whack:
Werner+++
Fernschreibstelle Aschaffenburg
Platz 1: 97475 werner d (Siemens T1200BS)
Platz 2: 571304 zollb d (Siemens T100S)
Platz 3: 11301 tst ab d (Lorenz T36)
Platz 4: 249575 giejr d (Siemens T1200SD), Mobilfunkfernschreiber
Bildlocher: 97482 (bitte i-Telex Anleitung lesen)

Benutzeravatar

detlef
Rank 12
Rank 12
Beiträge: 837
Registriert: Do 28. Mär 2019, 09:10
Wohnort: Fronhausen (bei Marburg)
Hauptanschluß: 211230 dege d

Re: Telexauskunft-Computer 1973

#88

Beitrag von detlef »

Wir suchen übrigens immer noch Mitstreiter, die dabei helfen, das Verzeichnis Korrektur zu lesen.
Natürlich ohne Stress und Zeitdruck. Aber jede korrigierte Seite hilft uns weiter. :D
Folgende Benutzer bedankten sich beim Autor detlef für den Beitrag (Insgesamt 3):
FranzReinholdKochJanL
Gruß, Detlef

i-Telex: 211230 (T100Z), 96868 (T37)
Konferenzdienst: 11160 (de) / 11161 (en)
Auskunft 1987: 40140

Benutzeravatar

Patrick
Rank 11
Rank 11
Beiträge: 428
Registriert: Mi 1. Jun 2016, 19:46
Hauptanschluß: 54577 aros d

Re: Telexauskunft-Computer 1973

#89

Beitrag von Patrick »

Hallo Detlef,
das erste Drittel meines Blocks kommt heute per eMail als Zwischenstand.
Grüße
Patrick
Folgende Benutzer bedankten sich beim Autor Patrick für den Beitrag (Insgesamt 2):
detlefReinholdKoch
i-telex:
a.) T1000S : 54577 aros d
b.) T1200SD : 465111 vfw d

i-telex (mobile Anlage):
a.) Lo3000 : 185793 tauch d

Benutzeravatar

detlef
Rank 12
Rank 12
Beiträge: 837
Registriert: Do 28. Mär 2019, 09:10
Wohnort: Fronhausen (bei Marburg)
Hauptanschluß: 211230 dege d

Re: Telexauskunft-Computer 1973

#90

Beitrag von detlef »

Patrick hat geschrieben:
Do 21. Mai 2020, 15:32
das erste Drittel meines Blocks kommt heute per eMail als Zwischenstand.
Ist angekommen. Super! :grovel:
Gruß, Detlef

i-Telex: 211230 (T100Z), 96868 (T37)
Konferenzdienst: 11160 (de) / 11161 (en)
Auskunft 1987: 40140

Antworten

Zurück zu „Media“