Telexauskunft-Computer 1973

Videos, Bilder, Publikationen in denen über Fernschreibtechnik gesprochen wird.
Antworten
Benutzeravatar

detlef
Rank 12
Rank 12
Beiträge: 4072
Registriert: Do 28. Mär 2019, 09:10
Wohnort: Marburg
Hauptanschluß: 7822222 hael d

Zusammenfassung der technischen Schritte zu Digitalisierung des Telex-Verzeichnisses

#171

Beitrag: # 26738Beitrag detlef »

Hier habe ich nochmal den technische Teil der Digitalisierung des Telex-Verzeichnisses zusammengefasst.

Im Januar 2020 haben wir das Projekt Telefonverzeichnis begonnen. Hier der grobe Ablauf der einzelnen Arbeitsschritte

1. Zunächst hat Werner die 990 Seiten des Telex-Verzeichnisses mit OCR-Erkennung in hoher Auflösung eingescannt (990 Seiten)

2. Auslesen der Texte aus den PDF-Dateien und Überführung in einer Format, das sich per Programm weiterverabeiten ließ.

Leider waren die Texte in der PDF-Datei völlig chaotisch gespeichert. Nicht als fortlaufende Text sondern als viele
keine Textschnipsel mit Positionsangabe. Daraus mussten die einzelnen Einträge anhand ihrer Positionen und Abstände untereinander gefunden und den richtigen Zeilen und Spalten zugeordnet werden, um darauf zusammenhängende Einträge zu erzeugen. Erschwerend kommt hinzu, dass die Spaltenpositionen auf jeder Scan-Seite leicht variieren. Also auf jeder Seite wurden zunächsten die Spalten gesucht und dann die Texte ausgelesen und zugeordnet.

3. Analyse und automatische Vorkorrektur anhand von Wort- und Fehlermusterlisten

Das Anaylseprogramm erstellte zunächst eine Wortlist, in denen man ungültige Worte leicht erkennen konnte. Alle ungültigen oder unplausiblen Wörter wurden manuelle geprüft und korrigiert. Dabei hilft auch die Häufigkeit der Wörter. Fehlerhafte Wörter kommen eher seltenes vor. Für bestimmte Fehlermuster, die doch häufiger vorkamen, wurde manuell eine Fehlermusterliste erstellt, um sie automatisch zu korrigieren. Zum Beispiel wurde "Inh." sehr oft als "Inn." erkannt oder "+" als "-t-". Aus "Co." wurde "Coq", "Co'C" oder "Cri." Die Liste enthielt über 100 Fehlermuster, die automatisch korrigiert wurden.

4. Korrektur der Ortsangaben

Im nächsten Schritt wurden die Ortsangaben gegen eine Internetliste aller bekannten Orte geprüft und alle unbekannten Orten entweder korrigiert oder in die Ortsliste aufgenommen. Das war nicht ganz einfach, weil die Ortsgaben in dem Telex-Verzeichnis häufig durch eine Regionsangabe ergänzt sind - aber nicht immer. Das Analyseprogramm muss also erkennen, ob die Ortsangabe aus einem oder aus zwei Teilen besteht. Dafür wurde eine manuelle Liste aller Regionsangaben erstellt.

Beispiele:
Hamm Chemie GmbH, Stade (eine Angabe)
Hirth, Dieter A., Rosengarten, Kr Harburg (zwei Angaben, das Kr lässt sich automatisch erkennen)
Versandhaus Mohr KG, Horneburg, Niederelbe (ob "Horneburg" eine Ortsangabe ist oder zum Namen gehört, lässt sich nicht automatisch erkennen. Da Niederelbe in der Regionsliste steht, erkennt das Programm, dass Horneburg ebenfalls zur Ortsangabe gehört).

Damit waren die Namens- und Ortseinträge in einem auf den ersten Blick guten Zustand. Aber wenn man sich die Nameseinträge anschaute, fanden sich immer noch Fehler in jedem 3-5 Eintrag. Zu dem Zeitpunkt war schon klar, dann hier noch eine manuelle Korrektur aller Einträge notwendig sein würde.

5. Korrektur der Nummern und Kennungen

Das Analyseprogramm prüfte nun, ob das Format der Kennungen stimmt ("nummer kürzel d") und dass die Nummern keine ungültigen Zeichen enthielten. Da das Televerzeichnis nach Nummern sortiert ist, wurde im nächsten Schritt geprüft, ob die Nummern aufsteigend sind. Zum Beispiel wurden die Ziffern 0, 6, 8 sehr oft vertauscht. Durch die Prüfung der korrekten Reihenfolge konnten diese Fehler fast zu 100% gefunden werden.

6. Manuelle Korrektur

Die auf diese Weise korrigierten Daten waren nun die Grundlage für die anschließende manuelle Korrektur aller knapp 150.000 Einträge, was mit Abstand der größte Arbeitsaufwand war und an der viele Personen beteiligt waren. Ich habe für die manuelle Korrektur noch ein Korrekturprogramm geschrieben habe, das jeden Texteintrag der originaleb PDF-Ansicht gegenüberstellt, so dass Eintrag für Eintrag ohne Blättern und Suchen schnell geprüft und direkt korrigiert werden konnte. Trotzdem hat die Korrektur dann über ein Jahr gedauert.


Am Ende muss ich sagen, dass ich das ganze Projekt sicher nicht gestartet hätte, wenn mir der Gesamtaufwand vorher bewusst gewesen wäre. ;)
Was nichts heisst, dass es in Zukunft nicht wieder solche Projekte geben wird. Inzwischen ist ja auch einige Erfahrung vorhanden, wie man es besser machen kann und wo man Zeit sparen kann.
Folgende Benutzer bedankten sich beim Autor detlef für den Beitrag (Insgesamt 7):
RainerDDFranzJanLReinholdKochckeuerISBRANDBjoernS
Gruß, Detlef

i-Telex: 7822222 (T1000), 114288 (F1300), 211230 (T100Z), 96868 (T37), 24394 (T68d)
Konf.-Dienst: 11160/11161, Rundsender: 11162/11163 , Baudot-Bilder: 11166, Chat-GPT: 11168
Mail-/Fax-Dienst: 11170/11171, News-Ticker: 11180/11181, hist. Ausk.: 40140, Wetter: 717171
Benutzeravatar

detlef
Rank 12
Rank 12
Beiträge: 4072
Registriert: Do 28. Mär 2019, 09:10
Wohnort: Marburg
Hauptanschluß: 7822222 hael d

Re: Telexauskunft-Computer 1973

#172

Beitrag: # 26740Beitrag detlef »

Hier noch mal zwei Screenshots. Der erste zeigt das Analyseprogramme nach der Spalten- und Zeilenerkennung einer Seite.
Man sieht an den farbigen Markierungen, dass das Programm die Spalten und darin die einzelnen zusammengehörigen Einträge erkannt hat.

Screenshot_Analyse.png

Und hier noch ein Screenshot des Programms für die manuelle Korrektur. Rechts die Darstellung der Originaleintrags der PDF-Datei. Und links der Eintrag in Textform für die Fehlerkorrektur. Da bei der Analyse die Position und die Formatierung der Einträge mitgespeichert wurde, kann der Eintrag links genau so formatiert dargestellt werden wie der Originaleintrag und rechts der zugehörige Eintrag markiert werden. Das erleichtert die Korrektur, weil so Abweichungen visuell leichter erkannt werden.

Screenshot_Korrekturprogramm.png
Du hast keine ausreichende Berechtigung, um die Dateianhänge dieses Beitrags anzusehen.
Folgende Benutzer bedankten sich beim Autor detlef für den Beitrag (Insgesamt 3):
FranzReinholdKochISBRAND
Gruß, Detlef

i-Telex: 7822222 (T1000), 114288 (F1300), 211230 (T100Z), 96868 (T37), 24394 (T68d)
Konf.-Dienst: 11160/11161, Rundsender: 11162/11163 , Baudot-Bilder: 11166, Chat-GPT: 11168
Mail-/Fax-Dienst: 11170/11171, News-Ticker: 11180/11181, hist. Ausk.: 40140, Wetter: 717171
Antworten

Zurück zu „Media“