Seite 3 von 18
Re: Telexauskunft-Computer 1973
Verfasst: Di 31. Dez 2019, 14:40
von ProjektTelefon
detlef hat geschrieben: ↑Di 31. Dez 2019, 13:43
Das sind rund 1800 Seiten - eine Sysiphus-Aufgabe.
Ich denke mal die Arbeit kann man sich gut aufteilen, und irgendwann ist das Projekt ja dann auch abgeschlossen. Leider eine Sysiphus Aufgabe stimmt, aber eine Aufgabe die man denke ich ganz gerne macht...
Re: Telexauskunft-Computer 1973
Verfasst: Di 31. Dez 2019, 15:13
von detlef
Ich habe noch ein wenig experimert. Das reine Extrahieren des Textes reicht nicht aus, um die Spalten zuzuordnen. Ich habe jetzt einen Weg gefunden, wie ich die Textefragmente (Chunks) der PDF-Seiten inkl. Position extrahieren kann. Über die Position kann man dann herausfinden, in welche Spalte der Text gehört (also Firmename, Rufnummer oder Kennung) und auch mehrzeiligen Firmennamen erkennen (hoffe ich).
Ich muss da noch ein wenig frickeln, aber ich denke, das bekommt man hin.
Für die die es interessiert: Ich verwende die PDF-Bibkiothek "itextsharp" zum Extrahieren der Textchunks.
Ich würde das Ergebnis dann in eine Textdatei schreiben und noch ein Programm schreiben, das aus der Textdatei wieder eine PDF erzeugt, bei der die Einträge wieder auf den gleichen Positionen stehen wie beim Orginal-PDF.
Dann kann man Original-PDF und neu erzeugtes PDF nebeneinander legen und die Korrekturen in die Textdatei eintragen.
Textdateien kann jeder bearbeiten. Man kann die nach Seitennummern aufteilen und zur Korrektur verteilen.
Lasst mir mal ein paar Wochen Zeit, ich schaue mal, wie weit ich mit dem Ansatz kommen. Ich halte euch auf dem Laufenden.
Und falls jemand noch Ideen dazu hat, immer gerne.
Re: Telexauskunft-Computer 1973
Verfasst: Di 31. Dez 2019, 15:15
von DF3OE
Ich habe in meinem Leben schon viele Adressen für Mailings abgetippt, als es noch "nicht so mit Computern" war...
Das Telexverzeichnis mit ALLEN Daten abzutippen und z.B. in eine Excel-Tabel einzugeben braucht Jahre...
von der menschlichen Fehlerrate beim Abtippen will ich gar nicht reden...
Du kannst ja schon mal anfangen.
@Detlef: Abrufschema und Bedienhinweise zur Telexauskunft finden sich in den "rosa Seiten" der alten
Telexverzeichnisse.
Ich muss mal schauen, ob ich vielleicht zufällig noch einen Originalausdruck von damals habe. Aber ist eher
unwahrscheinlich. Aber in den Bedienhinweisen ist es eigentlich ziemlich gut aufgeführt, wie so eine
Abfrage ablief und ausgedruckt wurde.
-
Re: Telexauskunft-Computer 1973
Verfasst: Di 31. Dez 2019, 15:17
von detlef
Noch eine Frage an Werner:
Der Scan des Telexverzeichnises 1983 ist vom April diesen Jahres. Hast du inzwischen vielleicht die Möglichkeit, das mit besserer OCR-Erkenung zu scannen?
Ich weiß, das Scannen ist sehr aufwändig. Aber evtl. weniger aufwändig als die manuelle Korrektur der Einträge.
Re: Telexauskunft-Computer 1973
Verfasst: Di 31. Dez 2019, 16:20
von Werner
Hallo Detlef,
ich habe, brav wie ich damals war, das 1983er Teilnehmerverzeichnis nach dem Scannen wieder zum Buchbinder gebracht. Ich lasse das Buch gerne wieder öffnen und kann es dann mit 1200 dpi scannen. Das dauert dann zwar tagelang, aber wo ein Problem ist, da ist auch ein Weg.
Ich schicke Dir morgen einmal eine Seite aus dem Verzeichnis mit Redaktionsschluss 1987, das ist etwas weniger umfangreich als das von 1983 hat aber immer noch 1000 Seiten. Dieses eine Blatt scanne ich mit 1200 dpi und dann kannst Du mal weiter testen. Das Verzeichnis von 1987 hätte den charmanten Vorteil, dass die Telexnummern OHNE Leerstellen im Verzeichnis ausgedruckt wurden. 1983 hat man noch die erste Ziffer (Nr. der Zentralvermittlungsstelle) abgesetzt und dann die weiteren Ziffern, teilweise mit erneuter Leerstelle abgedruckt.
Auf jeden Fall sind hochaufgelöste Scans für Dich wesentlich einfacher zu handhaben, wie ich jetzt verstanden haben. Test erst einmal mit dieser Testseite.
Okay so?
Re: Telexauskunft-Computer 1973
Verfasst: Di 31. Dez 2019, 18:23
von detlef
Werner hat geschrieben: ↑Di 31. Dez 2019, 16:20
ich habe, brav wie ich damals war, das 1983er Teilnehmerverzeichnis nach dem Scannen wieder zum Buchbinder gebracht. Ich lasse das Buch gerne wieder öffnen und kann es dann mit 1200 dpi scannen. Das dauert dann zwar tagelang, aber wo ein Problem ist, da ist auch ein Weg.
Ich schicke Dir morgen einmal eine Seite aus dem Verzeichnis mit Redaktionsschluss 1987, das ist etwas weniger umfangreich als das von 1983 hat aber immer noch 1000 Seiten. Dieses eine Blatt scanne ich mit 1200 dpi und dann kannst Du mal weiter testen. Das Verzeichnis von 1987 hätte den charmanten Vorteil, dass die Telexnummern OHNE Leerstellen im Verzeichnis ausgedruckt wurden. 1983 hat man noch die erste Ziffer (Nr. der Zentralvermittlungsstelle) abgesetzt und dann die weiteren Ziffern, teilweise mit erneuter Leerstelle abgedruckt.
Auf jeden Fall sind hochaufgelöste Scans für Dich wesentlich einfacher zu handhaben, wie ich jetzt verstanden haben. Test erst einmal mit dieser Testseite.
Okay so?
Das ist eben eine Aufwandsabwägung. Bevor du das Buch wieder öffnen lässt und erneut scannst, sollten wir erstmal schauen, wie groß die Fehlerrate bei dem bestehenden PDF ist und wie schnell sich das manuell korrigieren lässt.
Entscheidend für mich ist nicht die Auflösung des Scans sondern Qualität der Texterkennung. Die wird ja von der Scan-Software ausgeführt. Wenn die bei 1200 dpi besser funktioniert, dann haben wir auch weniger Fehler. Ich mache kein OCR. Ich lese nur die bereits erkannten Texte aus der PDF-Datei.
Die nicht abgesetzte Ziffer sollte kein Problem sein, wenn sie immer vorhanden ist. Dann kann ich die per Software rausnehmen.
Re: Telexauskunft-Computer 1973
Verfasst: Di 18. Feb 2020, 11:41
von detlef
Ich möchte hier mal einen Zwischenstand zu dem Projekt geben.
Nachdem Werner noch ein paar Scan-Versuche gemacht hat, hat er mir der 1000 Seiten des Telexverzeichnisses von 1987 nochmal komplett gescannt und ich habe die Daten ausgelesen. Leider ist die OCR-Qualität bei der kleinen Schrift und dem dünnen Papier nicht so gut, wie ich mir erhofft habe.
Ich habe dann in den letzten Wochen die Auslesesoftware optimiert und versucht alle systematischen Fehler zu korrigieren. Zum Beispiel ließen sich die Fehler in den Anschlussnummern seht gut erkennen, weil sie aufsteigen sortiert sind. Die Orte konnte ich gegen im Internet verfügbare Ortslisten prüfen und weitgehend korrigieren. Auch typische Muster von OCR-Fehlern habe ich versucht zu eliminieren. Aus I wird l und aus "Co.," wird "CoqI" (oder ähnlicher Quatsch), Umlaute werden häufig falsch erkannt. Fast alle Kommas wurden zu Punkten. Die Kommas sind aber existentiell, um den Ort und die sonstige Struktur des Eintrags zu erkennen. Anhand von Orts-, Wortlisten und Zeichenlisten, habe ich schon sehr viele automatisch erkennbare Fehler händisch korrigiert.
Man merkt, dass die OCR-Software darauf optimiert ist, bekannte Worte in zusammenhängenden Texten zu erkennen. Mit den vielen unbekannen Eigennamen, Abkürzungen und den sinnlosen Kennungen hat sie massive Probleme. Im Nachhinein hätten wir vielleicht noch etwas mehr Zeit in die Parametrisierung der OCR-Software stecken sollen, wobei ich keine Ahnung habe, was man da überhaupt einstellen kann. Vielleicht gibt es auch OCR-Software, die mit solchen Tabellendaten besser zurecht kommt.
Ich habe jetzt einen Stand mit 150.000 Teilnehmereinträgen, der auf den ersten Blick ganz gut aussieht. Wenn man natürlich genauer reinschaut, findet man noch haufenweise Fehler.
Wenn man das einigermaßen korrekt haben will, muss man händisch vergleichen. Dafür könnte ich aus den Daten wieder eine PDF-Datei erzeugen und die seitenweise genauso setzen, wie das Original (die Formatierungsdaten und Zeilenumbrüche habe ich mit gespeichert). Dann kann man die nebeneinanderlegen und vergleichen. Wenn man die 1000 Seiten auf einige Leute verteilt und man sich immer mal 50 Seiten oder vornimmt, ist das durchaus machbar. Muss ja nicht morgen fertig sein.
Was natürlich gegenüber der Orginalauskunft fehlt, sind die vollständigen Adressedaten. Im Moment haben wir nur den Firmennamen, den Ort und die Kennung aus dem Telexverzeichnis.
Aber wir haben jetzt einen Stand, mit dem man schon mal eine automatische Auskunft implementieren kann. Es werden dann eben die fehlerfaften Einträge nicht gefunden.
Der Alogrithmus der damaligen Suche ist in einem historischen Dokument sehr gut beschrieben und ließ sich leicht umsetzten. Nur ein paar Details sind mir noch unklar. Da bin ich noch am Probieren.
Die Suche basiert auf einer Hash-Tabelle aller Worte, die in allen Teilnehmereinträgen vorkommen (ca. 111.000 Worte). Im Prinzip funktioniert das so: Für jedes Suchwort, das man eingibt, werden alle zugehörigen Teilnehmereinträge ermittelt, in denen sie vorkommen. Dafür enthält jedes Suchwort eine Referenzliste auf die Einträge, in denen sie vorkommen. Bei mehreren Suchworten, wird nach bestimmten Regeln die Schnittmenge der gefunden Teilnehmeeinträge gebildet. Und dan gibt es nochmal einige Regeln, um die relevanten Einträge zu erkennen und auszugeben. Für einen TR86-Rechner von 1977 war das bei den Datenmengen ein stramme Leistung.
Heute sind 150.000 Datensätze ein Klacks. Das packt man alles in ein Dictionary und macht einen phonetische Suche. Ich versuche aber, den historischen Algorithmus möglichst gut nachzubilden.
Re: Telexauskunft-Computer 1973
Verfasst: Di 18. Feb 2020, 20:31
von ReinholdKoch
Hallo Detlef,
das klingt schon spannend was Du heute berichtet hast.
Gibt es denn bereits Ergebnisse, die dokumentiert sind, zur Einsichtnahme?
Sofern es um Korrekturen geht, die angeschaut und evtl . ergänzt, verbessert werden sollen, erkläre ich mich gern bereit, in dem Projekt mit arbeiten zu wollen.
Re: Telexauskunft-Computer 1973
Verfasst: Di 18. Feb 2020, 20:58
von Franz
ReinholdKoch hat geschrieben: ↑Di 18. Feb 2020, 20:31
Sofern es um Korrekturen geht, die angeschaut und evtl . ergänzt, verbessert werden sollen, erkläre ich mich gern bereit, in dem Projekt mit arbeiten zu wollen.
Vielen Dank Reinhold, da biete ich mich ebenfalls an ... habe (fast) jeden Tag, wo ich morgens schon um 06.00 Uhr im Büro bin und der "Alltagsbetrieb" erst gegen 8 oder 8.30 Uhr losgeht, viel Zeit, für sinnvolle Tätigkeiten
Re: Telexauskunft-Computer 1973
Verfasst: Di 18. Feb 2020, 21:03
von detlef
ReinholdKoch hat geschrieben: ↑Di 18. Feb 2020, 20:31
das klingt schon spannend was Du heute berichtet hast.
Gibt es denn bereits Ergebnisse, die dokumentiert sind, zur Einsichtnahme?
Sofern es um Korrekturen geht, die angeschaut und evtl . ergänzt, verbessert werden sollen, erkläre ich mich gern bereit, in dem Projekt mit arbeiten zu wollen.
Im Moment ist du Suche noch offline. Ich bin noch am Experimentieren. Aber ich denke in 2-3 Wochen (vielleicht werden es auch vier
) habe ich ein Telex-Interface gebaut, so dass ich die Auskunft testweise online stellen kann.
Für die Korrekturen muss ich mir noch etwas einfallen lassen, wie man die Korrekturen erfassen kann, ohne dass die Textformatierung kaputt geht.
Die Teilnehmereinträge sehen im Texteditor im Moment so aus:
Code: Alles auswählen
0317017 468354 roeso d Röhrig, Gerhard, Heppenheim,\nBergstraße [Heppenheim (Bergstraße)]
0317018 468356 eltra d Schmidt-Hager, M., Einhausen,\nHess [Einhausen (Hess)]
0317019 468357 rigu d RGF, Rimbacher\nGummiwaren-Vertriebsgesell-\nschaft mbH, Rimbach, Odenw [Rimbach (Odenw)]
0317020 468358 bertz d Bertz Ladenbau GmbH,\nHeppenheim, Bergstraße [Heppenheim (Bergstraße)]
0317021 468359 mono d MONOFLO\nTränkenvertriebs-GmbH & Co.,\nKG, Heppenheim, Bergstraße [Heppenheim (Bergstraße)]
0317022 468360 blrkh d Elirkholz Kunststoffwerk GmbH,\nHeppenheim, Bergstraße [Heppenheim (Bergstraße)]
Die erste Spalte enthält Steuerdaten. Das \n sind die Zeilenumbrüche aus dem gedruckten Telexverzeichnis. In eckigen Klammern steht am Ende noch mal die erkannte Ortsangabe (zusätzlich, zur Kontrolle).
Beim Korrigieren muss man im Moment aufpassen, dass sich die Spalten nicht verschieben und dass die \n erhalten bleiben. Das muss ich noch irgendwie komfortabler machen, sonst ist das Korrigieren zu mühsam und fehleranfällig