Seite 7 von 18

Re: Telexauskunft-Computer 1973

Verfasst: Sa 9. Mai 2020, 11:52
von Patrick
Zusammenfassung der Übersichtlichkeit wegen:

1-99 : Reinhold
100-199 : Franz
200-299 : ?
300-399 : ?
400-499 : Patrick
500-599 : Jan
900-999 : Detlef

Re: Telexauskunft-Computer 1973

Verfasst: Sa 9. Mai 2020, 12:05
von detlef
Ja, genau. So habe ich mir das auch notiert.

Ich habe mal bei 900 angefangen. Weiss aber nicht, wie oft ich dazu kommen werden.

Re: Telexauskunft-Computer 1973

Verfasst: Sa 9. Mai 2020, 12:10
von detlef
Auf dem Google-Drive liegt inzwischen eine Version 1.0.0.3. Einfach in das Verzeichnis entpacken und die vorhandenen Dateien überschreiben.
Die Datei "ATxT87_990_korr.txt" ist in der Programm-ZIP-Datei nicht enthalten, wird also nicht überschrieben. Aber vielleicht doch sicherheitshalber vorher mal sichern. ;)

Hier die Programmänderungen:

Code: Alles auswählen

1.0.0.0 - Erste Version
1.0.0.1 - Es wird jetzt ein Log-File geschrieben
          bessere Fehlerbehandlung bei fehlenden oder fehlerhaften Dateien
          Auswahl der Seite durch eingabe der Seitennummer funktioniert jetzt
          Spaltenauswahl entfernt (hatte keine Funktion)
1.0.0.2 - Anzeige des Änderungs-/Speicherstatus (Button-Farbe)
          Markierung geänderter Einträge in der Korrekturdatei (mit %)
          Anzeige veränderter Einträge als "C" oberhalb der Edit-Felder
1.0.0.3 - Problem (Absturz) behoben, wenn Index auf der Seite nicht mit 1 beginnt

Re: Telexauskunft-Computer 1973

Verfasst: Sa 9. Mai 2020, 12:41
von detlef
Noch ein wichtiger Hinweis zur Korrektur !!!

Vor einigen Ortsnamen steht ein Dollarzeichen ('$'). Lasst das bitte drin. Das ist ein Steuerzeichen für die Ortserkennung. Daran hatte ich nicht mehr gedacht.

Und nochmal der Hinweis: Bitte genau auf die Punktion achten. Also Punkte, Kommas und Bindestriche genau so wie in der Vorlage. Auch die Leerzeichen sind wichtig. Das ist manchmal etwas unübersichtlich bei den vielen Abkürzungen. Auch auf den Unterscheidung zwischen "~" und "-" achten. "~" ist das Trennzeichen. Diese Worte werden später bei der Auskunft zusammengesetzt. "-" ist der Bindestrich. Diese Worte werden in der Suche getrennt behandelt.

Re: Telexauskunft-Computer 1973

Verfasst: Sa 9. Mai 2020, 14:43
von detlef
Patrick hat geschrieben: Fr 8. Mai 2020, 23:38 Die OCR Software hat da wo es nur ging aus Wörterbüchern Einträge übernommen und insbesondere bei den Kennungen hier und da Text ersetzt (der vermeintlich als schlecht erkannt wurde) ..... und es ist auch nicht gerade wenig was angepaßt werden mußte. Zahlen und Orte sind in der Regel ok, aber auch werden Buchstaben dazu addiert z.B. Schorndorf anstatt Schondorf usw.
Ja, es ist interessant zu sehen, wie die OCR-Software gnadenlos auf seine Wörterbücher zurückgreift und scheinbar sinnlose Worte einfach ersetzt.
Leider ist mir das erst aufgefallen, als ich schon umfangreiche Korrekturen an den anderen Spalten vorgenommen hatte. Deswegen kam ein Neuscannen nicht mehr in Frage.

Dass die Zahlen, Namen und Orte schon einigemaßen fehlerfrei sind, liegt an der Vorarbeit.

Die Nummern sind aufsteigend. Ich konnte mir also per Software alle Nummern mit ungültigen Zeichen und Fehlern in der Reihenfolge (durch falsche Ziffern) ausgeben lassen und habe die bereits korrigiert

Bei den Namen habe ich mir eine Liste aller Worte und deren Häufigkeit erstellen lassen und habe die offensichlich fehlerhaften korrigiert.
Die Orte habe ich gegen Ortslisten aus dem Internet abgeglichen. Dumm ist nur, dass hinter dem Ort manchmal noch eine Region oder Kreis steht. Die Software muss also erkenne, ob das letzte Feld ein Ortsname oder eine Region ist. Im letzteren Fall steht der Ortsname im vorletzten Feld.

Für die Erkennung der Ort mussten natürlich die Kommas erstmal richtig sitzen. Ein großes Problem war, die OCR-Software 80% der Kommas als Punkte erkannt hat.

Mit Schondorf hast du vermutlich einen der wenigen verbliebenen falschen Ortsnamen entdeckt. Ich dachte, ich hätte die alle korrigiert. ;)

Re: Telexauskunft-Computer 1973

Verfasst: Sa 9. Mai 2020, 14:50
von detlef
Ich nochmal. ;)

Wie geht ihr eigentlich bei der Kontrolle der Einträge vor? Habt ihr eine Systematik?

Also ich vergleiche immer erstmal die Nummer und die Kennung. Dann prüfe ich die Schreibweise von Name und Ort und als letztes schaue ich mir noch die Satzzeichen an, also ob die Punkte, Kommas und Bindestriche stimmen.

Das klappt eigentlich ganz gut.

Re: Telexauskunft-Computer 1973

Verfasst: Sa 9. Mai 2020, 16:17
von Patrick
ja genauso mache ich es auch. Oft habe ich Probleme ein i und ein l auseinanderzuhalten, manchmal ist das Original auch schwierig zu erkennen ob i oder l.
Grüße

Re: Telexauskunft-Computer 1973

Verfasst: Sa 9. Mai 2020, 16:52
von JanL
Ich gehe auch so vor. Probleme habe ich auch beim i und l sowie bei der Unterscheidung zwischen Punkt und Komma.
Bei einigen Einträgen hat die OCR Software sich ja total verhauen. Da musste ich erstmal genau gucken, ob ich nicht vielleicht einen Fehler gemacht habe. Leider habe ich nur ein 13 zoll Windows Notebook mit niedriger Auflösung. Da ist nach einer Seite vergleichen erst einmal eine Pause angesagt.
Wir sind ja nicht unter Zeitdruck.
Gruß
Jan

Re: Telexauskunft-Computer 1973

Verfasst: So 10. Mai 2020, 11:10
von detlef
Da der Wunsch bestand, das Anzeigefeld auf der linken Seite vergrößern zu können, habe ich eine neue Version 1.0.0.4 abgelegt.
Wenn man das Programmfenster verbreitert, dann vergrößert sich die Schrift. Das Edit-Fenster zoomt zwar nicht mit, hat jetzt auch eine hoffentlich besser lesbare Schrift.
Das PDF-Fenster lässt sich übrigens mit Strg + Mausrad zoomen. Das ist zwar etwas umständlich, aber auf die Schnelle lässt sich das nicht besser lösen. ;)

Re: Telexauskunft-Computer 1973

Verfasst: Mo 11. Mai 2020, 10:48
von detlef
Ich habe gestern Abend die ersten 10 Seiten fertiggestellt.
Eigentlich klappt das ganz gut und geht zügiger, als ich befürchtet hatte. ;)