Vorschlag für autom. Edit: Schreibweise Straßennamen

Noch einmal ein Erweiterungsvorschlag, der sowohl die Straßennamen (name-Tags) als auch addr:street-Tags betrifft. Von zwei identischen Postings in den jeweiligen Fäden sehe ich ab :wink: (Die Ersetzungsregeln für name und addr:street sind identisch und sollen es auch bleiben. Änderungen nehme ich entweder an beiden vor oder an keiner von beiden.)

Es geht um eine der Ersetzungen, welche ich vom ursprünglichen Vorschlag in #74 zu der abgespeckten Version in #132 aufgrund des Widerspruchs von slhh verworfen habe - vergessene Buchstaben:

Sraße -> Straße
Staße -> Straße

Weiter ist die Frage, ob die analogen Fälle mit kleinem s ebenfalls ersetzt werden sollten. Mir fallen keine legitimen Fälle von -s-raße oder -s-taße ein (laut Duden ist raß ein süddeutsches Adjektiv mit der Bedeutung scharf und wird u.a. zu raße dekliniert, jedoch gibt es kein solches Substantiv).

Bei den Straßennamen wären von der Sraße/Staße-Regel betroffen (leicht veraltete Liste):

      1 Brook-Taylor-Sraße
      1 Carl Bosch Sraße
      1 Havelberger Sraße
      1 Heldrunger Sraße
      1 Johann Sebastian Bach Sraße
      1 Karl-Schrader-Staße
      1 Kösener Sraße
      1 Leipziger Sraße
      1 Niersteiner Sraße
      1 Plattenburger Sraße
      1 Wachauer Staße
      1 Weimarer Sraße
      3 Bernburger Sraße

Hier scheint mir völlig eindeutig, daß nichts anderes als “Straße” gemeint sein kann.

Die Version mit kleinem s beträfe ferner:

      1 alte Römerstaße
      1 Arlerstaße
      1 Feldsraße
      1 Hauptsraße
      1 Kirchstaße
      1 Pommernstaße

Ich bin neulich per Zufall auch über eine gleichartige Ersetzung durch xybot gestolpert, welche freilich nicht dokumentiert ist. Daher erfaßt obige Auflistung vermutlich nur jene S[tr]aßen, welche seit September entstanden sind.

Meinungen?

Ich finds ok.

Diesen Fällen hatte ich in #78 nicht wirklich widersprochen, sondern sie unter Berücksichtigung der Wahrscheinlichkeit für akzeptabel gehalten.

Sraße scheint auch recht sicher zu sein. Mir fallen jetzt jedenfalls nur potentielle Problemfälle ein, die dann schon zwei Tipfehler enthalten würden. Diese müssen wir dann wohl nicht berücksichtigen.

Bei Staße könnten es noch Tipfehler von Stage, State, Stake oder Stauße (scheint es selten als Eigenname zu geben) sein.
Allerdings dürften die Wahrscheinlichkeit dazu sehr gering sein.

Ich sehe hier auch kein Problem, etwas richtiges zu zerstören. Die Möglichkeit bei Tipfehlern in die falsche Richtung zu korrigieren, wäre aber gegeben. Beispiele wären Tipfehler von …s-rate, …s-rabe, …s-rahe, …s-maße und …st-maße.

Wenn du das Protokoll aber entsprechend nachkontrollierst, sollte es aber ok sein.

Die von dir gelisteten Beispiele aus der Datenbank sind wohl hinreichend eindeutig korrigierbar. Allerdings haben diese auch alle eine Gemeinsamkeit, dass das vermeintliche [sS]traße am Ende des Namens (und nicht nur am Ende des Wortes) auftritt. Wenn man diese Einschränkung auch in die Regel einbaut, dürfte die Sicherheit deutlich steigen.

Ich habe gerade mal bei den Straßennamen nachgeschaut, was es so an /Sta.e\b/, /Sra.e\b/ und /S.aße\b/ gibt, also möglichen Vertippern, die falsch korrigiert werden könnten: /Sra.e\b/ liefert erwartungsgemäß dasselbe wie /Sraße\b/; /S.aße\b/ dasselbe wie /S[tr]aße\b/. Bei /Sta.e\b/ kommen Namen heraus mit Staue, Stahe, Stade und Stabe (letztere zwei als Wilhelme) - aber keines der von Dir genannten Beispiele :wink: (auch Stauße tritt nicht auf). Allerdings erscheint es mir recht unwahrscheinlich, daß ein Tippfehler ausgerechnet einen entlegenen Buchstaben wie das ß hervorbringt.

Auch dazu der Abgleich, was bisher in Straßennamen vorkommt: /sta.e\b/ führt auf (Ge-)stade, Gustave(-Eiffel), (Teufel-)s-tale u.ä., (Swi)-st-aue; /sra.e\b/ auf (Bock)-s-rade u.ä.; /s.aße\b/ genau auf die Fälle, die korrigiert werden sollen. Auch hier hilft, daß das ß auf der Tastatur von den jeweils richtigen Buchstaben recht weit entfernt ist. (Ich sollte mir wohl mal einen allgemeinen Tippfehler-Algorithmus ausdenken, um konkurrierende Tippfehler systematisch zu finden…)

Da ist was dran. Ich würde wieder auf die Regel setzen, daß ein Leerzeichen oder das Stringende folgen muß. “Staße des Frühstückseis” und “Doktor-Klöbner-Staße” würden ersetzt, “Fritz-Staße-Weg” nicht. Restrisiko: “Fritz Staße Weg” geht kaputt (enthält aber mutmaßlich auch schon vor der Ersetzung zwei Fehler). Ähnlich für Varianten mit kleinem s.

Ich hatte eigentlich auf zahlenmäßig etwas breitere Rückmeldung gehofft… auch wenn ich eigentlich kein Anhänger von “chi tace, acconsente” bin, werde ich die Ergänzungen (Staße, Sraße, -staße, -sraße gefolgt von Leerzeichen oder Stringende) heute aktivieren.

Der “Strasse”-Berg bei den Adressen ist mittlerweile durch, nun bekommt das Programm hoffentlich wieder etwas vielfältigeres Futter zur weiteren Erprobung.

Edit: die heutige Häufung von Änderungssätze geht im Wesentlichen auf “Staße” in addr:street zurück.

Wie wäre es mit “Strasse”-Korrekturen

  • in Bushaltestellen und stop_area-Relationen (bei beiden nur name, nicht uic_name, da es bei letzterem bewusst gewollt sein könnte) sowie

  • in ÖPNV-route-Relationen (Tags from, to und via - nicht name, da das afaik nur zur Darstellung in Editoren dient und möglicherweise entsprechend “gekürzt” (z.B. H-Maier-Str statt Hans-Maier-Strasse) wurde),

jeweils bei Stringende, Leerzeichen *oder Komma* (wegen uic_name und Listen in via) hinter "str."/"strasse"/whatever?

mfg~ray

Ich weiß nicht, wie es zu deuten ist, daß sich bisher sonst noch niemand dazu geäußert hat. Bisher sehe ich einen solchen erweiterten Einsatz eher reserviert. Begründung auf der Wiki-Seite:

Ich gebe zu, daß ich dabei sicher auch ein wenig Mapnik-zentrisch denke: name=* an einer Straße ist auf “der Karte” zu sehen, der Name einer ÖPNV-Route nicht. Sofern Dein Vorschlag hier im Forum nicht doch noch tosenden Jubel entfacht, würde ich es weiter bei der Beschränkung auf Straßen belassen und das Programm allenfalls regional (z.B. innerhalb eines Verkehrsverbundes) für erweiterte Aufgaben einsetzen, wenn dies von den dortigen Mappern ausdrücklich gewünscht wird.

Als Korrektur sicher nicht so ohne weiteres. Als Prüf-Werkzeug (was sieht verdächtig aus) kann ich mir das aber durchaus vorstellen.
Bei Bushaltestellen wird gerne mal [sS]traße zu [sS]tr. abgekürzt. Auch andere Teile eines Namens werden gelegentlich abgekürzt. Was ich noch nicht gesehen habe, ist [sS]trasse statt [sS]traße.

Selbst als Prüf-Werkzeug würde ich es nur auf Anfrage gezielt für eine Region starten.

Edbert (EvanE)

Laut hdyc - http://hdyc.neis-one.org/?Wall·E - hat Wall·E gestern die Marke von 3000 angefaßten Objekten durchbrochen (damit wird er freilich noch als “Casual Mapper” geführt, und der verwendete Editor fristet ein unwürdiges Dasein als “unknown”). Anläßlich dieses kleinen Jubiläums möchte ich mal ein Zwischenfazit ziehen und einen Überblick über das bisher geschehene geben.

Zunächst vielen Dank für den Zuspruch und die freundlichen Worte, die in diesem und den anderen Fäden geäußert wurden und auf die ich nicht jedes Mal einzeln antworten wollte, die ich aber in jedem Fall zu schätzen weiß. Ferner auch danke für die Geduld angesichts der diversen Fäden mit zum Teil langatmigen Erklärungen, mit denen ich das Forum geflutet habe. Und besonderen Dank noch einmal an Henning für die technische Unterstützung in der Anfangsphase (wo steckt der eigentlich?).

Mittlerweile gibt es zwei Korrekturprozesse: einer korrigiert die Namen von Straßen (Wege mit diversen Werten von highway), der andere kümmert sich um Adresstags. Ersterer ist hinreichend getestet und kann ohne allzu enge Überwachung laufen (im Prinzip als cronjob, wenn ich eine entsprechende Heimat für das Programm hätte); letzterer befindet sich noch in der Erprobung und wird sukzessive um weitere Teilaufgaben ergänzt. Diese Erprobung wird sicher noch einige Wochen dauern, u.a. weil der Bot bei der Korrektur mancher Fehler mit Nutzern des housenumbervalidator “konkurriert” (den ich an dieser Stelle übrigens ausdrücklich empfehlen möchte; insbesondere die Duplikatprüfung von Adressen bietet kein anderes mir bekanntes Werkzeug).

Wall·E hat nun also (alle Zahlen laut hdyc) 3049 Objekte angefaßt und ist in 2812 Fällen (gut 92%) noch letzter Bearbeiter. Die meisten Korrekturen bezogen sich auf Adresstags (76 %), eine Minderheit (24 %) auf die Namen von Straßen selbst (Zahlen etwas verzerrt: nur Objekte als letzter Bearbeiter). 8% der Objekte wurden anschließend wieder bearbeitet, davon aber nur ein eher kleiner Anteil im Zuge normalen Mappings. In den meisten Fällen habe ich selbst, gelegentlich auch andere, noch weitere Fehler korrigiert, die der Bot nicht erkannt und demzufolge nicht behoben hat (typischer Fall: addr:street=“Karl Ranseier Strasse 28” wird zu “Karl Ranseier Straße 28” korrigiert; es fehlen aber immer noch die Bindestriche und die 28 gehört natürlich in addr:housenumber - auf die Zahl im geänderten addr:street-Tag reagiert der Bot mit einer Warnung im Protokoll). Ferner wurde (abgesehen von einem versehentlichen Revert, der inzwischen geklärt wurde) lediglich genau ein Straßenname auf die vorige Schreibweise zurückgesetzt (die mittlerweile hinlänglich bekannte Matthias-Joseph-Mehs-Strasse aus der rheinland-pfälzischen Straßenliste).

Bisher ist mir bei der Durchsicht der Protokolle und Änderungssätze bislang nur ein einziger Fall untergekommen, wo eine falsche Korrektur vorgenommen wurde: ein versehentlich eingefügtes Leerzeichen führte zur Korrektur von “Str aße” zu “Straße aße” (dieser in der Planung nicht bedachte Sonderfall wird inzwischen erkannt und unterbunden). Dies ist im Grunde die positive Erkenntnis des bisherigen Betriebs: das Programm hat noch etliche Macken, insbesondere was den Umgang mit Fehlern angeht (Verbindungsabbruch, Erzeugung eines Änderungssatzes fehlgeschlagen usw.), aber mit der eigentlichen Korrektur hat es bislang keine nennenswerten Probleme gegeben.

Beim Ergebnis der Adresskorrektur bin ich hin- und hergerissen. Einerseits werden in gut 90% der Fälle sämtliche vorhandenen Fehler (oder zumindest alle, die aus der Ferne erkannt und behoben werden können), korrigiert, sodaß die Objekte anschließend zumindest in Bezug auf Adresstags fehlerfrei sind; außerdem wurden auch bereits hunderte Fehler behoben, die nicht einmal vom housenumbervalidator angezeigt werden. Andererseits finde ich es unbefriedigend, daß doch bei einem nicht unerheblichen Anteil noch weitere Arbeit erforderlich ist. Ich hatte zwar nie den Anspruch, mit dem Bot alle nur denkbaren Fehler zu beseitigen, und es war natürlich damit zu rechnen, daß auch an bearbeiteten Objekten noch Fehler verbleiben - auch wenn mir eine Quote von 5 bis 10 Prozent nicht gefällt. Leider muß man aber wohl sagen: die Qualität unseres Datenbestandes ist einfach so. Und auch daß Fehler häufig korreliert auftreten, ist keine grundsätzlich neue Erkenntnis - von daher ist bei einem Objekt mit einem falschen, aber (durch den Bot) korrigierbaren Adresstag unweigerlich auch eine gegenüber dem Durchschnitt erhöhte Wahrscheinlichkeit für weitere, nicht korrigierbare Fehler gegeben.

Vielen Dank für Deine Arbeit, Oli-Wan!

Apropos addr: Bin gerade im Nachbarort über einige Straßen (highway) gestolpert, die statt des “name” ein “addr:street” gesetzt hatten. Könntest/Möchtest Du das gleich mit korrigieren?
Gruß, Heinz

Einen Roboter aus Hamburg, der meist Donnerstags um 20:00 bearbeitet hast du da also erschaffen :smiley:

Ich denke darüber nach, auch “Strase” bzw. “-strase” mit aufzunehmen (war in #74 schon mal vorgesehen, fiel dann aber heraus). Angesichts der bisher eher geringen Häufigkeit solcher Namen (siehe unten, für meine Begriffe in allen Fällen eindeutig falsch) könnte man auch manuell aufräumen; mit Aufnahme in die Regeln von Wall·E wäre das Thema aber natürlich nachhaltiger erledigt.

Häufigkeit in name von highway=… (germany.osm grenzgenau nachgeschnitten)

      5 Labahnstrase
      3 Bergstrase
      2 Commendestrase
      1 Talstrase
      1 Peter-Gast-Strase
      1 Friedhofstrase
      1 Falkenstrase
      1 Emlichheimerstrase
      1 Braunstrase

Einige davon sind steinalt (letzte Bearbeitung 2008 oder 2009), aber auch 2012 wurden noch neue erzeugt.

Häufigkeit in addr:street (germany.osm ohne Nachschneiden)

      2 Hofmaierstrase
      1 Humboldstrase
      1 Merkenicher Hauptstrase

Meinungen?

+1

Finde ich gut. Und Strase ist auch eigentlich immer ein Tippfehler, dh die Chance für fehlerhafte Berichtigungen geht gegen 0.

Wichtig wäre aber auf Endung strase bzw. Strase zu prüfen, sonst gibt es Probleme mit offiziellen Straßennamen

  • Strasener Chaussee
  • Strasen

bzw in Kleinschreibweise

  • Auf dem Pfingstrasen
  • Pfingstrasen
  • Am Pfingstrasen
  • Pfingstrasenstraße

Viele Grüße

Dietmar aka okilimu

Das ist richtig und auch so vorgesehen. Technisch gesehen geht es nur darum, ein “s” in die folgende -Gruppe einzufügen:

"\\([Ss]\\)tra[-09βẞ]e\\b"

\b prüft auf Wortende.

Klasse, dass das so gut läuft.

Zu den 5-10 % nicht mitkorrigierter Fehler bei addr:street:

Ich bin gerade über eine Addresse gestolpert, wo der Bot aus der Hagenerstr die Hagenerstraße gemacht hat.
Ich werde die jetzt in Hagener Straße ändern.

Die Straße in der Nähe heißt auch so.
Kannst du also ne Overpassanfrage einbauen, die bei zu korrigierenden Addressen schaut, ob es in der Nähe eine Straße mit dem Namen gibt und wenn nicht dein Warnungsprotokoll zuspammt?

PS: Es wäre vllt. auch was für den Hausnummernvalidator zu schauen ob in der Nähe eine Straße mit dem Namen vorhanden ist.
Auf das fehlende addr:city-Tag ist jemand dadurch aufmerksam geworden, den Straßennamen hat er ignoriert.

Ja, mit diesen Fällen bin ich auch noch nicht zufrieden. Es entsteht zwar kein neuer Fehler, aber daß noch etwas faul ist, sollte nach Möglichkeit zumindest bemerkt werden.
Einige ähnliche Namen (ich hoffe: die meisten) habe ich bisher selbst korrigiert, aber in Zukunft werden die natürlich durchrutschen, wenn ich nicht mehr Objekt für Objekt kontrolliere.
Ich hatte bisher in die Richtung gedacht, aus einem Katalog von Vornamen, Nachnamen und Ortsnamen etc. plausible Straßennamen zu basteln, aber die Overpass API ist zumindest für addr:street eine Alternative. Ich bin gerade dabei, Log-die Vermerke zu verdächtigen Tags zu verbessern. Die Idee mit der Overpass API gefällt mir und im Grunde muß ich dafür noch nicht einmal neuen Code schreiben, weil bei der Straße/Hausnummer-Zerlegung genau eine solche Abfrage genutzt wird. Wird mindestens ausprobiert - danke!

Ähnliches habe ich schon des öfteren gesehen. Auch so ein Beispiel: http://www.openstreetmap.org/browse/way/26946781/history
Unter anderem daran habe ich seinerzeit die Funktionen zur Trennung von Straße/Hausnummer und PLZ/Ort ausprobiert. Wenig später hängt ein User addr:country=DE dran, ein weiterer User macht einen Nulledit. Viel hilft viel. (Die spätere Löschung geht in Ordnung, da wurden die Kliniken neu strukturiert.)

Würde ich lieber bleiben lassen. Hier mal ein Beispiel: Hammer Straße (Straße nach Hamm) und Hammerstraße (wo der Hammer hängt). Gibt bestimmt noch andere Fälle.

Gruß
walter

Hallo Walter, Oli-Wan

Hier noch ein schöner aus Bonn:
Usenerstraße ist so richtig geschrieben, da sie nach dem Bonner Professor Usener und nicht nach einem Ort benannt wurde. Ich habe das damals beim Abgleich mit der (Flohoff) Straßenliste extra kontrolliert. Ob des Professors Nachname vom Herkunftsort seiner Familie stammt, habe ich nicht ermittelt. Ich halte das für durchaus möglich.

PS: http://de.wikipedia.org/wiki/Hermann_Usener (Das interessierte mich jetzt selbst.)

Edbert (EvanE)