Vorschlag für autom. Edit: Schreibweise Straßennamen

@aighes
Der Aufteilung in die zwei Listen stimme ich zu. Die Definition der Listen muss aber noch etwas korrigiert werden, denn z.B. die Zeichendreher dürften schon eindeutige falsche Rechtschreibung sein, wenn auch nicht ganz sicher von Straße:
Liste 1: Eindeutige Falschschreibungen von Straße
Liste 2: Vermutliche Falschschreibungen von Straße

Was ist mit den fehlenden Zeichen? Hast du bei denen zu große Bedenken oder können wir diese in Liste2 einordnen?

Ja, so in der Art war das gedacht mit der Schreibweise (eindeutig vs. vermutlich). Ich würde bei eindeutig erstmal konservativ sein und bei mehr Erfahrung vermutliche Schreibfehler zu den eindeutigen hinzufügen. Das wird dann die Erfahrung/Häufungen bei den vermutlichen Fehlern zeigen.

An fehlende Zeichen hab ich noch nicht gedacht, würde ich aber auch erstmal unter vermutlich parken.

Mir fällt gerade auf, dass man die Definition besser noch etwas anders wählt, um auch zuküftige Erweiterungen sinnvoll mit zu erfassen:
Liste1: Eindeutig korrigierbar
Liste2: Vermutlich korrigierbar

Dann will ich auch gleich noch einen weiteren Erweiterungsvorschlag machen: Kleines beta und Versal-ß könnten allgemein zu ß korrigiert werden, denn sie sollten in deutschen Straßennahmen nicht auftauchen sollten. Für den Fall, dass sie sich nicht in “Straße” befinden, sollte diese Korrektur zumindest zunächst nur Liste 2 zugeordnet werden.

@Oli-Wan
Ich glaube deine Wiki-Seite ist nicht korrekt nach den Mechanical-Edits Regeln benannt und müßte “Mechanical Edits/Wall E” genannt werden.

Kennt ihr eigentlich die OSM-Straßenlistenverwaltung und die dazugehörige Auswertung?
Es geht dabei um den Abgleich von offiziellen Straßenlisten mit den in OSM vorhandenen Straßen. Die Straßenlisten wurden von den Gemeinden zum Abgleich mit OSM Daten zur Verfügung gestellt.

Die Staßenlisten selbst sind im Wiki zu finden:
http://regio-osm.de/listofstreets/wiki/index.php/Hauptseite
Dort z.B. nach Gemeindenamen oder Straßennamen suchen.

Eine grapische Darstellung der Abdeckung ist hier zu sehen:
http://regio-osm.de/strassenliste/grafikdarstellung/index.html
Hamburg und Bremen sind hier nicht aufgeführt, scheinen aber dennoch komplett zu sein.
Rheinland-Pfalz und Thüringen sollen vollständig vorhanden sein, wobei in Thüringen derzeit die Auswertung teilweise nicht möglich ist, da der Redaction-Bot die Gemeindegrenzen teilweise gelöscht hat.
Bei den anderen Bundesländern ist die Abdeckung sehr unterschiedlich, von fast nichts bis fast vollständig.

Startseite der Auswertung:
http://regio-osm.de/strassenliste/

Übersicht über die Verwaltungseinheiten, Copyright-Hinweise und Kontakt-Adresse
http://regio-osm.de/strassenliste/data.html
http://regio-osm.de/strassenliste/Bundesrepublik+Deutschland/index.html

Etwas Hintergrund-Information zur Auswertung, die übrigens täglich aktualisiert wird, ist hier zu finden:
http://regio-osm.de/listofstreets/wiki/index.php/Details_zur_Auswertung
http://regio-osm.de/listofstreets/wiki/index.php/Gemeindegebiet

Ein Forums-thread zu diesem Thema ist hier:
http://forum.openstreetmap.org/viewtopic.php?id=18632&p=1

Ein Auswertungsbeispiel:
http://regio-osm.de/strassenliste/Bundesrepublik+Deutschland/Brandenburg/Brandenburg+an+der+Havel.html
Bitte unten die Gesamtliste betrachten:
Hier kann man ideal erkennen, dass z.B. folgende Namen in dieser Gemeinde ersetzt werden können:
Schloßallee → Schlossallee
südring → Südring
Siedlungstraße → Siedlungsstraße

Da aus den Links direkt das OSM Objekt hervorgeht, müsste der Bot nur diese Auswertungseiten parsen und etwas Pattern-Matching unter Annahme typischer Tipp- oder Rechtschreibfehler machen.
Vielleicht könnte man sogar noch einfacher zu parsende Daten bekommen, wenn man mal nachfragt. Irgendwo meine ich dazu was von osm-Files gelesen zu haben, wobei mir aber nicht bekannt ist, was diese enthalten.

Diese Listen sollten auch eine ideale Basis darstellen, um addr-Tags zu korrigieren. Vielleicht könnte man dazu auch den Code von der Straßenlistenauswertung bekommen und passend erweitern.

Soweit es um die Korrektur der Namen der Straßen selbst geht, würde ich beim Abgleich mit der Straßenliste nur mininimale Abweichungen automatisch korrigieren, wenn es sich um Städte (oder Gemeinden) mit sehr vielen Straßen handelt. Dies hat zwei Gründe:
Zum einen ist hier die Verwechslunggefahr bei der Korrektur höher, da es mehr Straßen gibt und diese möglicherweise durch Eingemeindungen ähnliche Namen haben können.
Zum anderen ist die Wahrscheinlichkeit in diesen Städten höher, dass sich ein Mapper manuell um den Abgleich mit der Straßenliste kümmert, so dass es weniger nötig ist, dass alle Korrekturen automatisch gemacht werden.

Dieses gilt jedoch nicht für addr Tags. Erstens würden diese weniger manuell korrigiert und zweitens kann man eine Verwechslung besser ausschließen, da man zusätzlich zu den Namen der offiziellen Liste auch noch die Namen der Straßen in OSM heranziehen kann. Dazu ist es aber wichtig, dass nicht zuvor ein Straßenname fehlerhaft aus OSM eliminiert wurde. Auch wenn bei addr stärker korrigiert wird, kommt die verminderte Korrektur bei den name Tags also der Sicherheit gegen Fehlentscheidungen zugute.

Kleine allgemeine Anmerkung: Den Bot zur einheitlichen Schreibweise von Straße halte auch ich für sinnvoll, aber so ein Bot versucht “nur” Symptome zu behandeln - nicht aber deren Ursache. Besser wäre die Datenbank schon beim Upload eines Datensatzes möglichst sauber zu halten: Josm z.B. weist mich beim Upload auf Unstimmigkeiten hin. Würde es nicht Sinn machen Josms Prüfroutinen zu ergänzen und dem User ggf. einen Hinweis auf die gewünschte Schreibweise zu geben? Das wäre aus meiner Sicht eher die Stelle an der man ansetzen sollte.

Niemals korrigieren würde ich Namen. Im Thread wurden “Gerhart Hauptmann” Straßen genannt - davon lebten garantiert mehrere, auch mit unterschiedlichen Schreibweisen. Man kann nicht davon ausgehen, dass alle Städte ein und dieselbe Person ehren wollten. Diese Schreibweise sollte Hoheit des Mappers bleiben.

@slhh:
Ich bin mir nicht sicher, ob wir mit den Straßenlisten automatische Änderungen machen dürfen. Außerdem nutzen wir dann eine alte, fehlerhafte Quelle, um unsere fehlerhafte DB zu verbessern.

@Joachim:
Im Editor sowas zu Lösen wäre zwar super, aber das ist recht komplex, weil der Editor eben nicht nur in Deutschland verwendet wird. Hinzu kommt, dass es auch Editoren gibt, die keinen solchen Test machen.

Ein landesspezifisches Plugin zur Rechtschreibprüfung anhand allgemeiner Regeln sollte für JOSM technisch machbar sein. Zum einen dürfte es aber schwierig sein sicherzustellen, dass ein großer Teil der Mapper dieses Plugin tatsächlich aktiviert. Weiterhin würde ich erwarten, dass der größere Teil der vor Ort erkundeten Straßennamen über Potlatch eingegeben wird.

Noch schwieriger wäre ein Abgleich mit Straßenlisten im Editor. Zunächst einmal müßte über die Grenzpolygone, die aber üblicherweise nicht geladen sein dürften, die Gemeindezugehörigkeit bestimmt werden, bevor man die passende Liste auswählen könnte.

Dies gilt zumindest für neu angelegte OSM Wege. Bei vorhandenen Wegen könnte man prinzipiell die Gemeindezugehörigkeit oder auch die potentielle Schreibweise nach Straßenliste per Bot vorab in speziellen Tags ablegen und dann zu Prüfung im Editor heranziehen. Für wirklich sinnvoll halte ich dies aber auch nicht.

Die rechtliche Situation müßte man natürlich genau prüfen. Erwarten würde ich da eigentlich kein Problem. Erwartest du, dass es da wirklich Unterschiede zwischen automatischer und manueller Übernahme gibt? Wenn man die Daten auch nicht manuell übernehmen darf, so frage ich mich, was die Freigabe für OSM Zwecke tatsächlich bewirkt.
Einen puren Vergleich, ohne die Daten zu übernehmen, sollte man doch wohl auch ohne spezielle Rechte machen dürfen. Falls nicht: Welchen Sinn hat dann das Map Compare im OSMI mit der Google Karte?

Ich war bisher der Meinung, dass die Listen nur für den Vergleich da sind (Vollständigkeitsprüfung) und nicht für die Übernehme der Daten zu OSM. Kann mich da aber auch täuschen.

Wenn in der Straßenlistenauswertung für ein Gebiet eine Vollständigkeit von deutlich über 90% vorliegt, sollte keine automatische Fehlerbereinigung mehr erfolgen. Eine manuelle Sichtung vor Ort erscheint mir dann sicherer. In meiner Heimatstadt > 150.000 Einw. sind mir hierdurch fehlerhafte Straßennamen leicht aufgefallen und konnten dann umgehend korrigiert werden.

Gruß
Wolfgang

Prinzipiell werden die Listen schon im Straßenlisten-Wiki gepflegt, aber sicher hast du teilweise Recht.
Das Veralten der Daten ist allerdings weniger schimm, als man annehmen mag, da typischerweise dadurch nur einige Namen fehlen oder zuviel sind.
Dies würde bei der Korrektur von Schreibfehlern nicht grundsätzlich stören. Ausnahmen sind natürlich Fälle, wo die offizielle Schreibweise des Namens sich geändert hat.

Auch wenn man den Straßenlisten nicht blind vertrauen möchte, sollte einiges möglich sein.

Zum einen gibt es Fälle, wo in OSM sowohl die der Straßenliste entsprechende Schreibweise als auch eine abweichende Schreibweise vorkommt, und dies ist auch aus der Auswertung zu ersehen. Wenn der Bot dann auch nochmal den Gegencheck macht, dass die beiden Schreibweise in unmittelbarer Nähe vorkommen, sollte man hinreichende Sicherheit für die Ersetzung haben. Zumindest sollte dies gelten, wenn der größere Anteil der Weglänge schon die potentiell korrekte Schreibweise hat. Häufig sind die Schreibfehler ja in kleinen Straßenabschnitten versteckt, deren Name nicht gerendert wird.

Weiterhin kann man heuristische Korrekturen auf Basis des in OSM vorhandenen Names machen, die wahrscheinlich, aber nicht 100% sicher sind. Wenn der korrigierte Name mit der Straßenliste übereinstimmt, sollte man doch wohl hinreichende Sicherheit haben, um diese Korrektur automatisch vorzunehmen.
Zum Beispiel sollte es hinreichend sein, Gerhard-Hauptmann zu Gerhart-Hauptmann zu ändern, wenn dies von der Straßenliste so gedeckt wird.
Selbst wenn ein Mapper ein Straßenschild mit Gerhard-Hauptmann gesehen haben sollte, stellt sich die Frage, ob die Straße nicht doch Gerhart-Hauptmann heißt und nur das Schild einen Fehler hat.

Für weitere potentielle Korrekturen anhand der Straßenliste, könnte der Bot OSB Eintrage generieren, die mit der Bitte verbunden sind, Informationen über die Erkundung auch an das Straßenlisten-Wiki weiterzugeben, falls es tatsächliche Abweichungen gegenüber der Straßenliste gibt.

Hallo Henning

So habe ich das bisher verstanden (und auch nur genutzt).
Man sollte auch bedenken, dass diese Listen keineswegs vollständig oder frei von Fehlern (Bonn ca. 1%) sind.

Wesentlich sinnvoller als die Straßenlisten zu einer automatischen Korrektur zu verwenden, fände ich eine Karte, wo Abweichungen zwischen Straßenliste und OSM-Daten, dann gerne auch mit Ähnlichkeitsvergleich, optisch hervorgehoben wird. Mit so einer Karte, kann man dann gezielt für seine Gegend nachsehen, wo noch etwas geprüft werden sollte.

Edbert (EvanE)

Ohne einen Ähnlichkeitsvergleich wäre die Karte wohl nur als QA-Tool für die Straßenliste und nicht direkt für OSM nutzbar.
Mit Ähnlichkeitsvergleich wäre sie wohl in gewissen Fällen Vorteile gegenüber der direkten Verwendung der Straßenliste:
-In sehr ausgedehnten Städten oder Gemeinden bekommt man eine bessere Übersicht der Lage der betroffenen Straßen.
-In Gebieten mit kleinen Gemeinden muß man nicht eine Vielzahl von Straßenlisten durchsuchen.

Ebenso wie bei der direkten Verwendung der Straßenlisten hat auch die Karte jedoch ein Problem, dass sich in dem jeweiligen Gebiet mindestens ein Mapper aktiv darum kümmern muss. Bei der großen Anzahl von zudem noch recht gut versteckten QA-Karten, kann mann natürlich nicht erwarten, dass jeder Mapper alle kennt und anwendet. Damit haben wir dann ein Problem in dünner besiedelten Gebieten mit geringer Dichte von Mappern.

Man müßte daher schon einen anderen Weg finden, um diese Mapper auf die Fehler bzw. die Karte dazu aufmerksam zu machen. Wünschenswert wäre es aber wohl schon, diese von Trivialfällen zu entlasten. Wichtig wäre auch sicherzustellen, dass Informationen über tatsächliche Abweichungen wieder zum Straßenlisten-Wiki zurückfließen.

Die Vollständigkeit wäre ja das kleinere Problem, aber die Fehlerrate ist natürlich unschön. Irgendwie fehlt uns eine zuverlässige Quelle für die Straßennamen.
Die Straßenschilder selbst können ja auch fehlerhaft oder veraltet sein (siehe Beispiel Dessauer Straße in diesem Thread). Wie hoch mag die Fehlerrate hier wohl sein? Dann kommt da auch noch die Fehlerwahrscheinlichkeit bei der Übertragung in OSM hinzu, die wohl recht hoch sein wird, wenn ein Mapper nicht explizit mit einer speziellen Schreibweise rechnet.
Den realen Straßennamen kann man ja eigentlich nur direkt oder indirekt von der Gemeinde erhalten, da er ja wohl von dieser festgelegt wird.
Ob da die Personalausweise der Anwohner eine zuverlässigere Quelle sein würden, wenn sie denn aktuell ausgestellt sind? Ist natürlich eher eine theoretische Überlegung, da es sicher eine sehr undankbare Aufgabe sein dürfte, diese Information einzusammeln. Vielleicht wären aber in speziellen Fällen, wie der uneinheitlich beschilderten Dessauer Straße, die Anwohner durchaus bereit, bei der Aufklärung mitzuwirken, wenn man Ihnen das Problem erklärt.

Die zuverlässigste Quelle (zumindest für neuere Straßen {nach WWII}) ist die Stadt oder Gemeinde, die ja die Straßennamen per Ratsbeschluss festlegt. Ob wir die Daten soweit sie im Internet verfügbar sind, nutzen dürfen, ist eine andere Frage. Einzelauskünfte dürften zulässig sein.

Straßenlisten mit Veröffentlichungspflicht (Straßenreinigungssatzung, Müllsatzung, Wahlbezirke, …) sind gemeinfrei. Allerdings enthalten zumindest die ersten zwei häufig Fehler (Schreibweise, nicht existente Straßen, …).
In Bonn (Straßenreinigungssatzung) lag die Fehlerquote bei ca. 1%. Weniger dürfte selten sein, mehr kommt sicher auch vor. Mehr als 5% Fehlerquote dürfte aber die Ausnahme sein.

Städte und Gemeinden sind über einen Hinweis auf fehlerhafte/widersprüchliche Straßenschilder meist dankbar.

Von den Personalausweisen halte ich wenig. Von mir würdest du bei einem solchen Ansinnen mit einem virtuellen Tritt weg geschickt werden. Bei Freunden und Bekannten mag das günstiger aussehen.

Edbert (EvanE)

Danke für Deine Einschätzung. Ich muß bei Gelegenheit einmal die bisherige Resonanz auf den Vorschlag auswerten und ihn dann auf das unstrittige Maß reduzieren.
addr:street ist, soweit es mich betrifft, zusammen mit den übrigen addr:*-Tags die nächste Baustelle. Damit werde ich mich aber erst dann konkret befassen, wenn die Straßennamenkorrektur stabil und nach menschlichem Ermessen fehlerfrei läuft.

Ja, das ist mir auch aufgefallen, nachdem ich sie angelegt hatte. Ich kann sie ja noch verschieben; andererseits halte ich den falschen Namen für ein eher untergeordnetes Problem. Die wesentlichen Informationen sind vorhanden und gut auffindbar; wie die Platzhalterseite im (ohnehin arg unvollständigen) Katalog heißt, ist dann für mich nebensächlich.

Man könnte diese Prüfung natürlich direkt in den Validator integrieren, mit Abgleich gegen ein konservativ vereinfachtes DE-Grenzpolygon.

Das dürfte stark davon abhängen, woher die jeweiligen Listen im Einzelfall stammen. Eine Liste, die als Teil einer Satzung Freiwild ist, könnte man m.E. sogar zur automatisierten Übernahme nutzen (ob das Mögliche immer auch wünschenswert ist, mal außen vor). Wenn eine Liste aber von einer Gemeinde nur auf Anfrage zu bestimmten Zwecken zur Verfügung gestellt wurde, scheidet jede weitergehende Verwendung aus. In die Straßenlistensammlung sollen ja nur solche Listen eingestellt werden, für die eine ausdrückliche Erlaubnis vorliegt. Ob sich alle Nutzer daran halten, vermag ich nicht einzuschätzen. Und auch welche Nutzung die Gemeinde erlaubt hat, dürfte von Fall zu Fall stark variieren.

Und leider ist nicht einmal diese Quelle fehlerfrei. Selbst wenn nur ein einziger Weg benannt wird, rutschen offensichtliche Fehler durch: Hier gab es vor einem Jahr vorübergehend einen “Sutro Weg”, der eigentlich “Sutroweg” heißen sollte. Weder Rat noch Verwaltung noch das Sutro-Huldigungskomitee haben den Fehler bemerkt, sodaß tatsächlich die falschen Schilder angefertigt, aufgehängt und nach einiger Zeit wieder ausgetauscht wurden.

auch schon angetroffen: name=N.N. n.N. oder auch n.n. hab einige gelöscht, können aber noch welche da sein.

Gruss
walter

eventuell schon bekannt: name=*gs. für …gasse

Straße ohne Namen behagt mir auch nicht so recht, andererseits gibt es hier auch eine Kneipe “No Name” und Hausnummern “zwischen 5 und 7”. “N.N.” finden sich in der Tat auch noch ein paar.

Könnte man prinzipiell aufnehmen, bei derzeit 2 Vorkommen würde ich die aber eher zur manuellen Expansion vorschlagen:
http://www.openstreetmap.org/browse/way/27683667
http://www.openstreetmap.org/browse/way/27678168
Außerdem gibt es da eine weitere ganz ähnliche Abkürzung, nämlich jene für “umgangssprachlich” (was vermutlich per se überflüssig ist):
http://www.openstreetmap.org/browse/way/25137492

dachte, dass es mehr wären (hatte meine db-query nach einigen Treffern abgebrochen)

hab alle drei eben mal geändert.

Gruss
walter