Das Problem Falschschreibung von Gerhart-Hauptmann-Straße habe ich mal etwas untersucht:
Ich habe folgende Schreibweisen gefunden:
Gerhart-Hauptmann-Straße: 758 Wege mit 4400 Knoten
Gerhard-Hauptmann-Straße: 79 Wege mit 395 Knoten
Gerhardt-Hauptmann-Straße: 14 Wege mit 48 Knoten
Gerhart Hauptmann Straße: einige wenige Wege
Gerhart-Hauptmannstraße: einige wenige Wege
Sicherlich gibt es noch einige weitere Varianten.
Der prozentuale Anteil des korrekt geschriebenen Straßennamens ist damit deutlich höher, als ich dies aus der zuvor genannten Anzahl für Gerhard-Hauptmann-Straße erwartet hätte. Das liegt natürlich auch daran, das es sich bei der zuvor genannten Zahl von Straße nur um OSM Wege handelt, von denen es natürlich entsprechend mehr gibt.
Wenn die verschiedenen Schreibweise nicht fast beliebig zufällig verteilt sind, haben abweichende Schreibweisen, im Gegensatz zu meinen Erwartungen, zumindest noch einen theoretisch möglichen Restinformationsgehalt, auch wenn zu vermuten ist, dass dies alles Fehler sind.
Damit hätte ich dann auch gewisse Bedenken, diese Restinformation einfach per Bot zu vernichten, auch wenn mir die Vernunft sagt, dass dies wahrscheinlich für die Datenqualität letztendlich das Beste wäre.
Dann bliebe eigentlich nur noch die Möglichkeit, OSB Einträge zu generieren. Dies könnte der Bot gut machen, ohne potentielle Fehler machen zu müssen. Wenn man unter Hinweis auf die Möglichkeit eines abweichenden Namensgebers dazu auffordert, den Bug nur nach vor Ort Erkundung zu bearbeiten, und darum bittet, im Falle eines tatsächlichen Sonderfalls ein note-Tag zu setzen, so würde man potentiellen Sonderfällen zumindest theoretisch gerecht werden. Praktisch fürchte ich aber, dass dies leider teilweise anders aussehen wird.
Bei meinen Untersuchungen habe ich noch eine andere Entdeckung gemacht:
Oft grenzen falsche Schreibweisen an andere Schreibweisen (teils korrekte, teils auch wieder falsche) an.
Daraus sollte sich doch ein verallgemeinerter Ansatz ableiten lassen, um wenigstens einen Teil der Schreibfehler automatisch zu erkennen und OSB Einträge zu generieren. Man müßte nur nach benachbarten Wegen suchen, deren Namen sich abgesehen von typischen Schreibfehlern nur geringfügig unterscheiden.