Ich habe jetzt eine Weile über dieses Problem nachgedacht. In der Tat besteht die Möglichkeit eines solchen “Alternativfehlers”. Ich sehe leider keine Möglichkeit, hier eine Fehlkorrektur sicher auszuschließen. Man könnte lediglich weitere Ausschlußkriterien definieren, um zumindest den häufigsten Fällen von -st und -st[aeiouäöü]r Rechnung zu tragen. Ansonsten bleiben im Grunde nur zwei Möglichkeiten: Die Korrektur -str → -straße komplett aufgeben, oder das Restrisiko (ggf. durch die genannten Ausschlußkriterien reduziert) in Kauf nehmen.
Am Rande: An den bisherigen Korrekturen meines Bots hatte str → straße einen Anteil von unter 5 Prozent. Fast drei Viertel aller Korrekturen betrafen “Strassen”. Sollte es also wirklich ein Problem mit dieser einen Ersetzung geben, hätte ich relativ wenig Bauchschmerzen, sie aufzugeben.
Ich versuche mich einmal an einer Abschätzung dieses Risikos. germany.osm enthält gut 2’000’000 Straßen mit 400’000 verschiedenen name-Tags (inklusive Unsinn wie “100m Aschenbahn”, mutmaßlich verrutschten Tags “0,75” usw. sowie fremdsprachigen Namen im Auslandsüberlapp des Extrakts). Etwa die Hälfte dieser Namen tritt nur einmal auf.
Gut 1’000’000 Straßen tragen ein name-Tag mit [Ss]traße, verteilt auf 120’000 verschiedene Werte (darunter allein 20’000 Mal “Hauptstraße”). Etwa die Hälfte davon (gut 600’000 bzw. 56’000) entfallen auf die Variante mit “straße”. Andererseits gibt es etwa 5’000 Wege mit einem von 1’600 Werten mit “-st” (jene, welche bei einem versehentlich angefügten r zu einer Fehlkorrektur einladen würden); ferner ebenso etwa 5’000 Wege mit einem von 1’200 Werten mit “-st[aeiouäöü]r”. Würde man nur Wortbestandteile ausfiltern, ließen sich die Zahlen weiter reduzieren, weil etwa “3. Straße Ost” und “4. Straße Ost” identisch als “Ost” behandelt werden müßten, ebenso “Am Ginster” und “Im Ginster”; ähnliches gilt aber auch für jene mit -straße. Diese Reduktion lasse ich der Einfachheit halber außen vor.
Wenn nun ein Mapper einen neuen Straßennamen eintragen will, ist es folglich 20- bis 60-mal wahrscheinlicher, daß dieser Name (der korrekte Straßenname) [Ss]traße enthält, als daß er -st oder -ster usw. enthält. Wenn nun die Wahrscheinlichkeit, versehentlich ein r anzufügen oder einen Vokal zu vergessen, gleich der Wahrscheinlichkeit wäre, daß straße zu str (ohne Punkt) abgekürzt wird, wären im schlimmsten Fall bis zu 5 Prozent aller Korrekturen str → straße falsch. Das wäre fraglos zu viel. Allerdings ist die Annahme gleicher Wahrscheinlichkeiten vermutlich völlig unrealistisch. Ich denke, daß Tippfehler dieser Art, wenn sie geschehen, häufig vom Mapper selbst bemerkt und korrigiert werden. (Das recht häufig vorkommende überzählige Leerzeichen ist ein Sonderfall - man sieht es schließlich nicht; außerdem ist die Leertaste größer und als Handablage prädestiniert für unbeabsichtigte Betätigung.) Die tatsächliche Fehlerquote sollte daher deutlich geringer sein - genau beziffern kann ich sie jedoch nicht.
Es scheint mir vertretbar, trotz des Restrisikos die Korrektur str → straße durchzuführen. Ich sehe noch folgende relativ einfache Strategien, das Risiko zu verringern:
-
Durchsicht des Protokolls und der Änderungssätze, um Fehlkorrekturen zumindest a posteriori zu entdecken und geradezubiegen. Das hatte ich ohnehin vor, wenn auch nicht mehr so detailliert wie im Probebetrieb; aber da müßte ich nun besonders auf die Fälle achten, wo -str ersetzt wurde. Angesichts ihres überschaubaren Anteils ist das sicher zumutbar.
-
Ausschluß “kurzer” Wörter: Bei Postr, Rastr, Forstr, Horstr u.ä. ist die Wahrscheinlichkeit für den Tippfehler “r zuviel” deutlich erhöht. Dieses Kriterium ist aber sehr wenig selektiv.
-
Ein eigenes Ausschluß-Wörterbuch für diesen Fall, analog zu jenem, was aus -st-gasse abgeleitet wurde; hier jedoch nur die häufigsten Fälle. Allein Forst, Horst (Rabenhorst, Adlerhorst, Falkenhorst, …), Post (bzw. Forstr usw.) würden “r zuviel” schon zu einem Großteil abdecken; ebenso Kloster, Horster, Soester, Budapester (bzw. Klostr usw.) und noch ein paar weitere den Fall “Vokal vergessen”. Ich denke, dieses Ausschlußkriterium werde ich demnächst umsetzen.
Hast Du konkrete Ideen, wo es noch Probleme geben könnte? Die würde ich mir durchaus gerne ansehen.