Beispiele für Mapping-Unfälle und Vandalismus gesucht

Spezialisten, die den Startpunkt ihrer Bodenseetour als place=city taggen, damit der Startpunkt auf dem Navi auch schön leuchtet…
http://www.openstreetmap.org/browse/changeset/16789707

Im Ernst, nachdem es in DE vermutlich keine “unentdeckten” Städte mehr gibt, sind neue place=city Nodes innerhalb Deutschlands grundsätzlich verdächtig…

Außerdem schon gesehen (leider keine Changeset-IDs parat):

  • Verwechselung von addr:city und place-Tag (place=“Name der Stadt”)
  • place=underworld für den eigenen Keller

Hi!

Ich weiß nicht, ob es als Vandalismus gilt, aber aktuell hat sich jemand per Blog beklagt, dass jemand Straßennamen über mehrere Kontinente hinzufügt. In dem Sinne nichts Schlimmes, nur der Verfasser fragt, woher er die Daten hat:
http://www.openstreetmap.org/user/NicRoets/diary/19706

Bei keepright das Tool “unmögliche Winkel” evtl. mal anschauen. Ab und an korrigiere ich die Fehler. Sind manchma heftige Sachen dabei.

Oder aber “unverbundene Schnittpunkte”. Wenn ein Node eines Weges aus versehen verschoben wird, geschieht das meist über mehrere Kilometer. Dabei schneidet der Weg mehrere andere Straßen. Vereinfacht gesagt: schneidet eine Straße mehrere andere Straßen ohne Schnittpunkt, handelt es sich höchstwahrscheinlich um einen Mapping-Unfall.

Dass du dich so einem Tool annimmst, finde ich klasse!! Man meint gar nicht, was man so findet, wenn man mit keepright “ein bischen rumkommt”. Werde die Augen offen halten.

Mich würde interessieren, wie du eine Aufteilung und Abgrenzung der fehlerhaften Edits vornehmen willst?

Ein bißchen Bauchschmerzen habe ich auch, wenn (auch bei bester Absicht :)) jemand aufgrund eines “ungewöhnlichen” Verhaltens von Nutzern evtl. edits rückgängig macht und dadurch die Deutungshoheit bekommt, was ein “ordentlicher” Edit ist etc. Das klingt für mich ein wenig so, als könnte es leicht dazu verleiten, bestehende Zustände im Projekt zu halten und Änderungen abzulehnen. Klingt für mich ziemlich defensiv, aber vielleicht verstehe ich aber dein Vorgehen auch einfach falsch.

Bitte auch bedenken, dass jeder von uns mal Fehler gemacht hat und wir das IMHO damit auch jedem anderen zugestehen sollten. Die Anrede als “Depp” oder “Idiot” ist da in meinen Augen total fehl am Platz, da sie ein unfreundliches Bild unserer Community zeichnet, die eigentlich doch total tollerant und hilfsbereit ist?

Das Ziel ist, zunächst einmal auffällige Bearbeitungen vorzusortieren; ob eine Bearbeitung dann tatsächlich fehlerhaft oder nur ungewöhnlich ist, muß immer noch ein Mensch entscheiden. Ich habe dabei statistische Analysen einzelner Änderungssätze im Sinn (die natürlich erst bei einer gewissen Changeset-Größe ordentlich funktionieren), näheres weiter unten.

Beispiel: jemand häckselt Wege und Flächen in einem Gebiet zu einem bunten Gewirr, absichtlich oder (weit häufiger) unabsichtlich. Nehmen wir konkret den heutigen Einschlag in Kiel: http://www.loaditup.de/780231-unk2g2gcce.html (in diesem Fall wohl ein weiterer Akt unseres bekannten norddeutschen Vandalen; aber ähnliches kann auch aus Versehen passieren). Ein Mensch sieht sofort, daß hier etwas faul ist; nach einer gewissen Zeit macht sich die Bearbeitung auch in keep right, OSMI etc. bemerkbar - wenn denn jemand guckt. Andererseits tut sich ein Mensch (mit den heutigen Werkzeugen) schwer, das Problem einem Änderungssatz oder einem User zuzuordnen. Klar, der Fortgeschrittene macht JOSM auf und schaut nach dem Änderungssatz und letzten Bearbeiter der Knoten; aber ein nicht so versierter (Potlatch-)Mapper steht erst einmal auf dem Schlauch. Nach ein paar Tagen ist der Änderungssatz auf der history-Seite nur noch mühsam zu finden, und ein wohlmeinender Mapper, der von der Möglichkeit eines Reverts nichts weiß, macht einen solchen durch manuelle Reparaturen womöglich noch schwerer. Je nach Region fallen solche Bearbeitungen erst nach Wochen oder auch gar nicht auf. Ziel ist nun, solche schädlichen Änderungen zu detektieren, auf daß sie gezielt überprüft und bei Bedarf (selektiv) rückgängig gemacht werden können.

Wie schon mehrfach betont, ist das Gelingen des Vorhabens noch völlig offen. Eine übergroße Warnung anzuzeigen, daß die automatische Analyse fehlbar und vor jeglichem weiteren Vorgehen eigener, sorgfältiger Gehirneinsatz notwendig ist, stellt aber die kleinste Schwierigkeit dar.

Zum “Wie”: Die Idee ist, Änderungssätze statistisch zu analysieren und gegen bestimmte Kriterien zu prüfen. Das können so banale Dinge sein wie relativer Anteil und absolute Anzahl von Löschungen, Verhältnis bearbeiteter Knoten zu Wegen und Relationen; aber auch detailliertere Analysen z.B. der Verschiebung von Knoten (1); aber auch ein gewisser Abgleich mit den Daten der Umgebung (2). Ggf. kann man das noch in Verbindung setzen zur Mapping-Erfahrung des Users (etwa niedrigere Warnschwellen bei Accounts, die erst wenige Tage alt sind).

ad (1): (Fast) jeder Mapper verschiebt Knoten als Teil seiner Arbeit. Meine (noch unbewiesene) Hypothese ist, daß diese Verschiebungen im wesentlichen kein ausgeprägtes Muster aufweisen und die involvierten Abstände in der Regel gering sind. Ein Knoten wandert 5 Meter nach Westen, einer 10 Meter nach Norden. Bei massenhaften, schädlichen Verschiebungen (unabsichtlich durch falsche Auswahl oder auch mutwillig) gibt es in der Regel Muster und auch die Abstände sind tendentiell größer: 100 Knoten je 40 Meter nach Süden, 50 Knoten je 70 Meter nach Osten. Das ist per Clusteranalyse detektierbar. Auch Fehlverwendungen von Funktionen wie “auf eine Linie bringen”, “rund machen” und “rechteckig machen” (gerade gestern wieder einen Waldkubismus mit 891 Knoten gefunden) sollten in ähnlicher Weise erkannt werden können. Auch eine Verschiebung um eine große absolute Distanz kann schon bei einzelnen Objekten problematisch sein. Kurioses Beispiel dazu: Aus unerfindlichen Gründen wurden OSM-Objekt-IDs in Teilen des Osmand-Codes einem Bitshift unterzogen. In der Folge wurden natürlich bisweilen die völlig falschen Objekte bearbeitet; mit der Folge der einen oder anderen Weltumsegelung, vgl. auch http://lists.openstreetmap.org/pipermail/dev/2013-March/026625.html . Keine Ahnung, ob der Bug mittlerweile behoben ist.

ad (2): In Verallgemeinerung des Hinweises von free_as_a_bird: Bestimmte neue Daten sind in dicht bereits gemapptem Gebiet in der Regel unplausibel. Mitten in München werden nicht fünf neue place=city auftauchen und im Ruhrgebiet wird es nicht von heute auf Morgen 30 km neue Autobahnen geben. Zunächst interessiert mich aber der umgekehrte Fall: neue Daten in dünn oder gar nicht gemapptem Gebiet. Neue Städte mitten im Pazifik oder an einem der Pole sind verdächtig. Die (erhebliche) Schwierigkeit besteht darin, diese von (höchstwahrscheinlich) legitimen Bearbeitungen (in bisher dünn gemappten, aber durchaus erschlossenen/besiedelten Gebieten) abzugrenzen. Stichworte dazu sind mittlere Knotendichte und Küstenlinien.

Die Schwellen bzw. Scoring-Funktionen sind aber noch völlig unklar. Dazu werde ich “normale” Änderungssätze analysieren, um herauszufinden, wie ein “typischer” Änderungssatz aussieht; stark davon abweichende Änderungssätze gelten als verdächtig. Zuerst wollen aber die nötigen Analysefunktionen geschrieben werden, und die Osmium-Bibliothek verträgt sich auch noch nicht besonders gut mit Augmented Diffs. Das ist bis auf weiteres die Hauptbaustelle.

Hast Du Dir mal angesehen, auf wen ich die Ausdrücke bezogen habe? Das eine waren die drei Vandalen in Zwijndrecht, die wochenlang Daten verfälscht, die Karte mit unflätigen Verzierungen versehen und auf Versuche der Kontaktaufnahme mit obszönen Beschimpfungen reagiert haben. Das andere war der Schmierfink, der seit rund einem Jahr nichts besseres zu tun hat (zuletzt heute), als in halb Norddeutschland seine Graffiti zu verteilen. Einem gewöhnlichen Anfänger (oder auch Fortgeschrittenen), der halt mal einen Fehler macht, würde ich nicht mit diesen Bezeichnungen versehen; in den genannten Fällen handelt es sich aber um bloße Tatsachenbeschreibungen.

Vielleicht noch ein kleiner Beitrag, wieso ich so ein Tool für sinnvoll halte:

Betrachtet mal die Alternativen:

  • JOSM sperrt Uploads, die gewisse Kriterien nicht erfüllen (zu viele Löschungen etc.)
  • wie bei Wikipedia Sichtungen einzuführen für Nutzer unter 100 edits
  • Neunutzer dürfen nur eintragen, nicht aber Löschen oder Verändern

Da erscheint mir die Entwicklung eines solchen Tools “das geringere Übel” zu sein. Es weist ja nur lediglich auf MÖGLICHE Fehledits hin, wie etwa wambachers Karte uns auf fehlende landuse=residential hinweist oder oder oder.

Ich glaube so ein Tool könnte eine Bereicherung und sinnvolle Ergänzung der QA-Tools sein. Und es hat keiner gesagt, dass das Tool automatische Reverts durchführt oder so. Von daher, alles gut und abwarten, was Oli-Wan bastelt.

Wir sollten uns für die Zukunft (mehr Nutzer, mehr Leute, die uns schaden wollen) wappnen. Denn bei uns ist es nicht so ganz einfach, Vandalismus zu reparieren, wie es bei der Wikipedia möglich ist. Ich finde das Beispiel in München hat uns gezeigt, wie hilflos wir da sind.

Hallo

Mal meine Zusammenfassung aus den bisherigen Beipielen, was man als auffällig ansehen kann:

  • Massive Löschungen (>30% eines Changesets)
  • Verschiebung um mehr als 50-100 Meter
  • Straßen/Bahnen/Flüsse mit spitzen Winkeln
    Siehe den gestrigen Vandalismus in Norddeutschland

Edbert (EvanE)

@Oli-Wan Danke für die ausführlichen Details :slight_smile: Finde es ja super, dass du dich der Sache annimmst. Vielleicht macht es Sinn, wenn du dich mal mit Pascal Neis oder der Data Workinggroup kurzschließt, die haben ja auch schon einige Erfahrung mit Bot/Vandalismus detection.

Bezüglich der Titulierungen würde ich trotzdem zu einem normaleren Umgangston raten. Nicht nur, dass wir uns hier in einem öffentlichen Raum bewegen, es emotionalisiert die Debatte auch unnötig und führt zu einem “wir gegen die”. Vandalismusbekämpfung ist ja auch nur ein Aspekt von vielen in unserem Hobbyprojekt.

@Poppei82 Jup, es steht außer Frage, dass Tools zur Qualitättsicherung sinnvoll sind. Allerdings muss man auch aufpassen, was für nächste Schritte durch diese Werkzeuge ermöglicht werden.
Ob die Formel Mehr Nutzer=Mehr Vandalismus stimmen muss, halte ich persönlich für fraglich. Auch Vandalismus macht Arbeit, also muss es für massives Aufkommen auch Gewinn für den Vandalen bedeuten. Bei Wikipedia ist es derzeit eben entweder Deuttungshoheit oder Suchmaschienenoptimierung.

Insgesamt aber schwieriges Topic, wo es wohl keinen klaren Weg geben wird. Bin sehr gespannt wie sich das entwickelt :slight_smile:

Vielleicht sollte man bezüglich der Verhaltenserkennung auch die britische Polizei um Tipps bitten? scnr.

Demnach sollte also besonders bei sowas (“Straßen rausnehmen, weil […] durch zunehmenden Verkehr belästigt”) gewarnt werden. Ich kenne dazu zum Glück kein Beispiel-Changeset.

Politischer Aktivismus in OSM:

http://www.openstreetmap.org/browse/changeset/17100894

User ist angesprochen.

oh, da fällt mir was ein: Die Änderung von admin_level 2 in 3 oder umgekehrt bei Streitigkeiten über den Status eines Staates. Ist gar nicht mal so selten
https://de.wikipedia.org/wiki/Liste_der_Staaten_der_Erde#Umstrittene_Staaten_und_.C3.A4hnliche_Gebilde
Eigentlich sollten alle Staaten in OSM drin sein. Wenn plötzlich 2 in 3 oder 3 in 2 geändert wird, gibts Ärger. Schon erlebt :wink:

user hat reagiert: name=ohne - sprich ihn nochmals an oder soll ich das ändern?

Gruss
walter

Da fehlt aber noch was: http://www.openstreetmap.org/browse/way/127294421

PS. Sowas automatisch zu detektieren erscheint mir nahezu aussichtslos.

ich nehms raus und schreib ihn nochmal an…

Ja, den gab es nur kurze Zeit.
Seit dem sendet OsmAnd übrigens auch einen korrekten User Agent. :slight_smile:

Gruß,
Mondschein

http://overpass-turbo.eu/s/H9 seufz… gibt scheinbar noch mehr. Auto-erkennung eventuell über die in der Wikipedia grade als “aktuell” angepinnten Artikel?

Hinweis auf Vandalismus in einem anderen Thread, evtl. kommen da Hinweise auf problematische changesets:
http://forum.openstreetmap.org/viewtopic.php?pid=351581

hier noch ein Mapping-Unfall. der seit 3 Wochen wohl nicht bemerkt wurde. Habe ihn jetzt beim Beheben der “impossible angles” durch keepright entdeckt. Ich habe den Fehler noch nicht behoben, damit du dir das anschauen kannst.

http://www.openstreetmap.org/browse/way/26518100

Nicht drei Wochen, sondern (dank dir) nur drei Tage: http://www.openstreetmap.org/browse/changeset/17305692. Sieht so aus, als habe der User versehentlich die landuse-Fläche http://www.openstreetmap.org/browse/way/130572648 verschoben (mit der highways an einigen Stellen verbunden sind). Beabsichtigt waren vermutlich nur die Geometrieverbesserungen südlich dieser Fläche.

Davids Omas Haus, http://www.openstreetmap.org/browse/way/161404626/history . Dürfte aber schwer automatisch zu erkennen sein, weil das ja ein gültiger Name sein kann.