Beispiele für Mapping-Unfälle und Vandalismus gesucht

Oli-Wan · July 29, 2013, 10:10am

Ich bastele nebenbei an einem Werkzeug zur Erkennung problematischer Edits in OSM. Um keine falschen Hoffnungen zu wecken: Das ganze ist noch sehr weit von einer Einsatzreife entfernt und ob es diese überhaupt je erreichen wird, ist noch völlig unsicher. Die Idee ist, Änderungssätze zu analysieren und nach bestimmten Mustern zu suchen: auffällig viele Löschungen, Verschiebung von Knoten um auffällig große Distanzen und in Clustern, Malerei in ansonsten leeren Gebieten und dergleichen.

In jedem Fall brauche ich Material, um das Programm darauf konditionieren zu können. Bisher stehen auf meinem Zettel:

die drei Deppen aus Zwijndrecht (2011): Depp I, Depp II, Depp III

der Münchener Krater (2013)

analog: Brasilien (2013)

Verschiebung von Grenzknoten in Nahost (2012)

Köln-Düsseldorfer Kartenputz (2012)

der Idiot (2012-2013) aus dem Schweriner Raum

einige Malereien dieses Users (der inzwischen zu fragwürdigen Importen in Indien übergegangen zu sein scheint) bei 0,0 (die bekannte Müllkippe in OSM, da findet sich eigentlich immer was)

Die [Liste der Benutzersperren](http://www.openstreetmap.org/user_blocks) liefert auch den einen oder anderen Änderungssatz; ist leider etwas schwer zugänglich, wenn der Account inzwischen gelöscht ist.

Wenn jemand weitere Beispiele zur Hand hat, bitte melden; bei Unfällen ggf. auch per Mail, wenn der Name des betreffenden Users nicht öffentlich werden soll. Eine gewisse Mindestgröße sollten die Änderungssätze in der Regel schon haben; es sei denn, es liegt ein anderes eklatantes Merkmal vor, das automatisch detektierbar ist (wie in diesem Fall). Klarerweise geht es auch nicht um Bearbeitungen, wo einfach zwei Meinugen aufeinanderprallen (User A: primary, User B: secondary), sondern um Fälle, wo (absichtlich oder unabsichtlich) objektiv etwas kaputt gemacht bzw. eindeutiger Unsinn eingetragen wurde (etwa Malerein im Nichts, oder fiktive Objekte in einer realen Stadt).

MHohmann · July 29, 2013, 10:31am

Das erinnert mich an diesen Fall, bei dem ein User versehentlich eine ganze Menge Knoten und Wege dupliziert hat - wobei die neuen Objekte allerdings alle keine Tags hatten:

http://www.openstreetmap.org/browse/changeset/3048303
http://www.openstreetmap.org/browse/changeset/3048177
http://www.openstreetmap.org/browse/changeset/3046984

Petja · July 29, 2013, 10:44am

Ich hätte da was für dich. Dieser Mensch hat in ein paar Tagen tausende Wege gelöscht und eine ganze Stadt ausradiert. Hier nur ein Beispiel seiner acht Changesets.
http://www.openstreetmap.org/browse/changeset/15041753

Gruß Peter

Zecke · July 29, 2013, 10:54am

Vielleicht solltest du dem Algorithmus noch eine auto-cool-down Methode spendieren?

EvanE · July 29, 2013, 12:03pm

Hallo OliWan

Hier ein Beispiel aus dem OSM-Mittelalter (2009) Meteoriteneinschlag in Bonn-Poppelsdorf.
Das war ein typischer Fall von einen Knoten verschieben wollen, aber viele Knoten markiert haben.

Und da gab es noch die diversen User(-Namen), die aus Spass etliche Straßen in Norddeutschland verbogen haben.

Edbert (EvanE)

Petja · July 29, 2013, 1:22pm

Ich hab noch was. Da hat einer mal Städte in der Arktis und Antarktis gemalt.
http://forum.openstreetmap.org/viewtopic.php?id=14704

Geogast · July 29, 2013, 2:23pm

Hier hat jemand eine lange, lange Bahnlinie zu einer Geraden gestreckt. Das Tückische: Man sieht es dem way in der history nicht an, was ihm (genauer: seinen nodes) da angetan wurde.

Oli-Wan · July 29, 2013, 2:55pm

Schon einmal Danke für die bisherigen Beispiele (auch für jene, die per Mail gekommen sind). Noch ein paar Erläuterungen zu meiner Wunschliste.
Ziel ist, problematische Bearbeitungen weitgehend automatisch zu detektieren. In ferner Zukunft soll das Programm automatisch die Diffs vom Server bzw. die Augmented Diffs der Overpass API (sofern sie bis dahin noch angeboten werden) verarbeiten und verdächtige Änderungssätze erkennen und anzeigen.
Bei Bearbeitungen von nur wenigen Objekten wird eine automatische Erkennung mit tolerabler Quote an Fehlalarmen aber extrem schwierig, denn eine Verschiebung von wenigen Knoten oder z.B. eine Löschung eines abgerisssenen Hauses (1 Weg, 4 Knoten) kann durchaus gewollt sein (bzw. ist es in der Regel); daher die schwammige Bitte um Changesets mit “einer gewissen Mindestgröße”. Riesige Einschläge wie in München müssen es gar nicht mal unbedingt sein: besonders interessant sind auch Fälle, wo ein echter Schaden mit unauffälligen Bearbeitungen gemischt ist. Oder solche, die erst nach längerer Zeit aufgefallen sind, weil sie (für Menschen) schwer zu erkennen bzw. schwer zu überschauen sind.

Und mit Hinweisen aus dem alten Blogpost habe ich sogar das Changeset gefunden

Von dieser Sorte gibt es sogar noch mehr Fälle, die ich aber leider allesamt nicht mehr wiederfinde. Auch Gemälde mitten im Ozean würde ich gerne erkennen können und, besonders knifflig, Doodles in besiedeltem/gemapptem Gebiet (bunt drübergemalte Straßen etc.).

Das ist ein schönes Beispiel, das ich nicht auf der Rechnung hatte. Interessant wären auch “Rundungen” und “Quadraturen” von Wegen sowie generell alles, woran ich selbst noch nicht gedacht habe (vgl. Auflistung im ersten Posting). Allerdings sollte eine Chance bestehen, das Problem per Algorithmus zu detektieren.

Wie gesagt: es wird noch eine Menge Zeit ins Land gehen, bis (wenn überhaupt) das Programm nützliche Ergebnisse liefert. Also seid bitte nicht enttäuscht, wenn eure Hinweise zunächst in einem schwarzen Loch zu verschwinden scheinen. Es kommt alles auf den digitalen Zettel und wird nach und nach bei der Entwicklung der jeweiligen Programmkomponente genutzt.

maxbe · July 29, 2013, 3:27pm

Diese Insel war mal kurz besiedelt. Screnshot gibt es hier im Forum.

tunnelbauer · July 29, 2013, 4:28pm

Ach - der Inselmaler ist schon wieder ein Jahr her? Wie die Zeit vergeht…

Eventuell kannst du ja auch eine Art Ampelsystem einführen?
Löschungen von 4 Punkten oder mehr (mit einem Weg) werden dann nicht als kritisch erachtet, sondern als “merkwürdig” oder “verdächtig” bzw. wenn es 4 Punkte und ein Weg sind mit dem Tag “building:" ist es eher ein Abbruchhaus - handelt es sich jedoch um einen Weg (also "highway:”), dann ist es auffälliger…

Ich hatte nämlich mal so einen Kandidaten, der der Meinung war er müsste in seiner Gegend die Straßen rausnehmen, weil “wir” (anscheinend er + ein paar andere Anrainer oder er und sein “pluralis majestatis” - keine Ahnung) sich durch “zunehmenden Verkehr belästig fühlten und wir das nicht wollen”.

Ich konnte ihn erst nach einer schärferen PN dazubewegen nicht noch einmal zu löschen…

free_as_a_bird · July 30, 2013, 1:57pm

Spezialisten, die den Startpunkt ihrer Bodenseetour als place=city taggen, damit der Startpunkt auf dem Navi auch schön leuchtet…
http://www.openstreetmap.org/browse/changeset/16789707

Im Ernst, nachdem es in DE vermutlich keine “unentdeckten” Städte mehr gibt, sind neue place=city Nodes innerhalb Deutschlands grundsätzlich verdächtig…

Außerdem schon gesehen (leider keine Changeset-IDs parat):

Verwechselung von addr:city und place-Tag (place=“Name der Stadt”)
place=underworld für den eigenen Keller

poppei82 · July 30, 2013, 2:23pm

Hi!

Ich weiß nicht, ob es als Vandalismus gilt, aber aktuell hat sich jemand per Blog beklagt, dass jemand Straßennamen über mehrere Kontinente hinzufügt. In dem Sinne nichts Schlimmes, nur der Verfasser fragt, woher er die Daten hat:
http://www.openstreetmap.org/user/NicRoets/diary/19706

poppei82 · July 30, 2013, 2:29pm

Bei keepright das Tool “unmögliche Winkel” evtl. mal anschauen. Ab und an korrigiere ich die Fehler. Sind manchma heftige Sachen dabei.

Oder aber “unverbundene Schnittpunkte”. Wenn ein Node eines Weges aus versehen verschoben wird, geschieht das meist über mehrere Kilometer. Dabei schneidet der Weg mehrere andere Straßen. Vereinfacht gesagt: schneidet eine Straße mehrere andere Straßen ohne Schnittpunkt, handelt es sich höchstwahrscheinlich um einen Mapping-Unfall.

Dass du dich so einem Tool annimmst, finde ich klasse!! Man meint gar nicht, was man so findet, wenn man mit keepright “ein bischen rumkommt”. Werde die Augen offen halten.

_i · July 30, 2013, 2:41pm

Mich würde interessieren, wie du eine Aufteilung und Abgrenzung der fehlerhaften Edits vornehmen willst?

Ein bißchen Bauchschmerzen habe ich auch, wenn (auch bei bester Absicht :)) jemand aufgrund eines “ungewöhnlichen” Verhaltens von Nutzern evtl. edits rückgängig macht und dadurch die Deutungshoheit bekommt, was ein “ordentlicher” Edit ist etc. Das klingt für mich ein wenig so, als könnte es leicht dazu verleiten, bestehende Zustände im Projekt zu halten und Änderungen abzulehnen. Klingt für mich ziemlich defensiv, aber vielleicht verstehe ich aber dein Vorgehen auch einfach falsch.

Bitte auch bedenken, dass jeder von uns mal Fehler gemacht hat und wir das IMHO damit auch jedem anderen zugestehen sollten. Die Anrede als “Depp” oder “Idiot” ist da in meinen Augen total fehl am Platz, da sie ein unfreundliches Bild unserer Community zeichnet, die eigentlich doch total tollerant und hilfsbereit ist?

Oli-Wan · July 30, 2013, 3:57pm

Das Ziel ist, zunächst einmal auffällige Bearbeitungen vorzusortieren; ob eine Bearbeitung dann tatsächlich fehlerhaft oder nur ungewöhnlich ist, muß immer noch ein Mensch entscheiden. Ich habe dabei statistische Analysen einzelner Änderungssätze im Sinn (die natürlich erst bei einer gewissen Changeset-Größe ordentlich funktionieren), näheres weiter unten.

Beispiel: jemand häckselt Wege und Flächen in einem Gebiet zu einem bunten Gewirr, absichtlich oder (weit häufiger) unabsichtlich. Nehmen wir konkret den heutigen Einschlag in Kiel: http://www.loaditup.de/780231-unk2g2gcce.html (in diesem Fall wohl ein weiterer Akt unseres bekannten norddeutschen Vandalen; aber ähnliches kann auch aus Versehen passieren). Ein Mensch sieht sofort, daß hier etwas faul ist; nach einer gewissen Zeit macht sich die Bearbeitung auch in keep right, OSMI etc. bemerkbar - wenn denn jemand guckt. Andererseits tut sich ein Mensch (mit den heutigen Werkzeugen) schwer, das Problem einem Änderungssatz oder einem User zuzuordnen. Klar, der Fortgeschrittene macht JOSM auf und schaut nach dem Änderungssatz und letzten Bearbeiter der Knoten; aber ein nicht so versierter (Potlatch-)Mapper steht erst einmal auf dem Schlauch. Nach ein paar Tagen ist der Änderungssatz auf der history-Seite nur noch mühsam zu finden, und ein wohlmeinender Mapper, der von der Möglichkeit eines Reverts nichts weiß, macht einen solchen durch manuelle Reparaturen womöglich noch schwerer. Je nach Region fallen solche Bearbeitungen erst nach Wochen oder auch gar nicht auf. Ziel ist nun, solche schädlichen Änderungen zu detektieren, auf daß sie gezielt überprüft und bei Bedarf (selektiv) rückgängig gemacht werden können.

Wie schon mehrfach betont, ist das Gelingen des Vorhabens noch völlig offen. Eine übergroße Warnung anzuzeigen, daß die automatische Analyse fehlbar und vor jeglichem weiteren Vorgehen eigener, sorgfältiger Gehirneinsatz notwendig ist, stellt aber die kleinste Schwierigkeit dar.

Zum “Wie”: Die Idee ist, Änderungssätze statistisch zu analysieren und gegen bestimmte Kriterien zu prüfen. Das können so banale Dinge sein wie relativer Anteil und absolute Anzahl von Löschungen, Verhältnis bearbeiteter Knoten zu Wegen und Relationen; aber auch detailliertere Analysen z.B. der Verschiebung von Knoten (1); aber auch ein gewisser Abgleich mit den Daten der Umgebung (2). Ggf. kann man das noch in Verbindung setzen zur Mapping-Erfahrung des Users (etwa niedrigere Warnschwellen bei Accounts, die erst wenige Tage alt sind).

ad (1): (Fast) jeder Mapper verschiebt Knoten als Teil seiner Arbeit. Meine (noch unbewiesene) Hypothese ist, daß diese Verschiebungen im wesentlichen kein ausgeprägtes Muster aufweisen und die involvierten Abstände in der Regel gering sind. Ein Knoten wandert 5 Meter nach Westen, einer 10 Meter nach Norden. Bei massenhaften, schädlichen Verschiebungen (unabsichtlich durch falsche Auswahl oder auch mutwillig) gibt es in der Regel Muster und auch die Abstände sind tendentiell größer: 100 Knoten je 40 Meter nach Süden, 50 Knoten je 70 Meter nach Osten. Das ist per Clusteranalyse detektierbar. Auch Fehlverwendungen von Funktionen wie “auf eine Linie bringen”, “rund machen” und “rechteckig machen” (gerade gestern wieder einen Waldkubismus mit 891 Knoten gefunden) sollten in ähnlicher Weise erkannt werden können. Auch eine Verschiebung um eine große absolute Distanz kann schon bei einzelnen Objekten problematisch sein. Kurioses Beispiel dazu: Aus unerfindlichen Gründen wurden OSM-Objekt-IDs in Teilen des Osmand-Codes einem Bitshift unterzogen. In der Folge wurden natürlich bisweilen die völlig falschen Objekte bearbeitet; mit der Folge der einen oder anderen Weltumsegelung, vgl. auch http://lists.openstreetmap.org/pipermail/dev/2013-March/026625.html . Keine Ahnung, ob der Bug mittlerweile behoben ist.

ad (2): In Verallgemeinerung des Hinweises von free_as_a_bird: Bestimmte neue Daten sind in dicht bereits gemapptem Gebiet in der Regel unplausibel. Mitten in München werden nicht fünf neue place=city auftauchen und im Ruhrgebiet wird es nicht von heute auf Morgen 30 km neue Autobahnen geben. Zunächst interessiert mich aber der umgekehrte Fall: neue Daten in dünn oder gar nicht gemapptem Gebiet. Neue Städte mitten im Pazifik oder an einem der Pole sind verdächtig. Die (erhebliche) Schwierigkeit besteht darin, diese von (höchstwahrscheinlich) legitimen Bearbeitungen (in bisher dünn gemappten, aber durchaus erschlossenen/besiedelten Gebieten) abzugrenzen. Stichworte dazu sind mittlere Knotendichte und Küstenlinien.

Die Schwellen bzw. Scoring-Funktionen sind aber noch völlig unklar. Dazu werde ich “normale” Änderungssätze analysieren, um herauszufinden, wie ein “typischer” Änderungssatz aussieht; stark davon abweichende Änderungssätze gelten als verdächtig. Zuerst wollen aber die nötigen Analysefunktionen geschrieben werden, und die Osmium-Bibliothek verträgt sich auch noch nicht besonders gut mit Augmented Diffs. Das ist bis auf weiteres die Hauptbaustelle.

Hast Du Dir mal angesehen, auf wen ich die Ausdrücke bezogen habe? Das eine waren die drei Vandalen in Zwijndrecht, die wochenlang Daten verfälscht, die Karte mit unflätigen Verzierungen versehen und auf Versuche der Kontaktaufnahme mit obszönen Beschimpfungen reagiert haben. Das andere war der Schmierfink, der seit rund einem Jahr nichts besseres zu tun hat (zuletzt heute), als in halb Norddeutschland seine Graffiti zu verteilen. Einem gewöhnlichen Anfänger (oder auch Fortgeschrittenen), der halt mal einen Fehler macht, würde ich nicht mit diesen Bezeichnungen versehen; in den genannten Fällen handelt es sich aber um bloße Tatsachenbeschreibungen.

poppei82 · July 30, 2013, 4:22pm

Vielleicht noch ein kleiner Beitrag, wieso ich so ein Tool für sinnvoll halte:

Betrachtet mal die Alternativen:

JOSM sperrt Uploads, die gewisse Kriterien nicht erfüllen (zu viele Löschungen etc.)
wie bei Wikipedia Sichtungen einzuführen für Nutzer unter 100 edits
Neunutzer dürfen nur eintragen, nicht aber Löschen oder Verändern
…

Da erscheint mir die Entwicklung eines solchen Tools “das geringere Übel” zu sein. Es weist ja nur lediglich auf MÖGLICHE Fehledits hin, wie etwa wambachers Karte uns auf fehlende landuse=residential hinweist oder oder oder.

Ich glaube so ein Tool könnte eine Bereicherung und sinnvolle Ergänzung der QA-Tools sein. Und es hat keiner gesagt, dass das Tool automatische Reverts durchführt oder so. Von daher, alles gut und abwarten, was Oli-Wan bastelt.

Wir sollten uns für die Zukunft (mehr Nutzer, mehr Leute, die uns schaden wollen) wappnen. Denn bei uns ist es nicht so ganz einfach, Vandalismus zu reparieren, wie es bei der Wikipedia möglich ist. Ich finde das Beispiel in München hat uns gezeigt, wie hilflos wir da sind.

EvanE · July 30, 2013, 5:10pm

Hallo

Mal meine Zusammenfassung aus den bisherigen Beipielen, was man als auffällig ansehen kann:

Massive Löschungen (>30% eines Changesets)
Verschiebung um mehr als 50-100 Meter
Straßen/Bahnen/Flüsse mit spitzen Winkeln
Siehe den gestrigen Vandalismus in Norddeutschland

Edbert (EvanE)

_i · July 31, 2013, 7:23am

@Oli-Wan Danke für die ausführlichen Details Finde es ja super, dass du dich der Sache annimmst. Vielleicht macht es Sinn, wenn du dich mal mit Pascal Neis oder der Data Workinggroup kurzschließt, die haben ja auch schon einige Erfahrung mit Bot/Vandalismus detection.

Bezüglich der Titulierungen würde ich trotzdem zu einem normaleren Umgangston raten. Nicht nur, dass wir uns hier in einem öffentlichen Raum bewegen, es emotionalisiert die Debatte auch unnötig und führt zu einem “wir gegen die”. Vandalismusbekämpfung ist ja auch nur ein Aspekt von vielen in unserem Hobbyprojekt.

@Poppei82 Jup, es steht außer Frage, dass Tools zur Qualitättsicherung sinnvoll sind. Allerdings muss man auch aufpassen, was für nächste Schritte durch diese Werkzeuge ermöglicht werden.
Ob die Formel Mehr Nutzer=Mehr Vandalismus stimmen muss, halte ich persönlich für fraglich. Auch Vandalismus macht Arbeit, also muss es für massives Aufkommen auch Gewinn für den Vandalen bedeuten. Bei Wikipedia ist es derzeit eben entweder Deuttungshoheit oder Suchmaschienenoptimierung.

Insgesamt aber schwieriges Topic, wo es wohl keinen klaren Weg geben wird. Bin sehr gespannt wie sich das entwickelt

rayquaza · July 31, 2013, 8:15am

Vielleicht sollte man bezüglich der Verhaltenserkennung auch die britische Polizei um Tipps bitten? scnr.

Demnach sollte also besonders bei sowas (“Straßen rausnehmen, weil […] durch zunehmenden Verkehr belästigt”) gewarnt werden. Ich kenne dazu zum Glück kein Beispiel-Changeset.

gormo · August 1, 2013, 6:50am

Politischer Aktivismus in OSM:

http://www.openstreetmap.org/browse/changeset/17100894

User ist angesprochen.