Datenschutz bei OSM

Hallo,

(parallel auf talk-de)

auf dem OSM-Samstag hier bei der FOSSGIS haben wir (~ 15 Interessierte) spontan eine Sitzung zum Thema Datenschutz gemacht.

Ich schildere hier kurz, worum es geht und was diskutiert wurde. Wir haben jetzt nicht irgendwelche Beschlüsse gefasst oder so, aber ich finde, es gab ein paar ganz interessante Beiträge, und wir werden das sicherlich in der Community weiter besprechen wollen und müssen.

Der Ausgangspunkt war, dass ich gesagt habe: Es gibt Leute, die bei uns nicht mitmachen, weil sie das Gefühl haben, dass man dadurch zu viel von sich preisgibt - sozusagen eine “Einladung zum Stalking”. Selbst wenn wir “rechtlich” auf der sicheren Seite wären (und es ist unklar, inwiefern wir das sind), so frage ich, ob das ausreicht - haben wir vielleicht eine Art Fürsorgepflicht gegenüber unseren Mappern und sollten die nach Kräften vor möglichem Datenmissbrauch schützen, selbst wenn sie eigentlich das Häkchen “jeder kann mit meinen Daten machen, was er will” gesetzt haben?

Wir haben die Diskussion eröffnet, indem wir Pascals HDYC-Seite für einen der anwesenden Nutzer angezeigt haben - damit jeder sieht, wie viel man über jemanden herausfinden kann, wenn man die OSM-Edits auswertet (und es geht noch viel mehr, als Pascal direkt anzeigt).

Als interessanter neuer Aspekt kam in der Diskussion auch folgendes auf: Jeder, der unser Planetfile runterlädt und verarbeitet, wird unwillkürlich zum Verarbeiter persönlicher Daten und könnte sich Probleme einhandeln (und sei es auch nur, weil er in einer Behörde ode großen Firma arbeitet, die strenge Richtlinien für den Umgang mit solchen Daten hat).

Klar ist, dass man einem Auswerter wie Pascal nicht den schwarzen Peter zuschieben kann: Er erweist uns ja sogar einen Dienst, indem er uns vor Augen führt, welche Auswertungen möglich sind. Würde Pascal das nicht öffentlich tun, so wäre uns vermutlich gar nicht bewusst, was andere vielleicht im Verborgenen auswerten. Nichtsdestotrotz gab es schon Leute, die Pascal aufgrund seiner Veröffentlichungen rechtliche Schritte angedroht haben - das zeigt, wie unerwartet für viele Leute ist, wie viel Spuren sie bei uns hinterlassen.

In der Diskussion wurden unter anderem die folgenden Argumente/Ideen vorgebracht:

  • Wer sich drum kümmert, kann heute schon seine Daten in OSM schützen, und die, denen das wichtig ist, die wissen meist auch, was sie machen müssen.

  • Im Grunde ist ein OSM-Account immer abstreitbar, selbst wenn der Account den eigenen Realnamen trägt, kann niemand beweisen, dass man das selber war.

  • Mehrfach-Accounts sind nicht für jeden leicht zu verwalten, und ein kleiner Fehler Jahre später kann die Anonymität kaputtmachen.

  • Mehrfach-Accounts sind im Grunde schlecht für ein System wie unseres, das auf Reputation basiert - man will ja sehen, dass verschiedene Edits vom gleichen User sind.

  • Man könnte die Benutzung von Mehrfach-Accounts vereinfachen, indem man Nutzern erlaubt, “Unteraccounts” anzulegen, die dann statistisch vielleicht mitgezählt werden (“User woodpeck und seine 30 ungenannten Unteraccounts haben zusammen so und so viele Edits”)

  • Man könnte Benutzernamen komplett verschleiern (z.B. ersetzen durch zufällige Zahlen) - aber wie dann Reputation ermöglichen und Vandalismus unterbinden?

  • Es wäre möglich, bei Verstecken von Usernamen trotzdem ein Reputationssystem zu haben, indem man das Reputations-Scoring der Webseite anvertraut: “Du siehst nicht, welcher User hier in Deiner Strasse editiert hat, aber er hat einen Reputations-Score von 4.8”

  • Bei der Wikipedia gibt es Statistiktools ähnlich wie Pascals Tools, die vom Benutzer ein opt-in erfordern, sonst erscheint er nicht auf der Liste. Aber jeder kann sich die Daten runterladen und auch ohne opt-in eine Statistik selber rechnen

  • Man könnte eine Statistikseite wie die von Pascal hinter einen Login stellen als kleine Hürde

  • Man könnte die Genauigkeit/Schärfe von Metadaten im Lauf der Zeit verringern, d.h. zu Sachen, die 1 Jahr alt sind, geben wir vielleicht nur noch einen Timestamp mit Tag raus und keine Uhrzeit mehr oder so

  • Egal, was wir tun oder nicht tun, wir sollten eventuell dafür sorgen, dass neue Benutzer ganz genau wissen, was sie tun und was über sie später ermittelbar ist. Derzeit steht das in unserer Privacy Policy, aber wer liest die schon…

Wir haben dann über eine konkrete Idee etwas detailierter gesprochen, und zwar: Was wäre, wenn wir Benutzerdaten (also wer hat etwas editiert) grundsätzlich nur angemeldeten OSM-Benutzern zur Verfügung stellen würden? Ginge das überhaupt, was würde es nutzen, was für Nachteile hätte es, wie sähe das technisch aus?

  • Das Planet-File (inkl. Diff-Updates) gäbe es in zwei Ausführungen - mit und ohne User; das mit User wäre nur für eingeloggte OSMer downloadbar.

  • OSMer müssten zustimmen, Userdaten grundsätzlich nur für interne OSM-Zwecke (Qualitätssicherung, Schutz gegen Vandalismus usw) zu nutzen. Eventuell würde man auch aggregierte Statistiken erlauben, aus denen keine Personendaten mehr hervorgehen.

  • Jemand, der eine Seite wie die von Pascal betreibt, würde also auch einen OSM-Login davorschalten - alles, was nur nach OSM-Login nutzbar ist, ist offensichtlich “interne OSM-Zwecke”

  • API-Requests, Overpass usw. würden Usernamen auch nur mitgeben, wenn man bei OSM eingeloggt ist, sonst bekommt man alles ohne Usernamen

  • Das Planet-File-mit-Usernamen stünde nicht mehr vollständig unter der ODbL, sondern nur der Teil ohne Usernamen. Die Vereinbarkeit mit den Contributor Terms müsste geprüft werden, aber vermutlich ist das in Ordnung; die OSMF hat sich nicht verpflichtet, Usernamen unter ODbL rauszugeben. Darüber hinaus ist, zumindest im deutschen Recht, der Datenschutz stärker als das Urherber- oder Datenbankschutzrecht oder irgendwelche Lizenztexte.

  • All diese Maßnahmen wären geeignet, einen Datenschützer davon zu überzeugen, dass wir Usernamen nicht mir-nichts, dir-nichts in der Gegend verteilen, sondern dass sie nur zu Zwecken der notwendigen Qualitätskontrolle und Zusammenarbeit im Projekt verwendet werden. Trotzdem wäre Missbrauch leicht - man muss sich ja nur einen Account anmelden.

Bye
Frederik

Das würde ich sehr begrüssen.

Grüße
Peter

Hi Freederik,

vielen Dank für deine Bemerkungen.

Das bring nix, da ich die Daten ja schon habe. Die werden nur geändert, wenn ein neuer Diff-Changeset kommt - und das wollt ihr sicher nicht machen.

Eine Umstellung des Diff-Prozesses auf Authentifizierung müsste dabei aber in Osmosis integriert werden, da der hier zentral beteiligt ist. Ein technisches Problem hätte ich damit nicht.

Nach dem “Großen Crash” im Januar '17 habe ich meine Datenbank daraufhin erweitert und begonnen, u.a. diese Userdaten in meine Anwendungen (u.A. Emergency Map) zu integrieren. Den Usernamen werde ich asap aus den Popups entfernen aber bei der Userid (Zahl) bin ich mir nicht sicher. Die Changset-Id möchte ich aber weiterhin ausgeben, allerdings können nur Profis was damit anfangen.

Wie du es schon gesagt hast: Wer es will, kommt an die Userdaten heran.

Gruss
walter

Danke dass ihr euch damit beschäftigt habt!

würde bedeuten, der Name dürfte in allen changesets nicht auftauchen da man es sihc daraus a selbst zusammenstricken könnte

Ich hab bei einem anderen Projekt das so als Datenpool fungieren würde auch eine solche Lösung angedacht und finde sie ersteinmal ganz gut. Ich hätte dafür allerdings ein Opt-out erwogen da die momentane Situation ja sowieso offen für alles ist. Zumindest aus Sicht des einzelnen Projekts fände ich das gerechtfertigt (opt-out) da die OSM Daten ja zur Verfügung stehen. Innerhalb meines OSM Accounts würd ich mir dann aber eigentlich einen deutlichen Hinweis wünschen

fände ich sehr gut

Fände ich seht gut wenn das über der Lizenz machbar wäre. Dann könnte man der Auswertung und Verwertung der Daten zumindest so Herr werden. Wenn jemand z.B. eine soziologische Arbeit über die OSM Mapper machen wollte ginge das nur unter bestimmten datenschutzfreundlichen Beschränkungen bzw. nach Absprache/Abwägung.

en Missbrauch zu verhindern wäre wie es ja deutlich wird schwierig. Aber wenn man schonmal solche Maßnahmen ergreift würde es Aufmerksamkeit für das Thema schaffen und man würde vielleicht bessere Lösungen finden.

Um mal ein Beispiel zu bringen: Der Nutzer hfst hat im Juli 16 relativ lokale Edits in Südtirol gemacht. Bei genauerem Hinsehen findet man auch Links auf neue Bilder in Wikimedia Commons. Und ich denke, dass man auch einen Realnamen zu hfst ergoogeln kann.
Tja, und jetzt kann jeder rauskriegen, wo ich Urlaub mache.
Was auch nicht schlimm wäre. Schlimm wird es, wenn aus diesen Einzelinformationen statistische Schlüsse gezogen werden, die falsch sind.

Ich habe mir dazu auch schon Gedanken gemacht, die allerdings nicht so weitreichend waren. Danke für deine Zusammenstellung woodpeck. Natürlich kann man bei mir feststellen, wo ich schon mal im Urlaub war. Aber gleichzeitig auch ein paar false positives bekommen. Denn nicht überall auf der Welt, wo ich editiert habe, war ich auch tatsächlich.
Der Wohnort ist vermutlich bei >95% der Benutzer durch die Edits klar erkennbar.

Ich glaube aber, dass es nur dann ein Problem geben könnte, wenn man sich hier mit einem auch auf anderen Seiten verwendeten Benutzernamen angemeldet hat oder seinen Realnamen hinterlegt hat. Beides kann man problemlos vermeiden, wenn man es denn will.

Wer Angst vor einer entsprechenden Auswertung hat, dürfte über eine geteilte Lizenz auch nicht glücklich sein - es ist eine Sache von einer Minute, an das “interessante” planetfile zu kommen. Die Informationen, die daraus gezogen werden, werden dann eh so weiterverwendet, dass eine Lizenz in meinen Augen auch kein Hindernis darstellt.

Ob hdyc jetzt nur nach Login einsehbar ist oder nicht, ist mir letztlich egal. Ich kann solch eine Forderung verstehen und ich habe auch kein Problem damit, wenn ich mich einloggen muss.

Fakt ist: Wenn man sich im Internet bewegt, hinterlässt man eben Spuren, die nicht nur für Gutes gebraucht werden können und einem sehr viel über die eigene Person verraten können. Darüber muss man sich eben im Klaren sein, v.a. wenn es um Standortinformationen geht. Meine hochgeladenen GPS-Tracks starten somit auch nie direkt bei mir zu Hause.
Ich glaube, es gibt wenig, was wir verbessern können. Wenn jemand solche Auswertungen fahren möchte, dann kann er es - da bringt ein Login genausowenig, wie Benutzer-IDs nach einer gewissen Zeit nicht mehr zu übertragen.

Ich bin auch für mehr Datenschutz. Durch die Verknüpfung mit anderen Diensten wie z.B. Mapillary kann man schon als Laie recht gute Profile der Mapper erstellen. Gerade die aktiven Mapper sind schon sehr gläsern. Das war für mich Anlass auf verschiedenen Plattformen verschiedene Nutzernamen zu verwenden, aber wahrscheinlich nützt das auch nicht viel. Daher wäre mehr Datenschutz per Default sehr wünschenswert.

Ich bin da bisschen gespalten.
Einerseits ist der Datenschutz imho ein Disaster, andererseits sind nicht nur Tools wie bspw. von Pascal ein Segen, auch die Recherche in den CS direkt oder über Achavi etc. machen viel Arbeit einfacher.

Das wichtigste für mich wäre ein klares Statement für Neumapper direkt bei der Anmeldung. Ich bezweifle, dass das überhaupt jemandem so bewusst ist.

Sehr interessant finde ich übrigens den Ansatz Zweit-accs unsichtbar/anonym an den Hauptacc zu binden. Wäre ich wahrscheinlich sofort dabei. Hat wieder seine eigenen Nachteile, aber irgendwas ist immer.

Diesen Punkt fände ich auch sehr interessant.

Am liebsten hätte ich dann auch noch eine Erweiterung für JOSM, die mich am besten immer gleich beim JOSM-Start fragt, mit welchem meiner Accounts (die JOSM dann parallel speichern sollte) ich denn jetzt gerade editieren möchte. Diesen Dialog könnte man hübsch machen, inkl. Anzeige des jeweiligen Avatar-Bildchens von der OSM-User-Info-Seite neben den einzelnen Accounts. :wink: Nein, im Ernst, das wäre wichtig, ich würde sonst sicher immer wieder Edits mit dem „falschen“ Account machen …

Direkt unter dem e-mail Feld bei der Neuanmeldung hat es (schon -sehr- lange) ein Link auf http://wiki.osmfoundation.org/wiki/Privacy_Policy

Man muss sich einfach bewusst sein, dass wenn die Pläne umgesetzt werden, vielleicht umgesetzt werden müssen, es auf eine Zentralisierung der ganzen niederschwelligen QA Arbeit/Dienste herausläuft, also ganz andere Konsequenzen als nur mehr Datenschutz haben wird.

Ich will die Idee einer zusätzlichen Indirekion, nennen wir sie “Tagesrolle”, nochmal konkret erläutern:

Die Tagesrolle braucht keine Zufallszahl zu sein, sondern kann fortlaufend sein. Jedem Benutzer wird automatisch bei seiner ersten Änderung an einem Kalendertag die nächste Nummer zugewiesen - seine Tagesrolle.

An den Objekten und den Changesets (und damit auch im Planetfile) stünden dann keine Kennungen mehr, sondern diese Tagesrollen.

Der Bezug zwischen Tagesrolle und Benutzer wäre Teil der Benutzerstammdaten - dort gäbe es pro Benutzer eine Liste all seiner Tagesrollen.

Mit Zugriff auf die Benutzerstammdaten ändert sich also vom Prozess her nichts - alles ist genauso rekonstruierbar wie bisher und man kann einen Changeset-Autor genauso kontaktieren wie bisher (auch bisher sieht man ja nicht seine email-Adresase).

Das Prinzip, was hier greift ist einfach, dass Benutzerstammdaten (ja auch jetzt schon) einen höheres Schutzniveau haben als die Geo-Daten.

Während hier über Datenschutz diskutiert wird, wird anderenorts darüber nachgedacht, die mit eurem OSM-Profil verknüpfte Email-Adresse auch externen Anwendungen auf Anfrage und mit eurer expliziten Genehmigung herauszurücken. Einige von euch hier haben ja bereits kritischen Anmerkungen dazu angebracht.

Ich habe immer noch nicht verstanden, wozu das überhaupt gut sein soll. Es gibt doch die Nachrichtenfunktion, Changesetkommentare, etc… Zusätzlich Mails von zugelassenen Apps (z.B. Maps.ME) zu erhalten will ich ehrlich gesagt nicht. Also ein tiefrotes -1 von meiner Seite dazu.

Schon nervig genug, dass man für diese “Mailinglisten” eine Emailadresse angeben muss. :sunglasses:

Link: https://github.com/openstreetmap/openstreetmap-website/pull/1431

Zu den anderen Punkten:

Opt-in wäre gar nicht so schlecht. Könnte man ja auf der Benutzerseite als Tag anbringen, so wie Pascal auch heute schon die Verknüpfung zu Help OSM, etc. für “How did you contribute” auswertet.

Siehe: https://www.openstreetmap.org/user/malenki/diary/38381

Wenn sich das auch auf Planet-Files oder alte Diffs bezieht: das würde zumindest die Attic-Funktion in Overpass potenziell gehörig aus dem Tritt bringen, wenn dann nicht mehr klar ist, welche Objekt(-version) zu einem bestimmten Zeitstempel (in Sekunden) gültig ist. Redactions sind heute schon ein Painpoint, mit unscharfen Metadaten wird das nicht besser.

Overpass als Beispiel schickt Metadaten, also insbesondere die Benutzer-Id und Name nur bei einem out meta;. Könnte man bestimmt irgendwie von einem angemeldeten Nutzer abhängig machen, d.h. zumindest nicht technisch unmöglich. Ob das Roland machen wollen würde, kann ich nicht beantworten.

Wahrscheinlich ist ein nicht gesetztes out meta; nicht ganz passend, da es auch Zeitstempel und Objekt-Version ausblendet. Da müsste etwas neues her, das explizit User-ID und Username ausblendet.

Edit: Ersten beiden Abschnitte überarbeitet wg. missverständlicher Formulierung

Ups, das ist mir entgangen. Wirklich? Sch***, das wäre für mich sogar ein Grund, aus OMS komplett auszusteigen. :frowning: Zumindest müsste ich mir dann für das OSM-Profil eine eigene anonyme E-Mail-Adresse zulegen, damit keine direkte Verknüpfung möglich ist …

Also auch von mir ein tiefrotes –1 dazu!

Sorry, mein Text war etwas missverständlich, ich wollte hier keine Panik schüren. Natürlich würde die Weitergebe nur erfolgen, wenn ihr dem ganzen explizit in einem Dialog zugestimmt habt. Ich möchte an der Stelle einfach an das Github-Issue das ich oben verlinkt habe verweisen.

Danke für die (tlw.) Entwarnung! Trotzdem ist es gut, dass Du auf diese Pläne hingewiesen hast. Dann will ich hoffen, dass in diesem Dialog ausdrücklich darauf hingewiesen wird, dass nicht nur „irgendwelche Daten“, sondern auch die angegebene E-Mail weitergegeben wird. Denn die E-Mail-Adresse ist nun mal der direkteste Link zur Identität des Mitwirkenden …

Ich darf vielleicht anmerken, dass ich eigentlich nichts zu verbergen habe und mich auch nicht wichtig machen möchte. Aber ich möchte eben nicht, dass mein Engagement bei verschiedenen OpenSource/OpenData-Projekten von jedermann so leicht verknüpft werden kann, da durch eine solche Vernetzung ein unangenehm genaues „Bewegungsprofil“ entstünde. Deshalb verwende ich ja getrennte Nicknames. Die E-Mail-Adresse würde aber sofort eine Vernetzung ermöglichen …

Echt jetzt? Ernsthaft? So paranoid, getrennte Nicknames anzulegen, und dann DIESSELBE E-Mail-Adresse für ALLE Nicks zu verwenden??? :roll_eyes:

ADD: Sorry, aber so Leute verstehe ich einfach nicht, das ist einfach HALB und NIX GEKONNT, entweder Gescheit, d.h. pro Nick eine eigene Emailadresse und eigene Bankverbindung usw, oder gar nicht, dann kann man es auch sein lassen…

Danke für die freundlichen Worte. :wink: Allerdings … Bankverbindung? Komisch, habe ich bei der Registrierung für Wikimedia oder bei Open-Source-Projekten noch nie angeben müssen. Sprechen wir vielleicht von verschiedenen Dingen? Außerdem … warum paranoid? Dass ich vor Geheimdiensten oder einfach Internet-Providern so nichts verbergen kann, ist mir völlig klar, und daher versuche ich das auch gar nicht (deshalb dieselbe E-Mail-Adresse, solange diese nicht offen angezeigt wird). Alles, was ich meinte, ist, dass ich z.B. für Wikimedia-Projekte einen anderen Nickname verwende als für OSM, damit nicht jeder Depp sofort weiß, dass das ein und dieselbe Person ist, einfach weil das nicht jeden Depp was angeht. Man kann das auch anders sehen und absichtlich überall denselben Namen verwenden, auch das ist OK und nachvollziehbar.

Aber, mal im Ernst: Muss man sich hier für jede Dummheit verteidigen? Weißt Du, lieber Harald, es sind einfach nicht alle Leute so klug und erfahren wie Du. Tut mir leid. Ich kenne erstaunlicherweise sogar Leute, die haben nochmal weniger Ahnung als ich, trotzdem verspotte ich sie nicht öffentlich.

Und am besten beenden wir dieses Sub-Thema jetzt, denn (1) bin ich laut Harald sicher sowieso zu dumm, irgendetwas zu kapieren, (2) empfinde ich derartige herablassende Äußerungen wie die von Harald als persönliche Runtermachung, wie man deutlich sieht, und (3) gibt es ja noch andere wichtige Fragen in Sachen Datenschutz und OSM, über die Ihr Großen und Weisen in Ruhe diskutieren solltet, ich halte die Klappe und mich aus diesem Thread heraus.

Ich habe eine separate E-Mail-Adresse für OSM und bekomme da gelegentlich Spam :expressionless:

Ich habe dir gar nicht unterstellen wollen, dass du keine Ahnung hättest oder Dumm wärst … letztendlich ist es meine Meinung, dass die Datenschützer eher die Leute darüber aufklären sollten, dass sobald man sich elektronisch irgendwo beweget verfolgt/erfasst werden kann (unabhängig von den ganzen Schwachsinn mit anonymen Nicks und so Zeugs).

Wie du schon sagtest, es muss niemand bei irgendwelchen Projekten mitmachen, wenn man nicht möchte, dass man in irgendeinerweise nachverfolgbar sein möchte … und bei einem Stimme ich dir sogar zu: diese Diskussion um Datenschutz und wie man die Latte (nur) ein bisschen höher legen könnte (damit nicht jeder einfach dran kommt, sondern sich anstrengen muss) braucht’s in der Tat nicht.

PS: Und das mir der Datenschutz mal sowas von Sch…egal ist, sieht man an meinem Realname, damit kannst du auch meine reale Wohnadresse ausfindig machen: ach ich mache es dir noch einfacher: http://name.haraldhartmann.de/ich würde dich (Chrysopras) ja sogar auf ein Bier einladen, wenn du mal vorbeikommst, aber das kann ich leider dann doch nicht machen, weil das erstens eine öffentliche Einladung wäre und zweitens ich ja dann gar nicht wüsste, ob der richtige anonyme Chrysopras vor mir steht.

Und um weiter sachlich zu bleiben und weiter zu argumentieren, frage ich dich: Wieso? Was hast du zu verbergen? Genau diese Argumentation führt meiner Meinung nach genau dazu, dass einige genau in diesem (vermeindlichen) Schatten der Anonymität eben Dinge unternehmen, die eventuell unerwünscht sind und in der Tat besser im Verborgenen bleiben sollten, was aber letztendlich dann dem (freiwilligen/opensource) Projekt negativ angelasstet wird.