User Tracking auf Openstreetmap.org

Joachim_Moskalewski · October 29, 2013, 6:14am

Eine solche Unterstellung finde ich weder in meinen Sätzen, noch in meinen Gedanken. Den mir bekannten Admins, Entscheidungsträgern und Webseitenbetreibern würde ich beim Einsatz von Tracking eher schlichte Gedankenlosigkeit unterstellen.

Und ja, ein Admin, der seine Aufgabe auch tatsächlich nachkommt (nach meiner Beobachtung werden Firmen erst aktiv wenn der Kunde anruft und sagt “Server steht” - die Kohle für die tagtägliche Administration nimmt man dennoch gerne), sieht und erfährt zwangsläufig mehr als den verblendeten Gesetzgebern & Datenschützern lieb ist. Doch: Das ist für mich kein Problem.

Und ja, wird nichts nach außen gegeben, bleiben alle Requests einer Seite auf den eigenen Maschinen, ist alles okay. Ich selbst fordere meine Schäflein (so sie denn Tracking wollen) auf selbst so etwas in einer Datenschutzerklärung zu erwähnen. Denn nach meinem Kenntnisstand muss man dies innerhalb Europas tun. Eben weil Tracking Bewegungsprofile versucht zu bilden, und nicht nur eine Statistik erstellt. Völlig egal ob das auf der eigenen Seite bleibt oder nicht - es ist ein Profil. Ob Piwik wirklich ein Profil bildet (oder nur versucht mit dem Wort “Tracking” Anwender zu ködern) - keine Ahnung.

Und letztlich sind nach meiner Erfahrung alle solche Tools für die Tonne - noch habe ich keines gsehen, das heutzutage wirklich User von Bots unterscheiden kann. Piwik wird es z.B. eher nicht schaffen jene Besucher zu identifizieren, die zuerst eine robots.txt abrufen, um noch in der gleichen Sekunde mit einem Firefox nach dem Impressum zu crawlen. Die Firmen lieben ihre Zahlen - doch aussagen tun sie genau nichts. Nur der Admin, der noch Serverlogs liest, hat eine Ahnung von dem was los ist. Den fragt man aber nicht, man braucht ja belastbare Zahlen…

whb · October 29, 2013, 9:51am

Erledigt.
Geht über “Bild löschen”.
Das ist wenig intuitiv, da ich nie ein Bild hochgeladen habe.

Warum ist Gravatar nicht Opt-in?
Denn realistisch gesehen lässt sich eine Information, sobald diese einmal öffentlich war, nie mehr zurückholen.
Ich kann den Hash nachträglich nicht mehr (z.B. von den Google-Such-Servern) löschen und die von mir genannten Verknüpfungen sind schon erfolgt.

Viele Grüße,
whb

whb · October 29, 2013, 10:36am

Piwik verfolgt standardmäßig nur Benutzer mit eingeschaltetem JavaScript.
Da Bots üblicherweise keine JavaScript ausführen, sollten diese weitgehend nicht verfolgt werden.

Wird die Verfolgung auch bei ausgeschaltetem JavaScript aktiviert und gewährt man Piwik Zugriff auf die Server Logs, dann sollte auch die Erkennung von Suchmaschinen-Bots möglich sein:

http://piwik.org/faq/new-to-piwik/#faq_63

Viele Grüße,
whb

Nop · October 29, 2013, 1:11pm

Ich finde es auch ein wenig bedenklich, daß hier im Prinzip das Facebook-Standardverhalten von OSM adaptiert wird, diskussionswürdige Features stillschweigend defaultmäßig einzuschalten.

Grade in einem OS-Projekt, wo sich viele Leute mit der Materie auskennen und man am deutlichsten mit Empfindsamkeiten und prinzipiellem Widerspruch gegen Tracking und Datenverquickung rechnen muß.

Allerdings wieder mal das gleiche Fazit: Das deutsche Forum ist der falsche Ort für die Frage, die Frage müßte man schon auf der talk ML auf Englisch stellen.

bye, Nop

brogo · October 29, 2013, 1:25pm

+1

Es ist auch nicht einzusehen, warum die OSMF für die interne Verwaltung Google-Dienste nutzt.

Außerdem finde ich es schade, daß momentan alle zu Github (inkl. OSM-Entwickler) laufen. Lokale SVN-Server werden nicht mehr genutzt, dafür wird ein Dienst benutzt, der von kommerziellen Unternehmen betrieben wird. => github kann den Dienst jederzeit einstellen oder komplett kostenpflichtig machen.

Christian

Nop · October 29, 2013, 1:37pm

Hm, habe mich nochmal ein wenig umgesehen was Gravatar angeht. Die Bedenken scheinen nicht nur prinzipiell zu sein.

http://arstechnica.com/security/2013/07/got-an-account-on-a-site-like-github-hackers-may-know-your-e-mail-address/
http://meta.stackoverflow.com/questions/44717/is-gravatar-a-privacy-risk

bye, Nop

SimonPoole · October 29, 2013, 1:51pm

Keine Ahnung, vermutlich historisch gewachsen, aber es hindert dich niemand dran ein pull-request zu machen der dies ändert.

SimonPoole · October 29, 2013, 1:55pm

Korrekt ist es hier dokumentiert http://wiki.openstreetmap.org/wiki/Getting_The_Source

SammysHP · October 29, 2013, 3:19pm

Abgesehen davon, dass ich aufgrund der Größe und Anzahl der Nutzer nicht glaube, dass GitHub abgeschaltet oder für öffentliche Repositories kostenpflichtig wird, wäre es völlig egal. Der Vorteil bei git ist, dass jeder Entwickler eine Kopie des gesamten Repositories besitzt. Dieses kann auf beliebig viele Server hochgeladen werden (sogenannte Remotes). Es gibt also nicht das Problem von SVN, dass man auf den zentralen Server angewiesen ist.

Joachim_Moskalewski · October 29, 2013, 4:01pm

Mit Deiner Denkweise bekommst Du nicht einmal Facebooks Bot in den Griff - der ruft auch Dein Javascript auf. Und nein, das ist kein Ausnahmefall. Die Entwickler von manchen Bots haben die letzten Jahre nicht geschlafen, die kommen mit 3, 4 echten Renderengines gleichzeitig daher und machen vermutlich sogar Screenshots. Die Unterscheidung mittels JS (und/oder simpler Browserkennung) kann man nehmen, reicht heute aber nirgend wo hin. Vorheriges Abrufen von robots.txt, die Anzahl und Kontinuität der Requests pro Sekunde, die Reihenfolge der abgerufenen Seiten, Links die nur Bots sehen usw. - es gibt viele Betrachtungen, anhand derer Du massiv mehr Bots erkennen wirst als es derzeitige Tools können. Dazu muss man aber Serverlogs lesen, robots.txt ggf. via mod_rewrite scriptseitig generieren usw. Automatisch erstellte Statistiken und/oder Tracking ist seit etlichen Jahren für die Tonne (oder für ein Management, das Zahlen geil findet). Hören will das freilich niemand.

amm · October 29, 2013, 6:53pm

Da ich die automatische Verwendung von gravatar als ebenfals sehr problematsich empfinde, habe ich das nun gemacht: https://github.com/openstreetmap/openstreetmap-website/pull/519

Der patch schalte Gravatar standardmaessig bei neu registrierten Usern ab und man muss gravatar in den Settings explicit aktivieren wenn man das will.

Fuer bestehende Accounts aendert sich nichts, da dort nicht zu bestimmen ist ob, der User per automatic opt-in gravatar bekommen hat, oder ob er dies explicit wuenscht.

Bezueglich Piwiki sehe ich die Bedenken auch weniger. Piwiki wurde, wenn ich mich richtig erinnere explicit deshalb eingerichtet um die Datenschutzbedenken bei der Verwendung von dritt Seiten wie google-analytics zu begegnen. Soweit ich weis werden die Daten nur sehr begrenzt wenn ueberhaupt ausgewertet. Der Grund fuer die Einrichtung wurde bereits erwaehnt. Es soll dazu dienen die Usability der Seite zu verbessern um z.B. zu sehen wo im Prozess der Registrierung Leute abspringen und ob man diese Stellen Userfreundlicher gestalten kann. Ausserdem kann man moeglicherweise z.B. sehen ob User nach der Registrierung einen editor aufrufen, oder eine Hilfe Seite besuchen, welches moeglicherweise hilft herauszufinden wieso nur ca 1/3 der Leute die sich bei OSM registrieren auch einen erfolgreichen changeset hochladen.

Dieses Verstaendnis kann durchaus dafuer genutzt werden die Seiten benutzergerechter zu gestalten und somit Neueinsteigern zu helfen, welches wiederum allen zu Gute kaeme. Soweit ich weis wird damit kein Langzeit tracking betrieben, wobei ich das nicht sicher sagen kann.

Eine weitere Verwendung, die vielleicht umstrittener ist, waere die Motivation der Entwickler. Wenn man nachdem man viel Muehe in ein neues Feature hineingesteck die Bestaetigung bekommt das es gut angenommen wird, ist das man das naechste mal vermutlich deutlich bereitwilliger wieder Muehe in das naechste Feature zu stecken.

viw · October 29, 2013, 8:08pm

Wo kann ich das ausschalten?

SimonPoole · October 29, 2013, 8:25pm

“Bild löschen” im Profil.

viw · October 29, 2013, 8:29pm

danke

free_as_a_bird · October 29, 2013, 9:02pm

Genau den letzten Punkt würde ich auch hervorheben. Die Admins engagieren sich in vorbildlicher Weise, niemand wir das hier in Frage stellen!
Möglicherweise ist schlicht übersehen worden, dass hier bis dato unproblematische Einzeldaten in der Gesamtheit ein Profil erzeugen.

Die Presseberichte zu PRISM und TEMPORA, wonach die Dienste google maps Nutzungsdaten im Zuge ihrer Rasterfahnung auswerten, hinterlassen einfach ein ungutes Gefühl.

Wenn es allein darum geht Fragen zur Nutzung von osm.org zu beantworten, wäre zunächst eine Umsetzung der Landesdatenschutzempfehlungen sinnvoll:
Das im Bericht erwähnte Anonymisierung-IP-Plugin installieren und fertig is… Oder eben, wie weiter oben erwähnt, auf Statistiken anstatt Tracking zurückzugreifen.

Um noch einmal aufs Technische zurückzukommen:

Nachdem viele der Vorredner bereits wertvolle Hinweise gegeben haben, versuche ich die noch einmal die einzelnen Puzzlestücke zusammenzutragen:

Bei jedem Besuch von openstreetmap.org wird die vollständige IP-Adresse gespeichert.
Die Daten werden per piwik-Default-Einstellung für 30 Tage gespeichert. Ob osm.org die Default-Einstellung verwendet ist ungeklärt.
Neben der IP-Adresse werden diverse, an sich unkritische Informationen wie Bildschirmauflösung, Browser, installierte Plugins, Betriebssystem usw. gespeichert
In Summe ermöglichen diese Informationen eine eindeutige Identifierung des Users bei folgenden Besuchen. Cookies werden hierfür nicht benötigt.
Das Tracking erfolgt durch einen Aufruf eines image-Tags. Hierbei wird meinem Verständnis nach der referrer, d.h. die aktuelle Kartenposition inkl. Zoomlevel an piwik übertragen.

Wenn dem tatsächlich so ist (korrigiert mich gerne), geht aus den gesammelten Daten hervor für jeden User hervor, welche Kartenabschnitte er sich in den letzten 30 Tagen angeschaut hat, was ihn besonders interessiert hat (d.h. wo er von hohem auf niedrigen Zoom-Level bewegt hat), wie er sich über die Karte bewegt hat, usw.

Netzwolf · October 29, 2013, 10:04pm

Nahmd,

Wenn Scripting abgeschaltet ist, wird die unsichtbare Graphik einmalig beim Laden der Seite aufgerufen (). Ohne Scripting funktioniert aber die Karte nicht.

Wenn Scripting eingeschaltet ist, überträgt das nachgeladene http://piwik.openstreetmap.org/piwik.js die erfassten Daten per XMLHttpRequest(POST) an den Server. Das JS kann sich an praktisch jede Komponente der Seite andocken, so z.B. auch das Anklicken von Links melden, und wohl auch weitere Komponenten vom Server nachladen, das ist sehr weit konfigurierbar. Neben dem Referrer kann auch Bildschirmgröße und die Geschwindigkeit des Seitenaufbaus gemeldet werden.

Das Skript reagiert auf “DoNotTrack” und nutzt dann keine Cookies, die Datenübertragung an den Server bleibt bestehen.

Einfachste Abwehrmaßnahme ist die Aufnahme von http://piwik.openstreetmap.org/ in die Sperrliste von Adblocker&Co. Alternativ ein “127.0.0.1 bad.server.tld”-Eintrag in der /etc/hosts. Daten, die nicht übertragen werden, können weder gespeichert noch (später) missbraucht werden.

Auch das Log des Kachelservers enthält diese Daten – ganz ohne Schnüffeltool.

Gruß Wolf

gormo · October 30, 2013, 8:27am

!i!:

gormo:

!i!:

Das man als Webmaster den Weg seiner Nutzer und ihr Wiederkehrverhalten verfolgen will, halte ich für durchaus nachvollziehbar. Wer das nicht will, kann es ja gerne blockieren oder Do-not-track aktivieren, oder?

Wofür will man das wissen? Ich sehe keinen Nutzen und potenziell viel Schaden. Erklär mir den konkreten Nutzen für OSM/OSM.org/die OSMF/uns, und ich bin gerne bereit drüber nachzudenken. Aber einfach so “weil es geht”/“weil andere das auch machen”/“weil ich die Grafiken so schön finde”? Nee.

Das will man wissen, um etwa herauszukriegen:

was wird häufig abgerufen

wie gelangen Nutzer auf diese Seite

wie lange verweilen sie dort

wohin gehen sie danach auf dieser Seite
Das hilft dann insgesamt das Nutzerinterface und die Präsentation von Informationen zu überarbeiten. Stichwort hier etwa A/B Tests.

Danke für die Infos. Aber ist das für openstreetmap.org wirklich wichtig? Bei einer großen kommerziellen Webseite, die tatsächlich darauf angewiesen ist, das der Nutzer (beispielsweise) schnell den korrekten (Treiber-)Download findet, sehe ich das ein. Aber bei OSM?

Eventuell interessant wäre noch “wie lange surft jemand auf der Webseite, bis er a) was editiert, b) JOSM runterlädt oder c) ein Nutzerkonto eröffnet”, aber das ist halt auch mehr Spielerei, ich kann mir nicht vorstellen wieso man das unbedingt wissen muss…

Wenn die vollen DS-Empfehlungen umgesetzt werden, die hier schon verlinkt wurden, habe ich auch nicht wirklich was (bzw. nichts fundiertes, ein gschmäckle bleibt) gegen piwik.

brogo · October 30, 2013, 8:32am

Gerade wegen der Größe lohnt es sich die kostenlosen Dienste zu beschränken und nach und nach mehr kostenpflichtig zu machen. Erst kostenlos anfixen und dann die Hand aufhalten. Ist halt auch nur ne Firma die Geld machen will.

Aber halt nur der Code. Die ganzen Bugtrackergeschichten sind da doch nicht mit drin, oder?

Christian

SammysHP · October 30, 2013, 9:35am

Nein, der ist nicht mit drin. Man könnte die über die GitHub-API aber automatisch spiegeln.

Joachim_Moskalewski · October 30, 2013, 1:50pm

Vorab: Ich gehöre für die Welt da draußen hinsichtlich Computer zu den Paranoiden, meine Hinweise was alles so gefährlich oder unsicher ist schieben alle gerne beseite und sagen sich “jaja, der redet halt, so schlimm kann das alles gar nicht sein”. Und genau so einer schreibt nun diese Zeilen:

IP Adressen zu verbergen ist Aufgabe jenes Tools das Tracking auswertet oder Statistiken erstellt. IP Adressen so einfach wie von Datenschützern gewünscht auf den Servern direkt zu anonymisieren ist irgend was zwischen sonniger Inkompetenz und Komasaufen für Fortgeschrittene: IP Adressen sind die elementarste Information für einen Seitenbetreiber, um einen Server z.B. vor Angriffen schützen zu können. Dass die gleichen Datenbeschützer wollen, dass man künftig Angriffe melden soll, aber diese Meldung dann genau keine Information mehr enthalten kann… (wobei dann auch der Abmahn-Abschaum ausgespielt hätte - verlockend).

Serveradmins benötigen die IP Adressen - wer Statistiken oder eine Trackingauswertung liest hingegen nicht. Letzterer will diese aber gar nicht, da der nichts weiter mit anfangen kann, das transportiert keine weitere relevante Information mehr (bzw. da sollte diese fertig ausgewertet sein). Ein nicht existentes Problem.

Eine IP kann man auch keineswegs zu einer Person zurückverfolgen. Zu einem Gerät oder zu einer Wohnung mag das theoretisch möglich sein, weiter aber auch nicht. Und schon das setzt voraus, dass ich beim Netzanbieter selbst arbeite und die Daten des Providernetzwerks mit den Logdaten des Webservers abgleichen kann - ein Serveradmin tut das in nahezu 100% wohl nicht. Und schon wieder: Ein nicht existentes Problem - das existiert nur innerhalb der Telekomiker o.ä.

Die ach so bösen Cookies sind ein weiteres, sehr großes Feld. Kurz: Sie sind prinzipiell eine gute, sinnvolle und sogar notwendige Sache. Man kann aber einem Browser auch sagen diese sollen beim Beenden gelöscht werden - und fertig ists auch mit der umfangreicheren Verfolgbarkeit hierüber.

Und die übelsten Tracker kann man schmerzfrei via hosts-Datei ganz einfach komplett wegsperren - einfach schauen wer so alles Cookies ablegt, man aber gar nicht aktiv besucht hat, rein mit in die hosts Datei und Ruhe ist. Netzwolf hat das weiter oben erklärt.

Und dann noch via Autostart o.ä. die Überreste vom unsäglichen Flash wegputzen (legt seine Erkenntnisse zweifach ab - ein Ordner “adobe” und einer “macromedia”, beide gerne versteckt) - man hat gute Möglichkeiten sich gegen jedes Tracking zu wehren. Das Problem ist ja nicht vom Tisch wenn OSM kein Piwik mehr nutzen sollte… Auch kann kein Land und keine EU das Problem vom Tisch kehren, das WWW ist ja ein “Word Wide Web”.

Betrachte ich den heutigen Surfer, dann ist das Abschieben des Datenschutzes alleine auf die Anbieter einfach zu billig. Will ich online einkaufen muss ich akzeptieren, dass mich der Webserver beim nächsten Mausklick wiedererkennen können muss. Will ich überall auf der Welt mit meinem Handy telefonieren können, muss ich akzeptieren, dass auch mein Handy dem Ort an dem ich mich befinde zugeordnet wird. Soll ja niemand wisen, dass ich heute zum Briefkasten bin brauche ich Harry Potters Mantel usw. Und die Infos meiner Kontoauszüge würden vor einem auf Internet spezialisierten Gericht wohl 25 Jahre Zuchthaus für meine Bank bedeuten… Fresst das: Leben hinterlässt Spuren. Aber Leute, wir haben aktuell ganz andere Baustellen hinsichtlich Webseiten:

Mit HTML5 können Webseiten Daten auf Deinem Rechner speichern, “damit Du diese offline nutzen kann”. Das Argument hätte vor 10 Jahren noch bei mir gezogen, heute fühle ich mich da etwas verschaukelt - das wird Cookie 2.0 werden. Aktuell kann man das immerhin noch ohne Nachteile deaktivieren… Und Google arbeitet unermüdlich seit langem daran die Client-Server-Kommunikation zwischen Webbrowser und Webserver nimmer zustandslos zu belassen, sondern will dass der Webserver aktiv dem Browser Daten schicken kann. Da sollten alle Alarmglocken scheppern - dagegen ist alles was wir heute haben und hier diskutieren Kindergarten.

Zurück zu OSM: Von mir aus darf gerne mit Piwik getrackt werden. Ich bezweifle nur den Sinn. Und ich weiß, dass es viele ITler gibt, denen ich das mit keinem einzigen Argument näherbringen kann.