Lizenzfragen Open Data Verkehrssimulation

Hallo zusammen,

ich forsche im Bereich der Verkehrssimulation und ein wichtiges Thema für mich ist die Frage, wie wir Tools und Daten für solche Simulationen offen und zugänglich gestalten können. Die Grundlage von solchen Simulationen, wie wir sie durchführen, sind synthetische Populationen, d.h. jede Person in einem Gebiet wird individuell modelliert. Dadurch, dass jede Person einen Tagesplan hat (wann / wo geht sie zur Arbeit, ins Restaurant, usw.) ergeben sich dann die Verkehrsmuster, die möglichst gut die Realität abbilden sollen. Für verschiedene Regionen in Frankreich haben wir nun solche Populationen ([1,2], falls es interessiert), die sogar komplett auf offenen Daten beruhen.

Interessant wird es nun, wenn wir diese Population simulieren, denn dafür nutzen wir Strassennetzwerke aus OpenStreetMap. In einem Zwischenschritt wird dabei die synthetische Population genommen (welche nur Koordinaten für den Arbeitsplatz, die Restaurants, etc. enthält) und diese Aktivitäten werden an die nächstgelegenen Strassen gesnapt, damit wir die Wege dazwischen später im Netzwerk simulieren können. Das heisst aus einem Datensatz

wird

Das heisst hier wird ein unabhängiger Datensatz mit OSM Daten angereichert. Ich würde gern zunächst klären, ob das nach Einschätzung der Community eine “derived database” wäre (Frage 1)? Nach der Lektüre einiger Webseiten, Kommentare, etc. würde ich momentan sagen “ja”. Oder könnte das auch als “produced work” angesehen werden? Dies ist wichtig für die folgenden Fragen.

Frage 2: Ich habe viel darüber gelesen, dass die CC-BY-SA Lizenzen nicht mit OSM kompatibel sind. Allerdings scheint es mir, dass dabei im Vordergrund steht, ob die CC-BY-SA Daten in OSM integriert werden können. Wie sieht es aus, wenn wir Daten mixen? In unserem Fall würden wir offene, aber nicht notwendigerweise ODbL Daten für die Basispopulation nutzen, welche später mit OSM Daten angereichert wird. Für die französischen Daten wären das z.B. Etalab 2.0, die mit ODC und CC-BY kompatibel ist. So wie ich es momentan verstehe, sollten wir keine Probleme haben, speziell, wenn die Lizenzen lediglich “attribution”, aber nicht “share-alike” verlangen? In dem Fall könnten wir diese Daten für die grundlegende Population verwenden, dann die Population mit OSM Daten anreichern, und das ganze als ODbL veröffentlichen. Wir können die Daten allerdings nicht unter CC-BY-SA veröffentlichen, weil die Lizenz aufgrund feiner Unterschiede nicht mit den enthaltenen OSM Daten kompatibel wäre. Macht diese Einschätzung Sinn?

Frage 3: Es gibt nun zwei Versionen der Basis-Population: Die eine nutzt offene Verhaltensdaten, während eine andere proprietäre Daten nutzt (da die betroffene Behörde Befürchtungen zu Privacy hat). In beiden Fällen würden wir die Daten dann wie oben beschrieben mit OSM Informationen anreichern. Während mit den offenen Daten alles ok wäre, haben wir ein Problem mit den proprietären Daten, da wir sie sozusagen “leaken” würden. Durch die Verbindung mit OSM würden wir praktisch einwilligen, die Daten unter ODbL zu veröffentlichen, wobei wir dazu keine Befugnis der Besitzer haben.

Wie sieht es nun mit davon abgeleiteten Ergebnissen aus? Wir würden diese angereicherten Populationen intern nutzen, um Verkehrssimulationen durchzuführen. Am Ende würden wir, z.B. für wissenschaftliche Publikationen, aggregierte Resultate zeigen, z.B. die Anzahl der Aktivitäten in verschiedenen Städten, oder die Anzahl der Fahrzeuge auf einzelnen Strassen nach Tageszeit. Solche Plots wären sicher “produced works”, aber das Problem ist, dass wir als Zwischenschritt diese angereicherte Population haben. Was mir noch nicht ganz klar ist: Wenn wir solche Plots zeigen, impliziert das, dass diese Zwischendaten existieren, und verpflichtet uns dies, diese unter ODbL zu veröffentlichen? Das heisst das Setup wäre:

Wenn wir das “produced work” (eine Grafik) in einem Paper zeigen, muss dann die “Derived Database” unter ODbL-kompatibler Lizenz zugänglich gemacht werden? Dies wäre wichtig für uns zu wissen, da dies einen Vergleich der Simulation auf Basis der offenen Daten vs. proprietären Daten ausschliessen würde.

Ich hoffe, ich konnte die Problemlage einigermassen verständlich erklären und bin gespannt, ob mir hierzu jemand Feedback geben kann! :slight_smile:

Beste Grüsse,
Sebastian

[1] https://www.researchgate.net/publication/341131284_Reproducible_scenarios_for_agent-based_transport_simulation_A_case_study_for_Paris_and_Ile-de-France
[2] https://github.com/eqasim-org/ile-de-france

Ich habe mich nun etwas weiter damit beschäftigt.

Frage 1: Ich glaube hier sind zwei Aspekte interessant, erstens die Collective Database Guideline und die Geocoding Guideline. Zur letzteren gibt es einen interessanten Thread in der OSM-legal-talk mailing list. Dort wird argumentiert (aber auch gegen-argumentiert), dass ein Machine Learning Algorithmus ähnlich wie ein Geocoding-Algorithmus zu sehen ist, speziell, wenn keine OSM Daten repliziert werden. Ich glaube, so lässt sich auch in unserem Fall argumentieren: Im Prinzip machen wir auch eine Art Geocoding, wenn wir die Koordinaten aus der Basispopulation nehmen, und jeweils den nächstgelegenen Link im OSM-Netzwerk finden. Das heisst, diese annotierte Population wäre ein produced work.

Hinzu kommt nun, wie wir unseren extract des OSM-Netzwerks speichern. Hier fügen wir z.B. noch neue Attribute hinzu, die auf anderen OSM Daten beruhen (z.B. fügen wir eine “Strassenkapzität” an, die sich aus der Anzahl Spuren und des highway-Typs berechnet). Dies wäre dann klar eine derived database und muss (und kann ohne Probleme) zugänglich gemacht werden.

Dann hätten wir also das Netzwerk, welches unter ODbL veröffentlicht wird, zusammen mit der annotierten Population, die lediglich Links in diesem Netzwerk über eine ID referenziert. Dies entspricht meinem Verständnis nach dem Beispiel aus der Collective Database Guideline, wo ein Verzeichnis von Telefonnummern lediglich einen Ort im OSM Netzwerk referenziert. Zusammen werden die zwei Datensätze klar als eine collective database bezeichnet.

Frage 2: Mittlerweile denke ich, dass die Einschätzung so Sinn macht. Im konkreten Fall würden wir in jedem Fall eine Version der gesamten Simulationsdaten unter der ODbL veröffentlichen, was auch besagtes Netzwerk einschliesst. Nicht unbedingt relevant für uns, aber generell gäbe es noch den Aspekt der parallelen Publikation, der besagt, dass man die Daten unter anderen Lizenzen veröffentlichen kann, solang es eine Version unter der ODbL gibt.

Frage 3: Ich glaube, hier ist die ODbL ziemlich klar in Punkt 4.6: Wenn man produced work veröffentlicht, muss man auch die derived database auf der es basiert, veröffentlichen. In unserem konkreten Fall kommt das insofern zum Tragen, als dass wir das konvertierte Netzwerk veröffentlichen. Das Netzwerk, zusammen mit der annotierten Population, stellt lediglich eine collective database dar, die nach Punkt 4.4 (eine collective database, die für ein produced work verwendet wird, wird nicht automatisch zu einer derived database), nicht veröffentlicht werden muss.

Insofern wäre mein Fazit: Es macht Sinn, wenn wir unsere offene Version der Daten unter der ODbL veröffentlichen, da einige der Input-Daten (nicht nur OSM, sondern auch diverse GTFS-Schedules, etc.) auch ODbL sind und es somit allen die Lizenzierung einfacher macht. Allerdings können wir in wissenschaftlichen Populationen den Vergleich mit proprietären Daten durchführen, weil wir aus unserer sensitiviten Population die OSM Elemente lediglich über eine ID referenzieren.

Sieht das jemand ähnlich / anders? :slight_smile:

In der Forschung zur Verkehrsplanung / Traffic Engineering wird OSM mittlerweile überall genutzt, aber ich habe das Gefühl, dass sich keiner Gedanken über die Lizenz und die Implikationen zur Nutzung macht. Daher würde ich gern anfangen, diese Sachen explizit in unseren Arbeiten zu erwähnen, allerdings würde ich gern nicht nur meine eigene Meinung verbreiten, sondern auf dem Konsens der Community aufbauen. Wie könnte das am besten gelingen, was wären da die Kanäle um das voranzutreiben?

Viele Grüsse
Sebastian

Ich denke Deine Ausführungen aus Post #2 machen Sinn und Ihr genügt damit den Anforderungen der Lizenz.

Es reicht meines Wissens auch, wenn Ihr Eure umgearbeitete OSM-Version auf Anfrage bereitstellt, Ihr müßt sie nicht permanent hosten und aktuell halten wenn sich gar keiner dafür interessiert.