Hallo zusammen,
ich forsche im Bereich der Verkehrssimulation und ein wichtiges Thema für mich ist die Frage, wie wir Tools und Daten für solche Simulationen offen und zugänglich gestalten können. Die Grundlage von solchen Simulationen, wie wir sie durchführen, sind synthetische Populationen, d.h. jede Person in einem Gebiet wird individuell modelliert. Dadurch, dass jede Person einen Tagesplan hat (wann / wo geht sie zur Arbeit, ins Restaurant, usw.) ergeben sich dann die Verkehrsmuster, die möglichst gut die Realität abbilden sollen. Für verschiedene Regionen in Frankreich haben wir nun solche Populationen ([1,2], falls es interessiert), die sogar komplett auf offenen Daten beruhen.
Interessant wird es nun, wenn wir diese Population simulieren, denn dafür nutzen wir Strassennetzwerke aus OpenStreetMap. In einem Zwischenschritt wird dabei die synthetische Population genommen (welche nur Koordinaten für den Arbeitsplatz, die Restaurants, etc. enthält) und diese Aktivitäten werden an die nächstgelegenen Strassen gesnapt, damit wir die Wege dazwischen später im Netzwerk simulieren können. Das heisst aus einem Datensatz
wird
Das heisst hier wird ein unabhängiger Datensatz mit OSM Daten angereichert. Ich würde gern zunächst klären, ob das nach Einschätzung der Community eine “derived database” wäre (Frage 1)? Nach der Lektüre einiger Webseiten, Kommentare, etc. würde ich momentan sagen “ja”. Oder könnte das auch als “produced work” angesehen werden? Dies ist wichtig für die folgenden Fragen.
Frage 2: Ich habe viel darüber gelesen, dass die CC-BY-SA Lizenzen nicht mit OSM kompatibel sind. Allerdings scheint es mir, dass dabei im Vordergrund steht, ob die CC-BY-SA Daten in OSM integriert werden können. Wie sieht es aus, wenn wir Daten mixen? In unserem Fall würden wir offene, aber nicht notwendigerweise ODbL Daten für die Basispopulation nutzen, welche später mit OSM Daten angereichert wird. Für die französischen Daten wären das z.B. Etalab 2.0, die mit ODC und CC-BY kompatibel ist. So wie ich es momentan verstehe, sollten wir keine Probleme haben, speziell, wenn die Lizenzen lediglich “attribution”, aber nicht “share-alike” verlangen? In dem Fall könnten wir diese Daten für die grundlegende Population verwenden, dann die Population mit OSM Daten anreichern, und das ganze als ODbL veröffentlichen. Wir können die Daten allerdings nicht unter CC-BY-SA veröffentlichen, weil die Lizenz aufgrund feiner Unterschiede nicht mit den enthaltenen OSM Daten kompatibel wäre. Macht diese Einschätzung Sinn?
Frage 3: Es gibt nun zwei Versionen der Basis-Population: Die eine nutzt offene Verhaltensdaten, während eine andere proprietäre Daten nutzt (da die betroffene Behörde Befürchtungen zu Privacy hat). In beiden Fällen würden wir die Daten dann wie oben beschrieben mit OSM Informationen anreichern. Während mit den offenen Daten alles ok wäre, haben wir ein Problem mit den proprietären Daten, da wir sie sozusagen “leaken” würden. Durch die Verbindung mit OSM würden wir praktisch einwilligen, die Daten unter ODbL zu veröffentlichen, wobei wir dazu keine Befugnis der Besitzer haben.
Wie sieht es nun mit davon abgeleiteten Ergebnissen aus? Wir würden diese angereicherten Populationen intern nutzen, um Verkehrssimulationen durchzuführen. Am Ende würden wir, z.B. für wissenschaftliche Publikationen, aggregierte Resultate zeigen, z.B. die Anzahl der Aktivitäten in verschiedenen Städten, oder die Anzahl der Fahrzeuge auf einzelnen Strassen nach Tageszeit. Solche Plots wären sicher “produced works”, aber das Problem ist, dass wir als Zwischenschritt diese angereicherte Population haben. Was mir noch nicht ganz klar ist: Wenn wir solche Plots zeigen, impliziert das, dass diese Zwischendaten existieren, und verpflichtet uns dies, diese unter ODbL zu veröffentlichen? Das heisst das Setup wäre:
Wenn wir das “produced work” (eine Grafik) in einem Paper zeigen, muss dann die “Derived Database” unter ODbL-kompatibler Lizenz zugänglich gemacht werden? Dies wäre wichtig für uns zu wissen, da dies einen Vergleich der Simulation auf Basis der offenen Daten vs. proprietären Daten ausschliessen würde.
Ich hoffe, ich konnte die Problemlage einigermassen verständlich erklären und bin gespannt, ob mir hierzu jemand Feedback geben kann!
Beste Grüsse,
Sebastian
[1] https://www.researchgate.net/publication/341131284_Reproducible_scenarios_for_agent-based_transport_simulation_A_case_study_for_Paris_and_Ile-de-France
[2] https://github.com/eqasim-org/ile-de-france