Poligonin teemapäivä 2011: Liiketoiminta ja avoin paikkatieto

Otsikossa mainittu tapahtuma tulossa: http://poligoni.ayy.fi/index.php?file=kop14.php
“Teemapäivä järjestetään torstaina 3.2.2011 klo 12.00 TKK:n päärakennuksen E-salissa.” ja “Ilmoittautuminen 1. helmikuuta mennessä:”
Mahtaakohan OSM olla esillä tilaisuudessa?

Terve!

Poligonin hallituslaiset kaverini pyysivät minua pitämään tietoiskun OSMstä tässä teemapäivässä. He tiesivät, että olen harrastellut OSMiä noin vuoden verran. Koitan toteuttaa mahdollisimman totuudenmukaisen 20 min esitelmän. Kauhean paljoa tavaraa en siis saa tuohon mahtumaan.

Jos joku haluaa kertoa jotain erityistä sanottavaa, niin saa pistää viestillä tai vaikka kirjoittaa tähän. Koitan muistaa vilkaista näitä vielä tässä ennen teemapäivää.

Tietysti voisi olla mielenkiintoista tavata kanssakartoittajia tapahtuman ohessa!

Tilaisuudessa on paikalla MML:n edustaja. Häneltä voisi kysyä, saisiko MML:n vapauttamsta aineistosta OSM:lle kelpaavan lisenssin. Luulen, että lisenssi sellaisenaan ei OSM:lle kelpaa.

http://forum.openstreetmap.org/viewtopic.php?id=9831

Lisenssiasiat eivät ole kaikkein hauskimpia ajateltavia, mutta minä tulkitsisin asian niin, että Maanmittauslaitoksen lisenssi on yhteensopiva nykyisen CC-BY-SA -lisenssin kanssa.

Mainittava MML:n tekijänoikeus ko. aineistoon kohdan ‘Yleistä’ mukaisesti. (= BY)

Vaadittava tämän lisenssin ehtojen noudattamista myöntäessään lisenssejä tuotteeseen tai palveluun, jossa käyttää aineistoa tai sen osaa. (= SA)

Vähän epäselvää on kyllä miten tuon tekijänoikeuden mainitsemisen voi hoitaa. Tavallisin tapa nykyisin on kai laittaa tieto source-tagilla muutoskokoelmaan, mutta tuo tieto putoaa pois heti, kun tietoja käsitellään jollain muilla kuin erityisillä OSM-ohjelmilla ja rajapinnoilla. Esimerkiksi Geofabrikin tuottamista shapefileissä tietoa ei ole, samoin muutoskokoelmiin kytketyt tiedot putoavat pois, jos OSM-dataa vie tietokantaan esimerkiksi osm2pgsql-ohjelmalla. Itse kohteille tallennetuilla source-tageilla on paremmat mahdollisuudet säilyä jatkokäsittelyssä.

Maanmittauslaitoksen lisenssi ei varmaankaan ole yhteensopiva tulevan ODbL-lisenssin kanssa, koska siinä vaaditaan samalla mitalla -ehtojen soveltamista aineistosta tehtäviin tuotteisiin ja palveluihin, eli esimerkiksi tulostettuun karttaan tai reitityspalveluun. Monet tulkitsevat ODbL-lisenssiä niin, että lopputuote voidaan julkaista myös ei-vapaalla lisenssillä tai jopa public domainina ja vain näiden tuotteiden tekemiseen käytetty raakadata on laitettava vapaasti saataville. Monet kyllä tulkitsevat asian toisellakin tavalla.

Lisäksi tässä on ongelmana myös lisenssikädenväännön viimeisin kohde, eli käyttäjän allekirjoittamien lisäehtojen kohta, jonka mukaan lisenssi voidaan myöhemmin äänestystuloksen perusteella muuttaa “joksikin muuksi avoimeksi ja vapaaksi” lisenssiksi.

Nythän Maanmittauslaitoksen vektoriaineistoista on vapautettu vasta nimistö. Sen sijaan, että alkaisi upottaa sitä OSM-tietokantaan, voisi kenties miettiä, kuinka siitä saataisiin erillinen aineisto, jota voisi käyttää erikseen yhdessä OSM-aineistojen kanssa. Esimerkiksi Mapnik-, Mapserver- tai Geoserver-karttojen teossa nimistöä voisi ihan hyvin käyttää omana lähtöaineistona vaikkapa shapefilestä. Garmin-karttoihin sen voisi upottaa muuntamalla nimistön ensin OSM-xml -muotoon. Tämä kyllä merkitsisi jonkinlaisten kansallisten OSM-aineistojen ja palveluiden syntymistä, mistä tulisi omat hankaluutensa. Nythän OSM:in vahvuutena on se, että OSM-data ja ohjelmistot ovat samalla tavalla käyttökelpoisia ympäri maailmaa.

En kommentoi tällä kertaa muuta kuin tätä (liittyen MML:n nimistöön):

OpenStreetMapin Nominatim -toiminto (eli osoite/nimistöhaku) vaan olisi niin paljon parempi, jos Suomesta olisi nimistö OSM:ssa myös. Toki OSM aineiston voisi yhdistää johonkin muuhun aineistoon ja tehdä erillinen Nominatim tms. -haku MML:n aineiston päälle, mutta parempihan sen nimistön tosiaan olisi siellä OSM-kannassa olisi olla.

Valtiovalta pilaa näiden lisenssiensä kanssa hyvän? ajatuksensa aineiston vapauttamisesta. Tuollaiset lisenssit pistävät miettimään että näinköhän valtio aineistoa oikeasti haluaa vapauttaa.

Dokumentti “TEN PRINCIPLES FOR OPENING UP GOVERNMENT INFORMATION” (http://sunlightfoundation.com/policy/documents/ten-open-data-principles/) sanoo lisenssoinnista seuraavaa:

"8. Licensing

The imposition of “Terms of Service,” attribution requirements, restrictions on dissemination and so on acts as barriers to public use of data. Maximal openness includes clearly labeling public information as a work of the government and available without restrictions on use as part of the public domain."

Minusta asia ei ole näin yksinkertainen. Tässä (MML:n aineistovapautukseen liittyen) nimittäin kaksi lisenssiä törmäävät toisiinsa. Tuon ylläolevan linkin (http://forum.openstreetmap.org/viewtopic.php?id=9831) takaa löytyvä lainaus MML:n lisenssiehdoista kuuluu siis seuraavasti:

“Vaadittava tämän lisenssin ehtojen noudattamista myöntäessään lisenssejä tuotteeseen tai palveluun, jossa käyttää aineistoa tai sen osaa.”

Eli jos OSM:ssa käytettäisiin MML:n aineistoa näillä lisenssiehdoilla, lisenssiin täytyisi lisätä tavallaan yksi “SA” lisää, eli MML:n lisenssiehto, ja sehän ei tietenkään käy.

En ole tuohon ODbL lisenssiin tarkemmin tutustunut. Mutta minusta tässä ei OSM:n nykyinen tai tuleva lisenssi ole ongelma, vaan (tässä tapauksessa) MML:n lisenssi, joka on turhan rajoittava. Asian voisi ratkaista tietynlaisella rinnakkaislisenssillä, eli MML tavalla tai toisella lahjoittaisi aineistonsa OSM-yhteensopivalla lisenssillä OSM:lle. Monilisenssit ovat arkipäivää esim. OpenSource kehitystyössä, missä saattaa olla jokin GPL -tyyppinen lisenssi kaikille ja kaupallinen lisenssi niille, jotka eivät halua lähdekoodiaan julkistaa (mihin GPL pakottaa). No, lähdekoodi on eri asia, mutta yhtä lailla dataa varmaan voisi luovuttaa useammalla kuin yhdellä lisenssillä. Toisaalta, helpointa olisi jos MML yksinkertaisesti muuttaisi lisenssiään siten, että maininta alkuperäislähteestä on vapaaehtoinen ja jättäisi jatkoluovutuslisenssivaatimuksen pois.

Itsehän olen myös hieman heikoilla noiden lisenssien tuntemisen suhteen. Tietoiskukin itsessään tulee olemaan melko pintapuolinen.

Voin kyllä koittaa päästä MML:n edustajan juttusiin vaikka esitysten jälkeen, ellei sitten teitä muita ole odotettavissa paikalle.

Onko siis lisensseissä muitakin ongelmia kuin “attribution”? Pitäisikö puhua OSMn yleisestä attribuutiosta (“copyright openstreetmapin tekijät”)?

Ehkä asia kannattaa tuoda siten esille, että kertoo mikä on OSM:n lisenssi, miten ja miksi se on muuttumassa ja mitä vaaditaan aineistolta (sen lisenssiltä), jota halutaan tuoda OSM:iin. Myös siitä voisi kertoa, miksi aineistoa kannattaa OSM:iin tuoda (laaja sovellusmäärä, muokkauksen helppous, mahdollisuus parantaa aineistoaan tuomalla se OSM:iin tyyliin “given enough eyeballs, all bugs are shallow”). Lisäksi kannattaa ehdottomasti kertoa OSM:sta humanitaariseen apuun liittyen (Haitin kartoitus tuskin olisi onnistunut muulla alustalla). Toki perusajatus liittyen “free as speech” -sloganiin kannattaa kertoa. OSM:n tilastot kannattaa esitellä (Stats - OpenStreetMap Wiki, käyrä on vakuuttava (350 000 editoijaa -rajapyykki on muuten mennyt rikki siitä lisää: http://opengeodata.org/weekly-osm-summary-9)).

Koska aihe on “Liiketoiminta ja avoin paikkatieto”, OSM:ia hyödyntävät firmat kannattaa esitellä (MapQuest, GeoFabrik, CloudMade, ym. (onko muita merkittäviä?)).

Ei tuo “attribution” niin tavaton ongelma OSM:in kannalta ole. Nykyinen CC-BY-SA -lisenssi käsittää sen ihan samalla tavalla, eli sen mukaan tekijänoikeus kuuluu osoittaa erikseen jokaiselle, joka tiedonmuruja OSM-tietokantaan on lähettänyt. Koska se on käytännössä vaikeaa tai mahdotonta tai vähintäänkin epäkäytännöllistä, niin on katsottu, että yleisilmoitus “openstreetmapin tekijät” riittää, ja jos tarkempaa tietoa haluaa, niin sen saa selville kohde kerrallaan tietokannasta kyselemällä. Muutamia aineistonluovuttajia luetellaan erillisellä sivulla http://www.openstreetmap.org/copyright?copyright_locale=en ja myös import-sivulla http://wiki.openstreetmap.org/wiki/Import/Catalogue

Attribution-vaatimus on siis aika tavallinen, eikä uuden lisenssin tarkoitus ole tiputtaa sitä pois. Vaikeampaa on toteuttaa vaatimus käytännössä, mutta usein on ilmeisesti kysytty aineiston luovuttajalta, että riittääkö jos lähde mainitaan muutoskokoelmissa, tai jos lisäksi mainitaan luovuttaja wikisivulla, tai sitten niin, että se laitetaan joka kohteelle source-tagiin. Jos joku vaihtoehdoista luovuttajalle sopii, niin asia on järjestyksessä.

Tämä Maanmittauslaitoksen kohta ei minun mielestäni ole ongelma niin kauan kuin ollaan CC-BY-SA:ssa:
“Vaadittava tämän lisenssin ehtojen noudattamista myöntäessään lisenssejä tuotteeseen tai palveluun, jossa käyttää aineistoa tai sen osaa.”
Tämä vain sillä perusteella, että CC-BY-SA vaatii ihan sitä samaa, eli lähde on mainittava ja lisenssi periytyy, eikä tuo tårta på tårta tuntuisi muuttavan mitään, ellei sitten CC-BY-SA riitä MML:lle, vaan se vaatisi, että nimenomaan sen lisenssi on mainittava noissa tuotteissa . Mutta vaikuttaa kovasti siltä, että Maanmittauslaitoksen lisenssi ei ole ODbL-yhteensopiva, koska OdBL ei valuta ehtojaan edelleen tuotteisiin ja palveluihin.

Tasapuolisuuden nimissä unohtamatta mainita sitä, että esimerkiksi MML:n intoa ottaa vastaan päivityksiä OSM:sta saattaa vähentää se, että sekä CC-BY-SA että ODbL ovat tarttuvia, eli oman kannan päivittäminen OSM:sta toisi saman lisenssin joko kaikkiin MML:n tuotteisiin (CC-BY-SA) tai päivitettävään tietokantaan (ODbL).

Itse asiassa tuo tilasto kertoo vain kuinka monta käyttäjätunnusta OSM:iin on luotu, ja todellisia muokkauksia tietokantaan on tehnyt vain kolmasosa tuosta määrästä, eli 115954 käyttäjätunnusta http://odbl.de/world.html. Tilastoja voi lukea niinkin, että OSM:in suosion kasvu pysähtyi jo puolitoista vuotta sitten (http://wiki.openstreetmap.org/wiki/Stats). Paikkatietoa toki kertyy lisää, mutta kasvu on lineaarista eikä logaritmista.

Itse en lähtisi pidempiin lisenssikeskusteluihin tilaisuudessa, mutta tärkein kohta on jo edellämainittu se, että osm:iin tuotavan tiedon tuoja ei voi taata attribuutiota ainakaan Import-sivua, tai parhaassa tapauksessa openstreetmap.org:in Copyright-sivua pidemmälle - esim. jatkotuotteissa. Sen takia kiusaamme jo “avattujen” tietolähteiden ylläpitäjiä typerillä kysymyksillä, koska käytännössä kuitenkin halutaan (kirjallisesti) varmistus että tällainen maininta tyydyttää lähdettä. Ja siksi että tekijänoikeus/tietokantaoikeus karttadataan vaihtelee Suomi vs. Englanti vs. USA + muut maat.

Tarkat kuntarajat on sellainen tieto joka hyödyttäisi projektia tällä hetkellä eniten, koska tieto mitä tonttirajaa tms. pitkin kunnan raja kulkee löytyy vain virallisista rekistereistä - kaiken muun pystyisimme periaatteessa kartoittamaan itse, vaikka hitaasti.

Toisaalla wikissä on joskus ehdotettu myös tagia (esim.) attribution=(C) MML 2011 kullekin kohteelle jonka tiedonluovuttaja haluaa nimenomaisesti tulla mainituksi kun dataa käytetään - source -tagin parsiminen muutoskokoelmista tai kohteista kaikissa eri muodoissaan (esim. =“gps”/“survey”/“MML”/“yahoo” jne.) tiettyjen lähteiden listaamiseksi on jo ohjelmallisena tehtävänä hankala, mutta varsinkin kun jatkokäyttötapoja ja -ohjelmistoja on lukematon määrä, on mielestäni epärealistista olettaa toteutuvan edes usein. Em. attribution-tagia ei toki mikään ohjelmisto käytä tai muutenkaan noteeraa, mutta sitä on näköjään useammissakin importeissa käytetty, jo 8 miljoonaa kertaa: taginfo.

Kunhan harjoitustyön teolta ehdin niin yritän ilmestyä paikalle ainakin osaksi aikaa, vaikken ilmoittautunutkaan. Kumman vähän on muut Otaniemen karttaa muokanneet…

Tätä keskustelua käytiin jokin aika sitten myös osm-fi irkissä, ja keskustelun innoittamana lähetin kysymyksen MML:lle (henkilölle jonka kanssa aina toisinaan asion). Kysymykseen, miten noiden ilmaisaineistojen sisällyttäminen OpenStreetMap dataan luonnistuu, vastattiin seuraavasti:

Kysyin vielä uudelleen tarkennuksia edellisiin.

Kysymys: “viitataan sivustoon, jossa lähdetietoja on mainittu” tarkoittanee sivua http://www.openstreetmap.org/copyright tai vastaavaa?

Vastaus:

Kysymys: Eli jos esimerkiksi 1:1 000 000 aineistosta käytetään vaikkapa kunnanrajoja, niin copyright sivulle maininta Yleiskartta 1:1 000 000 aineiston käytöstä ja © Maanmittauslaitos, 2011.
Vastaus:

Kysymys:
Tarkoitetaanko “tuotteella” tässä tapauksesssa OSM-dataa, aineistoa, jonka kuka tahansa voi ladata ja jatkojalostaa OSM:n ehdoilla? Eli OSM-datan jatkokäyttöön riittää, kun copyright on OSM:n sivulla mainittu?

Vastaus:

Oletan, ettei MML ole erityisen hyvin tietoinen käynnissä olevasta lisenssimuutosprosessista.

Eilisessä teemapäivässä kartoittaja kiikonen piti hienon esityksen OSM:ista, kiitos siitä!

Ennen kuin ryhdymme riemusta kiljuen siirtämään mitään MML:n tietoja OSM:ään, tämä asia tulee selvittää perin pohjin, ettemme tule tehneeksi turhaa työtä. Kannattaa lukea wiki-sivu Cannot import CC BY-SA licensed data jossa maalaillaan sellaista uhkakuvaa, että viranomaisten luovuttamat tiedot joudutaan poistamaan.

Toisaalta, eiväthän ne tiedot kokonaan katoa. Lisenssin muutoshetken tilanteesta on tarkoitus tehdä ja julkaista lopullinen CC-BY-SA -versio, jota voi edelleen käyttää samoilla ehdoilla kuin ennenkin. Muutosvaiheessa tipahtaa joka tapauksessa niin paljon tietoja pois ODbL-versiosta, että uskoisin tulevan myös työkaluja, joilla voi yhdistellä vanhan ja uuden version tietoja. Mutkikasta se varmasti on, mutta toivottavasti tuottaa sivutuotteena menetelmiä, jotka tekevät muutenkin mahdolliseksi käyttää eri tietolähteitä yhdessä ilman, että kaikki olisi ensin tuotava sisään OSM:iin. Mutta tutkittava on ja mahdollinen tietojen kopiointi OSM:iin pitää tehdä niin, että tarvittaessa ne voidaan helposti poistaa lisenssinmuutosvaiheessa.
Mielipiteeni vieraiden tietojen kopioimisesta OSM:iin horjahtelee. Toisaalta olisi kätevää, jos kaikki tiedot voisi hakea yksinkertaisesti samasta osoitteesta, ja samalla kertaa saisi ne automaattisesti kaikkiin hienoihin OSM:ia varten räätälöityihin sovelluksiin. Toisaalta tuntuu älyttömältä imuroida joskus valtavan suuriakin aineistoja OSM:iin, jos ne ovat saatavilla myös sieltä alkuperäisestä paikasta ja usein OSM:ia sallivammalla lisenssillä. Erityisesti silloin, kun aineistot ovat hyvälaatuisia, ja niiden alkuperäinen tekijä päivittää niitä säännöllisesti. OSM:in imurointiprosessiin ei ole edes yritetty keksiä kuinka vieraita aineistoja voitaisiin päivittää automaattisesti, vaan asenne on enemmänkin sellainen, että kaikki mikä on OSM:ssa on hyvää, ja OSM:n käyttäjät kyllä päivittävät myös vieraat aineistot alkuperäistä parempaan kuntoon.

MML:n nimistö sopisi minun mielestäni aineistona ihan hyvin OSM:iin kopioitavaksi. Laadussa tuskin on kenelläkään moittimista ja nimistö muuttuu hitaasti eikä päivitysongelma ole siitä syystä suuri. OSM-käyttäjän voisivat tehdä nimistöstä alkuperäistä paremman lisäämällä tageilla esimerkiksi suomenkielisiä/ruotsinkielisiä/murteellisia nimiä, paikallisia käyttönimiä ja historiallisia nimiä.
Corine Landcoverista olen vähän toista mieltä. Saisihan sillä kyllä väriä karttaan, ja Corinen takia esimerkiksi Viro näyttää OSM:n nettikartassa paremmin kartoitetulta kuin Suomi. Mutta ainakin Venäläisten Karjalan kannakselle tuoma Corine-aineisto joka ylettyi Suomenkin puolelle (ja joka on nyttemmin peruttu kokonaan) toi mukanaan niin mutkikkaita tuhansien taitepisteiden multipolygoneja, että ne tekivät kartan muokkaamisen siltä alueelta hyvin epämukavaksi. Virossa tuonti on ilmeisesti tehty eri tavalla, multipolygoneja ei näy ja tavalliset alueet on tehty vähillä taitepisteillä, joten ne eivät haittaa tavallisten OSM-muokkausten tekemistä muuten kuin olemalla olemassa ja risteilemällä teiden ym. kohteiden yli. Voi kun OSM:ssa olisi käytössä ihan perinteiset karttatasot tuollaisia aineistoja varten, mutta se lienee turha toivo.

Minkälainen tilaisuus noin muuten oli? Oliko hyviä esityksiä, mistä keskusteltiin, mikä oli tilaisuuden henki?

Tilaisuudesta ei tarttunut merkittävästi uutta tietoa kotiin vietäväksi - esitykset olivat kyllä kohtuullisen viihdyttäviä. MML hankkii ilmaisjulkistuksellaan kokemuksia - saattaa julkaista vielä joskus jotakin lisää, tai sitten ei ikinä. Jotkut ovat oivaltaneet mahdollisen bisnesidean ilmaisainestojen päälle rakennettavissa lisäarvopalveluissa. OSM esitys taisi herättää melko myönteisessä hengessä eniten kiinnostusta kysymysten määrästä päätellen.

Eikun koodaamaan kaikkea kivaa ja innovatiivista kuntarajojen pohjalta, niin eiköhän dataa ala tulla julkishallinnosta enemmänkin tarjolle…