Maanmittauslaitoksen ilmaisten aineistojen hyödyntäminen

Terve!

Tässä on nyt hieman reilu kuukausi aikaa, kunnes suuri osa MML:n aineistoista tulee julkiseksi. Muutamaan kertaan aiheesta on täällä ja muissa tilaisuuksissa keskusteltu. Jotain tarttis tehrä.

Wikiin on jo aloitettu kirjaaminen asioista, mutta nyt olisi ehkä hyvä aloittaa konkreettinen tekeminen.

Ehdotan tapaamista. Mutta jotta kaikki voisivat fyysisestä välimatkasta huolimatta osallistua, niin ehdotan jonkinlaista nettitapaamista. Skype-verkkopuhelu tulee ensimmäiseksi mieleen, onko muita ehdotuksia?

Ajankohta voisi olla tällä tai ensi viikolla.

Keskusteltavia aiheista on ainakin:

  • Mitä maastotietokannan kohteita käytetään hyväksi ja kuinka? Rakennukset, vesistöt, liikenneverkkojen täydentäminen, korkeuskäyrät (OpenTopoMap?),
  • Miten voidaan hyödyntää ilmakuvia ja valmiita rasterikarttoja?

Kannatan kokousta, mutta suosisin tekstimuotoista kanavaa (Jabber eli XMPP tai IRC) senkin vuoksi, että keskustelut saadaan helposti talteen. Olisiko IRC ainoa järkevä vaihtoehto, jos kaikki eivät halua käyttää jotakin kaupallista järjestelmää, kuten Google Talk tai Skype? Mitä yleisölle avoimia IRC-palvelimia mahtaa olla nykyään?

Espanjalaiset on käyttäneet jo vuoden oman lähes vastaavan “tuontinsa” suunnitteluun.

Openstreetmapin useimmat irc-kanavat on oftc.net:ssä, johon pääsee suoraan myös selaimella http://irc.openstreetmap.org/ ja kanavaksi #osm-fi. Hyvin on tuntunut toimivan oikeillakin irc-ohjelmilla tuossa käytetty irc.oftc.net ja kanava #osm-fi

Jaa että vuoden pähkäilyä… Ei kai se nyt niin suuri juttu ole. Jos nyt oikein ymmärsin tuosta Spanish Cadastre -keskustelusta, niin tietysti tuo kiinteistöraja-aineiston laittaminen OSM:n on tietysti aika ulkona “katukartasta”.

Voin jopa taipua tuohon irc-tapaamiseen. Sovitaanko joku bat-aika, kanavahan olisi tuo osm-fi. Heh, kokeilenpa heti onko siellä joku hereillä. Antakee anteeksi kokemattomuuteni. Tai siis varmaan 15 vuoden tauko irc:n käytössä :slight_smile:

Jos valitsette ajankohdaksi iltaan osuvan ajan, niin yrittäisin mielelläni osallistua chattiin. (Oma aikavyohykkeeni on GMT-4 ja aamupäivät yleensä höttöisiä.)
Osallistuisin mielelläni “omien” (siis itselle läheisten) alueiden petraamiseen ja data import -prosesseja olisi nasta opetella, niitäkin.
#osm-fi skulaa parhaiten (tai Skype).

Kävin eilen keskustelun MML:n ihmisten kanssa maastotietokannan tietojen lisäämisestä osaksi OpenStreetMap-aineistoa.

Lopputuloksena oli se, että mitään MML:n identifiointikoodia (uniikki ID tms.) ei tarvitse lisäillä. Tuo source-tag riittää tunnistamaan mistä alkuperäinen kohde on tullut.

Onko tarkoitus liimata source-tarra jokaiseen kohteeseen vai jokaiseen OSM-muutoskokoelmaan? Muutoskokoelma toimii, mutta vain jos ajattelee OSM:ia käytettävän sen ikiomien rajapintojen kautta. Kuitenkin kaikki muutoskokoelmiin liitetty tieto katoaa esimerkiksi osm2pgsql-muunnoksessa, eikä tietoa lähteestä enää saada mukaan mahdollisiin jatkojalosteisiin, kuten esimerkiksi WFS-palveluun. Ellei sitten käytä yleistä ilmoitusta, niin että kaikelle Suomen alueen OSM-datalla ilmoitetaan lähteeksi sekä OSM että MML.

Kyllä mä ajattelin, että source-tag menee jokaiselle kohteelle.

Se on kyllä selkeää sillä tavalla. Vielä kun olisi käytössä joku user_enhanced=yes, jolla voisi erottaa kohteet, joita käyttäjät ovat myöhemmin parannelleet.

Ilmeisesti MML-lähteestä tuotu aineisto merkitään tuontiajankohdan vuosiluvun mukaan, tyyliin MML, 2012? MML:n ilmakuvissa on laaja vuosilukukirjo, vanhimmat jopa viime vuosituhannelta.

Otin pienen varaslähdön maastotietokannan käytössä ja kokeilin miten teoriassa olisi mahdollista tuoda dataa siitä Openstreetmappiin. PaITuli-paikkatietopalvelussa on ollut kauan saatavilla 2005-2010 maastotietokannat, mutta niiden lisenssi estää niiden käytön OSM:ssä joten en lähettänyt mitään serverille.

Yksinkertaisesti prosessi menee siten että .shp tiedostot ladataan koneelle ja avataan Merkaartor-ohjelmalla, jossa on siihen tiedostomuotoon tuki. Koska en erityisemmin pidä kyseisestä ohjelmasta exporttasin tiedostot osm:n xml muodossa JOSMiin.

Seuraavanlainen tagikenttä tulee esimerkkiviivasta, joka kuvaa varvikkoa:

AINLAHDE= 0
ALUEJAKOON= 0
ATTR1= 0
ATTR2= 0
ATTR3= 0
KARTOGLK= 0
KOHDEOSO= 877271012
KORARV= 0
KORTAR= 0
KULKUTAPA= 0
KUOLHETKI=
LUOKKA= 39120
RYHMA= 70
SIIRT_DX= 0
SIIRT_DY= 0
SUUNTA= 0
SYNTYHETKI=
TASTAR= 10000
TEKSTI=
VERSUH= 0

Tageista mielekkäitä on lähinnä luokka ja ryhmä. Mielestäni tässä vaiheessa kannattaisi luoda eri luokkien vastineet OSM tageissa ja kerätä ne johonkin. Luokkien selitykset löytyvät http://www.maanmittauslaitos.fi/sites/default/files/Maastotietokohteet.pdf kautta.

Oops,

Ei ruveta vielä mitään latailemaan. Meidän pitää ensin hieman miettiä mitä ladataan. Lähtökohtaisesti ajatus on kuvattu tuolla Wiki:ssä: http://wiki.openstreetmap.org/wiki/Fi:Maastotietokanta.

Seuraavat MTK:n kohdeluokat voitaisiin importoida osaksi OSM: rakennukset, liikenneverkot, maankäyttö (pelto, asuinalue), luontokohteet (suot, järvet, joet,yms). MUTTA tärkein asia: ei poisteta mitään OSM:n kohteita, viedään ainoastaan täydentäviä kohteita.

Kun nuo MML:n verkkosivut kaatuvat, niin ei tuo latauspalvelu varmaan ole kovinkaan paljon nopeampi / parempi. Torrent asiasta on keskusteltu jo aiemmin, toisaalla…

Olen samaa mieltä siinä, että jokainen lähetettävä kohde on manuaalisesti tarkastettava olemassaolevan datan alueelta ja poistettava ne tuotavat alueet, jotka ovat jo OSM tietokannassa. Tämä tarkoittaa käytännössä sitä, että massiivinen automatisoitu bulkkituonti kerralla ei onnistu.

En tuossa omassa Corine importissa tehnyt manuaalista tarkistusta, vaan käytin ihan yksinkertaista polygon overlay-analyysiä.

Samalla tavalla voidaan helposti luokitella MML:n aineisto siten, että ne kohteet, joita ei todennäköisesti ole OSM:ssä, ne jotka leikkaavat (ja manuaalisesti tarkistettava) ja ne kohteet jotka ovat jo OSM:ssä. Eli siis kolme (3) luokkaa.

Tämä automaattinen prosessi on jo minun päässä ja pääosin jo Python koodina. Ajot ovat aika massiivisia ja vaativat vielä testausta.

Onko tuossa yksilöivä id? Jos on, kannattaisiko sekin siirtää OSM:iin?

Sain varmistuksen viime viikolla MML:stä: maastotietokannassa ei ole kohteita yksilöivää ulkoista tunnistetta. Sisäistä tunnisteavaruutta on, mutta mitään GUID-tyyppistä ei ole. Yksi haaste näissä on ilmeisesti muutosten hallinta.

Esimerkki: On olemassa tieviiva A. Kun siihen tulee uusi risteys, niin kantaan tulee kolme viivaa: alkuperäinen A, uusi risteävä viiva B ja sitten risteyksen “jälkeinen” viiva C. Tämä tunnisteiden muodostuminen yms ei ole kovin selvää.

Joten ei ole uniikkejä ID:eitä maastotietokannassa. Toistaiseksi.

Aivan, KOHDEOSOn pitäisi olla yksilöivä yhdessä julkaisussa, mutta ilmeisesti ei pitkällä aikavälillä.
Itse olen käyttänyt tuota KOHDEOSOa eri tiedostoihin pilkkoutuneiden kohteiden takaisin yhdistämiseen.

“Maanmittauslaitoksen avoimen tietoaineiston lisenssi - versio 1.0 - 1.5.2012”:

http://www.maanmittauslaitos.fi/avoindata_lisenssi_versio1_20120501

josta kopio:

Siellä on edelleen tuo “vaadittava vastaavat maininnat luovuttaessaan kolmannelle oikeuksia aineiston kopioihin tai aineistoa sisältäviin tuotteisiin tai palveluihin ja
poistettava Lisenssinantajan nimi tuotteen tai palvelun yhteydestä, mikäli Lisenssinantaja sitä vaatii.”, josta OSM ei pidä (ei sovi yhteen OSM-lisenssin kanssa tai jotain sinne päin, vai oliko se juuri päinvastoin?)

Jos lisenssi kelpaa, pitäisi kenties muuttaa tuo “sisältää Maanmittauslaitoksen Maastotietokannan 06/2012 aineistoa” englanninkieliseksi ja lisäksi tehdä sama teksti kaikelle importoitavalle aineistolle (siis muulle kuin Maastotietokanta). Teksti sellaisenaan jonnekin wiki-sivulle ja itse aineistoon joku lyhyempi viittaus kaikkiin kohteisiin (olikos se “source-tag”). Nämä riittäisivät?

Jos lisenssi kelpaa, niin seuraavat taskit pitäisi toteuttaa:

Kaikki dokumentaatio pitäisi tehdä englanniksi ja täydentää suomeksi tarvittaessa.

MML:llä on infoa myös englanniksi, tässä on MML:n avoimen datan englanninkielinen lisenssi:
http://www.maanmittauslaitos.fi/en/NLS_open_data_licence_version1_20120501

Ja avoimen datan sivusto englanniksi
http://www.maanmittauslaitos.fi/en/opendata


Olen tehnyt (alun perin Paitulin kautta saatavalla aineistolla) skriptejä, jotka erottelevat yhden karttalehden alueen aineiston osaelementteihin. Tämä kuitenkin tekee satoja pienempiä tiedostoja, joten tätä ei voine hyödyntää kunnolla koko Suomen alueella. Osaan myös irrottaa aineistosta esim. järvivedet koko Suomen alueelta yhteen Spatialite-tietokantaan (jonka kooksi tulee noin 500 Mt). Tätä ei kuitenkaan kannata yrittää avata kokonaan esim QGisissä, sillä ellei ohjelma kaadu, se kestää ikuisuuksia.

Tämänhetkinen ajatukseni on, että voi olla järkevää tehdä erillisiä, koko Suomen kattavia Spatialite-kantoja, josta sitten voi irrottaa tietyn alueen kerrallaan tarkasteltavaksi. Mitä mieltä olette?

Nyt käsissä on maastotietokanta USB-tikulla. Mennee hetken aikaan kun pääsen kunnon verkon pariin. Ehkä tänään jotain ensimmäisiä kamoja torrentissa…