Statistiek van de Nederlandse Mappersactiviteiten

Ik heb (via Pascal Neis) de beschikking gekregen over de gegevens van de mappers die in de periode van 1-1-2014 tot 31-1-2016 op zijn minst één changeset hebben gedaan in Nederland.
In deze rubriek heb ik al eerder wat geschreven over de mappers die sinds 1-8-2015 door mij welkom worden geheten.
Hier is nu een overzicht van de mappers die tussen 1-1-2014 en 31-7-2015 (een periode van 19 maanden voorafgaande aan bovenstaande datum) actief zijn geweest in Nederland.

kolom 1: Het aantal changesets (wereldwijd) van de betreffende groep mappers
kolom 2: Het totaal aantal mappers met het aantal changesets uit kolom 1
kolom 3: Het aantal mappers dat direct bij aanmelding ook de eerste changeset doet
kolom 4: Percentage van kolom 3, gerelateerd aan het totaal (2328) mappers
kolom 5: Het aantal mappers dat zich eerder heeft aangemeld, maar pas later is gaan mappen
kolom 6: Het percentage van kolom 5, gerelateerd aan het totaal (2328)

Niet in de tabel opgenomen zijn alle _BAG (50) en _mechanical accounts (3), die zouden het beeld aanmerkelijk vertroebelen.
Opvallend is dat bovenstaande 2328 mappers ná 31 juli 2015, geen enkele bewerking meer hebben uitgevoerd!
Zelfs bij de mappers die meer dan 100 changesets hebben gedaan is dat opvallend.
In de tabel is niet te zien het totaal aantal changesets voor deze groep mappers: 10.531.

Opmerkelijke zaken:

  • Eén mapper bv. heeft zich aangemeld op 3-2-2014. daarna de eerste changeset gedaan op 4-2-2014 en toen hij op 7-5-2014 de laatste changeset deed, had hij 702 changesets op zijn naam staan. Daarna werd het stil…
  • Eén mapper meldt zich aan op 16 november 2007(!) en doet zijn eerste (en laatste) changeset op 2 juli 2014.
  • In totaal 163 mappers uit bovengenoemde tabel hebben zich aangemeld vóór 1-1-2014.

Om je een indruk te geven dat het aantal changesets op zich niet zoveel zegt, heb ik een _BAG account vergeleken met een gewone gebruiker met ongeveer hetzelfde aantal changesets:

De gewone gebruiker deed 702 changesets met 28 357 changes
De _BAG gebruiker deed 734 changesets met 3 646 910 changes!

Edit:
Opmerking: bovenstaande dataset is de groep mappers die ná 31-7-2015 niet meer actief is geweest (maar dat nog steeds wel kan worden!). De totale dataset bestaat 3179 mappers, en er zijn dus nog 851 mappers wel actief.

Houdt dit overzicht op een of andere manier rekening met “toeristen”? Zijn dit enkel de changesets op Nederlands grondgebied ?
Misschien hebben die mappers nog wel changesets in het buitenland. In dat laatste geval zit ik vermoedelijk in ook in die bovenstaande lijst. Het is al een poosje geleden dat ik nog eens in Nederland ben geweest.

Er is gekeken naar het moment waarop een mapper zijn éérste changeset in Nederland heeft gedaan, binnen de periode 1-1-2014 t/m 31-7-2015.
En jij hebt je eerste changeset in Nederland vermoedelijk vóór die datum gedaan.
Voor alle zekerheid heb ik in de lijst (ik heb het complete overzicht inclusief username en userid) gezocht naar jouw naam, maar je komt er niet in voor.
Het is inderdaad denkbaar dat een mapper die bv. in de grensstreek woont en in eigen land al heel veel heeft gemapt (en als ervaren mapper kan worden beschouwd), toch in deze lijst terechtkomt, maar dan wel met zijn totale aantal changesets, want dat aantal geldt voor al zijn activiteiten.

Overigens heb ik bij wat random tests op de dataset dergelijke gevallen niet kunnen ontdekken. Maar ik heb niet alle 2043 records bekeken…

En hier nog wat aanvullende statistieken.

  1. Hoeveel dagen zitten er tussen het moment van registratie als mapper en het moment van de eerste edit?
  2. En daarnaast, hoeveel dagen zitten er tussen de eerste en laatste edit?

Dat is een leerzaam gegeven, want we zien nu dat 78% van de nieuwe mappers ook direct hun eerste edit op de kaart zetten, maar schokkender is natuurlijk om te zien dat vrijwel die gehele groep (75%) daarna niet meer terugkeert!
Een kleine groep gaat nog wat langer door maar van die 2328 mappers heeft niemand meer iets gedaan ná 31 juli 2015!

Het moeilijkste en belangrijkste bij het bedrijven van statistiek is om de feiten en gegevens goed op een rijtje te houden. Even een paar vragen die bij mij opkwamen toen ik jouw posts las:

Wat is precies de definitie?

  1. Actief zijn geweest überhaupt?
  2. Of eerste changeset op NL grondgebied (maar niet perse eerste changeset van die mapper)?
  3. Of eerste changeset van die mapper en die changeset was ook nog eens in NL?
  4. Of …

En je weet heeeeel zeker dat daar niet op gefilterd is?
Mijn eerste changeset was in Nederland op 18 juli 2014, tevens de dag van aanmelding en ik heb heel wat changesets gemaakt sinds 31-7-2015. Hoor ik dan wel of niet bij die 2328 mappers en waarom wel/niet?

Of de betrokkene is met een ander account verder gegaan.

Zijn eerste en laatste changeset, of zijn eerste en laatste changeset in Nederland?

Dat vraag ik vanwege:

Dat is een erg ongeloofwaardig aantal. Dat er iemand is die een account aanmaakt, het vergeet en 3 jaar later alsnog een reden ziet om het op te pakken zie ik wel gebeuren, maar 1 op 25 mappers? Zijn dat soms ook “toeristen”?

Kan je dan niet rekenen met changes?

Hmm, haal je 2328 mappers uit 2043 records?

De dataset die ik van Pascal Neis heb gekregen bevat de volgende gegevens.
Ik heb hem bewust gevraagd om Nederlandse mappers, maar ik weet niet hoe hij bepaalt of iemand een Nederlandse mapper is.
De totale set bevat 3232 records en bevat gegevens van 1-1-2014 t/m 26-1-2016:

  1. userid
  2. username
  3. registratiedatum
  4. datum eerste edit
  5. datum laatse edit
  6. aantal changesets

Dat zijn de gegevens die je (o.a.) ook te zien krijgt als je hier kijkt:

http://www.hdyc.neis-one.org/?byckel

Mijn eerste filtering bestond uit het verwijderen van alle _BAG en mechanical accounts waarna ik 3179 records overhield van mensen met minimaal één changeset.
Daaruit heb ik verwijderd alle mensen (851 records) die ná 31-7-2015 nog edits hebben uitgevoerd.
Die datum is gekozen omdat ik zelf vanaf die datum alle nieuwe Nederlandse mappers bijhoudt en een welkomstmail stuur.
Ik hield dus een blok over van 2328 mappers die hun laatste changeset uiterlijk op 31-7-2015 hebben uitgevoerd. Dat zijn dus mappers die de laatste 6 maanden niets meer hebben gedaan.

  1. aantal changesets > 1
  2. Kan ik niet goed bepalen, maar bij steekproeven zie ik steeds een eerste changeset in NL.
  3. idem

Nee, jij hoort bij die groep van 851 mappers die ná 31-7-2015 nog een edit hebben gedaan (maar zie mijn laatste opmerking onder!).

Dat kan ik op geen enkele wijze controleren.

Zijn eerste en enige (en dus ook zijn laatste) changeset. En die was in Nederland (vlak bij Assen).

Ik vond het zelf ook nogal ongeloofwaardig en ben toen maar steekproeven (25 records gedaan) gaan nemen. Ze hebben allemaal uitsluitend in Nederland hun changesets.

Die gegevens zitten niet in mijn dataset…
Maar ik weet ook niet of dat een beter beeld zou geven.
Als ik bv. een weg inteken (op basis van bv. een gpx track) en die weg bestaat uit 1000 nodes, dan heb ik voor mijn gevoel maar één toevoeging gedaan, maar het telt wel als 1000 changes…
Als ik jouw en mijn changesets met elkaar vergelijk (via http://www.hdyc.neis-one.org/)), dan heb jij 49502/1281 = 39 changes per set en ik kom op 430168/5378 = 80 changes per set.

Nee, uit 3232 records. Maar dat getal van 2043 komt uit een selectie die ik op dat moment net voor had staan om antwoord te geven op de vraag van escada…

Op zich verbazen de cijfers mij niet zoveel, ik had op grond van de door mijzelf verzamelde gegevens (via deze link) ook al de conclusie getrokken dat maar heel weinig nieuwe mappers ook blijvend actieve mappers zijn.

De eerste dataset die ik van Pascal Neis kreeg was erg onvolledig en bevatte veel fouten.
Toen ik hem daarop wees is hij opnieuw aan het werk gegaan en produceerde de tweede set waarop ik mij gebaseerd heb.
Steekproeven tonen aan dat dat inderdaad om mappers gaat met minimaal één edit in Nederland (en dus heel vaak uitsluitend in NL) maar dat er ook mappers tussenzitten die heel veel buiten NL doen.
Bij dat alles verontrust mij toch wel het feit dat ik bv. jouw username niet tegenkom in die dataset van Pascal, terwijl dat toch wel zou moeten. Op de datum van jouw aanmelding heb ik 2 namen staan. Niet die van jou.
Dat betekent dus dat het klaarblijkelijk behoorlijk complex is om die gegevens boven tafel te krijgen. Pascal Neis lijkt me behoorlijk betrouwbaar met zijn statistische gegevens, maar ik zal hem toch eens vragen waarom jij ontbreekt. Tenzij jij zelf een verklaring kan geven?

Inderdaad. Het is dus niet heel verwonderlijk dat die 2328 mappers ineens allemaal zijn opgehouden met mappen :slight_smile:

Het zijn dus statistieken van (populair gezegd) Nederlandse mappers die gestopt zijn.
Vermoedelijk gedefinieerd als: mappers die hun eerste changeset in NL hebben gedaan en een laatste changeset hebben tussen 1-1-2014 en 31-7-2015.

Escada staat er dan dus niet in omdat zijn eerste changeset in België ligt en niet omdat het lang geleden is.

Staat mijn userid (2195662) er wel in? Ik ben een tijdje geleden van username veranderd en ik heb al gemerkt dat daar niet even consequent mee omgegaan wordt door verschillende osm toepassingen.

Goed punt. Op zich is een weg van 1000 nodes meestal wel interessanter dan eentje van 5 nodes, maar niet net zo interessant als 200 wegen van 5 nodes.

Ik vermoed dat het kunnen inloggen via externe providers daar een grote rol in speelt. Ik weet niet precies hoe dat werkt, maar als er automagisch een accountje voor je gemaakt wordt obv je gegevens bij die provider, dan wordt de drempel zo laag, dat mensen soms nauwelijks nog door hebben dat ze een account hebben aangemaakt. Die maken dan een kleine aanvulling van iets dat ze is opgevallen en zijn weer weg. Op zich niks mis mee, het is gewoon een andere doelgroep dan degenen die echt voor het project komen.

Heftig. Ergens blijft bij mij het gevoel hangen dat er een externe factor is die dit beinvloedt, maar dan heb ik even geen idee wat.

ineens allemaal” is niet de juiste omschrijving, het is meer (zie 2e tabel in post #4) dat 1742 mappers zich (ooit) hebben aangemeld, daarna één changeset doen en dan niet meer terugkomen.
En dat loopt dan van:
aanmelding: 6-7-2007 en daarna eerste (en enige) changeset: 1-11-2014
tot:
aanmelding: 30-7-2015 en daarna eerste (en enige) changeset: 30-7-2015

Dwz. iemand die 7 jaar wacht en dan één keer wat doet en iemand die na aanmelding direct wat doet. Maar geen van beiden komt (tot nu toe) terug.

Ophouden met mappen is misschien ook niet de juiste uitdrukking, in slaapstand gaan zou beter zijn, want het is natuurlijk mogelijk dat ze de draad weer oppakken.
Als je die slapende groep afzet tegen de totale groep, dan kun je zeggen dat over een periode van 2 jaar, 73% van de mappers na 18 maanden geen activiteiten op OSM meer heeft.
Via de pagina van Pascal kom je bij een heleboel verschillende overzichten uit, en via zijn blog vind je weer andere dingen, maar ik weet niet of hijzelf (of iemand anders) een dergelijk onderzoek heeft gedaan over de totale dataset. Ik geloof trouwens dat vóór 2009 geen echt betrouwbare gegevens zijn te verzamelen.

Nee, dat staat er niet tussen! Ik wacht even de reactie van Pascal af.

Een beetje gerelateerd: The Long tail by Harry Wood https://vimeo.com/112438218
Daarin wordt ook gezegd dat de meeste edits van een kleine groep gebruikers komt en ik geloof ook dat er gezegd wordt dat de meeste users nooit een edit doen. Ook iets als je “10” edits doe, zit je al in de bovenste helft. (10 of een andere redelijk klein getal).

Pascal Neis & Simon Poole hebben ook zo’n verhalen vertelt. Meeste mensen stoppen heel snel.

En hier weer een andere kijk op de activiteiten van de mappers in Nederland over de periode 1-1-2014 t/m 29-01-2016.
Ik heb gekeken naar het aantal changesets per mapper, en dit keer heb ik de totale groep (3179 mappers) in het onderzoek betrokken.

kolom 1: aantal changesets
kolom 2: aantal mappers dat het aantal changesets uit kolom 1 heeft gedaan. In absolute aantallen.
kolom 3: aantal mappers in procenten
kolom 4: som van het percentage uit de groep links van deze kolom.

We zien dus dat 82,4% van de mappers in deze periode hooguit 9 changesets heeft gedaan.
15,2% doet minstens 10 maar hoogstens 99 changesets.
2,2% doet 100-999 changesets
0,1% doet 1000 of meer changesets.

Als je er een grafiek van maakt, levert het een fraaie exponentiële curve op. Niet zo verwonderlijk natuurlijk.

Alleen het aantal mensen met 8 changesets is iets beneden de curve en die met 9 changesets iets erboven. Ik neem even aan dat dit statistisch niet significant is.

Van de groep 1-9 en daaronder 10 - 50:

Punt dat ik probeer te maken is dat jij zegt dat het …

Maar dat is nogal wiedes als je er eerst op filtert!
Benoem daarom goed binnen welke groep je aan het analyseren bent.

Inderdaad:

En ook hier:
Er zijn dus in deze dataset precies 4 Nederlandse mappers die in totaal meer dan 1000 changesets hebben en een changeset gemaakt hebben tussen 1-1-2014 en 29-1-2016? :-s

Inmiddels nieuw ideetje gekregen waarom ik (en met mij vele anderen) er mogelijk niet in sta: Je kan in je osm-profiel een locatie opgeven. Heeft Pascal die gebruikt en iedereen die dat niet heeft ingevuld niet meegenomen?

Klopt, ik heb niet duidelijk gemaakt dat die 2328 mappers uit een grotere groep van 3179 mappers komen. 851 mappers zijn dus nog wel actief.

Een log-logdiagram maakt elke kromme recht, zo zijn mijn wiskundeleraar al - heel lang geleden…:slight_smile:

Pascal Neis stuurde nog de volgende interessante overzichten met statistische gegevens:

http://www.mdpi.com/2220-9964/1/2/146

http://neis-one.org/2013/08/osm-activity-report-2013/
http://neis-one.org/2014/08/osm-activity-2014/
http://neis-one.org/2015/08/osm-report-2015/
http://www.openstreetmap.org/user/pnorman/diary/37717

:slight_smile:

Maar brengt je niet altijd bij 99,5% verklaarde variantie. Ach ja… mensen zijn voorspelbaar.

Ik had imiddels nog wat meer namen op mijn lijstje van “missing persons” en na terugmelding aan Pascal kreeg ik vandaag een nieuwe dataset waarop nu wél alle mappers correct voorkomen.In totaal ontbraken er nog 16 mensen waardoor de dataset nu 3205 mensen groot is. Opvallend is de groei van het aantal mappers met meer dan 1000 changesets: van 4 naar 10!
Dat betekent dat de grafieken wel iets moeten worden aangepast…

Inmiddels heb ik van Pascal Neis ook de data gekregen die teruggaat tot 1-1-2012. Daarmee kan ik een nog wat beter overzicht over langere tijd samenstellen.

Ik heb het verhaal ook (in het Engels) bij de gebruikersdagboeken geplaatst. Daar staat ook een interessante reactie van Harry Wood bij over hetzelfde probleem.

En hier dan voor de volledigheid het overzicht over de jaren 2012-2015.
Marginale verschillen, de grote lijn blijft hetzelfde. Meest in het oog springend (maar ook te verwachten) is de toename van het aantal mappers met meer dan 1000 changesets.