Kleine Statistikfrage/Konfusion

aus der aktuellen Wochennotiz:

und:

Also ääh. Aus Statistiken kann man sich ja mutwillig (und oft auch bösartig) jeden erdenklichen Nonsens ableiten, ich interpolier mir da gerade - allerdings mit gutem Willen - dass eine scheinbar riesige Menge von 10% ein Nichts ist. 4%! Wenn man alle realen USA-Adressen importieren würde, dann wären die plötzlich bei gefühlt 95% aller in OSM eingetragenen Adressen? Klingt mir vor allem bezogen auf den Rest der Welt (bzw. die Qualität des Adressenmappings) recht bitter.

Wo is mein Denkfehler?

Disclaimer: ich habe die zugehörigen Posts (oben verlinkt) nicht lesen können, da mir im Englischen das Textverständnis bei langen Passagen/Geschichten fehlt.

Hallo,

als Autor der beiden Meldungen erkläre ich das mal.

Bei Simon Poole findet man die 16 Prozent für Deutschland und die 10 Prozent für die USA gar nicht im Text. Die habe ich für die Meldung aus den rohen Zahlen errechnet. 8,47/51,90 = 0,16 (10^6 kann man weglassen, da es sich eh wegkürzt), 5,23/51,90 = 0,10. Beide Zahlen (16 und 10) sind der Anteil der Adressen an den weltweit schon gemappten Adressen.

Für Prozentunfähige: Wenn du mir 1000 Objekte mit Hausnummer aus OSM gibst, dann sind 160 davon in Deutschland und 100 davon in den USA.

Bei Ominific geht es um die Anzahl der Adressen in den USA in Bezug auf die geschätzte Zahl existenter Adressen. Er meint, dass es in den USA etwa 119 Mio. Adressen geben müsste. 5,2 Mio. seien davon schon gemappt, also ca. 4 Prozent (d.h. 96 Prozent aller US-amerikanischen Adressen sind noch nicht gemappt). Von den 4 Prozent stammen die meisten aus Importen in Großstädten.

Viele Grüße

Michael

Wo is mein Denkfehler?

Nirgendwo. Das ist so richtig.

Bedenke, daß die Ausgangsbasis unterschiedlich ist. Mal ist die Ausgangsbasis die Anzahl der Datensätze in der Datenbank, und mal ist die Ausgangsbasis die Anzahl der Adressen in den USA. Das ist halt Prozentrechnung.