Nicht richtig ist, alternativ besteht die Gefahr, das ich “Datenverluste” zu beklagen habe (fehlenden Transaktionen in MongoDB). Aber ich habe versucht, in typischen Fehlersituationen die Daten korrekt wieder herzustellen, was mir bei meinen Checks auch gelungen ist.
Christoph
Edit: Vielleicht ist auch mein Regionalschlüsselansatz falsch, und ich muss auf den Gemeindeschlüssel wechseln.
Die Auswertung ist einfach anders, Details stehen auch auf der Wiki-Seite. Weiterhin fehlt ein Bezugszeitpunkt: wenn da mehrere Tausend Queries über ein paar Stunden hinweg laufen, hat jede Query ihren eigenen Zeitstempel. Da müsste man wohl noch am Anfang ein [date:“2015-01-01T00:00:00Z”] oder sowas einbauen, damit alle Queries mit gleichen Zeitstempel arbeiten.
Danke, der Hinweis mit dem Zeitstempel ist ganz praktisch. Ich habe auch noch vor, die gezählten Objekte eventuell, die Zeitstempel der Abfragen in jedem Fall anzeigbar zu machen.
Ich glaube aber der grössere Unterschied ist im wiki erklärt.
Ich sollte die Daten einfach nicht mischen, und das Projekt an der möglichen neuen Wochenaufgabe “reifen” lassen.
Definiert so: alle OSM-Objekte (Nodes, Ways und Relationen) zum Zeitpunkt 00:00 mit Hausnummer, aber ohne Straße, Place und auch nicht Mitglied einer accociatedStreet-Relation innerhalb der DE-BBox, sodann für alle Admin-Areas die Objekte innerhalb der Area gezählt.
Am Tagesende 04.08.2015 gab es in OSM für DE 8.960.053 Adressen. Die 9-Mio-Schwelle ist also nah. Allerdings kommen derzeit nur knapp 5.000 Adressen pro Tag dazu. Es waren im August 2014 durchschnittlich 13.000 pro Tag. Im Februar 2015 immerhin noch 7.800.
Noch immer 1.560 (!) Gemeinden (ohne gem.fr. Gebiete) haben keine einzige Adresse - 3.976 weniger als 10 Adressen.
Mitte August (ca. 12.08.) wurde die Marke von 9 Millionen verwertbaren deutschen Adressen in OSM geknackt. Insgesamt sollte es etwa 20,5 Mio. Adressen geben. Bald könnte die Hälfte also geschafft sein.
Wichtig erscheint mir vor allem, dass jeder Ort und dann jede Straße ein paar Adressen als Anker hat.
Man müsste mal noch herausfinden, wieviele von den 9 Mio denn Duplikate sind. Hier http://www.openstreetmap.org/#map=18/50.91674/13.34344 sind z.b. viele Adressen doppelt oder öfter vorhanden (an jedem Gebäude und jedem Geschäfts-Node hängt die Adresse)
ich kann 8,997 Mio für den 6.8. bestätigen über meine monatliche theoretische Hausnummerausswertung für Deutschland [1] und da sind Duplikate nicht enthalten.
Wie ist Deine Äquivalenzklasse definiert? Hausnummer, Straße, Gemeinde/50m-Umkreis geographisch?
Komplette Übereinstimmung aller “addr:*”-Werte würde die Anzahl ja auch überschätzen.
Das ist gar nicht so einfach/schnell, wenn man es genau machen will.
Ich habe als Kriterium für die Äquivalenzklasse mal (street, housenumber, PLZ-Gebiet - als Relation und nicht ‘addr:postcode’) definiert.
Damit komme ich (Stand gestern) auf 166.847 Klassen/Adressen, für die es Duplikate gibt.
374.146 OSM-Elemente sind danach betroffen. Ergo hätte ich hiernach 207.299 Adressen zu viel.
Das wäre bei der Annahme das die Adressen alle “nur” doppelt vorkommen.
Ich habe keine Ahnung welche Datenbank du benutzt, aber wäre es nicht denkbar erst GROUP BY und danach COUNT in einer aufbauenden Abfrage anzuwenden?