OSMSuspects - Qualitätssicherung Adressen (Deutschland)

Die optimale Strategie der Dublettensuche scheint nicht trivial zu sein. Ich nehme an, es ist bekannt, dass der Quellcode von
http://gulp21.bplaced.net/osm/housenumbervalidator/

auf

https://github.com/gulp21/housenumbervalidator

zu finden ist. Vielleicht könnte man dort ja nach dem entsprechenden Algorithmus suchen, oder ist das schon erfolgt?

vs:

Was imho noch wünschenswert wäre, wäre Aufnahme in die Statistik und false-positive setzen.

Meine Lösung basiert rein auf SQL. Ich muß halt immer die Laufzeit im Auge behalten, soll ein täglicher Update erfolgen und die Daten bis ~07:00 zur Verfügung stehen.

Gleiche Hausnummer + gleiche Strasse + gleiche City + gleicher Objekttyp innerhalb 1000 Meter ist für mich eine Doublette. Welche Objekttypen (OSM: key eines Tags) zusätzlich in Frage kommen, ist noch zu klären. Da warte ich in Ruhe die Rückmeldungen ab…

Ich würde wohl eher maximal 250m Umkreis befürworten… 50-100m würden sicher auch reichen… Wie große wäre denn da der Unterschied?

Sven

Man sollte nachts nicht arbeiten… Gültig ab morgen: Hab den Link korrigiert und einen zusätzlichen eingebaut. In der Statistik sollten die Dupes dann auch auftauchen.

dupes auf false-positive setzen: Wird nur gehen, wenn ihr damit leben könnt, dass die dann erst am nächsten Tag “weg” sind. Das hat technische Gründe.

Warum? https://osm-suspects.gbconsite.de/#15/48.5863/8.2951/osm-dupes 1 x 465m und 1 x 980m

Wenn die (für den User) sofort für die Zeit bis zum Update gefärbt werden (per Cookie bspw.), sehe ich da kein Problem.

Oooch… ihr mit euren komischen und krummen Gebirgstälern :roll_eyes:

duck und weg…

Hallo dooley,

der neue Layer mit den Hausnummer-Doubletten ist in der Tat sehr interessant!! Danke fürs reinnehmen, es kamen dann vielleicht zu viele Verweise auf den housenumber-Validator von gulp21 :wink:

Wäre es für die Doublettenanzeige irgendwie möglich, zwischen den einzelnen orangenen Markern jeweils eine Verbindungslinie zwischen zwei oder mehr Doubletten zu zeichnen?

Vielleicht auch erst, wenn man genug reingezoomt hat?

Wenn du ein Doubletten-Popup aufmachst, wird bei Mouseover über den Doubletteneintrag (type node Entfernung) temporär eine Linie zwischen den Doubletten angezeigt. Eine fixe Linie ist insofern schlecht, wenn man wie in Frankfurt am Main jeden Stolperstein mit Adressen taggt und dann noch mit der gleichen :frowning: Da hast du dann 12, 15 Linien und siehts nix anderes mehr. Das wollte ich vermeiden.

Wieder ein weiteres nettes Feature :slight_smile: Danke!
Ist es eine Überlegung Wert, die Distanz in zwei Gruppen zu unterteilen? Und zwar in jene nodes die weniger als bspw. 50m voneinander entfernt liegen (z.B. zwei Geschäfte in einem Haus; häufig kein Fehler) und jene, die deutlich voneinander entfernt liegen wie z.B. diese beiden: https://www.openstreetmap.org/node/3045697346 und https://www.openstreetmap.org/node/1259573289 und hier häufiger (zumindest in dichter besiedelten Gebieten) ein Fehler vorliegen dürfte

Moin!

Das Posting ist schon etwas länger und irgendwo wird es stehen - aber ich frage dennoch:

Gruß Jan

2 Geschäfte in einem Haus: Da kann eigentlich nur ein Duplikat entstehen, wenn zufällig beide gleiche Objekttypen sind.

Ich erstelle beim Import eine Spalte, welche mit “key:value” gefüllt wird, z.B. “shop:greengrocer”. Diese Spalte wird in die Doublettenerkennung mit reingenommen. Das ist sicherlich noch verbesserungswürdig bzw. fehlen da noch ein paar keys. Im Moment benutze ich folgende keys:

amenity, leisure, shop, office, tourism, craft, power, man_made, sport, emergency, healthcare, building

Alle anderen Objekte mit addr-Tags werden als reine Adressen behandelt, sprich in der Objekttyp-Spalte steht “address-node”.

Alles, was gleiche Hausnummer, Straße, (wenn vorhanden City) und Objekttyp aufweist und innerhalb 1000 Meter ist, ist Duplikat. Das funktioniert recht gut, denke ich. Wo es offensichtlich nicht stimmt, bitte die 2 Adressen mitteilen, mit Link auf OSM.

Bei zu vielen false-positive-Doubletten muß ich testen, ob ich eventuell vorhandene Namen in den Objekttyp-Vergleich mit reinnehme. Das kosten halt Laufzeit, heute wurde die Auswertung erst um ~ 07:38 fertig. Ganz am Anfang um 04:00 :wink:

@Lübeck: Die Daten werden täglich neu ausgewertet. Basis sind die Extrakte der Geofabrik, welche OSM-Daten bis ca. 21:00:22:00 beinhalten. Die Verteilung der Extrakte auf die Download-Server ist zwischen 00:00 - 02:00 beendet und stehen dann dort zur Verfügung. Ich hole die um 02:00 ab, die Verarbeitung ist dann bis 06:00 - 07:30 fertig.

@all: Sorry, ich mußte heute morgen feststellen, dass ich gestern nicht alle Sourcen in mein git committet hatte, daher war das GUI bis eben auf dem Stand von gestern. Duplikate-Popup und Statistik sind jetzt ok.

… und das gibt’s in Städten wie Berlin natürlich recht häufig. Auf dem von mir zur “Duplikate”-Seite gewählten Ausschnitt sind vier/zwei Restaurants (1a+1b, 2a+2bbetroffen. Entlang vom Straßenzug Kudamm/Tauentzien, der sich nur einige Schritte weiter nördlich im leichten Bogen um den Ausschnitt legt, sind etliche weitere Beispielfälle zu finden (vermute vor allem shop=*).

Ja, an die Aufnahme von Namen als Kriterium hatte ich auch gedacht, bin aber nicht so recht überzeugt, weil doch häufig Schreibweisen voneinander abweichen (Lücken, Apostroph, Namenskurzformen, -zusätze, …), so dass man hier auch wieder viel verlöre. Meine Idee mit zwei verschiedenen Umkreistypen hätte (vielleicht) den Vorteil, in einem Fall auf seltene bis keine Dublikate zu stoßen/fast nur positives zu finden, damit man sich gezielt um diese kümmern kann, ohne in false positives von Einkaufsgegenden zu ertrinken.

Wenn ich so drüber nachdenke, ja, das hat was. Mal schauen, wie ich das ohne große Änderungen hinbekomme.

Edit: Eventuell mit einem einstellbaren mix-max-Distanzwert-Regler im GUI.

Moin !

danke erst einma für die Rückmeldung.

Nun noch etwas spezielles zu einem großen Gelände der Uni bei uns.

Das angemerkte Gebäude steht nahe einer Straße ist aber offiziell der entfernten Straße (roter Pfeil) zugeordnet. Kann man irgendwie dieser Markierungen für künftig abschalten ?

Gruß Jan

Das hatte ich zu schreiben gar nicht gewagt

Hi!

sorry, aber ich finde den Regler nicht !

Gruß Jan

Jan, du solltest mal STRG-F5 drücken :smiley:

Seit ein paar Tagen sieht das Popup etwas anders aus, da kannst du (sofern du dich mit deinem OSM-Account verifizierst), Adressen als “korrekt” markieren, diese werden dann nicht mehr angezeigt. Zur Anzeige der als korrekt markierten Adressen gibt es einen extra Layer in der Layerauswahl, da kann mal ggf. wieder entmarkieren. Die Markierung ist global, gilt also für alle Benutzer der Website, und dauerhaft. Zumindest solange wie sich nix an der Adresse, osm_id oder Geometrie ändert.

Den gibt es auch noch nicht, das war eine Idee, die erst heute aufgekommen ist und die ich erst umsetzen muß :wink:

PS: Kann mal ein Admin für Benutzer mit 100+ Posts diese Zeitsperre rausnehmen? Das nervt. Dann warte ich halt noch 1 Minute