Das sind die Standard-Ideographen. Die ersten CJK-Codes gibt es sogar schon ab x2E80 http://www.utf8-zeichentabelle.de/. In der Praxis dürfte das aber keinen Unterschied machen, da jeder chinesische Text Standard-Zeichen enthalten müsste.
Genau genommen sind aber selbst etliche der ASCII-Zeichen (~, @, { …) verdächtig, die Codes ab x0100 für Namen in DACH sowieso.
Den Ansatz hatte ich vorher mit einem regexp. Ist aber voll in die Hose gegangen. Du ahnst es nicht, welcher Schrott aber auch “richtige” ASCII-Zeichen in den Namen drin sind.
360°, T€DI, O² , diverse Anführungszeichen, Sonderzeichen, …
nach
name not similar to e'[A-Za-z0-9ÄÖÜäöüß ÁÉÍÓÚŹáéíóúźàèòùśŁłîăčěğŠšžÇ窺ñūâêÎÔøİ()\\-,.:;\/_–\'|\\[\\]´`+!&@®#?€„“”»«°№\"’]*'
hab ich dann aufgegeben und das Vorgehen gewechselt.
Gruss
walter
ps: die nächste Auswertung mach ich mal für DACH. Wird aber einige Tage dauern, da die mehrere Stunden schleicht und ich meine DB nicht zu sehr quälen will.
Ich finde man die wieder korrigiert sollte man die chinesischen Namen nicht einfach wegwerfen, wie es in http://osmlab.github.io/osm-deep-history/#/node/1853002791 passiert ist, sondern nach name:zh übertragen, nachdem man geprüft hat, ob das stimmt (z.B. mit Wikipedia).
Dito, hab ich auch wo sinnvoll. Da stand in etwa etwas von einem “Pauls Platz”, was nichts mit unserem Friedrich-Ebert zu tun hat sondern nur mit dem umgebenden Platz. Darfst du aber gerne entsprechend ergänzen. Ergänzt am Paulsplatz.
Ich habe in der USA schon einer Koreaner gefunden, der mit dem Programm neue Punkte eingetragen. Hier hilft Translate.google.com den richten Language Code zu finden.
… das zu löschen, sind vielleicht vier Klicks und ’ne Minute Arbeit, und das kann ja nun offensichtlich ohne weitere Umstände weg. Das Einzige, was mich davon abgehalten hat, war der Gedanke dass ich was übersehe: gibt es einen Konsens, sowas stehenzulassen oder den Ursprungsmapper davon zu überzeugen, das selbst wegzumachen, oder warum ist das immer noch da? Ist’s nicht erwünscht, sowas Offensichtliches gleich von jemandem weggemacht wird, der gerade ’nen Editor zur Hand hat? Was würde ich auf mich ziehen, wenn ich’s einfach wegmachte?
Das Problem sind nicht ein oder zwei Schafe die das verursachen, sondern 40 Mio Downloads der App - wenn das losgeht, schaue ich mir an wie du das bereinigst.
Ah, falscher Scope meinerseits - ich hatte halt den Gedanken ‚wenn ich gerade mit dem Editor zugange bin und mir dort sowas auffällt, lösche ich es und mache meinen Kram weiter – und wenn’s jeder so handhabt, muss nicht ein Einzelner eine siebenstellige Anzahl Objekte löschen‘ – dass man der Ursache trotzdem auf den Grund geht und möglichst versucht, sie abzustellen, habe ich an der Stelle einfach als gegeben angesehen, sorry dafür.
Aber was genau ist denn die Ursache? Im Zusammenhang mit map.me konnte man ja häufiger „veraltete Daten“ als Grund für doppelte Sachen und so lesen, aber die Touristenattraktion „Fotos aus Auto“ dürfte doch schlicht von einer Fehlbedienung herrühren?