Na prośbę Mateusza rozbijam prośby na poszczególne wątki.
Co chciałbym zrobić:
Usunąć w całej Polsce błędne tagi city jeśli =place dla wszystkich adresów zawierających housenumber i nie zawierających street. Zmiany przeprowadzić bbox-em o powierzchni pozwalającej objąć obszar województwa w kilku powtórzeniach po kilka tysięcy zmian. Próbka w województwach pomorskim i kujawsko-pomorskim wykazała ok. 25-30 tys. zmian na województwo.
Adresy oznaczone w JOSM jako duplikaty oznaczyć tagiem fixme. Będą widoczne dla wszystkich zainteresowanych poprawą. Ze swojej strony deklaruję się poprawiać je w najbliższym czasie. Próbka na powyższych województwach wykazała ok. 100-150 lokalizacji duplikatów na województwo. Aby nie komplikować sprawy proponuję, że po usunięciu błędnego tagu dla danego województwa usunę duplikaty i dopiero przejdę do następnego województwa.
Rozpoczęcie działania w danym województwie będę zgłaszał w tym wątku ok. godziny przed działaniem.
Czy chodzi o “Usunąć w całej Polsce błędne tagi addr:city jeśli są takie same jak addr:place dla wszystkich adresów zawierających addr:housenumber i nie zawierających addr:street”?
Jeśli tak to nie mam opini i jeśli o mnie chodzi to taka edycja jest OK.
PS Pamiętaj by dać ludziom czas na odpowiedź, ja staram się dwa tygodnie przed edycją poczekać. I pamiętaj by w opisie zmian ewetualnej edycji podlinkować tą dyskusję.
Ten tag fixme mogę opisać jako np. “duplikat adresu wykryty podczas poprawy tagów addr: w dniu… Kontakt: user:Piotr_J”
Tak, jak wspomniałem - będę te duplikaty usuwał zanim przejdę do kolejnych województw. Ilość ok. 100-150 duplikatów na województwo da się obrobić. Częściowo pokryją się z istniejącymi tagami fixme. Takie dodanie tagu fixme pomoże mi w szybkiej filtracji błędów do poprawienia.
To również sukcesywnie robię. Jedno drugiemu nie przeszkadza. Spójrz na woj. pomorskie i porównaj z innymi województwami.
Tak, dokładnie o to. Przepraszam za skrót myślowy w opisie. Składnię kwerendy podałem. Wykrywa dokładnie opisany przez Ciebie problem.
Co masz na myśli? Czas na odpowiedź na forum?
Jeśli dostanę zgodę, to kolejność działania będzie następująca:
Owszem - do podstawowych operacji. Jeszcze dużo nauki, ale jest zdecydowanie lepiej, niż miesiąc temu.
I tu jest problem, bo jeśli nie opiszę tych duplikatów tagiem, to Overpass mi ich nie pokaże.
Proponuję układ - dajcie mi spróbować. Jeśli nawalę, tu usunięcie tych moich tagów fixme dla jednego województwa zajmie kilka sekund. A układ jest taki, że przechodzę do następnego województwa, kiedy wyczyszczę bieżące.
W praktyce tylko ty z tego skorzystasz. Nie ma więc sensu pchanie tego do bazy osm. Znalezione duplikaty przez JOSMa możesz zapisać sobie w pliku i potem przerobić.
Czy mogłbyś podać linki do takich duplikatów? Ciekawy jestem, skąd się wzięły.
Po wczorajszej długiej rozmowie z Cristoffs, za którą bardzo dziękuję, stworzyłem brudnopis wiki opisującej powyższe zmiany. Jako żółtodziób wiki posiłkowałem się szablonem Mateusza. Skoro opcja z fixme jest mocno niepożądana, to znajdę inny sposób na duplikaty.
Proszę o ocenę. Jeśli wszystko jest dobrze, to przerzucę na docelową stronę wiki i usunę brudnopis.
Jeśli tak twierdzisz… Sporo by mi to ułatwiło, a może jednak znalazłby się ktoś chętny do pomocy. Nie upieram się. Jeśli to przeszkadza, to będę te błędy eliminował inaczej.
Niestety nie. Zmiany są wycofane przez Mateusza, a ja nie zapisałem pliku z błędami w JOSM. Problem dotyczył obszarów na np. Kaszubach, gdzie ostatni import adresów był robiony ok. 6 lat temu przez użytkownika:Przemas.
Raz się zdarzyło… Ale wtedy jeszcze nie wiedziałem, że muszę kogoś zawiadomić. Możemy wydłużyć okienko powiadomień. Jakaś sugestia jaki czas będzie optymalny?
Imho, 500K wystąpień w całej Polsce i to od lat oraz brak skarg na te duplikaty sugeruje, że to nie jest problem dla konsumentów danych.
Jest to wiec bardziej czyszczenie bazy danych, niż eliminacja błędu.
Skoro sam chcesz czyścić i to w krótkim czasie. Bo fixme nie jest odpowiednie dla szybkich poprawek, gdyż nie zwraca na siebie uwagi.
Gdybyś nie chciał sam poprawiać duplikatów, to przy kilkuset duplikatach na województwo dodanie fixme mogłoby być ok.
Opieram się tylko na komunikatach, które dostawałem swego czasu przy każdej zmianie ze zduplikowanym addr:city=addr:place z abakus_uploader. Wychodzi na to, że takie zestawienie jest jednak dla konsumenta danych niepożądane:
Dodam tylko, że to nie ja byłem źródłem duplikatu, ale wystarczyło, że np. poprawiłem geometrię budynku z takim tagowaniem i otrzymywałem komunikat.
Czy jest to naprawa błędu, czy tylko czyszczenie bazy danych, to jest to tylko kwestia nazewnictwa. Działanie wyeliminuje potrzebę zwracania uwagi na ten duplikat przez innych użytkowników przy okazji innych edycji. Przeoczenie duplikatu zwraca komunikat z abakus_uplodera, który niepotrzebnie odrywa nas od pracy nad ważniejszymi edycjami.
Jak najbardziej chcę je poprawiać. Jednocześnie nie uzurpuję sobie prawa do poprawy samodzielnej. Stąd pomysł z fixme. Ale, jak już wspomniałem, nie upieram się.
Dzięki za podpowiedź. W zasadzie nie robi mi to wielkiej różnicy. Może asem językowym nie jestem, ale jakieś proste zdanie mogę napisać i po angielsku. Zwłaszcza, że skopiowałem Twój czytelny szablon.
E tam, przecież Abakus od lat korzysta z tych danych i jakoś nie przeprowadzał akcji ich czyszczenia Czyli radzi sobie z nimi.
Tu masz rację, ale to znany problem tego bota, że nie sprawdza, kto jest autorem duplikatu i wysyła komunikat każdemu kto “dotknie” obiektu.
I to jest chyba największy pożytek z czyszczenia, które chcesz przeprowadzić - te komunikaty trafiały czasem do niewinnych osób.