Zauważyłem że w wielu przypadkach zarówno element w OSM jak i w Wikidata ma podany numer miejscowości w rejestrze SIMC - jest to numer który jednoznacznie identyfikuje miejscowość, nadawany przez administrację państwową.
Wygląda na to że można by automatycznie dodać tagi wikidata i wikipedia do kilku tysięcy miejscowości tam gdzie tag teryt:simc i https://www.wikidata.org/wiki/Property:P4046 mają zgodną wartość.
Lista obiektów w Wikidata, mających ustawiony kod SIMC, niezlinkowanych z OSM jest na http://bit.ly/2xBL8Aj po naciśnięciu przycisku play (18000 miejscowości) (dzięki dla Yurika za pomoc w napisaniu zapytania SPARQL, przepraszam za użycie skracacza linków ale bez tego forum głupiało)
Wygląda to na edycję gdzie mniej pomyłek będzie jeśli zostanie ona zautomatyzowana niż przy ręcznym wstawianiu - a dochodzi jeszcze oszczędność czasu.
dany element wikidata jest już linkowany z jakiegoś obiektu OSM (filtrowanie na etapie zapytania do SPARQL, więc edycje czekają na posprzątanie istniejących tagów wikidata/wikipedia)
Dużo jest tego typu przypadków? Czy chodzi o przypadki gdy mamy Teryt oznaczony na punktu w środku wioski oraz na granicy tejże jednostki administracyjnej? Numer Teryt raczej winien nie występować przy innym rodzaju kombinacji czy też większej ilości powtórzeń. I pytanie co wówczas. Czy zostawiamy temat samemu sobie czy też skrypt wyłowi takie obiekty do ręcznej poprawy?
Tak drobna sugestia co do tej strony to by jednak na tej głównej wystawić jedynie index/listę/linki do podstron podzielonych per rodzaj błędu. Na dziś kompletna lista zawiera już na tyle rodzajów błędów że ciężko przez nią przebrnąć i przez to traci na czytelności. dodatkowo każdy taki link będzie łatwiej zamieścić wraz z opisem co on konkretnie zawiera np.
"Tu znajdziesz kwerendy pozwalające na pobranie błędów zawierających:
wielokrotne życie tagu wikipedia (konieczne utworzenie relacji w miejsce każdego jej wystąpienia) LINK
brak odpowiednich oznaczeń w bazie OSM dla obiektow historycznych, gdzie artykuł w wikipedii sugeruje, że winny być one dodane LINK
bot dodał wikipedia, wikidata do około 20 tysięcy haseł. W pozostałych wsiach kod teryt:simc nie był ustawiony lub był ustawiony dla więcej niż jednego obiektu (jeśli ktoś jest zainteresowany to mogę podrzucić listę tych wadliwych sytuacji).
A w temacie - dalsze edycję będę wykonywał z użyciem nowej wersji zapytania. Aktualne odpytuje o wszystkie polskie wsie z kodem SIMC.
Nowa wersja będzie odpytywała o wszystkie obiekty z kodem SIMC. Zmiana dość kosmetyczna, więc nie zaczynam dla niej nowego tematu.
Nie wydaje się newralgiczny, ale walidatorów czy wybranych sytuacji do poprawy nigdy za wiele.
Tyle że przed wrzuceniem wyników skryptu na https://matkoniecz.github.io/OSM-wikipedia-tag-validator-reports/Polska.html to najpierw przydały by się podstrony. Co prawda strona ostatnio zyskała na czytelności, lecz jest tam tyle przewijania, że dodanie listy kolejnych podejrzewam kilkuset błędów spowoduje że te których pozostało jedynie po kilkanaście zginą w tłumie.
Tak przy okazji to raz zaciągnąłem z overpassa podobną formułę dla samego Podkarpackiego i pojawiło się tyle wyników, że zapewne będzie konieczne by podzielić je per województwo.
Sporo jest błędnych, ale już trafiłem na taki gdzie link był poprawny a wpis na Wikidata zawierał dane dwóch róznych miejscowości (poprawiłem) oraz przypadek gdzie tag teryt:simc jest naciągany - więc te 117 przypadków lepiej przerobić ręcznie.
Jeśli proponowany nowy link jest poprawny to wystarczy skasować obecne wikipedia/wikidata a bot doda poprawne.
Jak ktoś przerobi lub będzie wolał zająć się dodawaniem brakujących teryt:simc to niech da znać - wrzucę nową listę.