Propozycja automatycznej edycji - link do wikimedia/wikidata z terytu

https://osm.wikidata.link/ pozwala na skuteczne dodawanie tagów wikidata do obiektów.

Zauważyłem że w wielu przypadkach zarówno element w OSM jak i w Wikidata ma podany numer miejscowości w rejestrze SIMC - jest to numer który jednoznacznie identyfikuje miejscowość, nadawany przez administrację państwową.

Wygląda na to że można by automatycznie dodać tagi wikidata i wikipedia do kilku tysięcy miejscowości tam gdzie tag teryt:simc i https://www.wikidata.org/wiki/Property:P4046 mają zgodną wartość.

Lista obiektów w Wikidata, mających ustawiony kod SIMC, niezlinkowanych z OSM jest na http://bit.ly/2xBL8Aj po naciśnięciu przycisku play (18000 miejscowości) (dzięki dla Yurika za pomoc w napisaniu zapytania SPARQL, przepraszam za użycie skracacza linków ale bez tego forum głupiało)

Wygląda to na edycję gdzie mniej pomyłek będzie jeśli zostanie ona zautomatyzowana niż przy ręcznym wstawianiu - a dochodzi jeszcze oszczędność czasu.

Pominięte byłyby obiekty takie gdzie

  • danego kodu teryt nie ma w OSM (takie można dodac ręcznie z użyciem https://osm.wikidata.link/ )
  • dany kod teryt występuje w OSM więcej niż 1 raz
  • dany element wikidata jest już linkowany z jakiegoś obiektu OSM (filtrowanie na etapie zapytania do SPARQL, więc edycje czekają na posprzątanie istniejących tagów wikidata/wikipedia)

Próbka wykrytych połączeń jest na https://wiki.openstreetmap.org/wiki/User:Mateusz_Konieczny/teryt

Edycje byłyby

  • wykonywane na terenie Polski
  • w jednej edycji edytowana byłaby grupa obiektów (z 100?)
  • nie więcej niż 1 edycja na minutę

Dużo jest tego typu przypadków? Czy chodzi o przypadki gdy mamy Teryt oznaczony na punktu w środku wioski oraz na granicy tejże jednostki administracyjnej? Numer Teryt raczej winien nie występować przy innym rodzaju kombinacji czy też większej ilości powtórzeń. I pytanie co wówczas. Czy zostawiamy temat samemu sobie czy też skrypt wyłowi takie obiekty do ręcznej poprawy?

działać :slight_smile:

Wygląda na to że większość przypadków (wszystkie?) to coś typu http://www.openstreetmap.org/node/3009669179 http://www.openstreetmap.org/relation/6831907#map=15/53.8278/19.6566

Nie mam pojęcia co z tym zrobić i wolę przerabiać to gdzie wiem co zrobić (czyli np https://matkoniecz.github.io/OSM-wikipedia-tag-validator-reports/Polska.html ). Gdyby ktoś miał jakiś sensowny plan na posprzątanie tego to mogę podrzucić pełną listę.

Działaj! :smiley:

Tak drobna sugestia co do tej strony to by jednak na tej głównej wystawić jedynie index/listę/linki do podstron podzielonych per rodzaj błędu. Na dziś kompletna lista zawiera już na tyle rodzajów błędów że ciężko przez nią przebrnąć i przez to traci na czytelności. dodatkowo każdy taki link będzie łatwiej zamieścić wraz z opisem co on konkretnie zawiera np.

"Tu znajdziesz kwerendy pozwalające na pobranie błędów zawierających:

  • wielokrotne życie tagu wikipedia (konieczne utworzenie relacji w miejsce każdego jej wystąpienia) LINK
  • brak odpowiednich oznaczeń w bazie OSM dla obiektow historycznych, gdzie artykuł w wikipedii sugeruje, że winny być one dodane LINK
  • etc… LINK"

A może przy dużej ilości błędów wystarczy schować część kategorii - tak by zostało na przykład nie więcej niż 200 zgłoszonych problemów?

Widzimisię, że podzielenie na strony z kategoriami to dobry pomysł. A że w którejś kategorii będzie dużo…

Na razie jeszcze podziału nie ma - ale zerkniesz na https://matkoniecz.github.io/OSM-wikipedia-tag-validator-reports/Polska.html czy nie jest lepiej?

bot dodał wikipedia, wikidata do około 20 tysięcy haseł. W pozostałych wsiach kod teryt:simc nie był ustawiony lub był ustawiony dla więcej niż jednego obiektu (jeśli ktoś jest zainteresowany to mogę podrzucić listę tych wadliwych sytuacji).

A w temacie - dalsze edycję będę wykonywał z użyciem nowej wersji zapytania. Aktualne odpytuje o wszystkie polskie wsie z kodem SIMC.

Nowa wersja będzie odpytywała o wszystkie obiekty z kodem SIMC. Zmiana dość kosmetyczna, więc nie zaczynam dla niej nowego tematu.

Szacun :sunglasses:

Nie wydaje się newralgiczny, ale walidatorów czy wybranych sytuacji do poprawy nigdy za wiele.
Tyle że przed wrzuceniem wyników skryptu na https://matkoniecz.github.io/OSM-wikipedia-tag-validator-reports/Polska.html to najpierw przydały by się podstrony. Co prawda strona ostatnio zyskała na czytelności, lecz jest tam tyle przewijania, że dodanie listy kolejnych podejrzewam kilkuset błędów spowoduje że te których pozostało jedynie po kilkanaście zginą w tłumie.

Tak przy okazji to raz zaciągnąłem z overpassa podobną formułę dla samego Podkarpackiego i pojawiło się tyle wyników, że zapewne będzie konieczne by podzielić je per województwo.

https://wiki.openstreetmap.org/wiki/User:Mateusz_Konieczny/teryt ma teraz kolizje pomiędzy linkami obecnymi a tymi sugerowanymi przez teryt:simc

Sporo jest błędnych, ale już trafiłem na taki gdzie link był poprawny a wpis na Wikidata zawierał dane dwóch róznych miejscowości (poprawiłem) oraz przypadek gdzie tag teryt:simc jest naciągany - więc te 117 przypadków lepiej przerobić ręcznie.

Jeśli proponowany nowy link jest poprawny to wystarczy skasować obecne wikipedia/wikidata a bot doda poprawne.

Jak ktoś przerobi lub będzie wolał zająć się dodawaniem brakujących teryt:simc to niech da znać - wrzucę nową listę.