Propozycja automatycznej edycji - tagi wikipedia do przekierowań

Jakiś czas temu próbowałem wykorzystać dane OSM, a konkretnie linki do Wikipedii. Odkryłem że te tagi maja sporo problemów które czekają na naprawę.

Na przykład mamy sporo tagów wikipedia które mają link do przekierowania zamiast bezpośrednio do artykułu.

Na przykład http://www.openstreetmap.org/way/298772661 ma [wikipedia=pl:Dwór Popielów w Ruszczy (Kraków)] zamiast [wikipedia=pl:Dwór Popielów w Ruszczy].*

W niektórych przypadkach poprawność takiej zmiany potwierdza dodany tag wikidata

Proponowałbym zamienić w zautomatyzowany sposób takie przypadki gdzie

  • jest tag wikidata
  • jest tag wikipedia
  • tag wikipedia linkuje do przekierowania
  • przekierowanie prowadzi do strony zgodnej z tagiem wikidata

Zmiana polegała by na edycji tagu wikipedia tak by kierował w to samo miejsce co kieruje teraz przekierowanie.

Program do automatycznej edycji

Przykłady planowanych edycji są na https://matkoniecz.github.io/OSM-wikipedia-tag-validator-reports/Polska.html z opisem “wikidata and wikipedia tags link to a different objects, because wikipedia page points toward redirect that should be followed” (są tam też inne wykryte problemy dotyczące tagów wikipedia i wikidata),

*z http://wiki.openstreetmap.org/wiki/Key:wikipedia “avoid redirects, for example, link to de:Frashër and not to de:Frasher (which is a redirect).”

Zachęcam do komentowania - zarówno jeśli ktoś uważa to za dobry jak i zły pomysł. Jeśli są z tym problemy to warto by o nich wiedzieć, niezależnie bczy będzie poprawiane to ręcznie czy automatycznie. A jeśli to dobry pomysł to też czekam na komentarze bo bez zgody innych edytujących nie będę wykonywał automatycznych edycji.

Przyznam nie zwróciłem na to wcześniej uwagi, a bardzo sprytnie błędy wyszukuje. Jak by się tak jeszcze dało zrobić tak by te wszystkie znalezione obiekty JOSM wiedział jak na raz pobrać to już by było super, gdyż łatwo by się je dało wtedy poprawić.

EDIT: A skąd aż tyle linków do nieistniejących artykułów? Pousuwane na wiki?

Wygląda bezpiecznie, jestem za.

Pozmieniane tytuły najczęściej.

Czy wygenerowane overpass query do skopiowania by załadować obiekty z problemem danego typu byłoby OK czy masz na myśli inne rozwiązanie?

Część zmieniła nazwę + jakiś czas temu kasowali chyba “hasła” typu “XXX jest częścią miejscowości XYZ” bez jakichkolwiek innych informacji czy źródeł.

O ile mi wiadomo obecnie Wikipedia ma politykę niekasowania nawet “popsutych” nazw - zostają jako odnośniki do “prawidłowej” nazwy.

Jak najbardziej OK jeśli tylko się da. Pachnie wyższą szkołą jazdy :wink:

Zrobione, na https://matkoniecz.github.io/OSM-wikipedia-tag-validator-reports/Polska.html teraz na końcu każdej grupy jest overpass query które można wkleić w JOSMie by pobrać problematyczne obiekty z danym typem błędu (może wymagać wyczyszczenia cache przeglądarki).

A, gdyby błędów zabrakło lub były nieaktualne to dajcie znać - wygeneruję na nowo dla większego obszaru.

Pierwszą grupę jaką pobrałem to z miejsca okazuje się, że dotyczy się ona wyłącznie dzielnic Zakopanego dla których ktoś pousuwał artykuły na wiki https://pl.wikipedia.org/wiki/Krzept%C3%B3wki o czym jakiś czas temu pisał rmikke. NIe przypominam sobie by wówczas ktokolwiek miał pomysł co z tym fantem zrobić. Teoretycznie skoro artykuły na wiki nie istnieją to pasuje je usunąć również z OSM zwłaszcza jak prowadzą do nieodpowiednich miejsc jak wspomniane Krzeptówki kierują do https://pl.wikipedia.org/wiki/Krzeptowski_Potok
What say You?

Zerknąłem na to i takie http://www.openstreetmap.org/node/3009690700 jest w terycie ( http://eteryt.stat.gov.pl/eTeryt/rejestr_teryt/udostepnianie_danych/baza_teryt/uzytkownicy_indywidualni/wyszukiwanie/wyszukiwanie.aspx?contrast=default ).

Na początek zostawiłbym te zaimportowane z TERYTu do OSM i w takich zdejmę linki do Wikipedii które padły.

Krzeptówki linkują teraz do disambiga który ma czerwony link do Krzeptówek jako część miasta, więc też bym zostawił.

Nie wiem co zrobić z http://www.openstreetmap.org/node/2122992023 - dodane przez skasowanego, nie widzę w internecie sensownych źródeł. Może poszukać w przewodnikach po Zakopanym czy gdzieś wspominają podział miasta na osiedla/dzielnice/osady/jak to zwać? Albo zostawić notkę w nadziei że kiedyś miejscowy sprawdzi poprawność? Ale w terycie tego nie ma - pytanie czy kiedyś było…

Druga grupę właśnie poprawiłem. W zasadzie poza jednym przypadkiem dopływu Dunajca, gdzie faktycznie należało się zastanowić czy nie zostawić tak jak jest wikipedia=sk:* a część rzeki faktycznie płynie przez Słowację to wszystkie inne przypadki gdzie mieliśmy winpedia=en:* (nie mylić z wikipedia:en=*) spokojnie mógłby je przerabiać automat, gdyż wszystkie wskazywały na prawidłowe linki w języku polskim.

Zarąbiste, serio.

Z tym, że dla cieków wodnych prawdopodobnie najsensowniejszą pomocą byłyby:

  • link, otwierający bbox, obejmujący wszystkie odcinki waterway z tą samą wartością wikipedia=* (tymi, które teraz bot listuje)

  • zapytanie Overpassa, wyciągające wszystkie odcinki waterway w powyższym bboksie, do użytku w JOSM.

Na ogół jest bowiem tak, że tag wikipedia jest przypisany do losowo dobranej części odcinków cieku i relację trzeba budować po nazwach odcinków, a nie według tagu wikipedia. A do tego dość często zdarza się, że do relacji powinien należeć jeszcze jakiś odcinek, który nawet nie ma tagu name=*.

Czyli z reguły wybranie samych odcinków z tym samym wikidata=* nie ma większego sensu, jeśli chce się poprawnie zbudować relację, obejmującą cały ciek.

Dodanie zapytanie uwzględniające też wikipedia=pl:nazwa rzeki powinno dać się zrobić.

A name=nazwa_rzeki by się przydało? Jak często mamy w Polsce rzeki o tej samej nazwie?

Jak to sie dla takiej Wisły zrobi to zapytanie zwróci do edycji rzeki i innych cieki wodne w całej Polsce (JOSM da radę ale będzie mocno lagować a dane specjalnie nie pomogą).
Dodatkowym problem jest to że dość trudno takiego bboxa zgadnąć (szukać wszystkich cieków wodnych w okolicy które mają tą samą nazwę i zrobić bbox który je obejmuje?).

Rzeki rzekami, ale strumieni o nazwie np. Struga jest trochę. Z mojego doświadczenia - rzadko jest tak, żeby po wybraniu według nazwy nie trzeba było nic dodać/wywalić. A już wikipedia=* są dodawane naprawdę do losowych odcinków.

Nie do końca mam pomysł jak to zapytanie powinno wyglądać. Czy dałbyś radę zrobić jedno ręcznie, dla dowolnej rzeki która na razie nie ma relacji waterway lub ma coś innego do poprawy?

Chwilowo nie.

Byłem przekonany, że da się przerobić zbiór na bbox w overpassie, ale być może tylko mi się zdawało. Zapytałem, zobaczymy czy da się…

Znaczy, wypluć bbox na output się da, ale parametrem do out, a to się chyba nie da wykorzystać do późniejszego wyciągania czegoś z obszaru tego bboxa.