Propozycja automatycznej edycji - tagi typu wikipedia:en bez wikipedia

Jakiś czas temu próbowałem wykorzystać dane OSM, a konkretnie linki do Wikipedii. Odkryłem że te tagi maja sporo problemów które czekają na naprawę.

Na przykład mamy sporo przypadków gdzie istnieje tag wikipedia:en=, wikipedia:de= a nie istnieje tag wikipedia. Temat już był trochę dyskutowany na https://forum.openstreetmap.org/viewtopic.php?pid=659869#p659869

Proponowałbym zamienić w zautomatyzowany sposób dodać tagi wikipedia tam gdzie

  • jest tag wikipedia:en lub wikipedia:de lub wikipedia:jakiś_inny_język
  • nie ma tagu wikipedia

dodać tag wikipedia, z zachowaniem następujących ograniczeń

  • link będzie przetwarzany jeśli dla danego artykułu istnieje wpis w Wikidata (w ten sposób można ustalić czy istnieje wersja po Polsku)
  • nowy tag wikipedia nie jest sprzeczny z tagiem wikidata (jeśli taki istnieje)
  • jeśli to możliwe dodany zostaje artykuł po polsku, jeśli po polsku nie ma to po angielsku. Jeśli nie ma artykułu zarówno po polsku jak i angielsku może zostać wykorzystany inny język.
  • nie będą przetwarzane błędne linki tj. takie które według wikidata są o zwierzętach, wydarzeniach, ludziach, powiedzeniach, stronach internetowych, serialach telewizyjnych

Program do automatycznej edycji

  • zostałby przetestowany
  • po stwierdzeniu że działa poprawnie edytowałby z konta https://www.openstreetmap.org/user/Mateusz%20Konieczny%20-%20bot%20account
  • w przypadku niepoprawnego działania naprawię szkody
  • w każdej edycji będzie zmieniana grupa elementów, na obszarze mniej więcej województwa
  • po każdej edycji czekałby minutę lub dłużej przed wykonaniem następnej
  • działałby na terenie Polski
  • dodawałby tag wikipedia bez modyfikacji lub usuwania innych tagów

Zachęcam do komentowania - zarówno jeśli ktoś uważa to za dobry jak i zły pomysł. Jeśli są z tym problemy to warto by o nich wiedzieć, niezależnie czy będzie poprawiane to ręcznie czy automatycznie. A jeśli to dobry pomysł to też czekam na komentarze bo bez zgody innych edytujących nie będę wykonywał automatycznych edycji.

Tu bym zaproponował jeden wyjątek. Mianowicie trafiłem parę razy na relację typu person, wiążącą wszystkie miejsca związane z daną osobą. Dla takiej relacji nie tylko należałoby jak najbardziej przetwarzać link do wikipedii, ale wręcz jest ona jedynie słusznym miejscem na umieszczenie linku do artykułu o tej osobie na wikipedii. Czyli przeszukałbym elementy relacji, zobaczył, czy jest link do artykułu w wikipedii o tej osobie, umieściłbym link w relacji, a pousuwał z elementów (tu uważać, bo element może zawierać też inny link do wikipedii, np. pomnik osoby może mieć własny artykuł).

Na razie relacje typu osoba pomijam (z kilku przyczyn, zaczynając od tego że wymagają specjalnej obsługi). Jeśli chcesz to mogę wsparcie dla nich dorzucić do pomysłów na przyszłość.

Na razie wolę poprawiać już znalezione błędy - w tym momencie poświęcanie energii na wykrywanie jeszcze większej ilości błędów nie poprawi jakości danych w OSM.

Ewentualne usuwanie z elementów nie byłoby na pewno robione automatycznie (choćby dlatego bo na ogół od usuwania jest lepsze przerobienie tagów na subject:wikipedia, subject:wikidata).

Czy to konieczne? Ostatnio było wielkie halo jak jeden strażak dodawał po jednym hydrancie. Ja tam myślę, że nie ma co dzielić na więcej niż każdy rodzaj błędu i województwo.

Tak przy okazji przyznam nie znałem wcześniej tych tagów a faktycznie są opisane na http://wiki.openstreetmap.org/wiki/Key:wikipedia

Mi wszystko jedno. Ale słyszałem sporo narzekania na edycje z za dużym obszarem, natomiast nie słyszałem o narzekaniu na dzielenie na dużą ilość edycji.

Czyli jedna edycja na województwo będzie lepsze? Tu małe zastrzeżenie że mogą się w takiej edycji pojawić obiekty które tylko odrobinę o dane województwo zachaczają.

I nikt mi o tych tagach wcześniej nie powiedział?
A wyłapałbyś wszystkie obiekty, które wg wikidata są osobami?

Już są wyłapywane na https://matkoniecz.github.io/OSM-wikipedia-tag-validator-reports/Polska.html (wyszukaj “article linked in wikipedia tag is about a human”).

Zazwyczaj są to pomniki, czasem też groby.

W sumie to w zależności od rodzaju błędów w województwie było by tych edycji od jednej do kilku. Jak napisałem myślałem o edycji per każdy rodzaj problemu. Pomysł ten oparłem na dwóch założeniach

  • w grupach które są liczebnie największe jak "wikipedia page in unexpected language - pl was expected: " rozwiązanie jest na tyle proste i automatyczne, że nie widzę problemu z całkowitym tego zautomatyzowaniem i wtedy nie ma specjalnego znaczenia ile będzie tych edycji, więc nie ma sensu by mnożyć ich ilość.
  • w razie czego gdyby trzeba jednak zerknąć wstecz na daną edycję to obszar województwa jest jeszcze do ogarnięcia ręcznego

Co do linków kierujących na osoby to bym się zastanowił czy cokolwiek ruszać. Tag ten jest tak mało popularny, że pytanie czy jakakolwiek aplikacja go używa. Gdyby dane miejsce miało 2, 3 czy 5 artykułów i był problem z tym który przypisać to te podziały mają sens. Gdy mamy miejsce upamiętnienia i nie jest ono na tyle znane by mieć swoją własną stronę na wiki, która pewnie też nigdy nie powstanie to nie jest takim złym pomysłem pozostawienie linku jako wikipedia.
Z drugiej strony dla krzyża smoleńskiego artykuł jest, ale jak by ktoś chciał poprawnie zlinkować do niego na podstronach 96 osób to też byłby problem.

Sprawa pokrewna - ktoś chce poprawiać przekierowania na artykuły, a najwięcej tego jest akurat w Polsce (588):

https://lists.openstreetmap.org/pipermail/talk/2017-September/078659.html

@kocio
Powolutku poprawiamy także z każdym dniem winno być mniej :wink: Wygląda na to, że przez następne kilka dni pogoda znowu nie pozwoli by za wiele zrobić w temacie, ale walczymy :sunglasses:

Koło 450 przekierowań zostało właśnie naprawionych w wyniku https://forum.openstreetmap.org/viewtopic.php?id=59649 a będą poprawiane następne.

Jak ktoś uważa tą edycję za dobry pomysł to niech jednoznacznie to napisze (jest to jedna z dwóch potrzebnych rzeczy by te edycje uruchomić).

OK, zmienię propozycję na “w każdej edycji będzie zmieniana grupa elementów, na obszarze mniej więcej województwa”.

Co ciekawe te do automatycznego naprawiania się nie nadają - by nie zmienić też tych co tylko o granicę tylko dotykają (ale tym się zajmę, przy użyciu wspomagania technicznego spora część jest już poprawiona - idzie szybciej i z mniejszą ilością błędów niż przy użyciu normalnych edytorów).

To że nikt nie używa subject:wikipedia najwyraźniej oznacza że nikogo nie interesują przypadki że obiekt jest nieistotny i powiązany z istotną osobą. Ja używam z kolei tagu wikipedia i stąd moje zainteresowanie posprzątaniem błędnych wartości.

Jeśli coś nie ma pasującego artykułu to nie powinno mieć wprowadzającego w błąd linku.

Jak jest nieistotny pomnik na osiedlu to nie należy linkować wikipedia=pl:Jakaś Osoba, jak jest drzewo to link wikipedia=pl:Brzoza jest błędny a niespecjalnie interesujący kościół z linkowanie wikipedia=pl:Parafia Jakaśtam też jest błędne.

W tym momencie przetwarzanie linków do wikipedii/wikidanych wymaga specjalnego odrzucania błędnych połączeń, tak dużo ich mamy,

Myślę, że to dobry pomysł. Sam tag wikipedia=* nie jest dla mnie tak ważny jak dla walidatorów, ale za to poprawki z uwzględnieniem Wikidata już tak. A czy jest jakiś powód, żeby nie dodawać przy okazji wikidata=* ?

Piszę jednoznacznie: to był BARDZO dobry pomysł.

W sumie nie ma, można od razu dodać (i nie będzie to bardziej skomplikowane niż robienie tego osobno).

Zdecydowałem się na uniknięcie edycji tuż przed wyjazdem (w razie problemów nie miałbym możliwości poprawienia), planuję ją wykonać na przełomie września i października.

Na razie jest trochę problemów zgłoszonych na https://matkoniecz.github.io/OSM-wikipedia-tag-validator-reports/Polska.html