Narzędzie do wykrywania niespójnych nazw ulic

Uwaga: teraz narzędzie przez parę godzin będzie pokazywać nieaktualne dane. Muszę się cofnąć z replikacją bazy do 22 marca, bo mam nieścisłości.

No właśnie nic nie wywala, dlatego pytam.

Może warto link opisać “Edytuj w JOSM”, albo po prostu “JOSM”? Poza tym tego typu edycje bardzo wygodnie i sprawnie robi się w iD, może warto dać też taki link? Korzystałbym.

A narzędzie naprawdę przydatne, kiedyś sugerowałem tu że przydałoby się dokładnie coś takiego :slight_smile:

EDIT: Po obejrzeniu paru pierwszych z brzegu przypadków stwierdzam, że do tych edycji JOSM jest sensowniejszym wyborem. Ale są też przypadki, gdzie iD byłby o tyle lepszy, że można sprawdzić gdzie to i próbować dotrzeć do urzędowej nazwy.

Spoko, po naprawie bazy dalej będę rzeźbił.
Z rzeczy, które chciałbym dodać:

  • szukałka i sortowanie z List.js (łatwe), ale…
  • nie wiem jak sprytnie dodać geokodowanie (województwo/powiat/gmina/miejscowość) bez tworzenia instancji Nominatima
  • mapę, ale tu musiałbym generować kafle wektorowe - bo pewnie GeoJSON z całą tabelą ważyłby kilkadziesiąt MB :stuck_out_tongue: - nie oceniłem istniejących rozwiązań pod kątem bycia armatą na komary :wink:
  • bardzo przydatną rzecz: podpowiedź, czy jest zgrzyt w adresach

A wyłapywanie literówek innych, niż brak diakrytyków? Np. “Boała” zamiast “Biała”? Bo widzi mi się, że obecna wersja tego nie robi.

Testowałem to. Wydajność była o wiele za mała i dużo więcej fałszywych alarmów. Ale fakt, dało się wyłapać trochę literówek.
Pomyślę jak to zoptymalizować, żeby móc zapuścić chociaż ręcznie raz na jakiś czas.

A umiesz podejrzeć, czym się różnią dwie wersje nazwy ulicy Alfreda Witolda Oruby (oruby)?

Jest kilka takich przypadków, kiedy obie wersje wydają się identyczne.

Podwójna spacja - nie widać tego w normalnym widoku, ale jeśli wejdziesz w źródło to tak. Co zrobić. ¯_(ツ)_/¯

Dla testów zaimportowałem Pomorze do wirtualki. Jako że większość danych byla zapewne cache’owana w RAM-ie, a nazwane ulice wrzuciłem do osobnej tabeli, import i analiza trwały bardzo szybko.

W rezultacie dostałem 600 par ulic. No przyznam, że trochę z nich to były faktyczne błędy, ale większość to szum. Ale pewnie taka natura indeksu pg_trgm i jego funkcji similarity().

W każdym razie - **zeszliśmy z 787 do 501 ulic! **Dobra robota! :slight_smile:

Taaa, my zeszliśmy :wink:

Niezupełnie, na pierwszej liście z linkami do JOSMa było 801 lub 803 pozycji :wink:

EDIT:
Pierwszy false positive: https://www.openstreetmap.org/way/114341329 i https://www.openstreetmap.org/way/115165896

A czemu to false positive? TERYT twierdzi, że jest tam wyłącznie ulica Brata Alberta.

A gdzie w TERYT sprawdzałeś?

http://eteryt.stat.gov.pl/eTeryt/rejestr_teryt/udostepnianie_danych/baza_teryt/uzytkownicy_indywidualni/wyszukiwanie/wyszukiwanie.aspx?contrast=default
Wpisać “Brata Alberta” jako fragment nazwy, województwo śląskie, powiat częstochowski, wyszukać. Jeden wynik.

Twierdzę, że co się dało poprawić bez wiedzy, gdzie to właściwie jest, zostało obskoczone. Plus parę przypadków, gdzie wiedzę o położeniu dało się bez większego śledztwa wyciągnąć z tagów lub podkładu PRNG.

Teraz proszę o wersję z lokalizacją.

Ciekawostka: ulica, która wylazła pod nazwami “Kunickiego”/“Doktora Kunickiego” rzeczywiście oficjalnie nazywa się “Doktora Kunickego”. Z prawdopodobieństwem graniczącym z pewnością chodzi o Adama Kunickiego, ale skoro oficjalnie (wg TERYT) gość miał na imię Doktor…

A co byście zrobili z przypadkiem “Bednarska”/“Bednarska ?”? Jest parę takich…

Powiat częstochowski nie obejmuje Częstochowy.

  1. http://mykanow.e-mapa.net/
    Wybrać Wierzchowisko i Brata Alberta.

  2. http://e.czestochowa.pl/geoportaltoolkit/map.php
    W “Zbliż do” wybrać “Ulicy” i z listy “ŚW. BRATA ALBERTA”.

Porównać 1. i 2.

Bomba.

Kiedy rzuciłem okiem, co tam się w JOSM otwiera, to byłem przekonany, że to ten odstający w bok kawałek nazywa się inaczej, bo tak.
A tymczasem on się nie nazywa wcale i nie wiem czemu jest podstawiany do edycji (chyba że w międzyczasie ktoś mu usunął nazwę?).

Natomiast część tego długiego ciągu ma name=“Brata Alberta”;name:right=“Świętego Brata Alberta”, a część - name=“Świętego Brata Alberta”;name:left=“Brata Alberta”. Oznaczenia wydają się równoważne - ta sama ulica po lewej stronie ma jedną nazwę , a po prawej drugą. To ja to może jednak ujednolicę?

I oczywiście dzięki za czujność :slight_smile:

Ja to właśnie “ujednoliciłem”, czyli nadałem nazwy zgodnie z granicami między miastem a powiatem. Na tej liście ulica wciąż będzie wyskakiwała, ale na mrówkach nie.
Tam już wcześniej ktoś bez pełnej wiedzy o skomplikowaniu sprawy poprawiał, i dodał nazwę do ulicy bez nazwy, zapewne ze względu na mrówki.

To ja nadal czegoś nie rozumiem. Jak dla mnie w tej chwili z tagów wynika, że granica cały czas leci środkiem tego nieutwardzonego odcinka, po jednej stronie ulica ma jedną nazwę, a po drugiej drugą. Czemu więc część odcinka jest oznakowana name i name:right, a część name i name:left?

Ulica jest raz po jednej stronie granicy, raz po drugiej. Nie ma tu praktycznie takiej sytuacji, by szła środkiem. Stąd taki zabieg - w name jest ta nazwa, jaka wynika z własności terenu. Nazwa dla adresów jest wówczas podana w name:left lub name:right.
Możnaby tu użyć tylko name:left|right i usunąć name, ale to jest kombinacja, którą mało co obsłuży.

Prościej by było, gdyby się władze tam dogadały i ujednoliciły pisownię. Albo gdybyśmy my w name nie trzymali tych wszystkich świętych,generałów,błogosławionych itp.

A jak chcesz przykład drogi z granicą pośrodku i to nie byle jaką oraz dwiema nazwami, to też mogę podrzucić:)

Ja takie ciekawostki zawsze chętnie :slight_smile: