Debugger ;-)

Czasami jest tak, ?e si? cz?owiekowi nudzi i co? by zrobi?, ale nie wie co. Od dzi? ju? b?dzie wiadomo :smiley:

Przelecia?em pro?ciutkim skryptem plik poland.osm z geofabric wy?wietlaj?c drogi z nazwami które trzeba poprawi? bo:

  1. zawieraj? WTF character, znaczy zosta?y zaimportowane ze z?ym kodowaniem polskich znaków
  2. s? napisane kapitalikami
  3. Jest nazwisko nie ma imienia, przy czym tu lista jest kategorycznie nie pe?na bo wpisa?em tylko to co przysz?o mi do g?owy w ci?gu jakiej? minuty:

Ca?o?? posortowana wg. nazw znajduje si? tutaj: http://wariat.org.pl/smietnik/OpenStreetMap/OSM-errors.php i jest list? 2056 b??dów … niby nie zastraszaj?co du?o, ale jednak. Mo?na przyj??, ?e po otwarciu jednego linka dooko?a znajdzie si? wiele baboli, mo?na wi?c zaj?? sobie klkana?cie minut … lub wi?cej :smiley:

Ja si? na pewno raz na jaki? czas pobawi?, poprawianie b??dów nie jest mo?e tak ekscytuj?ce jak chodzenie z GPSem (zrobi?em dzi? jakie? 18km chodz?c w kó?ko po lesie :D), ale kiedy? trzeba to b?dzie zrobi?.
Je?li takie automagiczne wyszukiwanie ma sens i warto si? w to bawi?, raz na jaki? czas podmieni? plik na aktualny. No i trzeba rozbudowa? list? nazwisk, bo jest kategorycznie za krótka, a problem jak wiemy wyst?puje.

Swoj? drog? i tak nie b?dzie ?atwo czasami … w Poznaniu jest ulica “Stanis?awa Przybyszewskiego” tego: http://pl.wikipedia.org/wiki/Stanis%C5%82aw_Przybyszewski w Helu Zbigniewa Przybyszewskiego … chyba tego: http://pl.wikipedia.org/wiki/Zbigniew_Przybyszewski i b?d? tu m?dry :wink:

Super sprawa! :slight_smile:

My?le, ?e chwilowo mo?e zosta? tyle nazwisk co jest, a jak si? to poprawi to wtedy dorzuci si? inne. Tak ?eby nie przyt?oczy?o nas 100k b??dów, bo si? roboty odechce :wink:

Tylko jak wtedy wymy?lisz pozosta?e? Ja usiad?em nad Chopinem … wiadomo Chopin Fryderyk … do teraz otwar?em 3 pierwsze sztuki i rozejrza?em si? po okolicy zapisuj?c list? nazwisk, która obecnie wygl?da tak:

        my $nameReg = join "|", qw /
            Andersa
            Bema Berlinga Buczka
            Ceynowy Chopina 
            D?browskiego D?ugosza Drzyma?y
            Fredry
            Kochanowskiego Konopnickiej Kopernika Kraszewskiego
            Le?miana
            Matejki Mickiewicza Moniuszki
            Na?kowskiej
            Orzeszkowej 
            Paderewskiego Pi?sudskiego Prusa Przybyszewskiego 
            Reymonta
            Sienkiewicza Skargi S?owackiego Sobieskiego Sucharskiego
            Tuwima
            Wyspia?skiego Wyszy?skiego
            Zapolskiej
            ?eromskiego/;

Przy okazji zacz??em sobie tworzy? plik z list? nazwisk bo zauwa?y?em po sobie, ?e przy takim poprawianiu cz?owiek traci pewno?? czy Sienkiewicz to na pewno by? Henryk :smiley: ( http://wariat.org.pl/smietnik/OpenStreetMap/nazwiska.txt zakodowane w UTF-8) Mo?e warto tak? list? powiesi? gdzie? na wiki, bo to s? nazwy ulic powtarzaj?ce si? w wielu miastach?
Innymi s?owy jedne b??d z listy któr? podlinkowa?em kieruje do miejsca gdzie na oko?o wiele innych b??dów, zaj?cia wystarczy na ca?? zim? i wiosn? i … :smiley: Ale chyba warto si? pobawi? aby podnie?? jako?? danych z polskiego OSM.

No w?a?nie mog?yby le?e? gdzie? z boku dopóki nie poprawi si? tego co jest aktualnie na li?cie… zreszt? niewa?ne :wink:

Ja zacz??em od ?eromskiego i narazie usuwam skupiska debugów. Jest co robi?, w sam raz na d?ugie jesienne wieczory :smiley:

Udost?pnisz gdzie? swój skrypt? Wymodzi?em co? takiego:

curl openstreetmap.org/api/0.5/way/NRDROGI > way.txt
sed -e 's/?eromskiego/Stefana ?eromskiego/g' way.txt > way2.txt
curl -u LOGIN:HASLO -H Expect: -i -o /tmp/output.txt -X PUT -T way2.txt http://api.openstreetmap.org/api/0.5/way/NRDROGI

i ju? masz zmienion? nazw? drogi.
Jednym s?owem ca?o?? mo?na polecie? z automatu :smiley:
Zostaje tylko problem opracowania co jest ?le i jak powinno wygl?da?.

Ej, no bez kitu panowie, genialne! :slight_smile:

Czyli teraz pozostaje raczej pytanie do jakiegoś historyka, polonisty, czy innego humanisty, ilu w Polsce takich luminarzy, że nie jednemu psu burek? :smiley:

Troch? wstyd pokazywa? co? takiego, ale co mi tam :smiley: http://wariat.org.pl/skrypty/OSM-errors.tar.bz2

Tak mo?na i zalet? jest to, ?e mo?na w ten sposób wywali? bardzo szybko wszystkie znalezione b??dy. Wad? jest to, ?e dooko?a b?dzie masa innych b??dów których si? nie wy?apie.

EDIT:

Tak, a poza tym trzeba si? zastanowi? co powinni?my robi? w takiej sytuacji. W?a?nie trzymam w r?ce okoliczno?ciowe 2z? z podobizn? niejakiego Bronis?awa Pi?sudskiego … tego: http://pl.wikipedia.org/wiki/Bronis%C5%82aw_Pi%C5%82sudski . Skoro NBP wybi? monet? z t? podobizn? istnieje uzasadnione ryzyko, ?e nie ka?da ulica Pi?sudskiego w III PRL nosi imi? Marsza?ka: http://pl.wikipedia.org/wiki/J%C3%B3zef_Pi%C5%82sudski

Wydaje mi si? najw?a?ciwszym w takim wypadku zostawi? samo nazwisko do poprawy przez kogo? kto b?dzie pewien o kogo chodzi, znaczy jakiego? “tambylca”.
Na razie mamy dwa komplety w takim razie: dwóch Przybyszewskich i dwóch Pi?sudskich :slight_smile:

Ignacego Jana Paderewskiego? Które? miasto ma tak? oficjaln? nazw? ulicy? :wink: U mnie jest po prostu Ignacego Paderewskiego, przy czym nadal nie wiadomo dlaczego jest obecnie “Ignacego” jak dawniej by?o samo “Paderewskiego” i ludzie maj? tak w starych dowodach :wink:

Czasami si? tak zdarza najwyra?niej :wink: http://tnij.org/ignasia

Nie wiem, mo?e si? nie znam, ale IMO to jest tak, ?e jest ulica i je?li nosi nazw? jakiego? cz?owieka, to tego cz?owieka identyfikuje imi? i nazwisko. Upiera? si? nie b?d?, ale obstawiam, ?e w uchwale rady miasta czy kto i jak tam nadaje nazwy ulicom za ka?dym razem u?yte jest imi? i nazwisko.
Przy czym faktycznie jest tak, ?e idea?em jest aby dostosowa? nazewnictwo ulic w OSM do rzeczywisto?ci … obstawiam, ?e dodanie imion na wszystkich ulicach “Paderewskiego” w III PRL wygeneruje mniej b??dów ni? tych imion usuni?cie (równie? globalne). Ale je?li kto? jest pewien, ?e w jego mie?cie jest inaczej to oczywi?c`ie powinien poprawi? i w tym wypadku chyba doda? tag note z opisem, ?e tak ma by? bo jak nie to … :slight_smile:

Zastanawiam si? czy nie warto jakim? jednym szerokim ruchem usun?? wszystkich tagów source i debug z w?z?ów ( ). Wiemy na pewno, ?e docelowo ich nie chcemy (tag source jest atrybutem drogi ( ) nie poszczególnych w?z?ów. Mo?na zapu?ci? skrypt i w ci?gu kilku minut mo?emy si? jednym ruchem wszystkich tych debugów pozby?, mam tylko pytanie czy na pewno warto to w ten sposób robi?. Jedyna rzecz do jakiej one si? mog? przyda? w tej chwili to lokalizacja rejonów zaimportowanych z UMP i by? mo?e wymagaj?cych sprawdzenia jako?ci importu (po??czenia z innymi drogami, nie nak?adanie si? jednych dróg na inne i takie tam).

Ja to tak czy tak wyklikam za chwil? bo musz? si? koniecznie czym? zaj?? (do auta mi si? w?amali @#%^&^$# musz? odreagowa?), ale nie uruchomi? bez konsultacji, bo jak mówi stare przys?owie indian “?atwiej kijek pocienkowa? ni? go pó?niej pogrubasi?”, a ja nie lubi? jak mi kto? mówi, ?e spapra?em, a jeszcze bardziej nie lubi? kiedy mówi?c to ma racj? :D.

Przykro mi z powodu w?amania…

Ja jestem za tym, ?eby wywali? z automatu. UMP_Level chyba te? nie jest potrzebne, co?

Przy okazji my?la?em intensywnie o czym? takim:

  1. Zamieni? nazwy typu polna na Polna (to ju? wcieli?em w ?ycie ;p)
  2. Zamieni? nazwy typu POLNA na Polna (to wcielam w ?ycie)
  3. Stworzy? list? wszystkich poprawnych nazw ulic. Teraz jest oko?o 110k unikalnych nazw, wystarczy z listy wyci?? te niepoprawne i gotowe.

Na podstawie takiej listy mo?na generowa? wszystkie b??dne nazwy…

Ma to jaki? sens? :slight_smile:

PS Trzymam na dysku backup dróg których nazwy zmieni?em, wi?? kijek mo?na ?atwo pogrubasi? :smiley:

Poczekam jeszcze 2-3 dni ?eby nie by?o, ?e wywal? co? co mo?e si? przyda?. Kopii zapasowej nie mam, na upartego mog? zachowa?, bo to niewiele zmian … odpalony cudak mówi tak:

$ ./OSM-cleaner.pl poland.osm

Nodes:
    480526 created_by: JOSM
     74508 debug
    261699 source: UMP-PL

Ways:
      8556 UMP_Level

Upload (y/N)?

i je?li mu pozwoli? to wywala UMP_Level sztuka po sztuce, zmiana regexpa w 2 miejscach i mo?e wywalac cokolwiek innego.
Z ewidentnych ?mieci mamy:
74k debugów w i 8,5k UMP_Level w .
Mo?na sobie z tym poradzi? w kilka dni (skrypt mi?dzy kolejnymi pobarniami/przes?aniami pliku czeka 1s ?eby nie zasponsorowa? DoSa serwerom).

Poza tym jest 260k tagów source: UMP w przy czym tworz? one drogi (jak rozumiem POI nie s? z UMP importowane) które te? maj? tag source ustawiony, w ramach odchudzania pliku z map? mo?na to te? wywali?, ale … no w?a?nie nie wiem czy mo?na.
Podobnie z created_by: JOSM … napisa?em na OSM-newbie z pytaniem czy nie mo?na by si? tego pozby? z które tworz? drogi, bo te 0,5M wpisów to 8% obj?to?ci pliku poland.osm …

Te? o tym my?la?em, na razie podmienia?em wszystko pó?automatami ale ilo?? jest faktycznie momentami przyt?aczaj?ca. Plan mam taki, ?eby skrypt czyta? plik w formacie:

Dobra Nazwa, z?a nazwa, inna z?a nazwa, nazwa jeszcze gorsza ni? tamte
Stanis?awa Wyspia?skiego, stanislawa wyspianskiego, wypianskiego, wyspia?skiego

i tak:

  1. je?li nazwa jest na li?cie ze z?ymi nazwami (nie sprawdzaj?c wielko?ci liter) to wysy?am dobr? nazw?
  2. je?li nazwy nie ma na li?cie porównuj? j? tylko z t? ni? sam? zapisan? z ka?dym s?owem od wielkiej litery i je?li si? ró?ni? te? wysy?am
  3. wszystko wygl?da ok NIE wysy?am

tak wygl?da? wst?pny plan … tylko zak?ada?em, ?e list? nazw b?d? mia? w pami?ci, ?eby nie lata? w te o na zad po plikach, ale jak mówisz, ?e chodzi o list? 100k nazw to … ja takiego komputera nie mam chyba :smiley:

W ka?dym razie co? tam wyklikam i si? zobaczy, to o czym teraz rozmawiamy to szeroko rozumiany plan maksimum który IMO wymaga?by stworzenia listy nazw i jej przedyskutowania, bo nie chcemy przesy?a? do/z serwera megabajtow danych bez sensu, w ko?cu kto? p?aci za ten transfer.

Lista wszystkich ulic w Polsce jest do pobrania w przyjemnym formacie xml http://www.stat.gov.pl/broker/access/prefile/listPreFiles.jspa . Myślicie, że można ją legalnie wykorzystać do poprawiania nazw ulic?

A jak ktoś chce sprawdzić jak to jest np. z Paderewskim u niego w mieście to wystarczy zerknąć tu:
http://www.stat.gov.pl/broker/access/definitionTree.jspa

Trzeba by zapytać. Niby na dole strony “wszelkie prawa zastrzeżone”, ale TERYT wprowadzono ustawą i jest jawną bazą danych. Nie szkodzi jednak wysłać zapytania do GUS. Jakby co to mogę w poniedziałek sklecić do nich pismo.
Przy okazji są numery referencyjne :wink:

Na g?ównej stronie jest odno?nik do tego:

Sam dokument z GUS rewelacja, na pewno mo?e si? przyda?. Ale powstrzyma?bym si? przed jakim? automatycznym importem z tego ?ród?a, bo nie ma ?adnego sensu spamowa? mapy stert? tagów source. Ale do sporadycznych przypadków w celu upewnienia si? jak powinno by?, czy wr?cz do sprawdzenia statystycznego która forma nazw jest najpopularniejsza w .pl IMO rewelacja.

Z drugiej, bardziej automagicznej strony zacz??em klika? niejakiego WRAK 1.0 (Wykwintnie Regularny Auto Korektor) :wink: który korzystaj?c z w?asnego s?ownika i zestawu zasad stara si? poprawi? wszystkie nazwy jakie napotka. W tej chwili efekt pracy skryptu wygl?da tak (kodowanie UTF-8): http://wariat.org.pl/smietnik/OpenStreetMap/wrak-test.txt

wystarczy w tej chwili:

  1. doskonali? skrypt - co si? dzieje
  2. ewidentnie przypadkowe b??dy poprawi? r?cznie, nie ma sensu wprowadza? do s?ownika “Jana Paw?a ||” jako stringu do zmiany na “Jana Paw?a II” bo wersja z “pipami” by?a w bazie tylko w 2 egzemplarzach i nie podejrzewam aby mia?a szanse pojawi? si? wi?cej razy
  3. uzupe?ni? s?owniki skryptu (s? dwa jeden ze stringami które nale?y podmieni? i drugi ze stringami które nale?y zignorowa?).

Przepraszam, ?e tak post pod postem ale nie chcia?em, ?eby umkn??o … je?li kogo? to strasznie wku?y?o to obiecuje przyj?? postaw? do zjebki, posypa? g?ow? popio?em i za kar? u?ywa? windows przez 20 minut non stop. :slight_smile:

WRAK zdaje si? dzia?a?, za pomoc? do?? przydkiego hacka odfiltrowa?em mu cz??? zmian które proponowa? i pozwoli?em uploadowa? je na serwer co poskutkowa?o zmian? ~250 nazw i trwa?o … no troch? to trwa?o, ale zosta?o zako?czone sukcesem. Opisz? wi?c jak to dzia?a, bo warto aby?my teraz dopracowali jednoznaczne zasady co do nazewnictwa ulic.

Skrypt pracuje tak jak poprzednie cudactwa z plikiem osm, de facto dowolnym w praktyce u?ywam pliku poland.osm generowanego przez geofabric ( http://download.geofabrik.de/osm/europe/ ). Przegl?da drog? po drodze pobieraj?c jej ID i NAZW?. ID nas nei interesuje, jest jakie jest i u?yte jest pó?niej tylko raz w celu za?adowania poprawionej nazwy ulicy, a z nazw? jest tak:

  1. sprawdza czy przypadkiem nazwa nie wyst?puje na li?cie nazw do zignorowania, je?li tak pobiera kolejn?. Nazwy ignorowane to takie o których wiemy, ?e wyst?puj? sporadycznie, oznaczaj? co? konkretnego i s? napisane prawid?owo. Kilka przyk?adów: “SK,PL”, “D - POL”, (swoj? drog? granice te? mo?na by jako? znormalizowa?), “By?a Wytwórnia Lotnicza “Motolux””, “Wydzia? Architektury PW”, etc.

  2. wywala bia?e znaki po obu stronach nazwy, czyli wszystkie spacje i tabulatory otaczaj?ce nazw?

  3. dodaje spacje po kropkach, przecinkach, ?rednikach i dwukropkach. De facto pewnie wyst?puj? tylko kropki, ale regexp w tej chwili wy?apuje wszystkei powy?sze przypadki.

  4. je?li nazwa zaczyna si? od "ul ", lub "ul. " to ten przedrostek jako domy?lny (wszystko jest ulic?) jest usuwany, tak wi?c string “ul. Hackerów” zostranie zmieniony na “Hackerów”

  5. Wywala z ca?ej nazwy wszelkie powtórzone bia?e znaki, czyli de facto podwójne spacje, co nie jest cz?ste ale si? pojawia.

  6. nast?pnie odcina i zapami?tuje przedrostek oznaczaj?cy, ?e obiekt nie koniecznie jest “ulic?”. Czyli na bok do pomocniczej zmiennej trafia wszytsko co jest z przodu i zawiera: (al|aleja|pl|plac|skwer|bulwar|rondo|park|os|osiedle|im|imienia). Nast?pnie w tej pomocniczej zmiennej rozwijane s? skróty. Czyli oryginalny “pl. im. Tadeusza Ko?ciuszki” da w efekcie dwie zmienne prefix: "plac imienia " i nazw? “Tadeusza Ko?ciuszki”.
    Rozwijam skróty bo mamy przecie? do czynienia z map? elektroniczn?, je?li urz?dzenie które b?dzie z niej korzysta?o z jakich? powodów mia?oby pokaza? skróty to nadal mo?na to zrobi?, ale na li?cie nazw sterta skrótów IMO nie ma znacz?cych powodów do kontunuowania istnienia.

  7. teraz Nazwa (ju? bez prefixu!) porównywana jest ze s?ownikiem, który wygl?da tak:

Jana Paw?a II
Tadeusza Ko?ciuszki, ko?ciuszki, ko?ciuszki
Marii Sk?odowskiej-Curie, sk?odowskiej-curie, sk?odowskiej
?wirki i Wigury, ?Wirki I Wigury

pierwsza (i czasem jedyna) pozycja to prawid?owa nazwa jak? chieliby?my widzie? w bazie, kolejne to nazwy “popsute”, przy czym nie tzreba duplikowa? nazw z polskimi znakami i bez nich, s?ownik jest rozszezrany o wersje “polskawe” w chwili wczytywania. Wielko?? znaków jest w tym porównaniu ignorowana. Tak wi?c na string “Tadeusza Ko?ciuszki” zostan? zamienione “Tadeusza Kosciuszki” (oryginalny bez polskich znaków), “TADEUSZA KO?CIUSZKI” (oryginalny kapitalikami), “ko?ciuszki”, “kosciuszki” i wiele innych wariacji na ten temat. Je?li nazwa pasuje w jaki? sposób do którego? z tych stringów zostanie ona zamieniona piwerszym z wiersza. Omijam teraz kolejne kroki a? do momentu przywrócenia prefiksu w punkcie 12.

  1. Dla nazw z poza s?ownika idziemy dalej … Wielko?? liter w nazwi jest zamieniana na “Title Case”, czyli ka?de s?owo z Wielkiej Litery i dalej ma?ymi.

  2. S?owa sk?adaj?ce si? ze znaków “ivx” w dowolnej kombinacji traktowane s? jako liczbu rzymskie i zamieniane na KAPITALIKI, co powoduje k?opot przy nazwach jak “?wirki i Wigury”, ale wystarczy doda? pilotów do s?ownika i problem przestaje istnie? (jeste?my na etapie gdzie istniej?ce w s?owniku nazwy nie bywaj?).

  3. Poprawiane na MAJUSKU?? s? równie? wykryte skróty jak: (PCK|PKP|ONZ|GUS|RP|ZOO), gdyby nie ten etap mieliby?my: Pck, Pkp, Onz, etc.

  4. Z kolei cuda jak: (Gen.|Dr |Ks.) zmieniane s? na pisane ma?ymi literami

  5. doklejany jest wpowrotem prefix odci?ty w punkcie 6tym

  6. Tak stworzona nowa nazwa jest porównywana raz jeszcze z t? która oryginalnie znajdowa?a si? w bazie, je?li s? identyczne, znaczy narobili?my si? bez sensu, je?li inne jest kwalifikowana do zmiany/zmieniana.

  7. ?eby nie by?o, ?e jest ma?o szcz??liwie 13 kroków dodam, ze teraz lecimy na pocz?tek i jedziemy z kolejn? nazw? :smiley:

Czego nam trzeba to s?ownika. Obecny wygl?da tak:

# Ró?ne takie
Ogródki dzia?kowe

# Rzeki (generalnie, rzeki z polskimi literkami w nazwie) 
Wis?a

# Ulice 
Bohaterów Westerplatte
Bojowników o Wolno?? i Demokracj?
G?ówna
Koników Polnych
Pozna?ska
Przemys?owa
Spó?dzielczo?ci
?wi?toja?ska
Zbo?owa
Zgrupowania AK "Rados?aw"

# Ulice z nazwiskami
Ludwika van Beethovena
?w. Cyryla i Metodego 
Jana Paw?a II
Genera?a W?adys?awa Andersa, w?adys?awa andersa, andersa
Adama Asnyka, asnyka
# Stefana I Batorego
Stefana Batorego, Batorego
Józefa Bema, bema
Genera?a Zygmunta Berlinga, zygmunta berlinga, berlinga
Ma?ka z Bogda?ca
Jana Brzechwy, brzechwy
# Fryderyka Franciszka Chopina
Fryderyka Chopina, chopina
# Floriana Stanis?awa Ceynowy
Floriana Ceynowy, ceynowy
# Boles?awa I Chrobrego
Boles?awa Chrobrego, chrobrego
Jana Henryka D?browskiego, d?browskiego
Jana D?ugosza, d?ugosza
Romana Dmowskiego, dmowskiego
Micha?a Drzyma?y, drzyma?y
Aleksandra Fredry, fredry
Konstantego Ildefonsa Ga?czy?skiego, ga?czy?skiego
Wincentego Kad?ubka, kad?ubka
Jana Kasprowicza, kasprowicza
Andrzeja Kmicica, kmicica
Eugeniusza "Nurt" Kaszy?skiego
Jana Kochanowskiego, kochanowskiego
Jana z Kolna
Hugona Ko???taja, ko???taja
Marii Konopnickiej, konopnickiej
Miko?aja Kopernika, kopernika
Janusza Korczaka, korczaka
Tadeusza Ko?ciuszki, ko?ciuszki, ko?ciuszki
Józefa Ignacego Kraszewskiego, kraszewskiego
Boles?awa Le?miana, le?miana
aleja Kazimierza "Dziadka" Lisieckiego
# W?adys?awa I ?okietka
W?adys?awa ?okietka, ?okietka
Ewy i Karola Maleczy?skich
Jana Matejki, matejki
Adama Mickiewicza, mickiewicza
Stanis?awa Moniuszki, moniuszki
Zofii Na?kowskiej, na?kowskiej
Cypriana Kamila Norwida, norwida
Jana Nowaka-Jeziora?skiego, nowaka-jeziora?skiego
Elizy Orzeszkowej, orzeszkowej
Ignacego Jana Paderewskiego, paderewskiego, ignacego paderewskiego
Stanis?awa Augusta Poniatowskiego
Janiny Porazi?skiej, porazi?skiej
Bronis?awa "Lota" Pietraszewicza
# Pi?sudskich jest dwóch ale nie wiem czy pierwszy miewa ulice, wiem, ?e ma 2z? :D
#Bronis?awa Pi?sudskiego
#Marsza?ka Józefa Klemensa Pi?sudskiego
Boles?awa Prusa, prusa
# Przybyszewskich te? jest dwóch i na pewno obaj miewaj? ulice
#Stanis?awa Feliksa Przybyszewskiego
#Komandora Porcznika Zbigniewa Przybyszewskiego
Miko?aja Reja, reja
# W?adys?awa Stanis?awa Reymonta
W?adys?awa Reymonta, reymonta
Józefa i Jana Rostafi?skich
Stefana "Grota" Roweckiego
Hanki Sawickiej, sawickiej
Henryka Sienkiewicza, sienkiewicza
Marii Sk?odowskiej-Curie, sk?odowskiej-curie, sk?odowskiej
Piotra Skargi, skargi
Jana Skrzetuskiego, skrzetuskiego
Juliusza S?owackiego, s?owackiego
Jana III Sobieskiego, sobieskiego
Mieczys?awa "Grzyma?y" Soko?owskiego
Leopolda Staffa, staffa
Stanis?awa Staszica, staszica
Majora Henryka Sucharskiego, sucharskiego
Jana i J?drzeja ?niadeckich
Rabindrannatha Tagore'a
Juliana Tuwima, tuwima
pasa? Stefana "Wiecha" Wiecheckiego 
Wincentego Witosa, witosa
# Micha?a Jerzego Wo?odyjowskiego
Micha?a Wo?odyjowskiego, wo?odyjowskiego
Stanis?awa Wyspia?skiego, wyspia?skiego
Kardyna?a Stefana Wyszy?skiego, wyszy?skiego, stefana wyszy?skiego
# Jana Onufrego Zag?oby
Onufrego Zag?oby, zag?oby, onufrego zag?oby
Gabrieli Zapolskiej, zapolskiej
Tadeusza Boya-?ele?skiego, boya-?ele?skiego
Stefana ?eromskiego, ?eromskiego
?wirki i Wigury, ?Wirki I Wigury

Musimy si? jako? dogada? co do prawid?woej pisowni nazw, szczególnie nazw ulic które s? nazwiskami. Moim zdaniem powinni?my u?y? Nazwiska i imion pod jakimi dana posta? wyst?puje w podr?cznikach, nie koniecznie w 100% zgodnie z tabliczk? z nazw? ulicy. Nawet je?li burmistrz W?chocka nada? ulicy nazw? “Ga?czy?skiego”, wiemy, ?e facet u?ywa? imion i eyst?puje w podr?cznikach jako “Konstanty Ildefons Ga?czy?ski”. Raz jeszcze, pracujemy nad map? w postaci elektronicznej tak wi?c ka?dy kto b?dzie z niej korzysta? np. produkuj?c system nawigacji, w ramach potrzeb mo?e wy?wietli? j? jako: “K.I. Ga?czynskeigo” lub nawet “Ga?czy?skiego”. Ale IMO nie powinni?my skraca? nazwy w g?ównej bazie, bo w przeciwn? stron? tak ?atwo jej rozwin?? nie mo?na. W drug? stron? te? nie przeginamy. Co prawda Tadeusz Ko?ciuszko to “Andrzej Tadeusz Bonawentura Ko?ciuszko” ale konia z rz?dem temu kto tak my?li o generale.
Kompromisem wydaje si? by? has?o w wikipedii odnosz?ce si? do danej postaci. W wi?kszo?ci przypadków b?dzie ono zawiera?o w?a?nie popularne imi? imiona podane jako has?o g?owne, a wszystkie imiona wymienia jedynie w tre?ci.
W jaki sposób mo?emy wspólnie (i sprawnie) wypracowa? s?ownik nie mam pomys?u, ale na pocz?tek spróbujmy mo?e tu na forum. Jest nas garstka, ale dzi?ki temu ?atwiej b?dzie si? dogada?, a ci których nie ma … có? … :wink:

I to tyle. Z obecn? wersj? s?ownika nie jestem w ?aden sposób emocjonalnie zwi?zany, je?li wi?c s? zastrzenia to prosze ?mia?o.

Kogo warto doda? mo?na si? ?atwo pokapowa? przegl?daj?c podwieszony w internecie plik z outputem z WRAKa: http://wariat.org.pl/smietnik/OpenStreetMap/wrak-test.txt naj?atwiej sortuj?c go po nazwach czyli np.

$ cat wrak-test.txt | sed -e s/^[^0-9]*[0-9]*\ \\{3\\}// | sort | less

potrzebujemy:

  1. Prawid?owej pisowni
  2. popularnych (powtarzaj?cych si?) wariacji pisowni b??dnej

Nie potrzebujemy sporadycznie pojawiaj?cych si? b??dów, te lepiej poprawi? po prostu od razu w bazie via POTLACH i o nich zapomnie?.

Na koniec serdecznie gratuluj? wszystkim którym uda?o si? ten ca?y spam przeczyta?. Obiecuj? stara? si? wi?cej nie tworzy? kiepskiej literatury w takich ilo?ciach. :wink:

Rozwini?cie skrótów jak najbardziej, ale… Wielk? Liter?. Nie koniecznie ka?dy cz?on, ale przynajmniej tak, ?eby ca?o?? zaczyna?a si? Wielk?. (w sensie, ?e np. na etapie (6) jak jest, ale mi?dzy (12) i (13) pierwsza litera ca?o?ci na Wielk?)

np. teraz jest:

Park im. Dreszera -> park imienia Dreszera

My?l?, ?e ?adniej by?oby

Park im. Dreszera -> Park imienia Dreszera

np2. Z przejazdu WRAKu z 2008-10-13T21:51:32+01:00, w Sopocie mamy: ‘aleja Grunwaldzka’, ‘aleja Niepodleg?o?ci’.
Oficjalne nazwy to: ‘Aleja Grunwaldzka’, ‘Aleja Niepodleg?o?ci’.

Tak samo punkt (11). Genera?a ma??, chyba ?e pierwszy wyraz.
I tak np: ‘Plac genera?a Jakiego? tam Jakiego?’, ale je?li nie plac, to ‘Genera?a Jakiego? tam Jakiego?’.
Lub: ‘Lotnisko imienia dr Strangelove’, ale ‘Dr Strangelove’. :smiley:

PS:

Kr?c?c autoironiczn? bek? z siebie powiem:
Nie wa?ne jak powa?ny b??d wzgl?dem Nas pope?nisz, uwa?am… ?e NIKT z Nas, NIGDY nie ka?e Ci u?ywa? M$!!! :laughing:

Masz racj?. Za?o?y?em, ?e chodzi o nazw? ulicy, a s?owo “park, aleja, imienia, whatever” to tylko ma?o wa?ny okre?lnik a jednocze?nie mia?em problem z tym, ?e jak si? wydaje wsz?dzie jest to pisane jednak z Wielkiej litery. Tylko g?upek nie wpad?em na ten jak?e rozs?dny pomys?, aby pierwsza litera nazwy by?a Wielka, a reszta jak w pierwotnym pomy?le, co potwierdza tylko ludow? prawd?, ?e co dwie g?owy to nie jeden pó?g?ówek :wink:
Nazw w które zaingerowa?em z tym b??dem nie trzeba poprawia?, po prostu przy kolejnym “przeje?dzie WRAKa” jak to pi?knie okre?li?e? poprawi zgodnie z now? zasad?.

EDIT:
Jakie? pó? godziny po wys?aniu tego postu wys?a?o mnie (z?e licho jakie?) w kork^W tras? po mie?cie. Po drodze przygl?da?em si? tabliczkom z nazwami ulic. To, ?e “ul.” lub “ulica” pisane jest z ma?ej litery mnie mocno nie zaskoczy?o jako? (wizualnie), i jest ma?o wa?ne dla nas tutaj bo i tak tego s?owa nie u?ywamy. Ale po drodze by? te? “plac Cyryla Ratajskiego”. Aleje jedne min??em ale nie dostrzeg?em tabliczki.
To wszystko nie zmienia tego, ?e IMO najlepiej zmieni? wszystko na pisane z wielkiej litery bo podejrzewam, ?e taka wersja znajdzie uznanie u wi?kszo?ci, a by? mo?e z czasem uda si? dokopa? do jakiej? generalnej zasady i wtedy by? mo?e dokona? jakich? poprawek.

Nie ma to jak feedback! :slight_smile:
Jasne, ?e WRAK to WiP (Work in Progress). Nawet mi do g?owy nie przysz?o poprawia? co? r?cznie. Pe?ne zaufanie do WRAKu v0.2 :smiley:

Jednak has?o ‘kolejny przejazd WRAKu’ da?o mi do my?lenia. Genialnym pomys?em jest mie? na podor?dziu dopracowany WRAK i zapuszcza? go regularnie w Polsk?. Dane z geofabrik maj? jednak opó?nienie. Wydaje mi si?, ?e s? generowane codziennie miedzy 5 a 6 rano.

Na http://www.geofabrik.de/data/download.html jest napisane:
“[…] any change you upload to OpenStreetMap should be on our download server the next day.”

Aktywno??, np. moja, nie jest na tyle du?a, abym czu? si? za?amany, z powodu utraty edycji tych kilku wybranych uliczek sprzed ostatnich 24h. Szczególnie w zestawieniu ile dobrego WRAK robi. Prawdopodobie?stwo ?e akurat zmieni? kszta?t czego?, co potem WRAK przywróci do wersji z rana wydaje mi si? ma?e. Niemniej jednak mo?e warto si? na co? umówi?.

Np:

  1. Je?li zmieniam r?cznie kszta?t jakiej? drogi (np. tej Sopockiej ‘alei Grunwaldzkiej’) musz? si? upewni?, ?e zmieni? nazw? na tak? której WRAK nie ruszy.
    lub
  2. WRAK b?dzie zapuszczany jedynie wtedy i wtedy, o tej i o tej. Np. w ?rod? (dzie? pracy Mapnika) o 7 rano (zaraz po og?oszeniu przez Geofabrik). (przy u?yciu crona, czy czego?)

… lub jeszcze co? innego :smiley:

nie, nie nie … spokojnie! To dzia?a tak, ?e offline korzystaj?c z pliku OSM z geofabric typuje ulice do zmiany, je?li kwalifikuj? si? do zmiany on pobiera plik z tylko t? ulic?, modyfikuje atrybut i odsy?a spowrotem. (de facto odpalaj?c kawa?ek basha Antblanta z tego w?tku). Tak wi?c nie ma wi?kszego ryzyka, ?e co? zostanie przywrócone z przed zmian. Pr?dzej odwrotnie, je?li b?dziesz mia? w JOSM otwarty fragment przez godzin? czy dwie, a w mi?dzyczasie po tym rejonie przejedzie WRAK to Ty odsy?aj?c poprawione dane zama?esz to co on poprawi?, ale to te? nie jest jaki? ultra du?y problem, bo automag si? nie m?czy.

EDIT:
Mam problem z niejakim genera?em Józefem Bemem
jest tego masa, przejrza?em plik z GUSu … naprawd? genialna sprawa (!) i wyniki s? takie:

$ grep -i -c bema ULIC.xml 
296
$ grep -i -A 1 bema ULIC.xml | grep -i -c  "/>"
33
$ grep -i -A 1 bema ULIC.xml | grep -i -c  ">J\."
2
$ grep -i -A 1 bema ULIC.xml | grep -i -c ">Józefa"
76
$ grep -i -A 1 bema ULIC.xml | grep -i -c gen
184

Czyli zarejestrowano 296 ulic Bema z czego 76 to ulice Józefa Bema, 148 genera?a Józefa Bema.
Osobi?cie wci?? jestem za normalizacj? zgodnie z zasad?, ?e ca?y czas chodzi o jedn? osob?. Ustawi?bym wszystkim ulicom nazw? “Genera?a Józefa Bema”, alternatywnie przestawi?bym równie? wszystkie nazwy na “Józefa Bema”. Co my?licie?