Debugger ;-)

Zastanawiam si? czy nie warto jakim? jednym szerokim ruchem usun?? wszystkich tagów source i debug z w?z?ów ( ). Wiemy na pewno, ?e docelowo ich nie chcemy (tag source jest atrybutem drogi ( ) nie poszczególnych w?z?ów. Mo?na zapu?ci? skrypt i w ci?gu kilku minut mo?emy si? jednym ruchem wszystkich tych debugów pozby?, mam tylko pytanie czy na pewno warto to w ten sposób robi?. Jedyna rzecz do jakiej one si? mog? przyda? w tej chwili to lokalizacja rejonów zaimportowanych z UMP i by? mo?e wymagaj?cych sprawdzenia jako?ci importu (po??czenia z innymi drogami, nie nak?adanie si? jednych dróg na inne i takie tam).

Ja to tak czy tak wyklikam za chwil? bo musz? si? koniecznie czym? zaj?? (do auta mi si? w?amali @#%^&^$# musz? odreagowa?), ale nie uruchomi? bez konsultacji, bo jak mówi stare przys?owie indian “?atwiej kijek pocienkowa? ni? go pó?niej pogrubasi?”, a ja nie lubi? jak mi kto? mówi, ?e spapra?em, a jeszcze bardziej nie lubi? kiedy mówi?c to ma racj? :D.

Przykro mi z powodu w?amania…

Ja jestem za tym, ?eby wywali? z automatu. UMP_Level chyba te? nie jest potrzebne, co?

Przy okazji my?la?em intensywnie o czym? takim:

  1. Zamieni? nazwy typu polna na Polna (to ju? wcieli?em w ?ycie ;p)
  2. Zamieni? nazwy typu POLNA na Polna (to wcielam w ?ycie)
  3. Stworzy? list? wszystkich poprawnych nazw ulic. Teraz jest oko?o 110k unikalnych nazw, wystarczy z listy wyci?? te niepoprawne i gotowe.

Na podstawie takiej listy mo?na generowa? wszystkie b??dne nazwy…

Ma to jaki? sens? :slight_smile:

PS Trzymam na dysku backup dróg których nazwy zmieni?em, wi?? kijek mo?na ?atwo pogrubasi? :smiley:

Poczekam jeszcze 2-3 dni ?eby nie by?o, ?e wywal? co? co mo?e si? przyda?. Kopii zapasowej nie mam, na upartego mog? zachowa?, bo to niewiele zmian … odpalony cudak mówi tak:

$ ./OSM-cleaner.pl poland.osm

Nodes:
    480526 created_by: JOSM
     74508 debug
    261699 source: UMP-PL

Ways:
      8556 UMP_Level

Upload (y/N)?

i je?li mu pozwoli? to wywala UMP_Level sztuka po sztuce, zmiana regexpa w 2 miejscach i mo?e wywalac cokolwiek innego.
Z ewidentnych ?mieci mamy:
74k debugów w i 8,5k UMP_Level w .
Mo?na sobie z tym poradzi? w kilka dni (skrypt mi?dzy kolejnymi pobarniami/przes?aniami pliku czeka 1s ?eby nie zasponsorowa? DoSa serwerom).

Poza tym jest 260k tagów source: UMP w przy czym tworz? one drogi (jak rozumiem POI nie s? z UMP importowane) które te? maj? tag source ustawiony, w ramach odchudzania pliku z map? mo?na to te? wywali?, ale … no w?a?nie nie wiem czy mo?na.
Podobnie z created_by: JOSM … napisa?em na OSM-newbie z pytaniem czy nie mo?na by si? tego pozby? z które tworz? drogi, bo te 0,5M wpisów to 8% obj?to?ci pliku poland.osm …

Te? o tym my?la?em, na razie podmienia?em wszystko pó?automatami ale ilo?? jest faktycznie momentami przyt?aczaj?ca. Plan mam taki, ?eby skrypt czyta? plik w formacie:

Dobra Nazwa, z?a nazwa, inna z?a nazwa, nazwa jeszcze gorsza ni? tamte
Stanis?awa Wyspia?skiego, stanislawa wyspianskiego, wypianskiego, wyspia?skiego

i tak:

  1. je?li nazwa jest na li?cie ze z?ymi nazwami (nie sprawdzaj?c wielko?ci liter) to wysy?am dobr? nazw?
  2. je?li nazwy nie ma na li?cie porównuj? j? tylko z t? ni? sam? zapisan? z ka?dym s?owem od wielkiej litery i je?li si? ró?ni? te? wysy?am
  3. wszystko wygl?da ok NIE wysy?am

tak wygl?da? wst?pny plan … tylko zak?ada?em, ?e list? nazw b?d? mia? w pami?ci, ?eby nie lata? w te o na zad po plikach, ale jak mówisz, ?e chodzi o list? 100k nazw to … ja takiego komputera nie mam chyba :smiley:

W ka?dym razie co? tam wyklikam i si? zobaczy, to o czym teraz rozmawiamy to szeroko rozumiany plan maksimum który IMO wymaga?by stworzenia listy nazw i jej przedyskutowania, bo nie chcemy przesy?a? do/z serwera megabajtow danych bez sensu, w ko?cu kto? p?aci za ten transfer.

Lista wszystkich ulic w Polsce jest do pobrania w przyjemnym formacie xml http://www.stat.gov.pl/broker/access/prefile/listPreFiles.jspa . Myślicie, że można ją legalnie wykorzystać do poprawiania nazw ulic?

A jak ktoś chce sprawdzić jak to jest np. z Paderewskim u niego w mieście to wystarczy zerknąć tu:
http://www.stat.gov.pl/broker/access/definitionTree.jspa

Trzeba by zapytać. Niby na dole strony “wszelkie prawa zastrzeżone”, ale TERYT wprowadzono ustawą i jest jawną bazą danych. Nie szkodzi jednak wysłać zapytania do GUS. Jakby co to mogę w poniedziałek sklecić do nich pismo.
Przy okazji są numery referencyjne :wink:

Na g?ównej stronie jest odno?nik do tego:

Sam dokument z GUS rewelacja, na pewno mo?e si? przyda?. Ale powstrzyma?bym si? przed jakim? automatycznym importem z tego ?ród?a, bo nie ma ?adnego sensu spamowa? mapy stert? tagów source. Ale do sporadycznych przypadków w celu upewnienia si? jak powinno by?, czy wr?cz do sprawdzenia statystycznego która forma nazw jest najpopularniejsza w .pl IMO rewelacja.

Z drugiej, bardziej automagicznej strony zacz??em klika? niejakiego WRAK 1.0 (Wykwintnie Regularny Auto Korektor) :wink: który korzystaj?c z w?asnego s?ownika i zestawu zasad stara si? poprawi? wszystkie nazwy jakie napotka. W tej chwili efekt pracy skryptu wygl?da tak (kodowanie UTF-8): http://wariat.org.pl/smietnik/OpenStreetMap/wrak-test.txt

wystarczy w tej chwili:

  1. doskonali? skrypt - co si? dzieje
  2. ewidentnie przypadkowe b??dy poprawi? r?cznie, nie ma sensu wprowadza? do s?ownika “Jana Paw?a ||” jako stringu do zmiany na “Jana Paw?a II” bo wersja z “pipami” by?a w bazie tylko w 2 egzemplarzach i nie podejrzewam aby mia?a szanse pojawi? si? wi?cej razy
  3. uzupe?ni? s?owniki skryptu (s? dwa jeden ze stringami które nale?y podmieni? i drugi ze stringami które nale?y zignorowa?).

Przepraszam, ?e tak post pod postem ale nie chcia?em, ?eby umkn??o … je?li kogo? to strasznie wku?y?o to obiecuje przyj?? postaw? do zjebki, posypa? g?ow? popio?em i za kar? u?ywa? windows przez 20 minut non stop. :slight_smile:

WRAK zdaje si? dzia?a?, za pomoc? do?? przydkiego hacka odfiltrowa?em mu cz??? zmian które proponowa? i pozwoli?em uploadowa? je na serwer co poskutkowa?o zmian? ~250 nazw i trwa?o … no troch? to trwa?o, ale zosta?o zako?czone sukcesem. Opisz? wi?c jak to dzia?a, bo warto aby?my teraz dopracowali jednoznaczne zasady co do nazewnictwa ulic.

Skrypt pracuje tak jak poprzednie cudactwa z plikiem osm, de facto dowolnym w praktyce u?ywam pliku poland.osm generowanego przez geofabric ( http://download.geofabrik.de/osm/europe/ ). Przegl?da drog? po drodze pobieraj?c jej ID i NAZW?. ID nas nei interesuje, jest jakie jest i u?yte jest pó?niej tylko raz w celu za?adowania poprawionej nazwy ulicy, a z nazw? jest tak:

  1. sprawdza czy przypadkiem nazwa nie wyst?puje na li?cie nazw do zignorowania, je?li tak pobiera kolejn?. Nazwy ignorowane to takie o których wiemy, ?e wyst?puj? sporadycznie, oznaczaj? co? konkretnego i s? napisane prawid?owo. Kilka przyk?adów: “SK,PL”, “D - POL”, (swoj? drog? granice te? mo?na by jako? znormalizowa?), “By?a Wytwórnia Lotnicza “Motolux””, “Wydzia? Architektury PW”, etc.

  2. wywala bia?e znaki po obu stronach nazwy, czyli wszystkie spacje i tabulatory otaczaj?ce nazw?

  3. dodaje spacje po kropkach, przecinkach, ?rednikach i dwukropkach. De facto pewnie wyst?puj? tylko kropki, ale regexp w tej chwili wy?apuje wszystkei powy?sze przypadki.

  4. je?li nazwa zaczyna si? od "ul ", lub "ul. " to ten przedrostek jako domy?lny (wszystko jest ulic?) jest usuwany, tak wi?c string “ul. Hackerów” zostranie zmieniony na “Hackerów”

  5. Wywala z ca?ej nazwy wszelkie powtórzone bia?e znaki, czyli de facto podwójne spacje, co nie jest cz?ste ale si? pojawia.

  6. nast?pnie odcina i zapami?tuje przedrostek oznaczaj?cy, ?e obiekt nie koniecznie jest “ulic?”. Czyli na bok do pomocniczej zmiennej trafia wszytsko co jest z przodu i zawiera: (al|aleja|pl|plac|skwer|bulwar|rondo|park|os|osiedle|im|imienia). Nast?pnie w tej pomocniczej zmiennej rozwijane s? skróty. Czyli oryginalny “pl. im. Tadeusza Ko?ciuszki” da w efekcie dwie zmienne prefix: "plac imienia " i nazw? “Tadeusza Ko?ciuszki”.
    Rozwijam skróty bo mamy przecie? do czynienia z map? elektroniczn?, je?li urz?dzenie które b?dzie z niej korzysta?o z jakich? powodów mia?oby pokaza? skróty to nadal mo?na to zrobi?, ale na li?cie nazw sterta skrótów IMO nie ma znacz?cych powodów do kontunuowania istnienia.

  7. teraz Nazwa (ju? bez prefixu!) porównywana jest ze s?ownikiem, który wygl?da tak:

Jana Paw?a II
Tadeusza Ko?ciuszki, ko?ciuszki, ko?ciuszki
Marii Sk?odowskiej-Curie, sk?odowskiej-curie, sk?odowskiej
?wirki i Wigury, ?Wirki I Wigury

pierwsza (i czasem jedyna) pozycja to prawid?owa nazwa jak? chieliby?my widzie? w bazie, kolejne to nazwy “popsute”, przy czym nie tzreba duplikowa? nazw z polskimi znakami i bez nich, s?ownik jest rozszezrany o wersje “polskawe” w chwili wczytywania. Wielko?? znaków jest w tym porównaniu ignorowana. Tak wi?c na string “Tadeusza Ko?ciuszki” zostan? zamienione “Tadeusza Kosciuszki” (oryginalny bez polskich znaków), “TADEUSZA KO?CIUSZKI” (oryginalny kapitalikami), “ko?ciuszki”, “kosciuszki” i wiele innych wariacji na ten temat. Je?li nazwa pasuje w jaki? sposób do którego? z tych stringów zostanie ona zamieniona piwerszym z wiersza. Omijam teraz kolejne kroki a? do momentu przywrócenia prefiksu w punkcie 12.

  1. Dla nazw z poza s?ownika idziemy dalej … Wielko?? liter w nazwi jest zamieniana na “Title Case”, czyli ka?de s?owo z Wielkiej Litery i dalej ma?ymi.

  2. S?owa sk?adaj?ce si? ze znaków “ivx” w dowolnej kombinacji traktowane s? jako liczbu rzymskie i zamieniane na KAPITALIKI, co powoduje k?opot przy nazwach jak “?wirki i Wigury”, ale wystarczy doda? pilotów do s?ownika i problem przestaje istnie? (jeste?my na etapie gdzie istniej?ce w s?owniku nazwy nie bywaj?).

  3. Poprawiane na MAJUSKU?? s? równie? wykryte skróty jak: (PCK|PKP|ONZ|GUS|RP|ZOO), gdyby nie ten etap mieliby?my: Pck, Pkp, Onz, etc.

  4. Z kolei cuda jak: (Gen.|Dr |Ks.) zmieniane s? na pisane ma?ymi literami

  5. doklejany jest wpowrotem prefix odci?ty w punkcie 6tym

  6. Tak stworzona nowa nazwa jest porównywana raz jeszcze z t? która oryginalnie znajdowa?a si? w bazie, je?li s? identyczne, znaczy narobili?my si? bez sensu, je?li inne jest kwalifikowana do zmiany/zmieniana.

  7. ?eby nie by?o, ?e jest ma?o szcz??liwie 13 kroków dodam, ze teraz lecimy na pocz?tek i jedziemy z kolejn? nazw? :smiley:

Czego nam trzeba to s?ownika. Obecny wygl?da tak:

# Ró?ne takie
Ogródki dzia?kowe

# Rzeki (generalnie, rzeki z polskimi literkami w nazwie) 
Wis?a

# Ulice 
Bohaterów Westerplatte
Bojowników o Wolno?? i Demokracj?
G?ówna
Koników Polnych
Pozna?ska
Przemys?owa
Spó?dzielczo?ci
?wi?toja?ska
Zbo?owa
Zgrupowania AK "Rados?aw"

# Ulice z nazwiskami
Ludwika van Beethovena
?w. Cyryla i Metodego 
Jana Paw?a II
Genera?a W?adys?awa Andersa, w?adys?awa andersa, andersa
Adama Asnyka, asnyka
# Stefana I Batorego
Stefana Batorego, Batorego
Józefa Bema, bema
Genera?a Zygmunta Berlinga, zygmunta berlinga, berlinga
Ma?ka z Bogda?ca
Jana Brzechwy, brzechwy
# Fryderyka Franciszka Chopina
Fryderyka Chopina, chopina
# Floriana Stanis?awa Ceynowy
Floriana Ceynowy, ceynowy
# Boles?awa I Chrobrego
Boles?awa Chrobrego, chrobrego
Jana Henryka D?browskiego, d?browskiego
Jana D?ugosza, d?ugosza
Romana Dmowskiego, dmowskiego
Micha?a Drzyma?y, drzyma?y
Aleksandra Fredry, fredry
Konstantego Ildefonsa Ga?czy?skiego, ga?czy?skiego
Wincentego Kad?ubka, kad?ubka
Jana Kasprowicza, kasprowicza
Andrzeja Kmicica, kmicica
Eugeniusza "Nurt" Kaszy?skiego
Jana Kochanowskiego, kochanowskiego
Jana z Kolna
Hugona Ko???taja, ko???taja
Marii Konopnickiej, konopnickiej
Miko?aja Kopernika, kopernika
Janusza Korczaka, korczaka
Tadeusza Ko?ciuszki, ko?ciuszki, ko?ciuszki
Józefa Ignacego Kraszewskiego, kraszewskiego
Boles?awa Le?miana, le?miana
aleja Kazimierza "Dziadka" Lisieckiego
# W?adys?awa I ?okietka
W?adys?awa ?okietka, ?okietka
Ewy i Karola Maleczy?skich
Jana Matejki, matejki
Adama Mickiewicza, mickiewicza
Stanis?awa Moniuszki, moniuszki
Zofii Na?kowskiej, na?kowskiej
Cypriana Kamila Norwida, norwida
Jana Nowaka-Jeziora?skiego, nowaka-jeziora?skiego
Elizy Orzeszkowej, orzeszkowej
Ignacego Jana Paderewskiego, paderewskiego, ignacego paderewskiego
Stanis?awa Augusta Poniatowskiego
Janiny Porazi?skiej, porazi?skiej
Bronis?awa "Lota" Pietraszewicza
# Pi?sudskich jest dwóch ale nie wiem czy pierwszy miewa ulice, wiem, ?e ma 2z? :D
#Bronis?awa Pi?sudskiego
#Marsza?ka Józefa Klemensa Pi?sudskiego
Boles?awa Prusa, prusa
# Przybyszewskich te? jest dwóch i na pewno obaj miewaj? ulice
#Stanis?awa Feliksa Przybyszewskiego
#Komandora Porcznika Zbigniewa Przybyszewskiego
Miko?aja Reja, reja
# W?adys?awa Stanis?awa Reymonta
W?adys?awa Reymonta, reymonta
Józefa i Jana Rostafi?skich
Stefana "Grota" Roweckiego
Hanki Sawickiej, sawickiej
Henryka Sienkiewicza, sienkiewicza
Marii Sk?odowskiej-Curie, sk?odowskiej-curie, sk?odowskiej
Piotra Skargi, skargi
Jana Skrzetuskiego, skrzetuskiego
Juliusza S?owackiego, s?owackiego
Jana III Sobieskiego, sobieskiego
Mieczys?awa "Grzyma?y" Soko?owskiego
Leopolda Staffa, staffa
Stanis?awa Staszica, staszica
Majora Henryka Sucharskiego, sucharskiego
Jana i J?drzeja ?niadeckich
Rabindrannatha Tagore'a
Juliana Tuwima, tuwima
pasa? Stefana "Wiecha" Wiecheckiego 
Wincentego Witosa, witosa
# Micha?a Jerzego Wo?odyjowskiego
Micha?a Wo?odyjowskiego, wo?odyjowskiego
Stanis?awa Wyspia?skiego, wyspia?skiego
Kardyna?a Stefana Wyszy?skiego, wyszy?skiego, stefana wyszy?skiego
# Jana Onufrego Zag?oby
Onufrego Zag?oby, zag?oby, onufrego zag?oby
Gabrieli Zapolskiej, zapolskiej
Tadeusza Boya-?ele?skiego, boya-?ele?skiego
Stefana ?eromskiego, ?eromskiego
?wirki i Wigury, ?Wirki I Wigury

Musimy si? jako? dogada? co do prawid?woej pisowni nazw, szczególnie nazw ulic które s? nazwiskami. Moim zdaniem powinni?my u?y? Nazwiska i imion pod jakimi dana posta? wyst?puje w podr?cznikach, nie koniecznie w 100% zgodnie z tabliczk? z nazw? ulicy. Nawet je?li burmistrz W?chocka nada? ulicy nazw? “Ga?czy?skiego”, wiemy, ?e facet u?ywa? imion i eyst?puje w podr?cznikach jako “Konstanty Ildefons Ga?czy?ski”. Raz jeszcze, pracujemy nad map? w postaci elektronicznej tak wi?c ka?dy kto b?dzie z niej korzysta? np. produkuj?c system nawigacji, w ramach potrzeb mo?e wy?wietli? j? jako: “K.I. Ga?czynskeigo” lub nawet “Ga?czy?skiego”. Ale IMO nie powinni?my skraca? nazwy w g?ównej bazie, bo w przeciwn? stron? tak ?atwo jej rozwin?? nie mo?na. W drug? stron? te? nie przeginamy. Co prawda Tadeusz Ko?ciuszko to “Andrzej Tadeusz Bonawentura Ko?ciuszko” ale konia z rz?dem temu kto tak my?li o generale.
Kompromisem wydaje si? by? has?o w wikipedii odnosz?ce si? do danej postaci. W wi?kszo?ci przypadków b?dzie ono zawiera?o w?a?nie popularne imi? imiona podane jako has?o g?owne, a wszystkie imiona wymienia jedynie w tre?ci.
W jaki sposób mo?emy wspólnie (i sprawnie) wypracowa? s?ownik nie mam pomys?u, ale na pocz?tek spróbujmy mo?e tu na forum. Jest nas garstka, ale dzi?ki temu ?atwiej b?dzie si? dogada?, a ci których nie ma … có? … :wink:

I to tyle. Z obecn? wersj? s?ownika nie jestem w ?aden sposób emocjonalnie zwi?zany, je?li wi?c s? zastrzenia to prosze ?mia?o.

Kogo warto doda? mo?na si? ?atwo pokapowa? przegl?daj?c podwieszony w internecie plik z outputem z WRAKa: http://wariat.org.pl/smietnik/OpenStreetMap/wrak-test.txt naj?atwiej sortuj?c go po nazwach czyli np.

$ cat wrak-test.txt | sed -e s/^[^0-9]*[0-9]*\ \\{3\\}// | sort | less

potrzebujemy:

  1. Prawid?owej pisowni
  2. popularnych (powtarzaj?cych si?) wariacji pisowni b??dnej

Nie potrzebujemy sporadycznie pojawiaj?cych si? b??dów, te lepiej poprawi? po prostu od razu w bazie via POTLACH i o nich zapomnie?.

Na koniec serdecznie gratuluj? wszystkim którym uda?o si? ten ca?y spam przeczyta?. Obiecuj? stara? si? wi?cej nie tworzy? kiepskiej literatury w takich ilo?ciach. :wink:

Rozwini?cie skrótów jak najbardziej, ale… Wielk? Liter?. Nie koniecznie ka?dy cz?on, ale przynajmniej tak, ?eby ca?o?? zaczyna?a si? Wielk?. (w sensie, ?e np. na etapie (6) jak jest, ale mi?dzy (12) i (13) pierwsza litera ca?o?ci na Wielk?)

np. teraz jest:

Park im. Dreszera -> park imienia Dreszera

My?l?, ?e ?adniej by?oby

Park im. Dreszera -> Park imienia Dreszera

np2. Z przejazdu WRAKu z 2008-10-13T21:51:32+01:00, w Sopocie mamy: ‘aleja Grunwaldzka’, ‘aleja Niepodleg?o?ci’.
Oficjalne nazwy to: ‘Aleja Grunwaldzka’, ‘Aleja Niepodleg?o?ci’.

Tak samo punkt (11). Genera?a ma??, chyba ?e pierwszy wyraz.
I tak np: ‘Plac genera?a Jakiego? tam Jakiego?’, ale je?li nie plac, to ‘Genera?a Jakiego? tam Jakiego?’.
Lub: ‘Lotnisko imienia dr Strangelove’, ale ‘Dr Strangelove’. :smiley:

PS:

Kr?c?c autoironiczn? bek? z siebie powiem:
Nie wa?ne jak powa?ny b??d wzgl?dem Nas pope?nisz, uwa?am… ?e NIKT z Nas, NIGDY nie ka?e Ci u?ywa? M$!!! :laughing:

Masz racj?. Za?o?y?em, ?e chodzi o nazw? ulicy, a s?owo “park, aleja, imienia, whatever” to tylko ma?o wa?ny okre?lnik a jednocze?nie mia?em problem z tym, ?e jak si? wydaje wsz?dzie jest to pisane jednak z Wielkiej litery. Tylko g?upek nie wpad?em na ten jak?e rozs?dny pomys?, aby pierwsza litera nazwy by?a Wielka, a reszta jak w pierwotnym pomy?le, co potwierdza tylko ludow? prawd?, ?e co dwie g?owy to nie jeden pó?g?ówek :wink:
Nazw w które zaingerowa?em z tym b??dem nie trzeba poprawia?, po prostu przy kolejnym “przeje?dzie WRAKa” jak to pi?knie okre?li?e? poprawi zgodnie z now? zasad?.

EDIT:
Jakie? pó? godziny po wys?aniu tego postu wys?a?o mnie (z?e licho jakie?) w kork^W tras? po mie?cie. Po drodze przygl?da?em si? tabliczkom z nazwami ulic. To, ?e “ul.” lub “ulica” pisane jest z ma?ej litery mnie mocno nie zaskoczy?o jako? (wizualnie), i jest ma?o wa?ne dla nas tutaj bo i tak tego s?owa nie u?ywamy. Ale po drodze by? te? “plac Cyryla Ratajskiego”. Aleje jedne min??em ale nie dostrzeg?em tabliczki.
To wszystko nie zmienia tego, ?e IMO najlepiej zmieni? wszystko na pisane z wielkiej litery bo podejrzewam, ?e taka wersja znajdzie uznanie u wi?kszo?ci, a by? mo?e z czasem uda si? dokopa? do jakiej? generalnej zasady i wtedy by? mo?e dokona? jakich? poprawek.

Nie ma to jak feedback! :slight_smile:
Jasne, ?e WRAK to WiP (Work in Progress). Nawet mi do g?owy nie przysz?o poprawia? co? r?cznie. Pe?ne zaufanie do WRAKu v0.2 :smiley:

Jednak has?o ‘kolejny przejazd WRAKu’ da?o mi do my?lenia. Genialnym pomys?em jest mie? na podor?dziu dopracowany WRAK i zapuszcza? go regularnie w Polsk?. Dane z geofabrik maj? jednak opó?nienie. Wydaje mi si?, ?e s? generowane codziennie miedzy 5 a 6 rano.

Na http://www.geofabrik.de/data/download.html jest napisane:
“[…] any change you upload to OpenStreetMap should be on our download server the next day.”

Aktywno??, np. moja, nie jest na tyle du?a, abym czu? si? za?amany, z powodu utraty edycji tych kilku wybranych uliczek sprzed ostatnich 24h. Szczególnie w zestawieniu ile dobrego WRAK robi. Prawdopodobie?stwo ?e akurat zmieni? kszta?t czego?, co potem WRAK przywróci do wersji z rana wydaje mi si? ma?e. Niemniej jednak mo?e warto si? na co? umówi?.

Np:

  1. Je?li zmieniam r?cznie kszta?t jakiej? drogi (np. tej Sopockiej ‘alei Grunwaldzkiej’) musz? si? upewni?, ?e zmieni? nazw? na tak? której WRAK nie ruszy.
    lub
  2. WRAK b?dzie zapuszczany jedynie wtedy i wtedy, o tej i o tej. Np. w ?rod? (dzie? pracy Mapnika) o 7 rano (zaraz po og?oszeniu przez Geofabrik). (przy u?yciu crona, czy czego?)

… lub jeszcze co? innego :smiley:

nie, nie nie … spokojnie! To dzia?a tak, ?e offline korzystaj?c z pliku OSM z geofabric typuje ulice do zmiany, je?li kwalifikuj? si? do zmiany on pobiera plik z tylko t? ulic?, modyfikuje atrybut i odsy?a spowrotem. (de facto odpalaj?c kawa?ek basha Antblanta z tego w?tku). Tak wi?c nie ma wi?kszego ryzyka, ?e co? zostanie przywrócone z przed zmian. Pr?dzej odwrotnie, je?li b?dziesz mia? w JOSM otwarty fragment przez godzin? czy dwie, a w mi?dzyczasie po tym rejonie przejedzie WRAK to Ty odsy?aj?c poprawione dane zama?esz to co on poprawi?, ale to te? nie jest jaki? ultra du?y problem, bo automag si? nie m?czy.

EDIT:
Mam problem z niejakim genera?em Józefem Bemem
jest tego masa, przejrza?em plik z GUSu … naprawd? genialna sprawa (!) i wyniki s? takie:

$ grep -i -c bema ULIC.xml 
296
$ grep -i -A 1 bema ULIC.xml | grep -i -c  "/>"
33
$ grep -i -A 1 bema ULIC.xml | grep -i -c  ">J\."
2
$ grep -i -A 1 bema ULIC.xml | grep -i -c ">Józefa"
76
$ grep -i -A 1 bema ULIC.xml | grep -i -c gen
184

Czyli zarejestrowano 296 ulic Bema z czego 76 to ulice Józefa Bema, 148 genera?a Józefa Bema.
Osobi?cie wci?? jestem za normalizacj? zgodnie z zasad?, ?e ca?y czas chodzi o jedn? osob?. Ustawi?bym wszystkim ulicom nazw? “Genera?a Józefa Bema”, alternatywnie przestawi?bym równie? wszystkie nazwy na “Józefa Bema”. Co my?licie?

A jakby tak poprawi? wszystkie na Genera?a Józefa Bema i jednocze?nie doda? do WRAKa, ?eby ignorowa? wyst?pienia Józefa Bema? To uchroni tych którzy u siebie zmieni? nazw? na prawid?ow?, inaczej musieliby codziennie walczy? z automatem :wink:

Gdzie? jest dost?pny aktualny s?ownik? Móg?bym poszuka? nazwisk nowych :slight_smile:

No w?a?nie tu jest mój problem … czy je?li ulica nosi imi? Józefa Bema który by? genera?em i tak si? go zapewne by przedstawia?o na oficjalnej uroczysto?ci, to czy nazwa “Genera?a Józefa Bema” jest nieprawid?owa i wymaga poprawy? IMO nie do ko?ca.

Mog? mu doda? dwie ró?ne osoby, genera?a i nie genera?a i to b?dzie dzia?a?o zreszt? jest ju? taki wa?ek:

# Drzyma?ów by?o wielu i kilku ma ulice czyli k?opot
# wg GUS Micha?a: 73szt, Stanis?awa: 4szt, Wojciecha: 16szt
Drzyma?y
Micha?a Drzyma?y
Stanis?awa Drzyma?y
Wojciecha Drzyma?y

Je?li kto? wpisze po prostu Drzyma?y to jedyne co poprawi WRAK to ewentualny brak polskiej literki, ewentualnie gdyby co? by?o nie tak z ma?ymi/wielkimi literami. Ale imienia nie doda, bo które?

Tak wi?c wyj?tek jest mo?liwy i prosty do zmontowania, ale tu problem jest troch? inny. Wiemy o kogo chodzi i co najwy?ej mo?emy podac bardziej prawdziw? nazw?, dotycz?c? wci?? tej samej osoby. Tak na prawd? nie ma to jakiego? gigantycznego znaczenia, i jedyny faktyczny cel który osi?gniemy to, ?e b?dziemy pewni, ?e w nazwie nie ma za ma?o danych w stosunku do tabliczek z nazwami ulicy.

IMO gorzej je?li na tabliczce jest “Genera?a Józefa Bema” a my napiszemy “Bema” ni? odwrotnie, na tabliczce jest “Bema” a my napiszemy jak si? kole? :wink: na prawd? nazywa. No ale kwestia jest otwarta, a ja si? upiera? nie zamierzam, bo przecie? ma by? tak, ?eby wi?kszo?? osób która si? nad problemem zastanowi uzna?a, ?e jest OK.

S?owniki oba wrzuci?em tu: http://wariat.org.pl/smietnik/OpenStreetMap/ wrak-dict.csv to s?ownik w?a?ciwy od zamieniania stringów, wrak-ignore.txt to stringi które wrak ignoruje jako by? mo?e dziwnie napisane ale prawid?owe.

Pierwotnie my?la?em, ?e da si? stworzy? s?ownik i po prostu zapu?ci? automaga. Ale to nierealne. W tej chwili robi? to tak, ?e po pobrani nowego pliku poland.osm puszczam wraka z aktualnym s?ownikiem i zapisuj? w pliku jego pomys?y na zmiany nazw (plik wrak-test.txt). Otwieram ten plik lessem i znajduj? co? co chcia?by zmieni? co jest prawid?owe lub nie oboj?tnie. Je?li zmiana jest nieprawid?owa znaczy, ze s?ownik ma braki dopisuj? nazw? lub jej wychwycon? wariacj?.

Odpalam WRAK z dodatkowym parametrem który powoduje, ?e skrypt próbuje zmienia? tylko nazwy które w wyniku dadz? podany string, na przyk?adzie:

$ ./OSM-wrak.pl --filter="Andersa"

http://www.openstreetmap.org/browse/way/5080032      Gen. W?adys?awa Andersa -> Genera?a W?adys?awa Andersa 
http://www.openstreetmap.org/browse/way/5080033      Gen. W?adys?awa Andersa -> Genera?a W?adys?awa Andersa 
http://www.openstreetmap.org/browse/way/19864086   D W?adys?awa Andersa -> Genera?a W?adys?awa Andersa 
http://www.openstreetmap.org/browse/way/21607984     gen. W?adys?awa Andersa -> Genera?a W?adys?awa Andersa 
http://www.openstreetmap.org/browse/way/23483565   D W?adys?awa Andersa -> Genera?a W?adys?awa Andersa 
http://www.openstreetmap.org/browse/way/23869759     Plac gen. W?adys?awa Andersa -> Plac genera?a W?adys?awa Andersa 
http://www.openstreetmap.org/browse/way/24271418     gen. W?adys?awa Andersa -> Genera?a W?adys?awa Andersa 
http://www.openstreetmap.org/browse/way/26458786     Aleja Gen. W?adys?awa Andersa -> Aleja genera?a W?adys?awa Andersa 
http://www.openstreetmap.org/browse/way/27310742   D Andersa -> Genera?a W?adys?awa Andersa 
http://www.openstreetmap.org/browse/way/27357975   D Andersa -> Genera?a W?adys?awa Andersa 
http://www.openstreetmap.org/browse/way/27368958   D Park W?adys?awa Andersa -> Park genera?a W?adys?awa Andersa 
http://www.openstreetmap.org/browse/way/27381591     Aleja Gen. W?adys?awa Andersa -> Aleja genera?a W?adys?awa Andersa 
http://www.openstreetmap.org/browse/way/27381592     Aleja Gen. W?adys?awa Andersa -> Aleja genera?a W?adys?awa Andersa 
http://www.openstreetmap.org/browse/way/27381618     Aleja Gen. W?adys?awa Andersa -> Aleja genera?a W?adys?awa Andersa 
http://www.openstreetmap.org/browse/way/27530115   D Andersa -> Genera?a W?adys?awa Andersa 
http://www.openstreetmap.org/browse/way/27530189   D Andersa -> Genera?a W?adys?awa Andersa

(to “D” oznacza, ?e zamiana pochodzi ze s?ownika, je?li go nie ma to zmiana nazwy wynika z “zasad nazewnictwa” wprowadzonych do skryptu. )

i je?li to co wyplu? wygl?da sensownie dodaj? parametr --upload i odpalam raz jeszcze, a je?li nie to poprawiam s?ownik, a czasem sam skrypt i od nowa.

Jest to wi?c taka ?wier? automagia, ale na nic lepszego na razie nie mam pomys?u, a i tak paskudztwo odwala robot? której nikomu by si? robi? nie chcia?o.

W tej chwili baza potencjalnych stringów do zmiany jest tak du?a, ?e spokojnie sobie poradz? tym sposobem, ale licz?, ?e w ko?cu baza nazw si? unormuje i wtedy jedyna szansa na rozwój s?ownika to dodawanie tam stringów przyuwa?onych przypadkiem.

My?la?em te?, czy nie by?oby dobre przelecie? t? baz? nazw z GUS jakim? skryptem aby dosta? list? nazw posortowan? po nazwiskach (NAZWA_1) zawieraj?ca tylko nazw? i ilo?? wyst?pie? w III PRL czyli co? w tym stylu:

Drzyma?y, : 56
Drzyma?y, Micha?a : 73
Drzyma?y, Stanis?awa : 4
Drzyma?y, Wojciecha: 16

To by mog?o u?atwi? tworzenie s?ownika do WRAKa i jednocze?nie da?o nam poj?cie o danych które próbujemy uporz?dkowa?.

Neat! :slight_smile:

Zgodnie z ide? cienkowania kijka, proponuje, jak antblant mówi, zostawi? dwóch. Galowego i w cywilu.
Mam wra?enie, ?e tytu?owanie kogokolwiek, czymkolwiek od zawsze by?o w Polsce ?liskim tematem. To ?e jaka? tabliczka, w jakim? mie?cie u?ywa, b?d? nie, danego tytu?u, mo?e my?l? mie? dla mieszka?ców jakie? dziwne zabarwienie socjologiczno-polityczne, czy co?. :stuck_out_tongue:
Je?li GUS postanowi? si? w to nie miesza?, to mo?e i my nie powinni?my. :slight_smile:

I teraz pytanie. Czy ‘J. Bema’ i ‘Bema’ zamienia? na ‘Józefa Bema’, cywila, zgodnie z ide? upodabniania nazw do tytu?ów artyku?ów polskiej wikipedii? Czy, na galowo, zgodnie z ide?, ?e z genera?ami nie ma ?artów? :smiley:
My?l?, ?e lepiej na galowo, bo przecie? dlatego trafiaj? na t? ca?? tabliczk?, ?e byli genera?ami! :slight_smile:

EDIT
http://storage.neostrada.pl/OSM/wrak-dict.TomDalek.csv
Na razie malutko, ale si? rozkr?cam. :smiley:

$ diff -y -B wrak-dict.csv wrak-dict.TomDalek.csv | grep -c \>    #linie nowe
12
$ diff -y -B wrak-dict.csv wrak-dict.TomDalek.csv | grep -c \|    #linie zmienione
2

EDIT 2
Nie, no tak, to te? jako? bez sensu tak. Trzeba jako? skoordynowa? nasz? prac? na s?ownikiem. Proponuj? tak:
http://wiki.openstreetmap.org/index.php/Pl:WRAK
Co s?dzicie? Czy licencje OK? Jakub Klawiter ok? GUS ok?
W sumie nie u?ywamy GUSu tylko dodajemy w komentarzu co GUS na to. Dane s? gównie z Wikipedii.

No w?a?nie to obie strony faktycznego problemu który na dodatek mo?e mie? te? pod?o?e po prostu w momencie w historii kiedy dana nazwa zosta?a nadana. Nie trudno jest mi sobei wyobrazi?, ?e w czasach niedawno minionych nie by?o do ko?ca s?usznym nazwanie ulicy imieniem genera?a który ws?awi? si? w bojach przeciwko mo?e i Carskeij ale jednak Rosji. A im pó?niej (nadawano nazw? ulicy) tym mog?oby? ?atwiej, a? do teraz kiedy nawet tabliczk? na ka?dym rogu przyczepi?.

Ale nasz problem (?ci?lej zwi?zany z map?) zdefiniowa?bym inaczej (dla u?atwienia b?d? si? czepia? tego Bema, najwy?ej wszyscy jego potomkowie razem wzi?ci dostan? czkawki, potrzebny nam przyk?ad :D):

  1. Jak si? wydaje jedyny Bem który ma szans? na zostanie patronem ulicy to genera? Józef Bem (inni: http://pl.wikipedia.org/wiki/Bem )
  2. Zasady OSM (bardzo s?usznie) nakazuj?, aby nazwa ulicy w bazie by?a podana w pe?nym brzmieniu
  3. Mamy stado ulic Bema w III PRL i z bazy GUSu wynika, ?e ulice nazwane s? na jedne z 3 sposobów: “Bema”, Józefa Bema", “Genera?a Józefa Bema”
  4. W bazie OSM mamy podobnie z t? ró?nic?, ?e wi?kszo?? ulic nazwana jest po prostu “Bema” albo przez nieuwag?, albo dzi?ki importowi z UMP, albo dlatego, ?e to stan faktyczny

Mo?emy podmieni? TERAZ wszystko na genera?a, a od tego momentu nie podmienia? tylko co najwy?ej poprawia? pisowni? … tylko w czym lepsze s? ulice Bema zaimportowane do dzi? od tych które (statystycznie równie b??dnie) pojawi? si? w przysz?o?ci?
Tak na prawd? po prostu musimy jako? wspólnie (szkoda, ?e jest nas ty na forum tak ma?o) wymy?li? jaka wersja nam si? najbardziej podoba i zacz?? j? stosowa?. Zawsze mo?emy kiedy? zmieni? zdanie, nikt nam tego w takim projekcie zabroni? nie mo?e.

Moim zdaniem podawanie nazwy w mo?liwie najpe?niejszym brzmieniu, nawet je?li nie zgodnym z baz? GUS, czy tabliczkami na ulicach jest dobre, bo nie wprowadza w ?aden sposób nieprawdy, a w pewien sposób ma nawet jaki? charakter edukacyjny. By? mo?e kto? kiedy? zobaczy, ?e ulica w jego mie?cie to nie forma na?laduj?ca d?wi?k kot?a perkusyjnego, a nazwisko jakiego? genera?a z XIX wieku. Doczyta, o powstaniu listopadowym które wybuch?o w pa?dzierniku … same ciekawe rzeczy nawet je?li historia nie kr?ci za bardzo :smiley:

W przypadku klanu Drzyma?ów (których pewnie troch? jednak rozp?dem zmieni?em na Micha?ów nie maj?c poj?cia, ?e inni te? s? popularni) aby nie szerzy? nawet przypadkowo b??dów obstaj? przy nie wprowadzaniu zmian ale te? i ich nie negowaniu, czyli rozwijaniu aktualnej wersji do jednej z 4rech mo?liwych.

Poniewa? to moje zdanie pozwoli?em sobie wyartyku?owa? po raz który? z kolei nie chcia?bym aby wygl?da?o jak gdybym cokolwiek chcia? przeforsowa?. Gdyby nas tu by?o wi?cej zrobi?oby si? ankiet? a tak … pat :smiley: Ale na pewno podejmiecie s?uszn? decyzj?, a ja si? dostosuj? i b?d? mia? wygodnie.

Wszelkie tego typu w?tpliwo?ci przy okazji b?d? sygnalizowa? w komentarzach pliku s?ownika b?dzie nam zawsze ?atwiej wróci? do tematu gdyby co? :wink:

To ja teraz spróbuj? wci?gn?? tego twojego DIFFa i zobaczymy co b?dzie, wiki nie rozwi?zuje problemu … chodzi o to, ?eby by?o ?atwo a nie jest ?atwo edytowa? jednocze?nie plik u siebie sprawdza? czy dzia?a i jednocze?nie nanosi? te zmiany na wiki. Wspó?praca przy tworzeniu s?ownika jest jak najbardziej po??dana, ale co do technologii na razie nie mam pomys?u. Pobawi? si? chwil? mo?e znajdziemy jakie? ?atwe w zarz?dzaniu rozwi?zanie, bo przede wszystkim chodzi o to, ?eby nie pi?trzy? sztucznych trudno?ci.

P.S. Jak co? to ja jestem prawie permanentnie online via Jabber, JID: wariat@chrome.pl otwar?em te? MUC osm.pl@chat.chrome.pl

EDIT:
Nie wiem jak teoria, ale praktyka wykazuje, ?e opublikowany przez Ciebie plik s?ownika sprawdzi? si? w 100%. Zmiany (w liczbie 62 - je?li si? nie pomyli?em w dodawaniu :smiley: ) s? ju? w bazie OSM. Przy czym nie kombinowa?em z diffami sensu stricte a po prostu otwar?em oba pliki mój i Twój w meld ( http://meld.sourceforge.net/ ) przenosi?em wiersz po wierszu od razu odpalaj?c wrak uczulony na podan? nazw? … posz?o bezbole?nie.
Przy okazji r?czne mergowanie pliku pozwala na dodatkow? kontrol? i je?li Tobie ta metoda nie sprawia jakich? specjalnych k?opotów to z mojej strony pe?na automagia. Wersja z Wiki nie by?aby chyba du?o trudniejsza, cho? meld dosta? na g?ow? w pierwszej chwili kiedy wklei?em mu zawarto?? strony, no i mo?e pojawi? si? problem nadmiarowych znaków ko?ca linii przy kopiowaniu ze strony internetowej.
Anyway jakby tego nie zrobi?, nie przewiduj? powa?nych trudno?ci.

Jedna uwaga! Na li?cie s?ów do poprawy (tych po przecinku) wszystko piszemy minusku?? czyli:

Franciszka S?dzickiego, s?dzickiego, s?dzickiego

a nie

Franciszka S?dzickiego, S?dzickiego, S?dzickiego

Ale to szczegó? który bez problemu poprawi?em “w locie” podczas ??czenia dokumentów.

geofabric si? oflagowa?o i nie ma nowego poland.osm z nocy … chyba, ?e ta 5ta rano to z jakiej? egzotycznej strefy czasowej. Spróbuj? zmontowa? raport z danych GUS, zobaczymy co z tego wyniknie.

UPDATE!
Powitajmy GUStawa. Ze wzgl?du na mo?liwe nadwyr??enie praw autorskich wyników pracy GUStawa publikowa? nie chc?, ale sam GUStaw jest tu: http://wariat.org.pl/skrypty/OpenStreetMap/GUStaw.tar.bz2

Z GUStawem to jest tak:

$ ./GUStaw.pl < ULIC.xml > stat.txt

gdzie plik ULIC.xml pochodzi z http://www.stat.gov.pl/broker/access/prefile/listPreFiles.jspa
plik stat.txt jaki powstanie zawiera liczb? wyst?pie? danej wariacji nazwy któr? naj?atwiej przegl?da? grepem np.:

$ grep -i bema stat.txt 
Bema;;ul.                                         :   32
Bema;Alfreda ;ul.                                 :    1
Bema;Genera?a ;ul.                                :    5
Bema;Genera?a Józefa ;ul.                         :    3
Bema;J. ;ul.                                      :    2
Bema;Józefa ;ul.                                  :   76
Bema;Plac gen. Józefa ;pl.                        :    1
Bema;gen. ;ul.                                    :   24
Bema;gen. J. ;ul.                                 :    4
Bema;gen. Józefa ;pl.                             :    3
Bema;gen. Józefa ;ul.                             :  144
Fort Bema;;inne                                   :    1

i wszystko jasne. Oczywi?cie pami?tamy, ?e GUS jako instytucja pa?stwowa utrzymywana z naszych podatków nieomylny nie jest (a wr?cz na przeciwko), ale dla orientacji z czym mamy do czynienia na pewno te dane wystarcz?.

:laughing:
A jak! Back to school! Genera?a na nich wszystkich!
Namówi?e? mnie. Od teraz, na zawsze, ka?demu tytu?. I nie zostawia? wersji bez tytu?u we wrak-dict.csv. Dopiero jak kto? zacznie zadym? robi?, to wrócimy do tematu, zrobimy ankiet? na szerok? skal? itp.

O to jakby mi chodzi?o, ?e sprawa jest tak prosta, ?e nie ma co kombinowa?. Zwyk?e wiki i co? w stylu meld powinno wystarczy?. Zreszt? widz?, ?e ju? dzia?asz. :slight_smile:

Cze?? GUStaw! :smiley:

Z pliku stat.txt mo?na te? sobie zrobi? list? Top100 czy Top500 nazw dwucz?onowych i jecha? najwa?niejsze po kolei :smiley:

$ grep -v \;\; stat.txt | sort -t : -k 2 -r -n | head -n 100

EDIT
Lub, taka sama lista Top50, ale po odfiltrowaniu wszystkiego co ju? jest we wrak-dict.csv

grep -v \;\; stat.txt | sort -t : -k 2 -r -n | grep -i -v $(grep -v -e ^# -e ^\ *$ wrak-dict.csv | cut -d \, -f 1 | sed -r 's/([^ ]*)$/-e \1/' | sed -r 's/^.* -e/-e/') | head -n 50

:open_mouth: Co oczywi?cie zakrawa na perwersje. :stuck_out_tongue:

Przesta? bo w nast?pnym kroku napiszesz WRAKa 3.0 w formie jednolinijkowca, nie by?oby mo?e w tym nic z?ego, ale to mo?e doprowadzi? Ci? do stanu umys?u w którym kolejne wersje b?d? si? nazywa?y: 95, 98, Millenium, XP i Vista :smiley:

Hmmmmm geofabric si? chyba popsu?o i nie serwuje nowych plików :frowning: Nie ?eby to jakie? wi?ksze nieszcz??cie ale jednak. I tu pytanie, czy jest jakie? inne ?ród?o pliku OSM z polsk? w ?rodku, a reszt? ?wiata obok? Znaczy wiem, mog? pobra? sobie planet.osm i wyci?? osmosis, ale to troch? du?e … zanim sko?cz? pobiera? dane b?d? nieaktualne :smiley:

Jestem za tym, aby w takich sytuacjach

# Daszy?skiego SET wi?kszo?? to Ignacy 100szt, Jan i Feliks maj? po jednej ulicy, Daszy?ski nieznany (bez imienia) 42szt. 
Daszy?skiego, daszy?skiego
Ignacego Daszy?skiego
Jana Daszy?skiego
Feliksa Daszy?skiego

…zak?ada?, ?e je?li jest bez imienia to chodzi o tego, który jest znacz?co popularniejszy (to po polsku jest?:P). Pozosta?e s? w s?owniku, wi?c zmiany r?czne nie zostan? utracone. Wychodz? tu z za?o?enia, ?e w?adze danego miasta, nadaj?c nazw? samym nazwiskiem, zwyczajnie nie wiedzia?y (nie pami?ta?y), ?e byli te? inni. Zatem musia?o im chodzi? o najpopularniejszego. Je?li natomiast w?adze nada?y nazw? ku pami?ci kogo? mniej popularnego, na pewno wiedzia?y, ?e trzeba poda? te? imi?, bo ka?dy pomy?li, ?e chodzi o Tego Popularnego. :slight_smile:

zatem proponuje:

Ignacego Daszy?skiego, Daszy?skiego, daszy?skiego

Racja. Przecie? je?li zmienimy samo nazwisko na imi? i nazwisko to w ?aden sposób nie spowodujemy zmian w nazwach ulic gdzie imi? jest inne. Przy takich dysproporcjach ilo?ciowych mamy bardzo ma?e szanse spud?owa? zreszt?.

Zaraz zmerguj? zmiany które wprowadzi?e?, a pó?niej czekaj?c na nowy plik poland.osm (kiedy? si? chyba pokapuj?, ?e si? toto nie generuje) spróbuj? dopisa? na wiki co? w stylu “kanonu nazewniczego” gdzie ?atwiej nam b?dzie ustali? jak to w rzeczywisto?ci powinno wygl?da? z wielkimi/ma?ymi literkami, nazwiskami i cudami. Jak b?dziemy to mieli spisane w punktach ?atwiej b?dzie znale?? b??dy lub “s?abe pomys?y”.

EDIT:
OK zmiany pos?ane, te kilkana?cie nazwisk które doda?e? da?o w sumie 392 zmiany w bazie :>
Zgodnie z sugesti? zdegradowa?em Traugutta, cho? nie jestem przekonany czy wiem dlaczego. :smiley: Anyway nie jest to nieodwracalna zmiana.
Mam te? loga zmian, którego na razie jedynym zastosowaniem jest sprawdzenie ile ich by?o :D.

W trakcie ??czenia s?owników nasz?a mnie tak genialna jak prosta my?l, ?e wersje stringów do zamiany zawieraj?ce skrypt spokojnie mo?e sobie sam generowa? z wersji z polskimi znakami, wystarczy je zamieni? i ju?, plik s?ownika b?dzie przejrzystszy i ?atwiejszy w edycji. W ko?cu to ?adne halo, ?eby on sobie sam z “?ó?tej ?aby” wygenerowa? dodatkowo “???tej ?aby”. To ja si? teraz tym zajm? :smiley:

No to jest:
WRAK-0.2 z wpisem zawieraj?cym WTFcharater w s?owniku:

$ ./OSM-wrak --showdict | grep -i pi?sudskiego
marszalka jozefa pilsudskiego                : Marsza?ka Józefa Pi?sudskiego
pi?sudskiego                                 : Marsza?ka Józefa Pi?sudskiego
jozefa pilsudskiego                          : Marsza?ka Józefa Pi?sudskiego
józefa pi?sudskiego                          : Marsza?ka Józefa Pi?sudskiego
pilsudskiego                                 : Marsza?ka Józefa Pi?sudskiego
pi?sudskiego                                 : Marsza?ka Józefa Pi?sudskiego

WRAK-0.3 BEZ WTFcharacter w s?owniku:

$ ./OSM-wrak --showdict | grep -i pi?sudskiego
pilsudskiego                                 : Marsza?ka Józefa Pi?sudskiego
pi?sudskiego                                 : Marsza?ka Józefa Pi?sudskiego
j?zefa pi?sudskiego                          : Marsza?ka Józefa Pi?sudskiego
marszalka jozefa pilsudskiego                : Marsza?ka Józefa Pi?sudskiego
marsza?ka j?zefa pi?sudskiego                : Marsza?ka Józefa Pi?sudskiego
pi?sudskiego                                 : Marsza?ka Józefa Pi?sudskiego
jozefa pilsudskiego                          : Marsza?ka Józefa Pi?sudskiego
józefa pi?sudskiego                          : Marsza?ka Józefa Pi?sudskiego

to id? poprawi? s?ownik i uaktualni? wiki.

Ha! jest plik z geofabric, lepiej pó?no ni? pó?niej :slight_smile: Pobior? i uaktualni? pliki w: http://wariat.org.pl/smietnik/OpenStreetMap/