Debugger ;-)

A jakby tak poprawi? wszystkie na Genera?a Józefa Bema i jednocze?nie doda? do WRAKa, ?eby ignorowa? wyst?pienia Józefa Bema? To uchroni tych którzy u siebie zmieni? nazw? na prawid?ow?, inaczej musieliby codziennie walczy? z automatem :wink:

Gdzie? jest dost?pny aktualny s?ownik? Móg?bym poszuka? nazwisk nowych :slight_smile:

No w?a?nie tu jest mój problem … czy je?li ulica nosi imi? Józefa Bema który by? genera?em i tak si? go zapewne by przedstawia?o na oficjalnej uroczysto?ci, to czy nazwa “Genera?a Józefa Bema” jest nieprawid?owa i wymaga poprawy? IMO nie do ko?ca.

Mog? mu doda? dwie ró?ne osoby, genera?a i nie genera?a i to b?dzie dzia?a?o zreszt? jest ju? taki wa?ek:

# Drzyma?ów by?o wielu i kilku ma ulice czyli k?opot
# wg GUS Micha?a: 73szt, Stanis?awa: 4szt, Wojciecha: 16szt
Drzyma?y
Micha?a Drzyma?y
Stanis?awa Drzyma?y
Wojciecha Drzyma?y

Je?li kto? wpisze po prostu Drzyma?y to jedyne co poprawi WRAK to ewentualny brak polskiej literki, ewentualnie gdyby co? by?o nie tak z ma?ymi/wielkimi literami. Ale imienia nie doda, bo które?

Tak wi?c wyj?tek jest mo?liwy i prosty do zmontowania, ale tu problem jest troch? inny. Wiemy o kogo chodzi i co najwy?ej mo?emy podac bardziej prawdziw? nazw?, dotycz?c? wci?? tej samej osoby. Tak na prawd? nie ma to jakiego? gigantycznego znaczenia, i jedyny faktyczny cel który osi?gniemy to, ?e b?dziemy pewni, ?e w nazwie nie ma za ma?o danych w stosunku do tabliczek z nazwami ulicy.

IMO gorzej je?li na tabliczce jest “Genera?a Józefa Bema” a my napiszemy “Bema” ni? odwrotnie, na tabliczce jest “Bema” a my napiszemy jak si? kole? :wink: na prawd? nazywa. No ale kwestia jest otwarta, a ja si? upiera? nie zamierzam, bo przecie? ma by? tak, ?eby wi?kszo?? osób która si? nad problemem zastanowi uzna?a, ?e jest OK.

S?owniki oba wrzuci?em tu: http://wariat.org.pl/smietnik/OpenStreetMap/ wrak-dict.csv to s?ownik w?a?ciwy od zamieniania stringów, wrak-ignore.txt to stringi które wrak ignoruje jako by? mo?e dziwnie napisane ale prawid?owe.

Pierwotnie my?la?em, ?e da si? stworzy? s?ownik i po prostu zapu?ci? automaga. Ale to nierealne. W tej chwili robi? to tak, ?e po pobrani nowego pliku poland.osm puszczam wraka z aktualnym s?ownikiem i zapisuj? w pliku jego pomys?y na zmiany nazw (plik wrak-test.txt). Otwieram ten plik lessem i znajduj? co? co chcia?by zmieni? co jest prawid?owe lub nie oboj?tnie. Je?li zmiana jest nieprawid?owa znaczy, ze s?ownik ma braki dopisuj? nazw? lub jej wychwycon? wariacj?.

Odpalam WRAK z dodatkowym parametrem który powoduje, ?e skrypt próbuje zmienia? tylko nazwy które w wyniku dadz? podany string, na przyk?adzie:

$ ./OSM-wrak.pl --filter="Andersa"

http://www.openstreetmap.org/browse/way/5080032      Gen. W?adys?awa Andersa -> Genera?a W?adys?awa Andersa 
http://www.openstreetmap.org/browse/way/5080033      Gen. W?adys?awa Andersa -> Genera?a W?adys?awa Andersa 
http://www.openstreetmap.org/browse/way/19864086   D W?adys?awa Andersa -> Genera?a W?adys?awa Andersa 
http://www.openstreetmap.org/browse/way/21607984     gen. W?adys?awa Andersa -> Genera?a W?adys?awa Andersa 
http://www.openstreetmap.org/browse/way/23483565   D W?adys?awa Andersa -> Genera?a W?adys?awa Andersa 
http://www.openstreetmap.org/browse/way/23869759     Plac gen. W?adys?awa Andersa -> Plac genera?a W?adys?awa Andersa 
http://www.openstreetmap.org/browse/way/24271418     gen. W?adys?awa Andersa -> Genera?a W?adys?awa Andersa 
http://www.openstreetmap.org/browse/way/26458786     Aleja Gen. W?adys?awa Andersa -> Aleja genera?a W?adys?awa Andersa 
http://www.openstreetmap.org/browse/way/27310742   D Andersa -> Genera?a W?adys?awa Andersa 
http://www.openstreetmap.org/browse/way/27357975   D Andersa -> Genera?a W?adys?awa Andersa 
http://www.openstreetmap.org/browse/way/27368958   D Park W?adys?awa Andersa -> Park genera?a W?adys?awa Andersa 
http://www.openstreetmap.org/browse/way/27381591     Aleja Gen. W?adys?awa Andersa -> Aleja genera?a W?adys?awa Andersa 
http://www.openstreetmap.org/browse/way/27381592     Aleja Gen. W?adys?awa Andersa -> Aleja genera?a W?adys?awa Andersa 
http://www.openstreetmap.org/browse/way/27381618     Aleja Gen. W?adys?awa Andersa -> Aleja genera?a W?adys?awa Andersa 
http://www.openstreetmap.org/browse/way/27530115   D Andersa -> Genera?a W?adys?awa Andersa 
http://www.openstreetmap.org/browse/way/27530189   D Andersa -> Genera?a W?adys?awa Andersa

(to “D” oznacza, ?e zamiana pochodzi ze s?ownika, je?li go nie ma to zmiana nazwy wynika z “zasad nazewnictwa” wprowadzonych do skryptu. )

i je?li to co wyplu? wygl?da sensownie dodaj? parametr --upload i odpalam raz jeszcze, a je?li nie to poprawiam s?ownik, a czasem sam skrypt i od nowa.

Jest to wi?c taka ?wier? automagia, ale na nic lepszego na razie nie mam pomys?u, a i tak paskudztwo odwala robot? której nikomu by si? robi? nie chcia?o.

W tej chwili baza potencjalnych stringów do zmiany jest tak du?a, ?e spokojnie sobie poradz? tym sposobem, ale licz?, ?e w ko?cu baza nazw si? unormuje i wtedy jedyna szansa na rozwój s?ownika to dodawanie tam stringów przyuwa?onych przypadkiem.

My?la?em te?, czy nie by?oby dobre przelecie? t? baz? nazw z GUS jakim? skryptem aby dosta? list? nazw posortowan? po nazwiskach (NAZWA_1) zawieraj?ca tylko nazw? i ilo?? wyst?pie? w III PRL czyli co? w tym stylu:

Drzyma?y, : 56
Drzyma?y, Micha?a : 73
Drzyma?y, Stanis?awa : 4
Drzyma?y, Wojciecha: 16

To by mog?o u?atwi? tworzenie s?ownika do WRAKa i jednocze?nie da?o nam poj?cie o danych które próbujemy uporz?dkowa?.

Neat! :slight_smile:

Zgodnie z ide? cienkowania kijka, proponuje, jak antblant mówi, zostawi? dwóch. Galowego i w cywilu.
Mam wra?enie, ?e tytu?owanie kogokolwiek, czymkolwiek od zawsze by?o w Polsce ?liskim tematem. To ?e jaka? tabliczka, w jakim? mie?cie u?ywa, b?d? nie, danego tytu?u, mo?e my?l? mie? dla mieszka?ców jakie? dziwne zabarwienie socjologiczno-polityczne, czy co?. :stuck_out_tongue:
Je?li GUS postanowi? si? w to nie miesza?, to mo?e i my nie powinni?my. :slight_smile:

I teraz pytanie. Czy ‘J. Bema’ i ‘Bema’ zamienia? na ‘Józefa Bema’, cywila, zgodnie z ide? upodabniania nazw do tytu?ów artyku?ów polskiej wikipedii? Czy, na galowo, zgodnie z ide?, ?e z genera?ami nie ma ?artów? :smiley:
My?l?, ?e lepiej na galowo, bo przecie? dlatego trafiaj? na t? ca?? tabliczk?, ?e byli genera?ami! :slight_smile:

EDIT
http://storage.neostrada.pl/OSM/wrak-dict.TomDalek.csv
Na razie malutko, ale si? rozkr?cam. :smiley:

$ diff -y -B wrak-dict.csv wrak-dict.TomDalek.csv | grep -c \>    #linie nowe
12
$ diff -y -B wrak-dict.csv wrak-dict.TomDalek.csv | grep -c \|    #linie zmienione
2

EDIT 2
Nie, no tak, to te? jako? bez sensu tak. Trzeba jako? skoordynowa? nasz? prac? na s?ownikiem. Proponuj? tak:
http://wiki.openstreetmap.org/index.php/Pl:WRAK
Co s?dzicie? Czy licencje OK? Jakub Klawiter ok? GUS ok?
W sumie nie u?ywamy GUSu tylko dodajemy w komentarzu co GUS na to. Dane s? gównie z Wikipedii.

No w?a?nie to obie strony faktycznego problemu który na dodatek mo?e mie? te? pod?o?e po prostu w momencie w historii kiedy dana nazwa zosta?a nadana. Nie trudno jest mi sobei wyobrazi?, ?e w czasach niedawno minionych nie by?o do ko?ca s?usznym nazwanie ulicy imieniem genera?a który ws?awi? si? w bojach przeciwko mo?e i Carskeij ale jednak Rosji. A im pó?niej (nadawano nazw? ulicy) tym mog?oby? ?atwiej, a? do teraz kiedy nawet tabliczk? na ka?dym rogu przyczepi?.

Ale nasz problem (?ci?lej zwi?zany z map?) zdefiniowa?bym inaczej (dla u?atwienia b?d? si? czepia? tego Bema, najwy?ej wszyscy jego potomkowie razem wzi?ci dostan? czkawki, potrzebny nam przyk?ad :D):

  1. Jak si? wydaje jedyny Bem który ma szans? na zostanie patronem ulicy to genera? Józef Bem (inni: http://pl.wikipedia.org/wiki/Bem )
  2. Zasady OSM (bardzo s?usznie) nakazuj?, aby nazwa ulicy w bazie by?a podana w pe?nym brzmieniu
  3. Mamy stado ulic Bema w III PRL i z bazy GUSu wynika, ?e ulice nazwane s? na jedne z 3 sposobów: “Bema”, Józefa Bema", “Genera?a Józefa Bema”
  4. W bazie OSM mamy podobnie z t? ró?nic?, ?e wi?kszo?? ulic nazwana jest po prostu “Bema” albo przez nieuwag?, albo dzi?ki importowi z UMP, albo dlatego, ?e to stan faktyczny

Mo?emy podmieni? TERAZ wszystko na genera?a, a od tego momentu nie podmienia? tylko co najwy?ej poprawia? pisowni? … tylko w czym lepsze s? ulice Bema zaimportowane do dzi? od tych które (statystycznie równie b??dnie) pojawi? si? w przysz?o?ci?
Tak na prawd? po prostu musimy jako? wspólnie (szkoda, ?e jest nas ty na forum tak ma?o) wymy?li? jaka wersja nam si? najbardziej podoba i zacz?? j? stosowa?. Zawsze mo?emy kiedy? zmieni? zdanie, nikt nam tego w takim projekcie zabroni? nie mo?e.

Moim zdaniem podawanie nazwy w mo?liwie najpe?niejszym brzmieniu, nawet je?li nie zgodnym z baz? GUS, czy tabliczkami na ulicach jest dobre, bo nie wprowadza w ?aden sposób nieprawdy, a w pewien sposób ma nawet jaki? charakter edukacyjny. By? mo?e kto? kiedy? zobaczy, ?e ulica w jego mie?cie to nie forma na?laduj?ca d?wi?k kot?a perkusyjnego, a nazwisko jakiego? genera?a z XIX wieku. Doczyta, o powstaniu listopadowym które wybuch?o w pa?dzierniku … same ciekawe rzeczy nawet je?li historia nie kr?ci za bardzo :smiley:

W przypadku klanu Drzyma?ów (których pewnie troch? jednak rozp?dem zmieni?em na Micha?ów nie maj?c poj?cia, ?e inni te? s? popularni) aby nie szerzy? nawet przypadkowo b??dów obstaj? przy nie wprowadzaniu zmian ale te? i ich nie negowaniu, czyli rozwijaniu aktualnej wersji do jednej z 4rech mo?liwych.

Poniewa? to moje zdanie pozwoli?em sobie wyartyku?owa? po raz który? z kolei nie chcia?bym aby wygl?da?o jak gdybym cokolwiek chcia? przeforsowa?. Gdyby nas tu by?o wi?cej zrobi?oby si? ankiet? a tak … pat :smiley: Ale na pewno podejmiecie s?uszn? decyzj?, a ja si? dostosuj? i b?d? mia? wygodnie.

Wszelkie tego typu w?tpliwo?ci przy okazji b?d? sygnalizowa? w komentarzach pliku s?ownika b?dzie nam zawsze ?atwiej wróci? do tematu gdyby co? :wink:

To ja teraz spróbuj? wci?gn?? tego twojego DIFFa i zobaczymy co b?dzie, wiki nie rozwi?zuje problemu … chodzi o to, ?eby by?o ?atwo a nie jest ?atwo edytowa? jednocze?nie plik u siebie sprawdza? czy dzia?a i jednocze?nie nanosi? te zmiany na wiki. Wspó?praca przy tworzeniu s?ownika jest jak najbardziej po??dana, ale co do technologii na razie nie mam pomys?u. Pobawi? si? chwil? mo?e znajdziemy jakie? ?atwe w zarz?dzaniu rozwi?zanie, bo przede wszystkim chodzi o to, ?eby nie pi?trzy? sztucznych trudno?ci.

P.S. Jak co? to ja jestem prawie permanentnie online via Jabber, JID: wariat@chrome.pl otwar?em te? MUC osm.pl@chat.chrome.pl

EDIT:
Nie wiem jak teoria, ale praktyka wykazuje, ?e opublikowany przez Ciebie plik s?ownika sprawdzi? si? w 100%. Zmiany (w liczbie 62 - je?li si? nie pomyli?em w dodawaniu :smiley: ) s? ju? w bazie OSM. Przy czym nie kombinowa?em z diffami sensu stricte a po prostu otwar?em oba pliki mój i Twój w meld ( http://meld.sourceforge.net/ ) przenosi?em wiersz po wierszu od razu odpalaj?c wrak uczulony na podan? nazw? … posz?o bezbole?nie.
Przy okazji r?czne mergowanie pliku pozwala na dodatkow? kontrol? i je?li Tobie ta metoda nie sprawia jakich? specjalnych k?opotów to z mojej strony pe?na automagia. Wersja z Wiki nie by?aby chyba du?o trudniejsza, cho? meld dosta? na g?ow? w pierwszej chwili kiedy wklei?em mu zawarto?? strony, no i mo?e pojawi? si? problem nadmiarowych znaków ko?ca linii przy kopiowaniu ze strony internetowej.
Anyway jakby tego nie zrobi?, nie przewiduj? powa?nych trudno?ci.

Jedna uwaga! Na li?cie s?ów do poprawy (tych po przecinku) wszystko piszemy minusku?? czyli:

Franciszka S?dzickiego, s?dzickiego, s?dzickiego

a nie

Franciszka S?dzickiego, S?dzickiego, S?dzickiego

Ale to szczegó? który bez problemu poprawi?em “w locie” podczas ??czenia dokumentów.

geofabric si? oflagowa?o i nie ma nowego poland.osm z nocy … chyba, ?e ta 5ta rano to z jakiej? egzotycznej strefy czasowej. Spróbuj? zmontowa? raport z danych GUS, zobaczymy co z tego wyniknie.

UPDATE!
Powitajmy GUStawa. Ze wzgl?du na mo?liwe nadwyr??enie praw autorskich wyników pracy GUStawa publikowa? nie chc?, ale sam GUStaw jest tu: http://wariat.org.pl/skrypty/OpenStreetMap/GUStaw.tar.bz2

Z GUStawem to jest tak:

$ ./GUStaw.pl < ULIC.xml > stat.txt

gdzie plik ULIC.xml pochodzi z http://www.stat.gov.pl/broker/access/prefile/listPreFiles.jspa
plik stat.txt jaki powstanie zawiera liczb? wyst?pie? danej wariacji nazwy któr? naj?atwiej przegl?da? grepem np.:

$ grep -i bema stat.txt 
Bema;;ul.                                         :   32
Bema;Alfreda ;ul.                                 :    1
Bema;Genera?a ;ul.                                :    5
Bema;Genera?a Józefa ;ul.                         :    3
Bema;J. ;ul.                                      :    2
Bema;Józefa ;ul.                                  :   76
Bema;Plac gen. Józefa ;pl.                        :    1
Bema;gen. ;ul.                                    :   24
Bema;gen. J. ;ul.                                 :    4
Bema;gen. Józefa ;pl.                             :    3
Bema;gen. Józefa ;ul.                             :  144
Fort Bema;;inne                                   :    1

i wszystko jasne. Oczywi?cie pami?tamy, ?e GUS jako instytucja pa?stwowa utrzymywana z naszych podatków nieomylny nie jest (a wr?cz na przeciwko), ale dla orientacji z czym mamy do czynienia na pewno te dane wystarcz?.

:laughing:
A jak! Back to school! Genera?a na nich wszystkich!
Namówi?e? mnie. Od teraz, na zawsze, ka?demu tytu?. I nie zostawia? wersji bez tytu?u we wrak-dict.csv. Dopiero jak kto? zacznie zadym? robi?, to wrócimy do tematu, zrobimy ankiet? na szerok? skal? itp.

O to jakby mi chodzi?o, ?e sprawa jest tak prosta, ?e nie ma co kombinowa?. Zwyk?e wiki i co? w stylu meld powinno wystarczy?. Zreszt? widz?, ?e ju? dzia?asz. :slight_smile:

Cze?? GUStaw! :smiley:

Z pliku stat.txt mo?na te? sobie zrobi? list? Top100 czy Top500 nazw dwucz?onowych i jecha? najwa?niejsze po kolei :smiley:

$ grep -v \;\; stat.txt | sort -t : -k 2 -r -n | head -n 100

EDIT
Lub, taka sama lista Top50, ale po odfiltrowaniu wszystkiego co ju? jest we wrak-dict.csv

grep -v \;\; stat.txt | sort -t : -k 2 -r -n | grep -i -v $(grep -v -e ^# -e ^\ *$ wrak-dict.csv | cut -d \, -f 1 | sed -r 's/([^ ]*)$/-e \1/' | sed -r 's/^.* -e/-e/') | head -n 50

:open_mouth: Co oczywi?cie zakrawa na perwersje. :stuck_out_tongue:

Przesta? bo w nast?pnym kroku napiszesz WRAKa 3.0 w formie jednolinijkowca, nie by?oby mo?e w tym nic z?ego, ale to mo?e doprowadzi? Ci? do stanu umys?u w którym kolejne wersje b?d? si? nazywa?y: 95, 98, Millenium, XP i Vista :smiley:

Hmmmmm geofabric si? chyba popsu?o i nie serwuje nowych plików :frowning: Nie ?eby to jakie? wi?ksze nieszcz??cie ale jednak. I tu pytanie, czy jest jakie? inne ?ród?o pliku OSM z polsk? w ?rodku, a reszt? ?wiata obok? Znaczy wiem, mog? pobra? sobie planet.osm i wyci?? osmosis, ale to troch? du?e … zanim sko?cz? pobiera? dane b?d? nieaktualne :smiley:

Jestem za tym, aby w takich sytuacjach

# Daszy?skiego SET wi?kszo?? to Ignacy 100szt, Jan i Feliks maj? po jednej ulicy, Daszy?ski nieznany (bez imienia) 42szt. 
Daszy?skiego, daszy?skiego
Ignacego Daszy?skiego
Jana Daszy?skiego
Feliksa Daszy?skiego

…zak?ada?, ?e je?li jest bez imienia to chodzi o tego, który jest znacz?co popularniejszy (to po polsku jest?:P). Pozosta?e s? w s?owniku, wi?c zmiany r?czne nie zostan? utracone. Wychodz? tu z za?o?enia, ?e w?adze danego miasta, nadaj?c nazw? samym nazwiskiem, zwyczajnie nie wiedzia?y (nie pami?ta?y), ?e byli te? inni. Zatem musia?o im chodzi? o najpopularniejszego. Je?li natomiast w?adze nada?y nazw? ku pami?ci kogo? mniej popularnego, na pewno wiedzia?y, ?e trzeba poda? te? imi?, bo ka?dy pomy?li, ?e chodzi o Tego Popularnego. :slight_smile:

zatem proponuje:

Ignacego Daszy?skiego, Daszy?skiego, daszy?skiego

Racja. Przecie? je?li zmienimy samo nazwisko na imi? i nazwisko to w ?aden sposób nie spowodujemy zmian w nazwach ulic gdzie imi? jest inne. Przy takich dysproporcjach ilo?ciowych mamy bardzo ma?e szanse spud?owa? zreszt?.

Zaraz zmerguj? zmiany które wprowadzi?e?, a pó?niej czekaj?c na nowy plik poland.osm (kiedy? si? chyba pokapuj?, ?e si? toto nie generuje) spróbuj? dopisa? na wiki co? w stylu “kanonu nazewniczego” gdzie ?atwiej nam b?dzie ustali? jak to w rzeczywisto?ci powinno wygl?da? z wielkimi/ma?ymi literkami, nazwiskami i cudami. Jak b?dziemy to mieli spisane w punktach ?atwiej b?dzie znale?? b??dy lub “s?abe pomys?y”.

EDIT:
OK zmiany pos?ane, te kilkana?cie nazwisk które doda?e? da?o w sumie 392 zmiany w bazie :>
Zgodnie z sugesti? zdegradowa?em Traugutta, cho? nie jestem przekonany czy wiem dlaczego. :smiley: Anyway nie jest to nieodwracalna zmiana.
Mam te? loga zmian, którego na razie jedynym zastosowaniem jest sprawdzenie ile ich by?o :D.

W trakcie ??czenia s?owników nasz?a mnie tak genialna jak prosta my?l, ?e wersje stringów do zamiany zawieraj?ce skrypt spokojnie mo?e sobie sam generowa? z wersji z polskimi znakami, wystarczy je zamieni? i ju?, plik s?ownika b?dzie przejrzystszy i ?atwiejszy w edycji. W ko?cu to ?adne halo, ?eby on sobie sam z “?ó?tej ?aby” wygenerowa? dodatkowo “???tej ?aby”. To ja si? teraz tym zajm? :smiley:

No to jest:
WRAK-0.2 z wpisem zawieraj?cym WTFcharater w s?owniku:

$ ./OSM-wrak --showdict | grep -i pi?sudskiego
marszalka jozefa pilsudskiego                : Marsza?ka Józefa Pi?sudskiego
pi?sudskiego                                 : Marsza?ka Józefa Pi?sudskiego
jozefa pilsudskiego                          : Marsza?ka Józefa Pi?sudskiego
józefa pi?sudskiego                          : Marsza?ka Józefa Pi?sudskiego
pilsudskiego                                 : Marsza?ka Józefa Pi?sudskiego
pi?sudskiego                                 : Marsza?ka Józefa Pi?sudskiego

WRAK-0.3 BEZ WTFcharacter w s?owniku:

$ ./OSM-wrak --showdict | grep -i pi?sudskiego
pilsudskiego                                 : Marsza?ka Józefa Pi?sudskiego
pi?sudskiego                                 : Marsza?ka Józefa Pi?sudskiego
j?zefa pi?sudskiego                          : Marsza?ka Józefa Pi?sudskiego
marszalka jozefa pilsudskiego                : Marsza?ka Józefa Pi?sudskiego
marsza?ka j?zefa pi?sudskiego                : Marsza?ka Józefa Pi?sudskiego
pi?sudskiego                                 : Marsza?ka Józefa Pi?sudskiego
jozefa pilsudskiego                          : Marsza?ka Józefa Pi?sudskiego
józefa pi?sudskiego                          : Marsza?ka Józefa Pi?sudskiego

to id? poprawi? s?ownik i uaktualni? wiki.

Ha! jest plik z geofabric, lepiej pó?no ni? pó?niej :slight_smile: Pobior? i uaktualni? pliki w: http://wariat.org.pl/smietnik/OpenStreetMap/

A do #Ulice wpisujecie wszystkie ulice, czy te z polskimi literkami/wielocz?onowe, czy jakie? :wink:
Wpisuj?c wszystkie poprawne mo?na pó?niej generowa? list? wszystkich ulic nie pasuj?cych do ?adnego wzorca i ?atwo wy?apa? literówki i dysortografie :wink:

No w?a?nie, dobre pytanie.

Na pewno potrzebne s? te z polskimi znakami, bo to ? i bez ogonków s? jak rozumiem generowane tylko dla tych w s?owniku

Dla tego musi te? by? Jacek i Agatka, Bolek i Lolek i inni.

Ale z (8) wynika ?e nie musia?by by? np. ‘1 Maja’, który doda?em… eee… dlatego, ?e podobnie jak antblant uwa?am, ?e dobrym pomys?em jest kompletny s?ownik. :slight_smile:

EDIT
Z drugiej strony dzi?ki GUStawowi mamy referencyjny plik s?ownika, do odfiltrowywania tego co bardzo z?e:

$ grep ';ul.' stat.txt | cut -d ';' -f 1 | uniq

Taki s?ownik to circa 300kB. Nie wiem co WRAK na to, gdyby wrak-dict.csv mia? mie? tyle pozycji? (a to przecie? tyko pierwsze pole)
Odci?cie tych z bez, lub z ma?? ilo?ci? powtórze? poprawia troch? spraw? (ok 100kB bez pojedynczych, czy 60kB bez poj. i podw.) , ale po co taki s?ownik w ogóle? Mo?e lepiej niech wrak-dict.csv ma tylko to co niezb?dne? Trzeba pomy?le?.

No w sumie masz racje, mo?na szuka? b??dów na podstawie tego co ma GUS. My?l?, ?e nie z?amiemy licencji, przecie? nikt nie ka?e podawa? ?ród?a w jakim s?owniku ortograficznym znalaz?o si? b??d…

Piszemy ?wi?tego, ?wi?tego, czy mo?e ?w. ? ?wi?ty to #ulica z nazwiskiem czy #ulica? I czy ma to jakie? znaczenie? :slight_smile:

Rozumiem, ?e wystarczy pisa? ‘z??’ nazw? z polskimi znakami, a ta bez polskich jest generowana?

Zaczynam si? gubi? :roll_eyes:

Bo to jest tak … mo?na tam wrzuci? wszystko jak leci oczywi?cie, ale IMO i tak nie uzbieramy pe?nej listy, no i IMO jej nie potrzebujemy o czym za chwilk? :wink:

Moim zdaniem s?ownik na pewno powinien zawiera? wszystkie nazwy sk?adaj?ce si? z wielu s?ów co do których mamy pewno?? lub przynajmniej powa?ne podejrzenia, ?e zostan? one wpisane na ró?ne sposoby, chodzi tu o mo?liwie dalek? normalizacj?. W tej kategorii znajduj? si? te? daty bo “1 Maja” to w ko?cu dwa s?owa s? z technicznego punktu widzenia, praktycznie pojawiaj?ce si? jako: “1-ego Maja”, “1 Maja” “1ego Maja” i huk wie co tam jeszcze…
Musimy te? wpisa? tam s?owa które WRAK ze wzgl?du na niedoskona?o?? algorytmu unifikuj?cego nazwy b?dzie mia? ochot? popsu?, jak cho?by przytoczone tu Jacek, Agatka, Bolek i reszta klasy politycznej III PRL :wink:
Nie koniecznie ju?, ale niezmiernie wygodnie jest poda? nazwy zawieraj?ce polskie znaki diakrytyczne, bo to dziedzina gdzie jest masa b??dów wynikaj?cych cz?sto z przyzwyczaje? u?ytkowników (wiem po sobie, jakie? 2 lata zabra?o mi zanim nauczy?em si? pisa? w sieci z “ogonkami” i nadal ró?nie z tym bywa czasami) i innych takich.

Ogranicza nas to ile s?ownik zajmuje w pami?ci podczas dzia?ania, w tej chwili jest to jakie? 700MB co nie powoduje u komputera wi?kszej czkawki ale to dopiero pocz?tek. Gdyby si? zacz??o przytyka? co? si? wymy?li. Ostatecznie s?ownik mo?e by? czytany z dysku przy ka?dym przej?ciu ale to rozwi?zanie klasy masakra roku.

Ale … przecie? to jest tak, ?e wchodzi string: “Kacza”. System nie znajduje s?owa w s?owniku, bo string jest “niegro?ny” przechodzi wi?c do procedury optymalizuj?cej nazw? robi z ni? cuda i sam stwierdza czy jest ok, czy nie. Przyjmijmy, ?e zamiast Kacza kto? wpisa? Kacxa … i mamy byka a o tym nie wiemy bo nazwa nadal wygl?da dobrze i przechodzi. I tu niespodzianka, wystarczy w chwili kiedy uznamy, ?e trzeba si? zaj?c klasycznymi literówkami dokona? mikroskopijnej zmiany i w momencie kiedy WRAK chcia?by uzna? string za prawid?owy wys?a? go do pliku. Uzyskamy w ten sposób poka?ny plik tekstowy zawieraj?cy tylko nazwy które “przechodz?”. Tniemy go?cia na kawa?ki, ?eby si? nie przem?cza?, przepuszczamy przez jakiego? aspella tak, ?eby odfiltrowa? to co istnieje w s?ownikach (bardziej prawdziwych), dla pewno?ci otwieramy OO.o i ka?emy podkre?li? literówki, to co znalaz?, a my potwierdzimy naocznie dopisujemy do s?ownika:
Kacza, kacxa
bzyk i po robocie, po czym t? sekcj? s?ownika mo?na najzwyczajniej w ?wiecie usun?? bo jakie mamy szanse na dwie identyczne literówki?

Dok?adnie w ten sam sposób mo?emy wygenerowa? list? istniej?cych nazw, policzy?, posortowa?, wydrukowa? w formie fototapety… :smiley:

Ja jeszcze jaki? czas chcia?bym potrzyma? WRAKa w jednej instancji, troch? go oczy?ci? … by? mo?e fragmenty przepisa?, bo s? tam miejsca w które wstyd zagl?da?, a co dopiero pokazywa?, a pó?niej ka?dy b?dzie móg? sobie go pomalowa? na dowolny kolor i dostosowa? do wybranej funkcji. Przy czym wydaje mi si?, ?e nie powinno si? go wiesza? tak zupe?nie na wierzchu, bo to narz?dzie którego obs?ugi nie powinno si? raczej uczy? na w?asnych b??dach we wspólnej bazie danych. Znacznie lepiej je?li kto? b?dzie chcia? zgada? si? via jabber, email whatever pogada? i mie? pewno??, ?e nikt (z zewn?trz) nie zapu?ci go z regexpem w stylu s/.*/Tu kiedy? by?a nazwa ulicy/ A meni te? si? przyda je?li kto? go obejrzy i powie mi co i dlaczego spierdzieli?em.

UPDATE:

tak … ka?da nazwa z polskimi znakami jest zamieniana na dwie dodatkowe, tak? bez polskich znaków w sensie ? → a, i tak? gdzie s? one zast?pione przez “WTF character”.

Dla przyk?adu dwa wiersze ze s?ownika:

Z?otej Kaczki
?ó?tej Ci?emki, ci?emki ?ó?tej

spowoduj? wygenerowanie s?ownika który zamieni na prawid?owe odpowiedniki:

zlotej kaczki
z?otej kaczki
zoltej cizemki
???tej ci?emki
ci?emki ?ó?tej
cizemki zoltej
ci?emki ???tej

tak?e ze wszelkimi wariacjami Wielkich/Ma?ych liter

to w której sekcji znajduje si? nazwa, ulica z nazwiskiem czy rzeka nei ma ?adnego znaczenia, one tam s? tylko po to, ?eby by?o je ?atwiej znale?? kiedy chce si? co? dopisa?, ale znaczenia to nie ma ?adnego.

To ja przechodz? na t? drug? stron? mocy :wink: Nie potrzebujemy pe?nej listy ulic, a do wyszukiwania nazw b??dnych najlepszy b?dzie xml z GUS.

Pozwólcie, ?e troch? si? poczepiam :slight_smile:

W pliku http://wariat.org.pl/smietnik/OpenStreetMap/wrak-ignore.txt s? nazwy które IMHO s? nieprawid?owe, tzn:
-UW, SGGW, MSWiA,DS to skróty, dla jednych zrozumia?e, dla innych nie. My?l?, ?e powinny by? rozwijane ( POD to skrót? :slight_smile: )
-(schody),(?cie?ka piesza),(k?adka) to nazwy z UMP, w OSM to b?dzie highway=steps,highway=cycleway,bridge=yes itp.
-DK5, to nie jest nazwa drogi, a jej numer, wi?c wpisujemy go w tagu ref (bez DK). Przyk?ad jak tego nie robi? :slight_smile: http://www.openstreetmap.org/?lat=52.581018&lon=16.828517&zoom=18&layers=B000FTF

Masz racj? a ja si? nieprecyzyjnie wyrazi?em … no i koncepcja si? zmieni?a. Po pierwsze pierwotnie my?la?em o doprowadzeniu s?ownika do wersji kiedy poprawi on wszystko co umie, szybko stwierdzi?em, ?e to nierealne i w tej chwili wrak dzia?a inaczej, ale nade wszystko mój opis pliku by? nieprecyzyjny.
Plik z ignorami to raczej baza nazw które identyfikuj? drogi ktorymi automag ma si? nie zajmowa? i zawiera m.in.

  • nazwy które s? dobre lub prawie dobre i jednocze?nie wyst?puj? raz wi?c nawet je?li chcie? poprawi? to MSWiA to jedyny rozs?dny sposób to otworzy? zadany fragment mapy w potlach czy innym JOSM i po prostu poprawi?.
  • nazwy z którymi nie mia?em poj?cia co zrobi? (te wszystkie schody, ?cie?ki cuda wianki). Automag móg?by poprawi? je co najwy?ej ze z?ych na gorsze, a tak s? zmagazynowane w pliku z ignorami i wiadomo, ?e mo?na si? nimi zaj?? je?li kto? b?dzie wiedzia? jak i mia? ochot?

Je?li jest taka potrzeba mog? zmontowa? plik gdzie ka?dy wpis z listy ignorowanych (która mo?e zyska? now? funkcj?) zostanie przypisany do drogi której odpowiada. Wystarczy tylko, ?e znajdzie si? kto? kto b?dzie wiedzia? co z tym nale?y zrobi? (w sensie jak powinno by? zrobione) no i b?dzie mu si? chcia?o.

UPDATE
A nawet je?li ta lista si? jednak mia?aby nie przydac to … jest tu: http://wariat.org.pl/smietnik/OpenStreetMap/wrak-IGNORUJE.txt :wink:

UPDATE 2
By?bym zapomnia?, s? te? drogi które ignoruj? bez pomocy pliku z ignorami zawieraj? numery dróg w atrybucie name. Sam numerek, albo jakie? E50 czy A8. Je?li to te? nieprawid?owo to mog? je wszystkie (drogi) zadenuncjowa? :wink:

Zacz??em si? nad tym zastanawia? i stwierdzi?em, ?e taka lista by?aby ju? teraz przydatna:
http://storage.neostrada.pl/OSM/ulice.bez.GUStu.txt
To lista nazw ulic z poland.osm (od geofabrik), które nie zawieraj? w sobie wzorca z pierwszego pola wyników GUStawa.

Dzi?ki temu wida?, ?e np. dla Pi?sudskiego, w b??dnych powinni?my mie? te? Pi?sudzkiego. :stuck_out_tongue:

PS: Nie ufa?bym wszystkiemu co jest na tej li?cie, bo to pogl?dowy hack. (na pewno z <way, ale tylko prawie na pewno maj? te? tag highway)

Tak orty i literówki s?, i je?li si? tak? zauwa?y mo?na spokojnie dopisa? do s?ownika, z czasem si? usunie albo nie … je?li ulic “Pi?udzkiego” jest wi?cej to nie ma ?adnego powodu, ?eby szuka? ich r?cznie … cho? nie jest to te? przecie? trudne.
Poza tym cz??? Twojego pliku zniknie po poprawieniu nazw z polskimi znakami … je?li dodamy do s?ownika “Ch?odna” to z poland.osm zniknie “Chlodna” której zapewne GUS nie przewidzia?, bandyci jedni :wink:

Je?li to mo?e pomóc mog? w ka?dej chwili wygenerowa? list? wszystkich nazw jakie WRAK spotyka sformatowan? analogicznie do tej ze stringami z IGNORE. Wtedy nazwa jest na pocz?tku wiersza wi?c mo?na bez cudowania list? sortowa? …

Przy okazji dociera do meni po ma?u, ze to nie jest tak, ?e sobie teraz usi?dziemy i naprawimy … bo z ka?dym dniem okazuje si?, ?e jest wi?cej i wi?cej. Przynajmniej jest weso?o :slight_smile:

I sprawa o której zapomnia?em … poland.osm z geofabric to nie ca?a polska. Zupe?nie o tym zapomnia?em. By?em latem na wakacjach na Helu, przed wyjazdem wgra?em do GPS map? z geofabric w?a?nie i nagle okaza?o si?, ?e kawa?ek za Gdyni? mapa mi si? sko?czy?a … nie dam sobie nic uci??, ale W?adys?awowa ju? chyba nie by?o. Trzeba o tym pami?ta?, a najlepiej znale?? jakie? doj?cie do tych krzy?aków co to wycinaj? i poda? im bardziej aktualne granice Polski … tak?e na pó?noc od Malborka :smiley:

Zadenun-co?! :smiley: Znalaz?em 147 takich przypadków i chyba wszystkie wyt?pilem, jutro si? oka?e z nowym wydaniem poland.osm :wink:

TomDalek: ?wietna ta lista, nic tylko usi??? i poprawia? :smiley:

W bazie jest też trochę takich:
http://www.openstreetmap.org/browse/way/24228397

i jak mam być szczery nie mam pomysłu co z tym robić … to jak rozumiem dwie ulice w jednej, czyli gdzieś po środku nazwa się zmienia, ale gdzie?

Aleja ksi?dza biskupa W?adys?awa Bandurskiego jest na lewo od DK1, a Aleja Adama Mickiewicza na prawo. I wcale nie ?ciaga?em z ‘mapy’, tylko z http://pl.wikipedia.org/wiki/Aleja_Adama_Mickiewicza_w_?odzi :slight_smile:
Du?o jest takich przypadków? Chyba tylko r?cznie mo?na to edytowa?.

Hmm, w tym konkretnym przypadku by?o tak, ?e pierwsza nazwa (ta przed ?rednikiem) by?a prawid?owa. Tzn. kto? przez pomy?k? po??czy? te drogi, ale ta po prawej to by?a Adama Mickiewicza; ks. bp. W. Bandurskiego, a po lewej na odwrót. Je?li tak jest ze wszystkimi to wystarczy wywali? nazw? za ?rednikiem.

Nie, nie ma tego raczej du?o … wst?pne, niedoskona?e przeszukanie plików wskaza?o 25 potencjalnych kandydatów. Przy czym szuka?em nazw ze ?rednikiem po prostu. I tak, to s? miejsca gdzie mo?na poprawi? tylko r?cznie, nie jedyne zreszt?. Przed chwil? trafi?em na ulic? Jo?ciuszki … wpisywanie tego jako synonim Ko?ciuszki do s?ownika by?oby przegi?ciem, a tak system przepuszcza jako prawid?ow?, bo sk?d ma wiedzie? ?e nie :smiley:

Wrzucam na serwer plik wrak-VALID.txt to zestaw stringów które WRAK przepu?ci? jako prawid?owe. Przy czym to nie oznacza, ?e one s? prawid?owe a tylko ?e:

  1. by?y w s?owniku w tej formie → s? OK
  2. nie by?o ich w s?owniku, ale wygl?daj? OK

Wystarczy tam spojrze? ?eby zobaczy?, ?e nie jest tak dobrze jak si? WRAKowi wydaje, cz??? z tych nazw to potencjalne ?ród?o do rozwoju s?ownika, cz??? wymaga r?cznego poprawienia.

W dyskusji na stronie WRAKA zacz??em pisa? draft naszego “Kanonu nazewniczego” (to zacz??em pisa? lokalnie u siebie i nie za?adowa?em jeszcze) i kilka propozycji do dyskusji dotycz?cych pisowni, nie po to, ?eby decydowa? si? na cokolwiek teraz, a bardziej, ?eby nie umkn??o.

UPDATE!
Czy chcieliby?my aby cudzys?owy w nazwach by?y poprawione na polskie, tzn. otwieraj?cy cudzys?ów na dole, zamykaj?cy u góry? W s?owniku i gdziekolwiek nadal wpisywaliby?my po prostu “string w cudzys?owie” oczywi?cie, a nie jakie? unikodowe krzaki, ca?o?? z powodzeniem mo?e wykona? WRAK.
Czy s? jakie? przeciwwskazania?

UPDATE 2
http://wariat.org.pl/smietnik/OpenStreetMap/wrak-VALID-UNIQUE.txt to lista wszystkich nazw które przesz?y przez WRAK jako poprawne ale odfiltrowana, to znaczy ka?dy string tylko raz i bez linka. Zacz??em przegl?da? (od ko?ca) i nawet bez u?ycia skomplikowanych automatów ?atwo odkry? czego brakuje w s?owniku.

Teoretycznie mo?na z tej listy usun?? stringi które si? w s?owniku pojawi?y bo te s? na pewno poprawne ale i tak reszt? trzeba po prostu przeczyta?.
Dobra wiadomo?? jest taka, ?e je?li ta lista zostanie poprawiona to b?dziemy prawie na ko?cu zabawy… albo ja nie zauwa?am jakiego? innego problemu :wink: