You are not logged in.

#1 2008-10-06 21:20:00

Jakub Klawiter
Member
From: Poznań
Registered: 2008-10-01
Posts: 60
Website

Debugger ;-)

Czasami jest tak, ?e si? cz?owiekowi nudzi i co? by zrobi?, ale nie wie co. Od dzi? ju? b?dzie wiadomo big_smile

Przelecia?em pro?ciutkim skryptem plik poland.osm z geofabric wy?wietlaj?c drogi <way /> z nazwami które trzeba poprawi? bo:
1. zawieraj? WTF character, znaczy zosta?y zaimportowane ze z?ym kodowaniem polskich znaków
2. s? napisane kapitalikami
3. Jest nazwisko nie ma imienia, przy czym tu lista jest kategorycznie nie pe?na bo wpisa?em tylko to co przysz?o mi do g?owy w ci?gu jakiej? minuty:

qw/Chopina D?browskiego Drzyma?y Konopnickiej Kopernika Matejki Mickiewicza Orzeszkowej Paderewskiego Przybyszewskiego Sienkiewicza S?owackiego Wyszy?skiego ?eromskiego/;

Ca?o?? posortowana wg. nazw znajduje si? tutaj: http://wariat.org.pl/smietnik/OpenStree … errors.php i jest list? 2056 b??dów ... niby nie zastraszaj?co du?o, ale jednak. Mo?na przyj??, ?e po otwarciu jednego linka dooko?a znajdzie si? wiele baboli, mo?na wi?c zaj?? sobie klkana?cie minut ... lub wi?cej big_smile

Ja si? na pewno raz na jaki? czas pobawi?, poprawianie b??dów nie jest mo?e tak ekscytuj?ce jak chodzenie z GPSem (zrobi?em dzi? jakie? 18km chodz?c w kó?ko po lesie big_smile), ale kiedy? trzeba to b?dzie zrobi?.
Je?li takie automagiczne wyszukiwanie ma sens i warto si? w to bawi?, raz na jaki? czas podmieni? plik na aktualny. No i trzeba rozbudowa? list? nazwisk, bo jest kategorycznie za krótka, a problem jak wiemy wyst?puje.

Swoj? drog? i tak nie b?dzie ?atwo czasami ... w Poznaniu jest ulica "Stanis?awa Przybyszewskiego" tego: http://pl.wikipedia.org/wiki/Stanis%C5% … ybyszewski w Helu Zbigniewa Przybyszewskiego ... chyba tego: http://pl.wikipedia.org/wiki/Zbigniew_Przybyszewski i b?d? tu m?dry ;-)

Offline

#2 2008-10-06 22:56:48

antblant
Member
From: Szczecin, Poland
Registered: 2008-06-12
Posts: 342

Re: Debugger ;-)

Super sprawa! smile

My?le, ?e chwilowo mo?e zosta? tyle nazwisk co jest, a jak si? to poprawi to wtedy dorzuci si? inne. Tak ?eby nie przyt?oczy?o nas 100k b??dów, bo si? roboty odechce wink

Offline

#3 2008-10-06 23:15:33

Jakub Klawiter
Member
From: Poznań
Registered: 2008-10-01
Posts: 60
Website

Re: Debugger ;-)

antblant wrote:

Super sprawa! smile

My?le, ?e chwilowo mo?e zosta? tyle nazwisk co jest, a jak si? to poprawi to wtedy dorzuci si? inne. Tak ?eby nie przyt?oczy?o nas 100k b??dów, bo si? roboty odechce wink

Tylko jak wtedy wymy?lisz pozosta?e? Ja usiad?em nad Chopinem ... wiadomo Chopin Fryderyk ... do teraz otwar?em 3 pierwsze sztuki i rozejrza?em si? po okolicy zapisuj?c list? nazwisk, która obecnie wygl?da tak:

        my $nameReg = join "|", qw /
            Andersa
            Bema Berlinga Buczka
            Ceynowy Chopina 
            D?browskiego D?ugosza Drzyma?y
            Fredry
            Kochanowskiego Konopnickiej Kopernika Kraszewskiego
            Le?miana
            Matejki Mickiewicza Moniuszki
            Na?kowskiej
            Orzeszkowej 
            Paderewskiego Pi?sudskiego Prusa Przybyszewskiego 
            Reymonta
            Sienkiewicza Skargi S?owackiego Sobieskiego Sucharskiego
            Tuwima
            Wyspia?skiego Wyszy?skiego
            Zapolskiej
            ?eromskiego/;

Przy okazji zacz??em sobie tworzy? plik z list? nazwisk bo zauwa?y?em po sobie, ?e przy takim poprawianiu cz?owiek traci pewno?? czy Sienkiewicz to na pewno by? Henryk big_smile ( http://wariat.org.pl/smietnik/OpenStree … zwiska.txt zakodowane w UTF-8) Mo?e warto tak? list? powiesi? gdzie? na wiki, bo to s? nazwy ulic powtarzaj?ce si? w wielu miastach?
Innymi s?owy jedne b??d z listy któr? podlinkowa?em kieruje do miejsca gdzie na oko?o wiele innych b??dów, zaj?cia wystarczy na ca?? zim? i wiosn? i ... big_smile Ale chyba warto si? pobawi? aby podnie?? jako?? danych z polskiego OSM.

Offline

#4 2008-10-07 00:48:13

antblant
Member
From: Szczecin, Poland
Registered: 2008-06-12
Posts: 342

Re: Debugger ;-)

No w?a?nie mog?yby le?e? gdzie? z boku dopóki nie poprawi si? tego co jest aktualnie na li?cie... zreszt? niewa?ne wink

Ja zacz??em od ?eromskiego i narazie usuwam skupiska debugów. Jest co robi?, w sam raz na d?ugie jesienne wieczory big_smile

Udost?pnisz gdzie? swój skrypt? Wymodzi?em co? takiego:

curl openstreetmap.org/api/0.5/way/NRDROGI > way.txt
sed -e 's/?eromskiego/Stefana ?eromskiego/g' way.txt > way2.txt
curl -u LOGIN:HASLO -H Expect: -i -o /tmp/output.txt -X PUT -T way2.txt http://api.openstreetmap.org/api/0.5/way/NRDROGI

i ju? masz zmienion? nazw? drogi.
Jednym s?owem ca?o?? mo?na polecie? z automatu big_smile
Zostaje tylko problem opracowania co jest ?le i jak powinno wygl?da?.

Last edited by antblant (2008-10-07 02:05:22)

Offline

#5 2008-10-07 09:04:38

TomDalek
Member
From: Sopot, Poland
Registered: 2008-09-28
Posts: 28
Website

Re: Debugger ;-)

Ej, no bez kitu panowie, genialne! smile

Jakub Klawiter wrote:

Swoją drogą i tak nie będzie łatwo czasami ... w Poznaniu jest ulica "Stanisława Przybyszewskiego" tego: http://pl.wikipedia.org/wiki/Stanis%C5% … ybyszewski w Helu Zbigniewa Przybyszewskiego ... chyba tego: http://pl.wikipedia.org/wiki/Zbigniew_Przybyszewski i bądź tu mądry ;-)

Czyli teraz pozostaje raczej pytanie do jakiegoś historyka, polonisty, czy innego humanisty, ilu w Polsce takich luminarzy, że nie jednemu psu burek? big_smile

Offline

#6 2008-10-07 11:41:19

Jakub Klawiter
Member
From: Poznań
Registered: 2008-10-01
Posts: 60
Website

Re: Debugger ;-)

antblant wrote:

Udost?pnisz gdzie? swój skrypt? Wymodzi?em co? takiego:

Troch? wstyd pokazywa? co? takiego, ale co mi tam big_smile http://wariat.org.pl/skrypty/OSM-errors.tar.bz2

antblant wrote:

i ju? masz zmienion? nazw? drogi.
Jednym s?owem ca?o?? mo?na polecie? z automatu big_smile
Zostaje tylko problem opracowania co jest ?le i jak powinno wygl?da?.

Tak mo?na i zalet? jest to, ?e mo?na w ten sposób wywali? bardzo szybko wszystkie znalezione b??dy. Wad? jest to, ?e dooko?a b?dzie masa innych b??dów których si? nie wy?apie.

EDIT:

TomDalek wrote:

Czyli teraz pozostaje raczej pytanie do jakiego? historyka, polonisty, czy innego humanisty, ilu w Polsce takich luminarzy, ?e nie jednemu psu burek? big_smile

Tak, a poza tym trzeba si? zastanowi? co powinni?my robi? w takiej sytuacji. W?a?nie trzymam w r?ce okoliczno?ciowe 2z? z podobizn? niejakiego Bronis?awa Pi?sudskiego ... tego: http://pl.wikipedia.org/wiki/Bronis%C5% … 5%82sudski . Skoro NBP wybi? monet? z t? podobizn? istnieje uzasadnione ryzyko, ?e nie ka?da ulica Pi?sudskiego w III PRL nosi imi? Marsza?ka: http://pl.wikipedia.org/wiki/J%C3%B3zef_Pi%C5%82sudski

Wydaje mi si? najw?a?ciwszym w takim wypadku zostawi? samo nazwisko do poprawy przez kogo? kto b?dzie pewien o kogo chodzi, znaczy jakiego? "tambylca".
Na razie mamy dwa komplety w takim razie: dwóch Przybyszewskich i dwóch Pi?sudskich smile

Last edited by Jakub Klawiter (2008-10-07 15:15:57)

Offline

#7 2008-10-07 19:53:19

deejay1
Member
Registered: 2008-06-17
Posts: 109

Re: Debugger ;-)

Ignacego Jana Paderewskiego? Które? miasto ma tak? oficjaln? nazw? ulicy? wink U mnie jest po prostu Ignacego Paderewskiego, przy czym nadal nie wiadomo dlaczego jest obecnie "Ignacego" jak dawniej by?o samo "Paderewskiego" i ludzie maj? tak w starych dowodach wink

Offline

#8 2008-10-07 20:22:42

Jakub Klawiter
Member
From: Poznań
Registered: 2008-10-01
Posts: 60
Website

Re: Debugger ;-)

deejay1 wrote:

Ignacego Jana Paderewskiego? Które? miasto ma tak? oficjaln? nazw? ulicy? wink U mnie jest po prostu Ignacego Paderewskiego, przy czym nadal nie wiadomo dlaczego jest obecnie "Ignacego" jak dawniej by?o samo "Paderewskiego" i ludzie maj? tak w starych dowodach wink

Czasami si? tak zdarza najwyra?niej ;-) http://tnij.org/ignasia

Nie wiem, mo?e si? nie znam, ale IMO to jest tak, ?e jest ulica i je?li nosi nazw? jakiego? cz?owieka, to tego cz?owieka identyfikuje imi? i nazwisko. Upiera? si? nie b?d?, ale obstawiam, ?e w uchwale rady miasta czy kto i jak tam nadaje nazwy ulicom za ka?dym razem u?yte jest imi? i nazwisko.
Przy czym faktycznie jest tak, ?e idea?em jest aby dostosowa? nazewnictwo ulic w OSM do rzeczywisto?ci ... obstawiam, ?e dodanie imion na wszystkich ulicach "Paderewskiego" w III PRL wygeneruje mniej b??dów ni? tych imion usuni?cie (równie? globalne). Ale je?li kto? jest pewien, ?e w jego mie?cie jest inaczej to oczywi?c`ie powinien poprawi? i w tym wypadku chyba doda? tag note z opisem, ?e tak ma by? bo jak nie to ... smile

Offline

#9 2008-10-09 13:23:44

Jakub Klawiter
Member
From: Poznań
Registered: 2008-10-01
Posts: 60
Website

Re: Debugger ;-)

Zastanawiam si? czy nie warto jakim? jednym szerokim ruchem usun?? wszystkich tagów source i debug z w?z?ów ( <node /> ). Wiemy na pewno, ?e docelowo ich nie chcemy (tag source jest atrybutem drogi ( <way /> ) nie poszczególnych w?z?ów. Mo?na zapu?ci? skrypt i w ci?gu kilku minut mo?emy si? jednym ruchem wszystkich tych debugów pozby?, mam tylko pytanie czy na pewno warto to w ten sposób robi?. Jedyna rzecz do jakiej one si? mog? przyda? w tej chwili to lokalizacja rejonów zaimportowanych z UMP i by? mo?e wymagaj?cych sprawdzenia jako?ci importu (po??czenia z innymi drogami, nie nak?adanie si? jednych dróg na inne i takie tam).

Ja to tak czy tak wyklikam za chwil? bo musz? si? koniecznie czym? zaj?? (do auta mi si? w?amali @#%^&^$# musz? odreagowa?), ale nie uruchomi? bez konsultacji, bo jak mówi stare przys?owie indian "?atwiej kijek pocienkowa? ni? go pó?niej pogrubasi?", a ja nie lubi? jak mi kto? mówi, ?e spapra?em, a jeszcze bardziej nie lubi? kiedy mówi?c to ma racj? big_smile.

Offline

#10 2008-10-09 14:31:36

antblant
Member
From: Szczecin, Poland
Registered: 2008-06-12
Posts: 342

Re: Debugger ;-)

Przykro mi z powodu w?amania...

Ja jestem za tym, ?eby wywali? z automatu. UMP_Level chyba te? nie jest potrzebne, co?

Przy okazji my?la?em intensywnie o czym? takim:

1. Zamieni? nazwy typu polna na  Polna   (to ju? wcieli?em w ?ycie ;p)
2. Zamieni? nazwy typu POLNA na Polna  (to wcielam w ?ycie)
3. Stworzy? list? wszystkich poprawnych nazw ulic. Teraz jest oko?o 110k unikalnych nazw, wystarczy z listy wyci?? te niepoprawne i gotowe.

Na podstawie takiej listy mo?na generowa? wszystkie b??dne nazwy...

Ma to jaki? sens? smile

PS Trzymam na dysku backup dróg których nazwy zmieni?em, wi?? kijek mo?na ?atwo pogrubasi? big_smile

Offline

#11 2008-10-09 20:38:32

Jakub Klawiter
Member
From: Poznań
Registered: 2008-10-01
Posts: 60
Website

Re: Debugger ;-)

antblant wrote:

Przykro mi z powodu w?amania...

Ja jestem za tym, ?eby wywali? z automatu. UMP_Level chyba te? nie jest potrzebne, co?

Poczekam jeszcze 2-3 dni ?eby nie by?o, ?e wywal? co? co mo?e si? przyda?. Kopii zapasowej nie mam, na upartego mog? zachowa?, bo to niewiele zmian ... odpalony cudak mówi tak:

$ ./OSM-cleaner.pl poland.osm

Nodes:
    480526 created_by: JOSM
     74508 debug
    261699 source: UMP-PL

Ways:
      8556 UMP_Level

Upload (y/N)?

i je?li mu pozwoli? to wywala UMP_Level sztuka po sztuce, zmiana regexpa w 2 miejscach i mo?e wywalac cokolwiek innego.
Z ewidentnych ?mieci mamy:
74k debugów w <node /> i 8,5k UMP_Level w <way />.
Mo?na sobie z tym poradzi? w kilka dni (skrypt mi?dzy kolejnymi pobarniami/przes?aniami pliku czeka 1s ?eby nie zasponsorowa? DoSa serwerom).

Poza tym jest 260k tagów source: UMP w <node /> przy czym tworz? one drogi (jak rozumiem POI nie s? z UMP importowane) które te? maj? tag source ustawiony, w ramach odchudzania pliku z map? mo?na to te? wywali?, ale ... no w?a?nie nie wiem czy mo?na.
Podobnie z created_by: JOSM ... napisa?em na OSM-newbie z pytaniem czy nie mo?na by si? tego pozby? z <node /> które tworz? drogi, bo te 0,5M wpisów to 8% obj?to?ci pliku poland.osm ...

antblant wrote:

Przy okazji my?la?em intensywnie o czym? takim:

1. Zamieni? nazwy typu polna na  Polna   (to ju? wcieli?em w ?ycie ;p)
2. Zamieni? nazwy typu POLNA na Polna  (to wcielam w ?ycie)
3. Stworzy? list? wszystkich poprawnych nazw ulic. Teraz jest oko?o 110k unikalnych nazw, wystarczy z listy wyci?? te niepoprawne i gotowe.

Na podstawie takiej listy mo?na generowa? wszystkie b??dne nazwy...

Te? o tym my?la?em, na razie podmienia?em wszystko pó?automatami ale ilo?? jest faktycznie momentami przyt?aczaj?ca. Plan mam taki, ?eby skrypt czyta? plik w formacie:

Dobra Nazwa, z?a nazwa, inna z?a nazwa, nazwa jeszcze gorsza ni? tamte
Stanis?awa Wyspia?skiego, stanislawa wyspianskiego, wypianskiego, wyspia?skiego

i tak:
1. je?li nazwa jest na li?cie ze z?ymi nazwami (nie sprawdzaj?c wielko?ci liter) to wysy?am dobr? nazw?
2. je?li nazwy nie ma na li?cie porównuj? j? tylko z t? ni? sam? zapisan? z ka?dym s?owem od wielkiej litery i je?li si? ró?ni? te? wysy?am
3. wszystko wygl?da ok NIE wysy?am

tak wygl?da? wst?pny plan ... tylko zak?ada?em, ?e list? nazw b?d? mia? w pami?ci, ?eby nie lata? w te o na zad po plikach, ale jak mówisz, ?e chodzi o list? 100k nazw to ... ja takiego komputera nie mam chyba big_smile

W ka?dym razie co? tam wyklikam i si? zobaczy, to o czym teraz rozmawiamy to szeroko rozumiany plan maksimum który IMO wymaga?by stworzenia listy nazw i jej przedyskutowania, bo nie chcemy przesy?a? do/z serwera megabajtow danych bez sensu, w ko?cu kto? p?aci za ten transfer.

Offline

#12 2008-10-11 23:26:46

antblant
Member
From: Szczecin, Poland
Registered: 2008-06-12
Posts: 342

Re: Debugger ;-)

Lista wszystkich ulic w Polsce jest do pobrania w przyjemnym formacie xml http://www.stat.gov.pl/broker/access/pr … Files.jspa . Myślicie, że można ją legalnie wykorzystać do poprawiania nazw ulic?

A jak ktoś chce sprawdzić jak to jest np. z Paderewskim u niego w mieście to wystarczy zerknąć tu:
http://www.stat.gov.pl/broker/access/de … nTree.jspa

Offline

#13 2008-10-12 14:27:34

deejay1
Member
Registered: 2008-06-17
Posts: 109

Re: Debugger ;-)

antblant wrote:

Lista wszystkich ulic w Polsce jest do pobrania w przyjemnym formacie xml http://www.stat.gov.pl/broker/access/pr … Files.jspa . Myślicie, że można ją legalnie wykorzystać do poprawiania nazw ulic?

A jak ktoś chce sprawdzić jak to jest np. z Paderewskim u niego w mieście to wystarczy zerknąć tu:
http://www.stat.gov.pl/broker/access/de … nTree.jspa

Trzeba by zapytać. Niby na dole strony "wszelkie prawa zastrzeżone", ale TERYT wprowadzono ustawą i jest jawną bazą danych. Nie szkodzi jednak wysłać zapytania do GUS. Jakby co to mogę w poniedziałek sklecić do nich pismo.
Przy okazji są numery referencyjne wink

Offline

#14 2008-10-12 14:39:42

antblant
Member
From: Szczecin, Poland
Registered: 2008-06-12
Posts: 342

Re: Debugger ;-)

Na g?ównej stronie jest odno?nik do tego:

G?ówny Urz?d Statystyczny:

    * nie ma zastrze?e? co do kopiowania plików i stron oraz dokonywania wydruków do celów prywatnych, w tym do w?asnych opracowa?, pod warunkiem, ?e b?dzie podane ich ?ród?o,
    * nie zg?asza równie? zastrze?e? do tworzenia po??cze? za po?rednictwem odno?ników ze stron? internetow?, pod warunkiem wskazania ?ród?a pochodzenia materia?u,
    * nie ponosi odpowiedzialno?ci za tre?? stron internetowych po??czonych za po?rednictwem odno?ników ze stronami GUS oraz prezentowanie w?asnych opracowa? (zmian tre?ci) w oparciu o dane GUS.

Offline

#15 2008-10-12 20:10:59

Jakub Klawiter
Member
From: Poznań
Registered: 2008-10-01
Posts: 60
Website

Re: Debugger ;-)

Sam dokument z GUS rewelacja, na pewno mo?e si? przyda?. Ale powstrzyma?bym si? przed jakim? automatycznym importem z tego ?ród?a, bo nie ma ?adnego sensu spamowa? mapy stert? tagów source. Ale do sporadycznych przypadków w celu upewnienia si? jak powinno by?, czy wr?cz do sprawdzenia statystycznego która forma nazw jest najpopularniejsza w .pl IMO rewelacja.

Z drugiej, bardziej automagicznej strony zacz??em klika? niejakiego WRAK 1.0 (Wykwintnie Regularny Auto Korektor) ;-) który korzystaj?c z w?asnego s?ownika i zestawu zasad stara si? poprawi? wszystkie nazwy jakie napotka. W tej chwili efekt pracy skryptu wygl?da tak (kodowanie UTF-8): http://wariat.org.pl/smietnik/OpenStree … k-test.txt

wystarczy w tej chwili:
1. doskonali? skrypt - co si? dzieje
2. ewidentnie przypadkowe b??dy poprawi? r?cznie, nie ma sensu wprowadza? do s?ownika "Jana Paw?a ||" jako stringu do zmiany na "Jana Paw?a II" bo wersja z "pipami" by?a w bazie tylko w 2 egzemplarzach i nie podejrzewam aby mia?a szanse pojawi? si? wi?cej razy
3. uzupe?ni? s?owniki skryptu (s? dwa jeden ze stringami które nale?y podmieni? i drugi ze stringami które nale?y zignorowa?).

Offline

#16 2008-10-13 00:35:50

Jakub Klawiter
Member
From: Poznań
Registered: 2008-10-01
Posts: 60
Website

Re: Debugger ;-)

Przepraszam, ?e tak post pod postem ale nie chcia?em, ?eby umkn??o ... je?li kogo? to strasznie wku?y?o to obiecuje przyj?? postaw? do zjebki, posypa? g?ow? popio?em i za kar? u?ywa? windows przez 20 minut non stop. smile

WRAK zdaje si? dzia?a?, za pomoc? do?? przydkiego hacka odfiltrowa?em mu cz??? zmian które proponowa? i pozwoli?em uploadowa? je na serwer co poskutkowa?o zmian? ~250 nazw i trwa?o ... no troch? to trwa?o, ale zosta?o zako?czone sukcesem. Opisz? wi?c jak to dzia?a, bo warto aby?my teraz dopracowali jednoznaczne zasady co do nazewnictwa ulic.

Skrypt pracuje tak jak poprzednie cudactwa z plikiem osm, de facto dowolnym w praktyce u?ywam pliku poland.osm generowanego przez geofabric ( http://download.geofabrik.de/osm/europe/ ). Przegl?da drog? po drodze pobieraj?c jej ID i NAZW?. ID nas nei interesuje, jest jakie jest i u?yte jest pó?niej tylko raz w celu za?adowania poprawionej nazwy ulicy, a z nazw? jest tak:

1. sprawdza czy przypadkiem nazwa nie wyst?puje na li?cie nazw do zignorowania, je?li tak pobiera kolejn?. Nazwy ignorowane to takie o których wiemy, ?e wyst?puj? sporadycznie, oznaczaj? co? konkretnego i s? napisane prawid?owo. Kilka przyk?adów: "SK,PL", "D - POL", (swoj? drog? granice te? mo?na by jako? znormalizowa?), "By?a Wytwórnia Lotnicza "Motolux"", "Wydzia? Architektury PW", etc.

2. wywala bia?e znaki po obu stronach nazwy, czyli wszystkie spacje i tabulatory otaczaj?ce nazw?

3. dodaje spacje po kropkach, przecinkach, ?rednikach i dwukropkach. De facto pewnie wyst?puj? tylko kropki, ale regexp w tej chwili wy?apuje wszystkei powy?sze przypadki.

4. je?li nazwa zaczyna si? od "ul ", lub "ul. " to ten przedrostek jako domy?lny (wszystko jest ulic?) jest usuwany, tak wi?c string "ul. Hackerów" zostranie zmieniony na "Hackerów"

5. Wywala z ca?ej nazwy wszelkie powtórzone bia?e znaki, czyli de facto podwójne spacje, co nie jest cz?ste ale si? pojawia.

6. nast?pnie odcina i zapami?tuje przedrostek oznaczaj?cy, ?e obiekt nie koniecznie jest "ulic?". Czyli na bok do pomocniczej zmiennej trafia wszytsko co jest z przodu i zawiera: (al|aleja|pl|plac|skwer|bulwar|rondo|park|os|osiedle|im|imienia). Nast?pnie w tej pomocniczej zmiennej rozwijane s? skróty. Czyli oryginalny "pl. im. Tadeusza Ko?ciuszki" da w efekcie dwie zmienne prefix: "plac imienia " i nazw? "Tadeusza Ko?ciuszki".
Rozwijam skróty bo mamy przecie? do czynienia z map? elektroniczn?, je?li urz?dzenie które b?dzie z niej korzysta?o z jakich? powodów mia?oby pokaza? skróty to nadal mo?na to zrobi?, ale na li?cie nazw sterta skrótów IMO nie ma znacz?cych powodów do kontunuowania istnienia.

7. teraz Nazwa (ju? bez prefixu!) porównywana jest ze s?ownikiem, który wygl?da tak:

Jana Paw?a II
Tadeusza Ko?ciuszki, ko?ciuszki, ko?ciuszki
Marii Sk?odowskiej-Curie, sk?odowskiej-curie, sk?odowskiej
?wirki i Wigury, ?Wirki I Wigury

pierwsza (i czasem jedyna) pozycja to prawid?owa nazwa jak? chieliby?my widzie? w bazie, kolejne to nazwy "popsute", przy czym nie tzreba duplikowa? nazw z polskimi znakami i bez nich, s?ownik jest rozszezrany o wersje "polskawe" w chwili wczytywania. Wielko?? znaków jest w tym porównaniu ignorowana. Tak wi?c na string "Tadeusza Ko?ciuszki" zostan? zamienione "Tadeusza Kosciuszki" (oryginalny bez polskich znaków), "TADEUSZA KO?CIUSZKI" (oryginalny kapitalikami),  "ko?ciuszki", "kosciuszki" i wiele innych wariacji na ten temat. Je?li nazwa pasuje w jaki? sposób do którego? z tych stringów zostanie ona zamieniona piwerszym z wiersza. Omijam teraz kolejne kroki a? do momentu przywrócenia prefiksu w punkcie 12.

8. Dla nazw z poza s?ownika idziemy dalej ... Wielko?? liter w nazwi jest zamieniana na "Title Case", czyli ka?de s?owo z Wielkiej Litery i dalej ma?ymi.

9. S?owa sk?adaj?ce si? ze znaków "ivx" w dowolnej kombinacji traktowane s? jako liczbu rzymskie i zamieniane na KAPITALIKI, co powoduje k?opot przy nazwach jak "?wirki i Wigury", ale wystarczy doda? pilotów do s?ownika i problem przestaje istnie? (jeste?my na etapie gdzie istniej?ce w s?owniku nazwy nie bywaj?).

10. Poprawiane na MAJUSKU?? s? równie? wykryte skróty jak: (PCK|PKP|ONZ|GUS|RP|ZOO), gdyby nie ten etap mieliby?my: Pck, Pkp, Onz, etc.

11. Z kolei cuda jak: (Gen.|Dr |Ks.) zmieniane s? na pisane ma?ymi literami

12. doklejany jest wpowrotem prefix odci?ty w punkcie 6tym

13. Tak stworzona nowa nazwa jest porównywana raz jeszcze z t? która oryginalnie znajdowa?a si? w bazie, je?li s? identyczne, znaczy narobili?my si? bez sensu, je?li inne jest kwalifikowana do zmiany/zmieniana.

14. ?eby nie by?o, ?e jest ma?o szcz??liwie 13 kroków dodam, ze teraz lecimy na pocz?tek i jedziemy z kolejn? nazw? big_smile


Czego nam trzeba to s?ownika. Obecny wygl?da tak:

# Ró?ne takie
Ogródki dzia?kowe

# Rzeki (generalnie, rzeki z polskimi literkami w nazwie) 
Wis?a

# Ulice 
Bohaterów Westerplatte
Bojowników o Wolno?? i Demokracj?
G?ówna
Koników Polnych
Pozna?ska
Przemys?owa
Spó?dzielczo?ci
?wi?toja?ska
Zbo?owa
Zgrupowania AK "Rados?aw"

# Ulice z nazwiskami
Ludwika van Beethovena
?w. Cyryla i Metodego 
Jana Paw?a II
Genera?a W?adys?awa Andersa, w?adys?awa andersa, andersa
Adama Asnyka, asnyka
# Stefana I Batorego
Stefana Batorego, Batorego
Józefa Bema, bema
Genera?a Zygmunta Berlinga, zygmunta berlinga, berlinga
Ma?ka z Bogda?ca
Jana Brzechwy, brzechwy
# Fryderyka Franciszka Chopina
Fryderyka Chopina, chopina
# Floriana Stanis?awa Ceynowy
Floriana Ceynowy, ceynowy
# Boles?awa I Chrobrego
Boles?awa Chrobrego, chrobrego
Jana Henryka D?browskiego, d?browskiego
Jana D?ugosza, d?ugosza
Romana Dmowskiego, dmowskiego
Micha?a Drzyma?y, drzyma?y
Aleksandra Fredry, fredry
Konstantego Ildefonsa Ga?czy?skiego, ga?czy?skiego
Wincentego Kad?ubka, kad?ubka
Jana Kasprowicza, kasprowicza
Andrzeja Kmicica, kmicica
Eugeniusza "Nurt" Kaszy?skiego
Jana Kochanowskiego, kochanowskiego
Jana z Kolna
Hugona Ko???taja, ko???taja
Marii Konopnickiej, konopnickiej
Miko?aja Kopernika, kopernika
Janusza Korczaka, korczaka
Tadeusza Ko?ciuszki, ko?ciuszki, ko?ciuszki
Józefa Ignacego Kraszewskiego, kraszewskiego
Boles?awa Le?miana, le?miana
aleja Kazimierza "Dziadka" Lisieckiego
# W?adys?awa I ?okietka
W?adys?awa ?okietka, ?okietka
Ewy i Karola Maleczy?skich
Jana Matejki, matejki
Adama Mickiewicza, mickiewicza
Stanis?awa Moniuszki, moniuszki
Zofii Na?kowskiej, na?kowskiej
Cypriana Kamila Norwida, norwida
Jana Nowaka-Jeziora?skiego, nowaka-jeziora?skiego
Elizy Orzeszkowej, orzeszkowej
Ignacego Jana Paderewskiego, paderewskiego, ignacego paderewskiego
Stanis?awa Augusta Poniatowskiego
Janiny Porazi?skiej, porazi?skiej
Bronis?awa "Lota" Pietraszewicza
# Pi?sudskich jest dwóch ale nie wiem czy pierwszy miewa ulice, wiem, ?e ma 2z? :D
#Bronis?awa Pi?sudskiego
#Marsza?ka Józefa Klemensa Pi?sudskiego
Boles?awa Prusa, prusa
# Przybyszewskich te? jest dwóch i na pewno obaj miewaj? ulice
#Stanis?awa Feliksa Przybyszewskiego
#Komandora Porcznika Zbigniewa Przybyszewskiego
Miko?aja Reja, reja
# W?adys?awa Stanis?awa Reymonta
W?adys?awa Reymonta, reymonta
Józefa i Jana Rostafi?skich
Stefana "Grota" Roweckiego
Hanki Sawickiej, sawickiej
Henryka Sienkiewicza, sienkiewicza
Marii Sk?odowskiej-Curie, sk?odowskiej-curie, sk?odowskiej
Piotra Skargi, skargi
Jana Skrzetuskiego, skrzetuskiego
Juliusza S?owackiego, s?owackiego
Jana III Sobieskiego, sobieskiego
Mieczys?awa "Grzyma?y" Soko?owskiego
Leopolda Staffa, staffa
Stanis?awa Staszica, staszica
Majora Henryka Sucharskiego, sucharskiego
Jana i J?drzeja ?niadeckich
Rabindrannatha Tagore&apos;a
Juliana Tuwima, tuwima
pasa? Stefana "Wiecha" Wiecheckiego 
Wincentego Witosa, witosa
# Micha?a Jerzego Wo?odyjowskiego
Micha?a Wo?odyjowskiego, wo?odyjowskiego
Stanis?awa Wyspia?skiego, wyspia?skiego
Kardyna?a Stefana Wyszy?skiego, wyszy?skiego, stefana wyszy?skiego
# Jana Onufrego Zag?oby
Onufrego Zag?oby, zag?oby, onufrego zag?oby
Gabrieli Zapolskiej, zapolskiej
Tadeusza Boya-?ele?skiego, boya-?ele?skiego
Stefana ?eromskiego, ?eromskiego
?wirki i Wigury, ?Wirki I Wigury

Musimy si? jako? dogada? co do prawid?woej pisowni nazw, szczególnie nazw ulic które s? nazwiskami. Moim zdaniem powinni?my u?y? Nazwiska i imion pod jakimi dana posta? wyst?puje w podr?cznikach, nie koniecznie w 100% zgodnie z tabliczk? z nazw? ulicy. Nawet je?li burmistrz W?chocka nada? ulicy nazw? "Ga?czy?skiego", wiemy, ?e facet u?ywa? imion i eyst?puje w podr?cznikach jako "Konstanty Ildefons Ga?czy?ski". Raz jeszcze, pracujemy nad map? w postaci elektronicznej tak wi?c ka?dy kto b?dzie z niej korzysta? np. produkuj?c system nawigacji, w ramach potrzeb mo?e wy?wietli? j? jako: "K.I. Ga?czynskeigo" lub nawet "Ga?czy?skiego". Ale IMO nie powinni?my skraca? nazwy w g?ównej bazie, bo w przeciwn? stron? tak ?atwo jej rozwin?? nie mo?na. W drug? stron? te? nie przeginamy. Co prawda Tadeusz Ko?ciuszko to "Andrzej Tadeusz Bonawentura Ko?ciuszko" ale konia z rz?dem temu kto tak my?li o generale.
Kompromisem wydaje si? by? has?o w wikipedii odnosz?ce si? do danej postaci. W wi?kszo?ci przypadków b?dzie ono zawiera?o w?a?nie popularne imi? imiona podane jako has?o g?owne, a wszystkie imiona wymienia jedynie w tre?ci.
W jaki sposób mo?emy wspólnie (i sprawnie) wypracowa? s?ownik nie mam pomys?u, ale na pocz?tek spróbujmy mo?e tu na forum. Jest nas garstka, ale dzi?ki temu ?atwiej b?dzie si? dogada?, a ci których nie ma ... có? ... ;-)

I to tyle. Z obecn? wersj? s?ownika nie jestem w ?aden sposób emocjonalnie zwi?zany, je?li wi?c s? zastrzenia to prosze ?mia?o.

Kogo warto doda? mo?na si? ?atwo pokapowa? przegl?daj?c podwieszony w internecie plik z outputem z WRAKa: http://wariat.org.pl/smietnik/OpenStree … k-test.txt naj?atwiej sortuj?c go po nazwach czyli np.

$ cat wrak-test.txt | sed -e s/^[^0-9]*[0-9]*\ \\{3\\}// | sort | less

potrzebujemy:
1. Prawid?owej pisowni
2. popularnych (powtarzaj?cych si?) wariacji pisowni b??dnej

Nie potrzebujemy sporadycznie pojawiaj?cych si? b??dów, te lepiej poprawi? po prostu od razu w bazie via POTLACH i o nich zapomnie?.

Na koniec serdecznie gratuluj? wszystkim którym uda?o si? ten ca?y spam przeczyta?. Obiecuj? stara? si? wi?cej nie tworzy? kiepskiej literatury w takich ilo?ciach. ;-)

Last edited by Jakub Klawiter (2008-10-13 00:37:57)

Offline

#17 2008-10-15 10:37:16

TomDalek
Member
From: Sopot, Poland
Registered: 2008-09-28
Posts: 28
Website

Re: Debugger ;-)

Jakub Klawiter wrote:

[...]
6. nast?pnie odcina i zapami?tuje przedrostek oznaczaj?cy, ?e obiekt nie koniecznie jest "ulic?". Czyli na bok do pomocniczej zmiennej trafia wszytsko co jest z przodu i zawiera: (al|aleja|pl|plac|skwer|bulwar|rondo|park|os|osiedle|im|imienia). Nast?pnie w tej pomocniczej zmiennej rozwijane s? skróty. Czyli oryginalny "pl. im. Tadeusza Ko?ciuszki" da w efekcie dwie zmienne prefix: "plac imienia " i nazw? "Tadeusza Ko?ciuszki".
Rozwijam skróty bo mamy przecie? do czynienia z map? elektroniczn?, je?li urz?dzenie które b?dzie z niej korzysta?o z jakich? powodów mia?oby pokaza? skróty to nadal mo?na to zrobi?, ale na li?cie nazw sterta skrótów IMO nie ma znacz?cych powodów do kontunuowania istnienia.

Rozwini?cie skrótów jak najbardziej, ale... Wielk? Liter?. Nie koniecznie ka?dy cz?on, ale przynajmniej tak, ?eby ca?o?? zaczyna?a si? Wielk?. (w sensie, ?e np. na etapie (6) jak jest, ale mi?dzy (12) i (13) pierwsza litera ca?o?ci na Wielk?)

np. teraz jest:

Park im. Dreszera -> park imienia Dreszera

My?l?, ?e ?adniej by?oby

Park im. Dreszera -> Park imienia Dreszera

np2. Z przejazdu WRAKu z 2008-10-13T21:51:32+01:00, w Sopocie mamy: 'aleja Grunwaldzka', 'aleja Niepodleg?o?ci'.
Oficjalne nazwy to: 'Aleja Grunwaldzka', 'Aleja Niepodleg?o?ci'.

Tak samo punkt (11). Genera?a ma??, chyba ?e pierwszy wyraz.
I tak np: 'Plac genera?a Jakiego? tam Jakiego?', ale je?li nie plac, to 'Genera?a Jakiego? tam Jakiego?'.
Lub: 'Lotnisko imienia dr Strangelove', ale 'Dr Strangelove'. big_smile


PS:

Jakub Klawiter wrote:

Przepraszam, ?e tak post pod postem ale nie chcia?em, ?eby umkn??o ... je?li kogo? to strasznie wku?y?o to obiecuje przyj?? postaw? do zjebki, posypa? g?ow? popio?em i za kar? u?ywa? windows przez 20 minut non stop. smile

Kr?c?c autoironiczn? bek? z siebie powiem:
Nie wa?ne jak powa?ny b??d wzgl?dem Nas pope?nisz, uwa?am... ?e NIKT z Nas, NIGDY nie ka?e Ci u?ywa? M$!!!!  lol

Last edited by TomDalek (2008-10-15 11:08:45)

Offline

#18 2008-10-15 13:07:28

Jakub Klawiter
Member
From: Poznań
Registered: 2008-10-01
Posts: 60
Website

Re: Debugger ;-)

Masz racj?. Za?o?y?em, ?e chodzi o nazw? ulicy, a s?owo "park, aleja, imienia, whatever" to tylko ma?o wa?ny okre?lnik a jednocze?nie mia?em problem z tym, ?e jak si? wydaje wsz?dzie jest to pisane jednak z Wielkiej litery. Tylko g?upek nie wpad?em na ten jak?e rozs?dny pomys?, aby pierwsza litera nazwy by?a Wielka, a reszta jak w pierwotnym pomy?le, co potwierdza tylko ludow? prawd?, ?e co dwie g?owy to nie jeden pó?g?ówek ;-)
Nazw w które zaingerowa?em z tym b??dem nie trzeba poprawia?, po prostu przy kolejnym "przeje?dzie WRAKa" jak to pi?knie okre?li?e? poprawi zgodnie z now? zasad?.

EDIT:
Jakie? pó? godziny po wys?aniu tego postu wys?a?o mnie (z?e licho jakie?) w kork^W tras? po mie?cie. Po drodze przygl?da?em si? tabliczkom z nazwami ulic. To, ?e "ul." lub "ulica" pisane jest z ma?ej litery mnie mocno nie zaskoczy?o jako? (wizualnie), i jest ma?o wa?ne dla nas tutaj bo i tak tego s?owa nie u?ywamy. Ale po drodze by? te? "plac Cyryla Ratajskiego". Aleje jedne min??em ale nie dostrzeg?em tabliczki.
To wszystko nie zmienia tego, ?e IMO najlepiej zmieni? wszystko na pisane z wielkiej litery bo podejrzewam, ?e taka wersja znajdzie uznanie u wi?kszo?ci, a by? mo?e z czasem uda si? dokopa? do jakiej? generalnej zasady i wtedy by? mo?e dokona? jakich? poprawek.

Last edited by Jakub Klawiter (2008-10-15 16:54:03)

Offline

#19 2008-10-15 17:33:16

TomDalek
Member
From: Sopot, Poland
Registered: 2008-09-28
Posts: 28
Website

Re: Debugger ;-)

Nie ma to jak feedback! smile
Jasne, ?e WRAK to WiP (Work in Progress). Nawet mi do g?owy nie przysz?o poprawia? co? r?cznie. Pe?ne zaufanie do WRAKu v0.2 big_smile

Jednak has?o 'kolejny przejazd WRAKu' da?o mi do my?lenia. Genialnym pomys?em jest mie? na podor?dziu dopracowany WRAK i zapuszcza? go regularnie w Polsk?. Dane z geofabrik maj? jednak opó?nienie. Wydaje mi si?, ?e s? generowane codziennie miedzy 5 a 6 rano.

Na http://www.geofabrik.de/data/download.html jest napisane:
"[...] any change you upload to OpenStreetMap should be on our download server the next day."

Aktywno??, np. moja, nie jest na tyle du?a, abym czu? si? za?amany, z powodu utraty edycji tych kilku wybranych uliczek sprzed ostatnich 24h. Szczególnie w zestawieniu ile dobrego WRAK robi. Prawdopodobie?stwo ?e akurat zmieni? kszta?t czego?, co potem WRAK przywróci do wersji z rana wydaje mi si? ma?e. Niemniej jednak mo?e warto si? na co? umówi?.

Np:
1) Je?li zmieniam r?cznie kszta?t jakiej? drogi (np. tej Sopockiej 'alei Grunwaldzkiej') musz? si? upewni?, ?e zmieni? nazw? na tak? której WRAK nie ruszy.
lub
2) WRAK b?dzie zapuszczany jedynie wtedy i wtedy, o tej i o tej. Np. w ?rod? (dzie? pracy Mapnika)  o 7 rano (zaraz po og?oszeniu przez Geofabrik). (przy u?yciu crona, czy czego?)

... lub jeszcze co? innego big_smile

Offline

#20 2008-10-15 17:49:50

Jakub Klawiter
Member
From: Poznań
Registered: 2008-10-01
Posts: 60
Website

Re: Debugger ;-)

TomDalek wrote:

Nie ma to jak feedback! smile
Jasne, ?e WRAK to WiP (Work in Progress). Nawet mi do g?owy nie przysz?o poprawia? co? r?cznie. Pe?ne zaufanie do WRAKu v0.2 big_smile

Jednak has?o 'kolejny przejazd WRAKu' da?o mi do my?lenia. Genialnym pomys?em jest mie? na podor?dziu dopracowany WRAK i zapuszcza? go regularnie w Polsk?. Dane z geofabrik maj? jednak opó?nienie. Wydaje mi si?, ?e s? generowane codziennie miedzy 5 a 6 rano.

nie, nie nie ... spokojnie! To dzia?a tak, ?e offline korzystaj?c z pliku OSM z geofabric typuje ulice do zmiany, je?li kwalifikuj? si? do zmiany on pobiera plik z tylko t? ulic?, modyfikuje atrybut i odsy?a spowrotem. (de facto odpalaj?c kawa?ek basha Antblanta z tego w?tku). Tak wi?c nie ma wi?kszego ryzyka, ?e co? zostanie przywrócone z przed zmian. Pr?dzej odwrotnie, je?li b?dziesz mia? w JOSM otwarty fragment przez godzin? czy dwie, a w mi?dzyczasie po tym rejonie przejedzie WRAK to Ty odsy?aj?c poprawione dane zama?esz to co on poprawi?, ale to te? nie jest jaki? ultra du?y problem, bo automag si? nie m?czy.

EDIT:
Mam problem z niejakim genera?em Józefem Bemem
jest tego masa, przejrza?em plik z GUSu ... naprawd? genialna sprawa (!) i wyniki s? takie:

$ grep -i -c bema ULIC.xml 
296
$ grep -i -A 1 bema ULIC.xml | grep -i -c  "/>"
33
$ grep -i -A 1 bema ULIC.xml | grep -i -c  ">J\."
2
$ grep -i -A 1 bema ULIC.xml | grep -i -c ">Józefa"
76
$ grep -i -A 1 bema ULIC.xml | grep -i -c gen
184

Czyli zarejestrowano 296 ulic Bema z czego 76 to ulice Józefa Bema, 148 genera?a Józefa Bema.
Osobi?cie wci?? jestem za normalizacj? zgodnie z zasad?, ?e ca?y czas chodzi o jedn? osob?. Ustawi?bym wszystkim ulicom nazw? "Genera?a Józefa Bema", alternatywnie przestawi?bym równie? wszystkie nazwy na "Józefa Bema". Co my?licie?

Last edited by Jakub Klawiter (2008-10-15 21:45:54)

Offline

#21 2008-10-15 23:46:18

antblant
Member
From: Szczecin, Poland
Registered: 2008-06-12
Posts: 342

Re: Debugger ;-)

A jakby tak poprawi? wszystkie na Genera?a Józefa Bema i jednocze?nie doda? do WRAKa, ?eby ignorowa? wyst?pienia Józefa Bema? To uchroni tych którzy u siebie zmieni? nazw? na prawid?ow?, inaczej musieliby codziennie walczy? z automatem wink

Gdzie? jest dost?pny aktualny s?ownik? Móg?bym poszuka? nazwisk nowych smile

Last edited by antblant (2008-10-15 23:49:06)

Offline

#22 2008-10-16 00:57:33

Jakub Klawiter
Member
From: Poznań
Registered: 2008-10-01
Posts: 60
Website

Re: Debugger ;-)

antblant wrote:

A jakby tak poprawi? wszystkie na Genera?a Józefa Bema i jednocze?nie doda? do WRAKa, ?eby ignorowa? wyst?pienia Józefa Bema? To uchroni tych którzy u siebie zmieni? nazw? na prawid?ow?, inaczej musieliby codziennie walczy? z automatem wink

No w?a?nie tu jest mój problem ... czy je?li ulica nosi imi? Józefa Bema który by? genera?em i tak si? go zapewne by przedstawia?o na oficjalnej uroczysto?ci, to czy nazwa "Genera?a Józefa Bema" jest nieprawid?owa i wymaga poprawy? IMO nie do ko?ca.

Mog? mu doda? dwie ró?ne osoby, genera?a i nie genera?a i to b?dzie dzia?a?o zreszt? jest ju? taki wa?ek:

# Drzyma?ów by?o wielu i kilku ma ulice czyli k?opot
# wg GUS Micha?a: 73szt, Stanis?awa: 4szt, Wojciecha: 16szt
Drzyma?y
Micha?a Drzyma?y
Stanis?awa Drzyma?y
Wojciecha Drzyma?y

Je?li kto? wpisze po prostu Drzyma?y to jedyne co poprawi WRAK to ewentualny brak polskiej literki, ewentualnie gdyby co? by?o nie tak z ma?ymi/wielkimi literami. Ale imienia nie doda, bo które?

Tak wi?c wyj?tek jest mo?liwy i prosty do zmontowania, ale tu problem jest troch? inny. Wiemy o kogo chodzi i co najwy?ej mo?emy podac bardziej prawdziw? nazw?, dotycz?c? wci?? tej samej osoby. Tak na prawd? nie ma to jakiego? gigantycznego znaczenia, i jedyny faktyczny cel który osi?gniemy to, ?e b?dziemy pewni, ?e w nazwie nie ma za ma?o danych w stosunku do tabliczek z nazwami ulicy.

IMO gorzej je?li na tabliczce jest "Genera?a Józefa Bema" a my napiszemy "Bema" ni? odwrotnie, na tabliczce jest "Bema" a my napiszemy jak si? kole? ;-) na prawd? nazywa. No ale kwestia jest otwarta, a ja si? upiera? nie zamierzam, bo przecie? ma by? tak, ?eby wi?kszo?? osób która si? nad problemem zastanowi uzna?a, ?e jest OK.

antblant wrote:

Gdzie? jest dost?pny aktualny s?ownik? Móg?bym poszuka? nazwisk nowych smile

S?owniki oba wrzuci?em tu: http://wariat.org.pl/smietnik/OpenStreetMap/ wrak-dict.csv to s?ownik w?a?ciwy od zamieniania stringów, wrak-ignore.txt to stringi które wrak ignoruje jako by? mo?e dziwnie napisane ale prawid?owe.

Pierwotnie my?la?em, ?e da si? stworzy? s?ownik i po prostu zapu?ci? automaga. Ale to nierealne. W tej chwili robi? to tak, ?e po pobrani nowego pliku poland.osm puszczam wraka z aktualnym s?ownikiem i zapisuj? w pliku jego pomys?y na zmiany nazw (plik wrak-test.txt). Otwieram ten plik lessem i znajduj? co? co chcia?by zmieni? co jest prawid?owe lub nie oboj?tnie. Je?li zmiana jest nieprawid?owa znaczy, ze s?ownik ma braki dopisuj? nazw? lub jej wychwycon? wariacj?.

Odpalam WRAK z dodatkowym parametrem który powoduje, ?e skrypt próbuje zmienia? tylko nazwy które w wyniku dadz? podany string, na przyk?adzie:

$ ./OSM-wrak.pl --filter="Andersa"

http://www.openstreetmap.org/browse/way/5080032      Gen. W?adys?awa Andersa -> Genera?a W?adys?awa Andersa 
http://www.openstreetmap.org/browse/way/5080033      Gen. W?adys?awa Andersa -> Genera?a W?adys?awa Andersa 
http://www.openstreetmap.org/browse/way/19864086   D W?adys?awa Andersa -> Genera?a W?adys?awa Andersa 
http://www.openstreetmap.org/browse/way/21607984     gen. W?adys?awa Andersa -> Genera?a W?adys?awa Andersa 
http://www.openstreetmap.org/browse/way/23483565   D W?adys?awa Andersa -> Genera?a W?adys?awa Andersa 
http://www.openstreetmap.org/browse/way/23869759     Plac gen. W?adys?awa Andersa -> Plac genera?a W?adys?awa Andersa 
http://www.openstreetmap.org/browse/way/24271418     gen. W?adys?awa Andersa -> Genera?a W?adys?awa Andersa 
http://www.openstreetmap.org/browse/way/26458786     Aleja Gen. W?adys?awa Andersa -> Aleja genera?a W?adys?awa Andersa 
http://www.openstreetmap.org/browse/way/27310742   D Andersa -> Genera?a W?adys?awa Andersa 
http://www.openstreetmap.org/browse/way/27357975   D Andersa -> Genera?a W?adys?awa Andersa 
http://www.openstreetmap.org/browse/way/27368958   D Park W?adys?awa Andersa -> Park genera?a W?adys?awa Andersa 
http://www.openstreetmap.org/browse/way/27381591     Aleja Gen. W?adys?awa Andersa -> Aleja genera?a W?adys?awa Andersa 
http://www.openstreetmap.org/browse/way/27381592     Aleja Gen. W?adys?awa Andersa -> Aleja genera?a W?adys?awa Andersa 
http://www.openstreetmap.org/browse/way/27381618     Aleja Gen. W?adys?awa Andersa -> Aleja genera?a W?adys?awa Andersa 
http://www.openstreetmap.org/browse/way/27530115   D Andersa -> Genera?a W?adys?awa Andersa 
http://www.openstreetmap.org/browse/way/27530189   D Andersa -> Genera?a W?adys?awa Andersa

(to "D" oznacza, ?e zamiana pochodzi ze s?ownika, je?li go nie ma to zmiana nazwy wynika z "zasad nazewnictwa" wprowadzonych do skryptu. )

i je?li to co wyplu? wygl?da sensownie dodaj? parametr --upload i odpalam raz jeszcze, a je?li nie to poprawiam s?ownik, a czasem sam skrypt i od nowa.

Jest to wi?c taka ?wier? automagia, ale na nic lepszego na razie nie mam pomys?u, a i tak paskudztwo odwala robot? której nikomu by si? robi? nie chcia?o.

W tej chwili baza potencjalnych stringów do zmiany jest tak du?a, ?e spokojnie sobie poradz? tym sposobem, ale licz?, ?e w ko?cu baza nazw si? unormuje i wtedy jedyna szansa na rozwój s?ownika to dodawanie tam stringów przyuwa?onych przypadkiem.

My?la?em te?, czy nie by?oby dobre przelecie? t? baz? nazw z GUS jakim? skryptem aby dosta? list? nazw posortowan? po nazwiskach (NAZWA_1) zawieraj?ca tylko nazw? i ilo?? wyst?pie? w III PRL czyli co? w tym stylu:

Drzyma?y,  : 56
Drzyma?y, Micha?a : 73
Drzyma?y, Stanis?awa : 4
Drzyma?y, Wojciecha: 16

To by mog?o u?atwi? tworzenie s?ownika do WRAKa i jednocze?nie da?o nam poj?cie o danych które próbujemy uporz?dkowa?.

Offline

#23 2008-10-16 05:15:16

TomDalek
Member
From: Sopot, Poland
Registered: 2008-09-28
Posts: 28
Website

Re: Debugger ;-)

Jakub Klawiter wrote:

nie, nie nie ... spokojnie! To dzia?a tak, ?e offline korzystaj?c z pliku OSM z geofabric typuje ulice do zmiany, je?li kwalifikuj? si? do zmiany on pobiera plik z tylko t? ulic?, modyfikuje atrybut i odsy?a spowrotem. (de facto odpalaj?c kawa?ek basha Antblanta z tego w?tku).

Neat! smile

Jakub Klawiter wrote:

Mam problem z niejakim genera?em Józefem Bemem

Zgodnie z ide? cienkowania kijka, proponuje, jak antblant mówi, zostawi? dwóch. Galowego i w cywilu.
Mam wra?enie, ?e tytu?owanie kogokolwiek, czymkolwiek od zawsze by?o w Polsce ?liskim tematem. To ?e jaka? tabliczka, w jakim? mie?cie u?ywa, b?d? nie, danego tytu?u, mo?e my?l? mie? dla mieszka?ców jakie? dziwne zabarwienie socjologiczno-polityczne, czy co?. tongue
Je?li GUS postanowi? si? w to nie miesza?, to mo?e i my nie powinni?my. smile

I teraz pytanie. Czy 'J. Bema' i 'Bema' zamienia? na 'Józefa Bema', cywila, zgodnie z ide? upodabniania nazw do tytu?ów artyku?ów polskiej wikipedii? Czy, na galowo, zgodnie z ide?, ?e z genera?ami nie ma ?artów? big_smile
My?l?, ?e lepiej na galowo, bo przecie? dlatego trafiaj? na t? ca?? tabliczk?, ?e byli genera?ami! smile

EDIT
http://storage.neostrada.pl/OSM/wrak-dict.TomDalek.csv
Na razie malutko, ale si? rozkr?cam. big_smile

$ diff -y -B wrak-dict.csv wrak-dict.TomDalek.csv | grep -c \>    #linie nowe
12
$ diff -y -B wrak-dict.csv wrak-dict.TomDalek.csv | grep -c \|    #linie zmienione
2

EDIT 2
Nie, no tak, to te? jako? bez sensu tak. Trzeba jako? skoordynowa? nasz? prac? na s?ownikiem. Proponuj? tak:
http://wiki.openstreetmap.org/index.php/Pl:WRAK
Co s?dzicie? Czy licencje OK? Jakub Klawiter ok? GUS ok?
W sumie nie u?ywamy GUSu tylko dodajemy w komentarzu co GUS na to. Dane s? gównie z Wikipedii.

Last edited by TomDalek (2008-10-16 10:03:48)

Offline

#24 2008-10-16 10:19:57

Jakub Klawiter
Member
From: Poznań
Registered: 2008-10-01
Posts: 60
Website

Re: Debugger ;-)

Jakub Klawiter wrote:

Mam problem z niejakim genera?em Józefem Bemem

TomDalek wrote:

Zgodnie z ide? cienkowania kijka, proponuje, jak antblant mówi, zostawi? dwóch. Galowego i w cywilu.
Mam wra?enie, ?e tytu?owanie kogokolwiek, czymkolwiek od zawsze by?o w Polsce ?liskim tematem. To ?e jaka? tabliczka, w jakim? mie?cie u?ywa, b?d? nie, danego tytu?u, mo?e my?l? mie? dla mieszka?ców jakie? dziwne zabarwienie socjologiczno-polityczne, czy co?. tongue
Je?li GUS postanowi? si? w to nie miesza?, to mo?e i my nie powinni?my. smile

I teraz pytanie. Czy 'J. Bema' i 'Bema' zamienia? na 'Józefa Bema', cywila, zgodnie z ide? upodabniania nazw do tytu?ów artyku?ów polskiej wikipedii? Czy, na galowo, zgodnie z ide?, ?e z genera?ami nie ma ?artów? big_smile
My?l?, ?e lepiej na galowo, bo przecie? dlatego trafiaj? na t? ca?? tabliczk?, ?e byli genera?ami! smile

No w?a?nie to obie strony faktycznego problemu który na dodatek mo?e mie? te? pod?o?e po prostu w momencie w historii kiedy dana nazwa zosta?a nadana. Nie trudno jest mi sobei wyobrazi?, ?e w czasach niedawno minionych nie by?o do ko?ca s?usznym nazwanie ulicy imieniem genera?a który ws?awi? si? w bojach przeciwko mo?e i Carskeij ale jednak Rosji. A im pó?niej (nadawano nazw? ulicy) tym mog?oby? ?atwiej, a? do teraz kiedy nawet tabliczk? na ka?dym rogu przyczepi?.

Ale nasz problem (?ci?lej zwi?zany z map?) zdefiniowa?bym inaczej (dla u?atwienia b?d? si? czepia? tego Bema, najwy?ej wszyscy jego potomkowie razem wzi?ci dostan? czkawki, potrzebny nam przyk?ad big_smile):
1. Jak si? wydaje jedyny Bem który ma szans? na zostanie patronem ulicy to genera? Józef Bem (inni: http://pl.wikipedia.org/wiki/Bem )
2. Zasady OSM (bardzo s?usznie) nakazuj?, aby nazwa ulicy w bazie by?a podana w pe?nym brzmieniu
3. Mamy stado ulic Bema w III PRL i z bazy GUSu wynika, ?e ulice nazwane s? na jedne z 3 sposobów: "Bema", Józefa Bema", "Genera?a Józefa Bema"
4. W bazie OSM mamy podobnie z t? ró?nic?, ?e wi?kszo?? ulic nazwana jest po prostu "Bema" albo przez nieuwag?, albo dzi?ki importowi z UMP, albo dlatego, ?e to stan faktyczny

Mo?emy podmieni? TERAZ wszystko na genera?a, a od tego momentu nie podmienia? tylko co najwy?ej poprawia? pisowni? ... tylko w czym lepsze s? ulice Bema zaimportowane do dzi? od tych które (statystycznie równie b??dnie) pojawi? si? w przysz?o?ci?
Tak na prawd? po prostu musimy jako? wspólnie (szkoda, ?e jest nas ty na forum tak ma?o) wymy?li? jaka wersja nam si? najbardziej podoba i zacz?? j? stosowa?. Zawsze mo?emy kiedy? zmieni? zdanie, nikt nam tego w takim projekcie zabroni? nie mo?e.

Moim zdaniem podawanie nazwy w mo?liwie najpe?niejszym brzmieniu, nawet je?li nie zgodnym z baz? GUS, czy tabliczkami na ulicach jest dobre, bo nie wprowadza w ?aden sposób nieprawdy, a w pewien sposób ma nawet jaki? charakter edukacyjny. By? mo?e kto? kiedy? zobaczy, ?e ulica w jego mie?cie to nie forma na?laduj?ca d?wi?k kot?a perkusyjnego, a nazwisko jakiego? genera?a z XIX wieku. Doczyta, o powstaniu listopadowym które wybuch?o w pa?dzierniku ... same ciekawe rzeczy nawet je?li historia nie kr?ci za bardzo big_smile

W przypadku klanu Drzyma?ów (których pewnie troch? jednak rozp?dem zmieni?em na Micha?ów nie maj?c poj?cia, ?e inni te? s? popularni) aby nie szerzy? nawet przypadkowo b??dów obstaj? przy nie wprowadzaniu zmian ale te? i ich nie negowaniu, czyli rozwijaniu aktualnej wersji do jednej z 4rech mo?liwych.

Poniewa? to moje zdanie pozwoli?em sobie wyartyku?owa? po raz który? z kolei nie chcia?bym aby wygl?da?o jak gdybym cokolwiek chcia? przeforsowa?. Gdyby nas tu by?o wi?cej zrobi?oby si? ankiet? a tak ... pat big_smile Ale na pewno podejmiecie s?uszn? decyzj?, a ja si? dostosuj? i b?d? mia? wygodnie.

Wszelkie tego typu w?tpliwo?ci przy okazji b?d? sygnalizowa? w komentarzach pliku s?ownika b?dzie nam zawsze ?atwiej wróci? do tematu gdyby co? ;-)

To ja teraz spróbuj? wci?gn?? tego twojego DIFFa i zobaczymy co b?dzie, wiki nie rozwi?zuje problemu ... chodzi o to, ?eby by?o ?atwo a nie jest ?atwo edytowa? jednocze?nie plik u siebie sprawdza? czy dzia?a i jednocze?nie nanosi? te zmiany na wiki. Wspó?praca przy tworzeniu s?ownika jest jak najbardziej po??dana, ale co do technologii na razie nie mam pomys?u. Pobawi? si? chwil? mo?e znajdziemy jakie? ?atwe w zarz?dzaniu rozwi?zanie, bo przede wszystkim chodzi o to, ?eby nie pi?trzy? sztucznych trudno?ci.

P.S. Jak co? to ja jestem prawie permanentnie online via Jabber, JID: wariat@chrome.pl otwar?em te? MUC osm.pl@chat.chrome.pl


EDIT:
Nie wiem jak teoria, ale praktyka wykazuje, ?e opublikowany przez Ciebie plik s?ownika sprawdzi? si? w 100%. Zmiany (w liczbie 62 - je?li si? nie pomyli?em w dodawaniu big_smile ) s? ju? w bazie OSM. Przy czym nie kombinowa?em z diffami sensu stricte a po prostu otwar?em oba pliki mój i Twój w meld ( http://meld.sourceforge.net/ ) przenosi?em wiersz po wierszu od razu odpalaj?c wrak uczulony na podan? nazw? ... posz?o bezbole?nie.
Przy okazji r?czne mergowanie pliku pozwala na dodatkow? kontrol? i je?li Tobie ta metoda nie sprawia jakich? specjalnych k?opotów to z mojej strony pe?na automagia. Wersja z Wiki nie by?aby chyba du?o trudniejsza, cho? meld dosta? na g?ow? w pierwszej chwili kiedy wklei?em mu zawarto?? strony, no i mo?e pojawi? si? problem nadmiarowych znaków ko?ca linii przy kopiowaniu ze strony internetowej.
Anyway jakby tego nie zrobi?, nie przewiduj? powa?nych trudno?ci.

Jedna uwaga! Na li?cie s?ów do poprawy (tych po przecinku) wszystko piszemy minusku?? czyli:

Franciszka S?dzickiego, s?dzickiego, s?dzickiego

a nie

Franciszka S?dzickiego, S?dzickiego, S?dzickiego

Ale to szczegó? który bez problemu poprawi?em "w locie" podczas ??czenia dokumentów.



geofabric si? oflagowa?o i nie ma nowego poland.osm z nocy ... chyba, ?e ta 5ta rano to z jakiej? egzotycznej strefy czasowej. Spróbuj? zmontowa? raport z danych GUS, zobaczymy co z tego wyniknie.

UPDATE!
Powitajmy GUStawa. Ze wzgl?du na mo?liwe nadwyr??enie praw autorskich wyników pracy GUStawa publikowa? nie chc?, ale sam GUStaw jest tu: http://wariat.org.pl/skrypty/OpenStreet … aw.tar.bz2

Z GUStawem to jest tak:

$ ./GUStaw.pl < ULIC.xml > stat.txt

gdzie plik ULIC.xml pochodzi z http://www.stat.gov.pl/broker/access/pr … Files.jspa
plik stat.txt jaki powstanie zawiera liczb? wyst?pie? danej wariacji nazwy któr? naj?atwiej przegl?da? grepem np.:

$ grep -i bema stat.txt 
Bema;;ul.                                         :   32
Bema;Alfreda ;ul.                                 :    1
Bema;Genera?a ;ul.                                :    5
Bema;Genera?a Józefa ;ul.                         :    3
Bema;J. ;ul.                                      :    2
Bema;Józefa ;ul.                                  :   76
Bema;Plac gen. Józefa ;pl.                        :    1
Bema;gen. ;ul.                                    :   24
Bema;gen. J. ;ul.                                 :    4
Bema;gen. Józefa ;pl.                             :    3
Bema;gen. Józefa ;ul.                             :  144
Fort Bema;;inne                                   :    1

i wszystko jasne. Oczywi?cie pami?tamy, ?e GUS jako instytucja pa?stwowa utrzymywana z naszych podatków nieomylny nie jest (a wr?cz na przeciwko), ale dla orientacji z czym mamy do czynienia na pewno te dane wystarcz?.

Last edited by Jakub Klawiter (2008-10-16 13:12:53)

Offline

#25 2008-10-16 20:18:44

TomDalek
Member
From: Sopot, Poland
Registered: 2008-09-28
Posts: 28
Website

Re: Debugger ;-)

Jakub Klawiter wrote:

Moim zdaniem podawanie nazwy w mo?liwie najpe?niejszym brzmieniu, nawet je?li nie zgodnym z baz? GUS, czy tabliczkami na ulicach jest dobre, bo nie wprowadza w ?aden sposób nieprawdy, a w pewien sposób ma nawet jaki? charakter edukacyjny. By? mo?e kto? kiedy? zobaczy, ?e ulica w jego mie?cie to nie forma na?laduj?ca d?wi?k kot?a perkusyjnego, a nazwisko jakiego? genera?a z XIX wieku...

lol
A jak! Back to school! Genera?a na nich wszystkich!
Namówi?e? mnie. Od teraz, na zawsze, ka?demu tytu?. I nie zostawia? wersji bez tytu?u we wrak-dict.csv. Dopiero jak kto? zacznie zadym? robi?, to wrócimy do tematu, zrobimy ankiet? na szerok? skal? itp.

Jakub Klawiter wrote:

... Przy okazji r?czne mergowanie pliku pozwala na dodatkow? kontrol? i je?li Tobie ta metoda nie sprawia jakich? specjalnych k?opotów to z mojej strony pe?na automagia. Wersja z Wiki nie by?aby chyba du?o trudniejsza, cho? meld dosta? na g?ow? w pierwszej chwili kiedy wklei?em mu zawarto?? strony, no i mo?e pojawi? si? problem nadmiarowych znaków ko?ca linii przy kopiowaniu ze strony internetowej.
Anyway jakby tego nie zrobi?, nie przewiduj? powa?nych trudno?ci.

O to jakby mi chodzi?o, ?e sprawa jest tak prosta, ?e nie ma co kombinowa?. Zwyk?e wiki i co? w stylu meld powinno wystarczy?. Zreszt? widz?, ?e ju? dzia?asz. smile

Jakub Klawiter wrote:

Powitajmy GUStawa. [...]

Cze?? GUStaw! big_smile

Z pliku stat.txt mo?na te? sobie zrobi? list? Top100 czy Top500 nazw dwucz?onowych i jecha? najwa?niejsze po kolei big_smile

$ grep -v \;\; stat.txt | sort -t : -k 2 -r -n | head -n 100

EDIT
Lub, taka sama lista Top50, ale po odfiltrowaniu wszystkiego co ju? jest we wrak-dict.csv

grep -v \;\; stat.txt | sort -t : -k 2 -r -n | grep -i -v $(grep -v -e ^# -e ^\ *$ wrak-dict.csv | cut -d \, -f 1 | sed -r 's/([^ ]*)$/-e \1/' | sed -r 's/^.* -e/-e/') | head -n 50

yikes Co oczywi?cie zakrawa na perwersje. tongue

Last edited by TomDalek (2008-10-16 23:39:40)

Offline

Board footer

Powered by FluxBB