Debugger ;-)

No w sumie masz racje, mo?na szuka? b??dów na podstawie tego co ma GUS. My?l?, ?e nie z?amiemy licencji, przecie? nikt nie ka?e podawa? ?ród?a w jakim s?owniku ortograficznym znalaz?o si? b??d…

Piszemy ?wi?tego, ?wi?tego, czy mo?e ?w. ? ?wi?ty to #ulica z nazwiskiem czy #ulica? I czy ma to jakie? znaczenie? :slight_smile:

Rozumiem, ?e wystarczy pisa? ‘z??’ nazw? z polskimi znakami, a ta bez polskich jest generowana?

Zaczynam si? gubi? :roll_eyes:

Bo to jest tak … mo?na tam wrzuci? wszystko jak leci oczywi?cie, ale IMO i tak nie uzbieramy pe?nej listy, no i IMO jej nie potrzebujemy o czym za chwilk? :wink:

Moim zdaniem s?ownik na pewno powinien zawiera? wszystkie nazwy sk?adaj?ce si? z wielu s?ów co do których mamy pewno?? lub przynajmniej powa?ne podejrzenia, ?e zostan? one wpisane na ró?ne sposoby, chodzi tu o mo?liwie dalek? normalizacj?. W tej kategorii znajduj? si? te? daty bo “1 Maja” to w ko?cu dwa s?owa s? z technicznego punktu widzenia, praktycznie pojawiaj?ce si? jako: “1-ego Maja”, “1 Maja” “1ego Maja” i huk wie co tam jeszcze…
Musimy te? wpisa? tam s?owa które WRAK ze wzgl?du na niedoskona?o?? algorytmu unifikuj?cego nazwy b?dzie mia? ochot? popsu?, jak cho?by przytoczone tu Jacek, Agatka, Bolek i reszta klasy politycznej III PRL :wink:
Nie koniecznie ju?, ale niezmiernie wygodnie jest poda? nazwy zawieraj?ce polskie znaki diakrytyczne, bo to dziedzina gdzie jest masa b??dów wynikaj?cych cz?sto z przyzwyczaje? u?ytkowników (wiem po sobie, jakie? 2 lata zabra?o mi zanim nauczy?em si? pisa? w sieci z “ogonkami” i nadal ró?nie z tym bywa czasami) i innych takich.

Ogranicza nas to ile s?ownik zajmuje w pami?ci podczas dzia?ania, w tej chwili jest to jakie? 700MB co nie powoduje u komputera wi?kszej czkawki ale to dopiero pocz?tek. Gdyby si? zacz??o przytyka? co? si? wymy?li. Ostatecznie s?ownik mo?e by? czytany z dysku przy ka?dym przej?ciu ale to rozwi?zanie klasy masakra roku.

Ale … przecie? to jest tak, ?e wchodzi string: “Kacza”. System nie znajduje s?owa w s?owniku, bo string jest “niegro?ny” przechodzi wi?c do procedury optymalizuj?cej nazw? robi z ni? cuda i sam stwierdza czy jest ok, czy nie. Przyjmijmy, ?e zamiast Kacza kto? wpisa? Kacxa … i mamy byka a o tym nie wiemy bo nazwa nadal wygl?da dobrze i przechodzi. I tu niespodzianka, wystarczy w chwili kiedy uznamy, ?e trzeba si? zaj?c klasycznymi literówkami dokona? mikroskopijnej zmiany i w momencie kiedy WRAK chcia?by uzna? string za prawid?owy wys?a? go do pliku. Uzyskamy w ten sposób poka?ny plik tekstowy zawieraj?cy tylko nazwy które “przechodz?”. Tniemy go?cia na kawa?ki, ?eby si? nie przem?cza?, przepuszczamy przez jakiego? aspella tak, ?eby odfiltrowa? to co istnieje w s?ownikach (bardziej prawdziwych), dla pewno?ci otwieramy OO.o i ka?emy podkre?li? literówki, to co znalaz?, a my potwierdzimy naocznie dopisujemy do s?ownika:
Kacza, kacxa
bzyk i po robocie, po czym t? sekcj? s?ownika mo?na najzwyczajniej w ?wiecie usun?? bo jakie mamy szanse na dwie identyczne literówki?

Dok?adnie w ten sam sposób mo?emy wygenerowa? list? istniej?cych nazw, policzy?, posortowa?, wydrukowa? w formie fototapety… :smiley:

Ja jeszcze jaki? czas chcia?bym potrzyma? WRAKa w jednej instancji, troch? go oczy?ci? … by? mo?e fragmenty przepisa?, bo s? tam miejsca w które wstyd zagl?da?, a co dopiero pokazywa?, a pó?niej ka?dy b?dzie móg? sobie go pomalowa? na dowolny kolor i dostosowa? do wybranej funkcji. Przy czym wydaje mi si?, ?e nie powinno si? go wiesza? tak zupe?nie na wierzchu, bo to narz?dzie którego obs?ugi nie powinno si? raczej uczy? na w?asnych b??dach we wspólnej bazie danych. Znacznie lepiej je?li kto? b?dzie chcia? zgada? si? via jabber, email whatever pogada? i mie? pewno??, ?e nikt (z zewn?trz) nie zapu?ci go z regexpem w stylu s/.*/Tu kiedy? by?a nazwa ulicy/ A meni te? si? przyda je?li kto? go obejrzy i powie mi co i dlaczego spierdzieli?em.

UPDATE:

tak … ka?da nazwa z polskimi znakami jest zamieniana na dwie dodatkowe, tak? bez polskich znaków w sensie ? → a, i tak? gdzie s? one zast?pione przez “WTF character”.

Dla przyk?adu dwa wiersze ze s?ownika:

Z?otej Kaczki
?ó?tej Ci?emki, ci?emki ?ó?tej

spowoduj? wygenerowanie s?ownika który zamieni na prawid?owe odpowiedniki:

zlotej kaczki
z?otej kaczki
zoltej cizemki
???tej ci?emki
ci?emki ?ó?tej
cizemki zoltej
ci?emki ???tej

tak?e ze wszelkimi wariacjami Wielkich/Ma?ych liter

to w której sekcji znajduje si? nazwa, ulica z nazwiskiem czy rzeka nei ma ?adnego znaczenia, one tam s? tylko po to, ?eby by?o je ?atwiej znale?? kiedy chce si? co? dopisa?, ale znaczenia to nie ma ?adnego.

To ja przechodz? na t? drug? stron? mocy :wink: Nie potrzebujemy pe?nej listy ulic, a do wyszukiwania nazw b??dnych najlepszy b?dzie xml z GUS.

Pozwólcie, ?e troch? si? poczepiam :slight_smile:

W pliku http://wariat.org.pl/smietnik/OpenStreetMap/wrak-ignore.txt s? nazwy które IMHO s? nieprawid?owe, tzn:
-UW, SGGW, MSWiA,DS to skróty, dla jednych zrozumia?e, dla innych nie. My?l?, ?e powinny by? rozwijane ( POD to skrót? :slight_smile: )
-(schody),(?cie?ka piesza),(k?adka) to nazwy z UMP, w OSM to b?dzie highway=steps,highway=cycleway,bridge=yes itp.
-DK5, to nie jest nazwa drogi, a jej numer, wi?c wpisujemy go w tagu ref (bez DK). Przyk?ad jak tego nie robi? :slight_smile: http://www.openstreetmap.org/?lat=52.581018&lon=16.828517&zoom=18&layers=B000FTF

Masz racj? a ja si? nieprecyzyjnie wyrazi?em … no i koncepcja si? zmieni?a. Po pierwsze pierwotnie my?la?em o doprowadzeniu s?ownika do wersji kiedy poprawi on wszystko co umie, szybko stwierdzi?em, ?e to nierealne i w tej chwili wrak dzia?a inaczej, ale nade wszystko mój opis pliku by? nieprecyzyjny.
Plik z ignorami to raczej baza nazw które identyfikuj? drogi ktorymi automag ma si? nie zajmowa? i zawiera m.in.

  • nazwy które s? dobre lub prawie dobre i jednocze?nie wyst?puj? raz wi?c nawet je?li chcie? poprawi? to MSWiA to jedyny rozs?dny sposób to otworzy? zadany fragment mapy w potlach czy innym JOSM i po prostu poprawi?.
  • nazwy z którymi nie mia?em poj?cia co zrobi? (te wszystkie schody, ?cie?ki cuda wianki). Automag móg?by poprawi? je co najwy?ej ze z?ych na gorsze, a tak s? zmagazynowane w pliku z ignorami i wiadomo, ?e mo?na si? nimi zaj?? je?li kto? b?dzie wiedzia? jak i mia? ochot?

Je?li jest taka potrzeba mog? zmontowa? plik gdzie ka?dy wpis z listy ignorowanych (która mo?e zyska? now? funkcj?) zostanie przypisany do drogi której odpowiada. Wystarczy tylko, ?e znajdzie si? kto? kto b?dzie wiedzia? co z tym nale?y zrobi? (w sensie jak powinno by? zrobione) no i b?dzie mu si? chcia?o.

UPDATE
A nawet je?li ta lista si? jednak mia?aby nie przydac to … jest tu: http://wariat.org.pl/smietnik/OpenStreetMap/wrak-IGNORUJE.txt :wink:

UPDATE 2
By?bym zapomnia?, s? te? drogi które ignoruj? bez pomocy pliku z ignorami zawieraj? numery dróg w atrybucie name. Sam numerek, albo jakie? E50 czy A8. Je?li to te? nieprawid?owo to mog? je wszystkie (drogi) zadenuncjowa? :wink:

Zacz??em si? nad tym zastanawia? i stwierdzi?em, ?e taka lista by?aby ju? teraz przydatna:
http://storage.neostrada.pl/OSM/ulice.bez.GUStu.txt
To lista nazw ulic z poland.osm (od geofabrik), które nie zawieraj? w sobie wzorca z pierwszego pola wyników GUStawa.

Dzi?ki temu wida?, ?e np. dla Pi?sudskiego, w b??dnych powinni?my mie? te? Pi?sudzkiego. :stuck_out_tongue:

PS: Nie ufa?bym wszystkiemu co jest na tej li?cie, bo to pogl?dowy hack. (na pewno z <way, ale tylko prawie na pewno maj? te? tag highway)

Tak orty i literówki s?, i je?li si? tak? zauwa?y mo?na spokojnie dopisa? do s?ownika, z czasem si? usunie albo nie … je?li ulic “Pi?udzkiego” jest wi?cej to nie ma ?adnego powodu, ?eby szuka? ich r?cznie … cho? nie jest to te? przecie? trudne.
Poza tym cz??? Twojego pliku zniknie po poprawieniu nazw z polskimi znakami … je?li dodamy do s?ownika “Ch?odna” to z poland.osm zniknie “Chlodna” której zapewne GUS nie przewidzia?, bandyci jedni :wink:

Je?li to mo?e pomóc mog? w ka?dej chwili wygenerowa? list? wszystkich nazw jakie WRAK spotyka sformatowan? analogicznie do tej ze stringami z IGNORE. Wtedy nazwa jest na pocz?tku wiersza wi?c mo?na bez cudowania list? sortowa? …

Przy okazji dociera do meni po ma?u, ze to nie jest tak, ?e sobie teraz usi?dziemy i naprawimy … bo z ka?dym dniem okazuje si?, ?e jest wi?cej i wi?cej. Przynajmniej jest weso?o :slight_smile:

I sprawa o której zapomnia?em … poland.osm z geofabric to nie ca?a polska. Zupe?nie o tym zapomnia?em. By?em latem na wakacjach na Helu, przed wyjazdem wgra?em do GPS map? z geofabric w?a?nie i nagle okaza?o si?, ?e kawa?ek za Gdyni? mapa mi si? sko?czy?a … nie dam sobie nic uci??, ale W?adys?awowa ju? chyba nie by?o. Trzeba o tym pami?ta?, a najlepiej znale?? jakie? doj?cie do tych krzy?aków co to wycinaj? i poda? im bardziej aktualne granice Polski … tak?e na pó?noc od Malborka :smiley:

Zadenun-co?! :smiley: Znalaz?em 147 takich przypadków i chyba wszystkie wyt?pilem, jutro si? oka?e z nowym wydaniem poland.osm :wink:

TomDalek: ?wietna ta lista, nic tylko usi??? i poprawia? :smiley:

W bazie jest też trochę takich:
http://www.openstreetmap.org/browse/way/24228397

i jak mam być szczery nie mam pomysłu co z tym robić … to jak rozumiem dwie ulice w jednej, czyli gdzieś po środku nazwa się zmienia, ale gdzie?

Aleja ksi?dza biskupa W?adys?awa Bandurskiego jest na lewo od DK1, a Aleja Adama Mickiewicza na prawo. I wcale nie ?ciaga?em z ‘mapy’, tylko z http://pl.wikipedia.org/wiki/Aleja_Adama_Mickiewicza_w_?odzi :slight_smile:
Du?o jest takich przypadków? Chyba tylko r?cznie mo?na to edytowa?.

Hmm, w tym konkretnym przypadku by?o tak, ?e pierwsza nazwa (ta przed ?rednikiem) by?a prawid?owa. Tzn. kto? przez pomy?k? po??czy? te drogi, ale ta po prawej to by?a Adama Mickiewicza; ks. bp. W. Bandurskiego, a po lewej na odwrót. Je?li tak jest ze wszystkimi to wystarczy wywali? nazw? za ?rednikiem.

Nie, nie ma tego raczej du?o … wst?pne, niedoskona?e przeszukanie plików wskaza?o 25 potencjalnych kandydatów. Przy czym szuka?em nazw ze ?rednikiem po prostu. I tak, to s? miejsca gdzie mo?na poprawi? tylko r?cznie, nie jedyne zreszt?. Przed chwil? trafi?em na ulic? Jo?ciuszki … wpisywanie tego jako synonim Ko?ciuszki do s?ownika by?oby przegi?ciem, a tak system przepuszcza jako prawid?ow?, bo sk?d ma wiedzie? ?e nie :smiley:

Wrzucam na serwer plik wrak-VALID.txt to zestaw stringów które WRAK przepu?ci? jako prawid?owe. Przy czym to nie oznacza, ?e one s? prawid?owe a tylko ?e:

  1. by?y w s?owniku w tej formie → s? OK
  2. nie by?o ich w s?owniku, ale wygl?daj? OK

Wystarczy tam spojrze? ?eby zobaczy?, ?e nie jest tak dobrze jak si? WRAKowi wydaje, cz??? z tych nazw to potencjalne ?ród?o do rozwoju s?ownika, cz??? wymaga r?cznego poprawienia.

W dyskusji na stronie WRAKA zacz??em pisa? draft naszego “Kanonu nazewniczego” (to zacz??em pisa? lokalnie u siebie i nie za?adowa?em jeszcze) i kilka propozycji do dyskusji dotycz?cych pisowni, nie po to, ?eby decydowa? si? na cokolwiek teraz, a bardziej, ?eby nie umkn??o.

UPDATE!
Czy chcieliby?my aby cudzys?owy w nazwach by?y poprawione na polskie, tzn. otwieraj?cy cudzys?ów na dole, zamykaj?cy u góry? W s?owniku i gdziekolwiek nadal wpisywaliby?my po prostu “string w cudzys?owie” oczywi?cie, a nie jakie? unikodowe krzaki, ca?o?? z powodzeniem mo?e wykona? WRAK.
Czy s? jakie? przeciwwskazania?

UPDATE 2
http://wariat.org.pl/smietnik/OpenStreetMap/wrak-VALID-UNIQUE.txt to lista wszystkich nazw które przesz?y przez WRAK jako poprawne ale odfiltrowana, to znaczy ka?dy string tylko raz i bez linka. Zacz??em przegl?da? (od ko?ca) i nawet bez u?ycia skomplikowanych automatów ?atwo odkry? czego brakuje w s?owniku.

Teoretycznie mo?na z tej listy usun?? stringi które si? w s?owniku pojawi?y bo te s? na pewno poprawne ale i tak reszt? trzeba po prostu przeczyta?.
Dobra wiadomo?? jest taka, ?e je?li ta lista zostanie poprawiona to b?dziemy prawie na ko?cu zabawy… albo ja nie zauwa?am jakiego? innego problemu :wink:

Jakby? odfiltrowa? z tej listy stringi ze s?ownika to przyjemniej by si? to czyta?o. Im krótsze s? takie listy, tym wi?kszy mam zapa? do ich poprawiania :wink: Wyci??e? mo?e debugi i UMP_Level? Nie widzia?em protestów :wink:

TomDalek: móg?by? od?wie?y? ulice.bez.GUStu?

Dok?adnie tego samego mi troch? brakuje. Pliki w tej chwili powstaj? w ten sposób:

#!/bin/bash

./OSM-wrak --showignored > wrak-TEST.txt 2> /tmp/wrak-IGNORED.txt
./OSM-wrak --showvalid > /dev/drzewo 2> /tmp/wrak-VALID.txt

sort /tmp/wrak-IGNORED.txt > wrak-IGNORED.txt
sort /tmp/wrak-VALID.txt > wrak-VALID.txt
sed s/http:.*// /tmp/wrak-VALID.txt | sort -u > wrak-VALID-UNIQUE.txt

Lista o któr? chodzi powstaje w ostatnim wierszu i oczywi?cie mo?e zosta? odfiltrowana … i jak tylko zrozumiem jednolinijkowca jakiego zapoda? tu TomDalek który robi co? podobnego jak rozumiem to tak j? uaktualni? … tylko na razie mi nie wychodzi :smiley:

Hmmm dosta?em w?a?nie wiadomo?? via OSM … tylko ona jest po krzy?acku :confused:

google translate t?umaczy to strasznie ?miesznie, ale chyba chodzi mu o WRAKa … tylko czego on sie czepia naszej strony granicy? No chyba, ?e WRAK nabroi? po ich stronie :smiley:

No to mamy pierwszy ZONK, z tym kolesiem. Przy czym nie do ko?ca rozumiem dlaczego cz?owiek który najwyra?niej potrafi rozmawia? tylko po niemiecku (odes?a? mi wiadomo?? przet?umaczon? googlem) czepia si? nazw ulic w .pl

Jest tak: jedna z ulic o które m chodzi to ta:
http://www.openstreetmap.org/browse/way/27885208

wg. bazy GUS ona nazywa si? Stefana Roweckiego, “GROT” to pseudionim, my zmieniamy nazw? na genera?a Stefana “Grota” Roweckiego, kole? na Grota-Roweckgo, czyli nie tyle poprawia po WRAKU co psuje inaczej.
W tej chwili i tak nei ma nowych danych z Geofabric wi?c WRAK dzi? nie je?dzi, ale problem trzeba rozwi?za? jako? czy raczej wymy?li? co robimy. Je?li nie zmienia? nazwy po naszemu to IMO jak ju? dostosowa? do bazy GUS.
Za?o?? w?tek na niemieckim forum, ?eby da? zna?, ?e wiemy co robimy i dlaczego, bo nie chodzi nam o “wojn? edycyjn?”, ?e u?yj? terminu z wikipedii, a po prostu o normalizacj? nazw w .pl.

Nie wiem na ile czytelne jest to co nabazgra?em, ale posz?o: http://forum.openstreetmap.org/viewtopic.php?id=1762

Hmm, ca?kiem mo?liwe ?e facet spisa? z terenu, u mnie na blokach np jest napisane “Grota-Roweckiego” i zazwyczaj tak si? okre?la t? ulic?. W podobny sposób podawa?em te? u siebie w mie?cie, dodawszy “Stefana” wcze?niej. My?l?, ?e form? “Stefana Grota-Roweckiego” stosuje si? cz??ciej, i tak bym to poprawi? - oczywi?cie przyda?by si? ? w Unicode zamiast -

Kole? jest dziwny. Gada do mnie w kó?ko po swojemu i nie do ko?ca kumam czego on si? tak czepi? ulic za granic?. Chwilowo przestan? je?dzi? WRAKiem bo w sumie jest to problem którego oczekiwali?my i dobry moment ?eby?my ustalili wspólne stanowisko raz jeszcze, przy okazji wymy?laj?c jak dyskutowa? z tym kolesiem.

Ja nadal jestem zdania, ?e nale?y poprawia? nazwy zgodnie z za?o?eniami które tu ustalili?my, bo lepsze nawet czasami lekko nadmiarowe dane ni? powa?na braki, o literówkach i spierdzielonym kodowaniu nie wspominaj?c. Przez ostatni tydzie? WRAK poprawi? 1600 nazw czego by?my r?cznie za chiny ludowe nie zrobili w tak krótkim czasie.
On jest z Niemiec i tam mo?e maj? porz?dek, ale u nas wiadomo … znam wiele ulic w Poznaniu gdzie co tabliczka to inna forma zapisu nazwy co tylko umacnia mnie w przekonaniu, ?e nic niew?a?ciwego nie robimy. No a to, ?e w bazie GUS jest inna nazwa ni? ta na któr? si? nasz kolega upiera tylko dodaje sprawie smaczku.

Pewne jest, ?e nie ma co chwilowo a? do rozwi?zania tego problemu kontynuowa? zmian (s?ownik mo?na rozwija? oczywi?cie) bo to nie ma ?adnego sensu. Tak czy siak trzeba wymy?li? co dalej. Spróbuj? go przyci?gn?? na forum, mo?e co? si? wyja?ni.

P.S. W sprawie UMP layer jest tak, ?e od kilku dni znikaj? w ma?ych porcjach i z pocz?tkowych ponad 6000 sztuk zosta?o ju? ko?o 2000. Jak si? tego pozb?dziemy zaczn? kasowa? debugi. Poza tym przenosz? g?ówn? aktywno?? na malowanie Warty :smiley:

Szybki UPDATE

Ja mu, ?e w bazie GUS jest jak jest a on mi tak:

http://translate.google.pl/ gdyby kto? chcia? to przeczyta? a zna? niemiecki jak ja czyli wcale to troch? pomaga :smiley:

Na dodatek chyba OSM pad?o i mu nie odpisz?.

Mo?e ci??ko jest komu? z tak uporz?dkowanego kraju zrozumie?, ?e to co u nas wida? na tabliczce, a to jak si? nazywa ulica to mog? by? 2 ró?ne rzeczy. Wiem, ?e mamy racj?, ale nie bardzo wiem jak go do niej przekona? :wink:
Mo?e napisz mu, ?e ludzie którzy mieszkaj? na tej ulicy maj? w dowodzie ‘nasz?’ nazw?, wi?c w praktyce (i teorii) to ona obowi?zuje?

To nie jest ?adne rozwi?zanie, musimy jako? t? sytuacj? wykorzysta? aby zbudowa? plan dzia?ania przy takich problemach. opisa?em wszystko raz jeszcze na forum niemieckim, przy czym jako? nie jestem przekonany czy to wszystko dotrze do celu.
Zastanów si? czy nie masz jakich? znajomych w tych Policach, to w ko?cu blisko sam jestem ciekaw ile wariacji nazwy uda si? znale?? na tej ulicy. :smiley:

Napisa?em te? do niego, ?eby poda? list? ulic gdzie nie zgadza si? z WRAKiem, bo nie mo?na za?o?y?, ?e on myli si? wsz?dzie, nasz s?ownik wci?? jest niedoskona?y, cho? z drugiej strony lepszy niedoskona?y s?ownik ni? ten ba?agan który mamy gdzieniegdzie w OSM:Poland :smiley:

OK, ja to znam z autopsji… Mieszkam w Szczecinie przy ulicy Gen. Grota-Roweckiego (zapis oficjalny z UM), koleżankę mam z Polic i w adresie zameldowania miała Stefana Roweckiego (bez Grota). Co ciekawe o ten przypadek chciałem zapytać już wcześniej ale jak widzę temat sam wypłynął. IMHO w wyświetlanej nazwie ulicy powinno być tak jak oficjalnie to urząd zapisuje. Do wyszukiwania natomiast powinno być “Roweckiego, Grota, Stefana, generała”…

Oczywi?cie :slight_smile:
http://storage.neostrada.pl/OSM/ulice.bez.GUStu.html
Tym razem to wersja bez ?adnych szybkich haków. Za to z linkiem - ?eby nie szuka?. Z userem - ?eby si? ze wstydu pali? i w?asne czym pr?dzej poprawia?. I z info czy z UMP - ?eby usprawiedliwia?, siebie i innych, ?e to niby nie nasza dysortografia tylko to Ci Kolesie z UMP tak narobili. :stuck_out_tongue:

Dalej:

Ten jednolinijkowiec jest istotnie paskudny i oczywi?cie nie nale?y go nawet próbowa? zrozumie?! Kajam si?. :smiley:

Ale innymi s?owy, po ludzku, i u?ywaj?c pliku zamiast $(), mo?na od czego? odci?? jaki? s?ownik tak:

#!/bin/bash

# Z pliku 'wrak-dict.csv' zróbmy sobie s?ownik 'slownik.wrak.txt',
# odcinaj?c linie komentarza i linie puste z ewentualnymi spacjami,
# a potem wybieraj?c tylko pierwsze pole - tzn. wersje poprawn?.
grep -v -e '^#' -e '^\ *$' wrak-dict.csv | cut -d \, -f 1 > slownik.wrak.txt

# Przeszukajmy, które linie z 'wrak-VALID-UNIQUE.txt'
# _nie_ zawieraj? wzorca ze s?ownika 'slownik.wrak.txt'
grep -v -f slownik.wrak.txt wrak-VALID-UNIQUE.txt > wrak-VALID-UNIQUE.bez.wrak-dict.txt

lub ewentualnie grep -i ?eby nie porównywa? wielko?ci znaków.

W mojej g?owie plan by? taki, aby w pierwszym przebiegu (który potrwa raczej kilka miesi?cy ni? dni) nada? wszystkim takim ulicom jedn? nazw?, tak? któr? uznamy za najpopularniejsz?, najw?a?ciwsz?. Lepsz? wydaje sie mi by? sytuacja kiedy ulica nazwana oficjalnie: Stefana Roweckiego zostanie przez nas nazwana Genera?a Stefana “Grota” Roweckiego, ni? kiedy wszystkie ulice nazwane imieniem tego cz?owieka nazywaj? si? “Roweckiego” a generalnie tak w wielu przypadkach w tej chwili wygl?da OSM:Poland.
W drugim przebiegu mogliby?my zmodyfikowa? s?ownik WRAKa tak, ?e nie poprawia?by niektórych nazw czyli mo?na by uci?? w tym wypadku rang? i pseudonim a WRAK by tego nie poprawi?. To wszystko umiemy zrobi? i zadzia?a. By? mo?e powinni?my zrobi? tak ju? teraz, nie wiem. Mnie ten genera? i pseudonim w niczym by nie przeszkadza?, soft do routingu i tak szuka po dowolnym kawa?ku stringa wi?c te dodatkowe s?owa nic nie psuj?. WRAK stoi w gara?u, ja maluj? Wart? … mo?emy radzi? :smiley:

@TomDalek: dzi?ki za ten kawa?ek basha … kolejna wersja plików materia?ów s?ownikotwórczych :smiley: b?dzie bez zb?dnych stringów.