No w?a?nie tu jest mój problem … czy je?li ulica nosi imi? Józefa Bema który by? genera?em i tak si? go zapewne by przedstawia?o na oficjalnej uroczysto?ci, to czy nazwa “Genera?a Józefa Bema” jest nieprawid?owa i wymaga poprawy? IMO nie do ko?ca.
Mog? mu doda? dwie ró?ne osoby, genera?a i nie genera?a i to b?dzie dzia?a?o zreszt? jest ju? taki wa?ek:
# Drzyma?ów by?o wielu i kilku ma ulice czyli k?opot
# wg GUS Micha?a: 73szt, Stanis?awa: 4szt, Wojciecha: 16szt
Drzyma?y
Micha?a Drzyma?y
Stanis?awa Drzyma?y
Wojciecha Drzyma?y
Je?li kto? wpisze po prostu Drzyma?y to jedyne co poprawi WRAK to ewentualny brak polskiej literki, ewentualnie gdyby co? by?o nie tak z ma?ymi/wielkimi literami. Ale imienia nie doda, bo które?
Tak wi?c wyj?tek jest mo?liwy i prosty do zmontowania, ale tu problem jest troch? inny. Wiemy o kogo chodzi i co najwy?ej mo?emy podac bardziej prawdziw? nazw?, dotycz?c? wci?? tej samej osoby. Tak na prawd? nie ma to jakiego? gigantycznego znaczenia, i jedyny faktyczny cel który osi?gniemy to, ?e b?dziemy pewni, ?e w nazwie nie ma za ma?o danych w stosunku do tabliczek z nazwami ulicy.
IMO gorzej je?li na tabliczce jest “Genera?a Józefa Bema” a my napiszemy “Bema” ni? odwrotnie, na tabliczce jest “Bema” a my napiszemy jak si? kole? na prawd? nazywa. No ale kwestia jest otwarta, a ja si? upiera? nie zamierzam, bo przecie? ma by? tak, ?eby wi?kszo?? osób która si? nad problemem zastanowi uzna?a, ?e jest OK.
S?owniki oba wrzuci?em tu: http://wariat.org.pl/smietnik/OpenStreetMap/ wrak-dict.csv to s?ownik w?a?ciwy od zamieniania stringów, wrak-ignore.txt to stringi które wrak ignoruje jako by? mo?e dziwnie napisane ale prawid?owe.
Pierwotnie my?la?em, ?e da si? stworzy? s?ownik i po prostu zapu?ci? automaga. Ale to nierealne. W tej chwili robi? to tak, ?e po pobrani nowego pliku poland.osm puszczam wraka z aktualnym s?ownikiem i zapisuj? w pliku jego pomys?y na zmiany nazw (plik wrak-test.txt). Otwieram ten plik lessem i znajduj? co? co chcia?by zmieni? co jest prawid?owe lub nie oboj?tnie. Je?li zmiana jest nieprawid?owa znaczy, ze s?ownik ma braki dopisuj? nazw? lub jej wychwycon? wariacj?.
Odpalam WRAK z dodatkowym parametrem który powoduje, ?e skrypt próbuje zmienia? tylko nazwy które w wyniku dadz? podany string, na przyk?adzie:
$ ./OSM-wrak.pl --filter="Andersa"
http://www.openstreetmap.org/browse/way/5080032 Gen. W?adys?awa Andersa -> Genera?a W?adys?awa Andersa
http://www.openstreetmap.org/browse/way/5080033 Gen. W?adys?awa Andersa -> Genera?a W?adys?awa Andersa
http://www.openstreetmap.org/browse/way/19864086 D W?adys?awa Andersa -> Genera?a W?adys?awa Andersa
http://www.openstreetmap.org/browse/way/21607984 gen. W?adys?awa Andersa -> Genera?a W?adys?awa Andersa
http://www.openstreetmap.org/browse/way/23483565 D W?adys?awa Andersa -> Genera?a W?adys?awa Andersa
http://www.openstreetmap.org/browse/way/23869759 Plac gen. W?adys?awa Andersa -> Plac genera?a W?adys?awa Andersa
http://www.openstreetmap.org/browse/way/24271418 gen. W?adys?awa Andersa -> Genera?a W?adys?awa Andersa
http://www.openstreetmap.org/browse/way/26458786 Aleja Gen. W?adys?awa Andersa -> Aleja genera?a W?adys?awa Andersa
http://www.openstreetmap.org/browse/way/27310742 D Andersa -> Genera?a W?adys?awa Andersa
http://www.openstreetmap.org/browse/way/27357975 D Andersa -> Genera?a W?adys?awa Andersa
http://www.openstreetmap.org/browse/way/27368958 D Park W?adys?awa Andersa -> Park genera?a W?adys?awa Andersa
http://www.openstreetmap.org/browse/way/27381591 Aleja Gen. W?adys?awa Andersa -> Aleja genera?a W?adys?awa Andersa
http://www.openstreetmap.org/browse/way/27381592 Aleja Gen. W?adys?awa Andersa -> Aleja genera?a W?adys?awa Andersa
http://www.openstreetmap.org/browse/way/27381618 Aleja Gen. W?adys?awa Andersa -> Aleja genera?a W?adys?awa Andersa
http://www.openstreetmap.org/browse/way/27530115 D Andersa -> Genera?a W?adys?awa Andersa
http://www.openstreetmap.org/browse/way/27530189 D Andersa -> Genera?a W?adys?awa Andersa
(to “D” oznacza, ?e zamiana pochodzi ze s?ownika, je?li go nie ma to zmiana nazwy wynika z “zasad nazewnictwa” wprowadzonych do skryptu. )
i je?li to co wyplu? wygl?da sensownie dodaj? parametr --upload i odpalam raz jeszcze, a je?li nie to poprawiam s?ownik, a czasem sam skrypt i od nowa.
Jest to wi?c taka ?wier? automagia, ale na nic lepszego na razie nie mam pomys?u, a i tak paskudztwo odwala robot? której nikomu by si? robi? nie chcia?o.
W tej chwili baza potencjalnych stringów do zmiany jest tak du?a, ?e spokojnie sobie poradz? tym sposobem, ale licz?, ?e w ko?cu baza nazw si? unormuje i wtedy jedyna szansa na rozwój s?ownika to dodawanie tam stringów przyuwa?onych przypadkiem.
My?la?em te?, czy nie by?oby dobre przelecie? t? baz? nazw z GUS jakim? skryptem aby dosta? list? nazw posortowan? po nazwiskach (NAZWA_1) zawieraj?ca tylko nazw? i ilo?? wyst?pie? w III PRL czyli co? w tym stylu:
Drzyma?y, : 56
Drzyma?y, Micha?a : 73
Drzyma?y, Stanis?awa : 4
Drzyma?y, Wojciecha: 16
To by mog?o u?atwi? tworzenie s?ownika do WRAKa i jednocze?nie da?o nam poj?cie o danych które próbujemy uporz?dkowa?.