Preslovljavanje (Transliteration)

мпеле, ја бих ти радо помогао али не трошим џаву. Могу само да ти дам неке сугестије генералне природе а имам искуства јер сам се доста бавио пресловљавањем.

@mpele
Tako nekako. Što se mene tiče, može to i jednostavan diff na staroj i novoj osm datoteci da bude, onda mogu odmah da vidim gde postoje izmene, a i direktno zakrpu da ispravim i vratim.

Имењаче, упознат сам са са твојим радом још од ере пре интернета и сваки савет је добродошао.
Овде је проблем концептуално друге природе од стандардног проблема пресловљавања јер није императив добити пресловљавање са што већом тачношћу, већ одредити ситуације где је пресловљавање успешно 100%.

Како тренутно стоје ствари кристалише се идеја да бот прочешља базу и ако је laitinica(name:sr)==latinica(name) онда је објекат коректно обрађен и нема потребе за даљом обрадом. Овиме би се покрио случај када је лектор то прогласио коректним (раније сам размишљао и о посебном тагу за посебне ситуације, али сада не могу да се сетим ситуације када би он био неопходан).

Ако није задовољен претходни услов онда имамо две варијанте:

  • чиста ћирилица - бот све сам заврши
  • остало - шаље се на лектуру.

Слање на лектуру би подразумевало дневно генерисање osm фајлова са “двосмисленим ситуацијама” који би били доступни преко веб интерфејса. Тај фајл би се учитавао у ЈОСМ и уз плаг-ин обрађивао.

Iskreno receno mislim da bi za pocetak bilo dobro da konacnu odluku donosi korisnik, a ne bot. Kasnije kad se situacija malo iskristalise dalja automatizacija moze da se ukljuci. Zelja da se sve unapred predvidi odlicnim programiranjem je cesta zamka u ovom poslu, i bilo bi bezveze da se suvise puno vremena ulozi u nesto sto ce na kraju da propadne kao projekat. Ja predlazem “sitne” korake. Mozda je i najbolje za pocetak da se usavrsi plugin i da svako koristi taj plugin onda, i posle pregleda izmena iste gurne u bazu… Time se stvara i… “accountability”…

(Ma, srpski lengvidzh mi je svetinja)

Управо то и јесте костур идеје, али ја предлажем и малу надоградњу, тј. да корисник не мора да лута по мапи и тражи где фали таг name:sr већ да му се то сервира.

Naravno, bot treba da reši sam sve što je očigledno i da se automatski rešiti prema definisanim pravilima, a ono što je nejasno treba da ostavi nama i da nam izdvoji šta treba da se uradi. Čak i ono što odradi automatski može a prikaže da ipak neko može da pregleda ieventualno popravi ak se pojavi kakva greška.

Jesi li to napravio lapsus? Zar name:sr ne treba da sadrži ćirilični naziv?

Брендирана имена, по мени, треба да остану на латинициi u name:sr тагу: Taxi, MAXI, OMV, McDonalds, Beneton…

ЕјСи ДиСи НиЗаДиСиНиСи

То да.

Онда би алгоритам могао да буде овакав:

  • ако је попуњен name:sr а name није није исти као name:sr онда се name:sr преписује у name
  • ако је попуњен name ћириличним текстом, а name:sr је празан, онда се преписује name у name:sr
  • ако name садржи нећириличне знакове а name:sr је празан, онда се пријављује да је потребна интервенција
  • у name:sr-Latn се преписује садржај name:sr пресловљен у латиницу

Ако је потребна интервенција, корисник треба да у name:sr упише тачан назив. Може да га упише и у name, мада ако то не уради, то ће урадити бот у следећем пролазу.

Мислим да би то покрило све случајеве.

Постоји ли могућност да бот убаци неки кастом таг којим би могао да назначи какав је статус уноса? Ако би то могло онда не би морали да посебно извлачимо објекте које треба прегледати него бисмо их простом претрагом по том тагу извукли.

Može npr. da se ubaci ‘fixme’ sa nekim opisom koji će biti specifičan za tu upotrebu.

http://wiki.openstreetmap.org/wiki/Key:fixme

Što se brendiranih naziva tiče, po meni ne bi uopšte trebalo da imaju ‘name:sr’ ako nisu na srpskom jeziku. U ‘name’ može da stoji štagod.

Mislim da strane nazive za sada ne treba dirati jer ne postoji tacan dogovor… Jel postoji mogucnost da se oni samo zanemare. U name:sr nikako ne treba pisati nista osim cirilice, rimskih br i eventualno nekih standardnih znakova.
Sta fali da se Taxi napise cirilicom Taksi? Primer upotrebe svog jezika Rusija, Grcka… Moglo bi da se pise po Vuku (i svi ostali jezici imaju slicna pravila za strane reci)… Ali za sada bolje da ostane samo name.
Jel moze plugin da razlikuje ulice od ostalih objekata, pa samo njih da prebacuje u cirilicu, a ostale da salje na proveru?

Технички, ово би било идеално решење, само морам да приметим да је најлогичније мењати таг name а не name:sr . Плашим се да би било проблема по овом питању, тј. да бисмо губили измене. У оваквим случајевима бот-у бих дозволио да мења једино ако се консултује са историјом тог објекта, а у овом тренутку је то далека будућност.

Није проблем додати наш таг. И њега не би требало мешати са fixme јер fixme означава да нешто треба мењати а наш таг би морао и да означи да је тренутно стање добро. Рецимо, ако се одлучи да name:sr треба да буде празно, односно да га нема, бот мора знати да је то “лекторисано” решење.

Nema potrebe biti tako rigorozan. U name:sr treba da se upiše sve što je u skladu sa pravopisom.

Rekli smo da name tag uvek treba da ima isti sadrzaj kao i name:sr osim ako je name:sr prazan. name:sr je tag za nazive na srpskom jeziku i sve automatske izmene treba da se zasnivaju na njemu. name tag je samo default ispis.

S obzirom da je sadasnje stanej da su uglavnom popunjeni name tagovi a ne name:sr, to ce u prvom krugu morati da bude reseno verovatno dobrim delom automatski tako sto ce se name prepisati u name:sr. Ali, to je samo prelazno resenje. Generalno, ako je name:sr popunjen onda trebauzimati da je on ispravan i na osnovu njega raditi svu dalju automatsku obradu.

Mislim da nema potrebe obeleyavati da je sve ispravno. Moye neko nesto rucno da izmeni, a da ne skloni taj tag i ako je napravio gresku to bot nikada nece pregledati jer ce imati oznaku da je ispravno.

Bolje je da se samo oznaci neispravnim slog koji je neispravan, tako da mi mozemo da ispravimo. Bot ce svakako i neispravan slog povremeno proveravati pa ako ga je neko rucno sredio a zabioravio da obrise oznaku da je slog neispravan, bot ce to videti i obrisati.

Po onom predlogu koji sam dao, upste nema potrebe da se oynacavaju iyuyeci. Pravilo je da se uzima da je name:sr ispravan i kako stoji u njemu tako je tacno. Izuzetaka ne moze da bude jer ako i postoje oni ce biti upisani u name:sr i automatski obradjeni kao i svi ostali slucajevi. Cak i ako je name:sr prazan, to treba da bude tako ali ako je on prazan onda treba da budu prazni i svi ostali name tagovi. Drugacije nema smisla.

Nema potrebe za tim. Pravopis vazi za sva imena i ne razlikuje ulice od drugih imena.

Slazem se sa tim, ali dogovor za sada kaze ovako:

name=Булевар Зорана Ђинђића (tj pisano pismom lokalnog stanovnistva)
name:sr=Булевар Зорана Ђинђића
name:sr-Latn=Bulevar Zorana Đinđića
name:en=Zoran Djindjic Boulevard (u nominativu)
name:xx=ostali jezici

obavezno unosenje name:sr
ako name nije na srpskom, onda obavezno uneti i kao name:xx

Kako je name:sr skracenica za name:sr-Cyrl-RS, onda mora cirilica.

Vise na tu temu pod threadom za Name…

То је био твој предлог коме једино ја замерам, док остали ћуте. Твој предлог је, по мени, идеалистико гледање на ствари и најлакше за реализацију. Ја се плашим да су ствари мало компликованије.

За наставак ове дискусије морамо сачекати да се прво договоримо шта желимо, а онда ћемо да то технички решавамо.

Разумео сам да је то већ договорено и нисам мислио да ја ту предлажем нешто ново. Колико сам видео, ОСМ правило је да се називи уписују у тагове са ознаком :{nn} где је {nn} ознака језика а да је таг без :{nn} само подразумевани испис који се користи ако језик није назначен (ово се иначе не односи само на name, него и на све друге тагове где се текст уноси слободно).

За српски језик то значи да се користи таг name:sr. Пошто ми користимо два писма, усвојено је да се за латиничну верзију користи name:sr-Latn (што мало одступа од обичаја на ОСМ да се користе само мала слова и да се не користи повлака у таговима, али то је небитно).

У чему је компликација са коришћењем name:sr? Ја је не видим.

Једино где су подељена мишљења је то шта треба да стоји у name тагу који је подразумeвани приказ. Има нас који мислимо да ту треба уписивати исто што и у name:sr а има и мишљења да треба уписивати то или писмо мањина).

Мени се чини логичним, да за приказ мапе Србије као целине, треба цео приказ да буде на једном писму, оном које је званично, а да се за посебне регије на мапи могу користити и друга писма, која су сходна тим регијама. Онај коме треба мапа одређене регије само треба да изабере на ком језику и писму жели да чита мапу и наравно, да обезбеди да написи буду уписани у мапу на том језику и писму. Чак то може да ради и ван те мање регије, то јест на нивоу целе мапе, чак и ван Србије, јер све написе на жељеном језиу може да упише у name:{nn}. Као што ниеј необично видети да су неки називи на мапи Србије уписани одговарајућим таговима са :{nn} на више језика, тако није необично то видети и ван мапе Србије - неки већи градови у свету могу без проблема да имају уписану у српску верзију њихових назива.

I ovo se može pretumbati na više načina. Šta znači ‘prikaz mape Srbije’? Za koga, ko potražuje taj prikaz?

Tako npr. ako se potražuje pirkaz mape na srpskom jeziku, onda se mapa prikazuje i izdaje upotrebom ‘name:sr’ naziva (ili latiničnih ako je bilo takvo potraživanje), a ne oslanja se na ‘name’.

Kada se jezik prikaza izričito ne potražuje, onda bi valjda trebalo da bude onako kako je na terenu [1].

Ali slažem se sa idealnim rešenjem i ja sam to već ranije predložio [2]: na nivou neke regije (tj. administrativne relacije) treba definisati spisak željenih jezika i svi treba da budu prikazani, ali to nije sada problem o kome raspravljamo jer se on tiče krupnije slike za ceo OSM projekat (npr. Belgijanci bez tako nečega ne mogu nikako da razvežu Gordijev čvor upisa više jezika u ‘name’ [3]).

Nama je sada najbitnije popuniti bazu valjanim nazivima na srpskom sa odgovarajućim oznakama, jer se ostalo da sređivati automatski kasnije kada se stvore tehnički uslovi.

[1] http://wiki.openstreetmap.org/wiki/Disputes#On_the_Ground_Rule
[2] http://forum.openstreetmap.org/viewtopic.php?pid=224497#p224497
[3] http://wiki.openstreetmap.org/wiki/Talk:Names#Language_on_name_on_countries

Ja stavrno ne razumem stalnu potrebu uvođenja nekih custom tagova (nije upućeno samo tebi, slična priča i za škole na drugoj temi).

Iz definicije za ‘fixme’:

Upravo ono što želimo, ni više ni manje. Da neko proveri. I to se sve lepo vidi npr. na OSMI-u ili KeepRightu bez potrebe pravljenja novih alata:

http://tools.geofabrik.de/osmi/?view=tagging&lon=20.94930&lat=44.36539&zoom=14&overlays=fixmes_on_nodes,fixmes_on_ways

Samo stavimo npr.:

fixme=preslovljavanje (ili kakvu god već oznaku)

ili dodamo ako je već bilo nešto prisutno u ovom slučaju

fixme=not_reviewed;preslovljavanje