Детайли към населените места

Здравейте,
Стана ми интересно дали не е възможно да се осъществи автоматична транслитерация на имената на латиница от български език от тага name в тага name:en, тъй като като цяло според мен транслитерацията може да се осъществи сравнително лесно по установените правила. Но има и някои изключения където е възможно да се получат грешки но които могат сравнително лесно да се коригират на ръка.

Транслитерация в коя посока? От кирилица на латиница трябва да е елементарно - всяка буква се замества със съответната ѝ 1 или повече (sht примерно за “щ”).

Здрасти Иванатора.
Точно това имах на предвид да се транслителират имената на улиците и обекти от кирилица на латиница тъй като съм виждал някои карти например за Гармин правени от OSM например буквата “ъ” излиза като символ “?”
Явно конвертора който ползват не ги разпознава точно нашите правила за транслитерация освен това трябва да се вземат на предвид евентуално и тези особености при автоматична транслитерация:

Чл. 5. (1) Транслитерацията на българските буквени съчетания с латински буквени съчетания е, както следва:

1. буквеното съчетание „дж“ се изписва и предава на латиница като „dzh“;

2. буквеното съчетание „дз“ се изписва и предава на латиница като „dz“;

3. буквеното съчетание „ьо“ се изписва и предава на латиница като „yo“;

4. буквеното съчетание „йо“ се изписва и предава на латиница като „yo“.

(2) Буквеното съчетание „ия“, когато е в края на думата, се изписва и предава чрез „ia“.

Чл. 6. Името на българската държава се изписва и предава на латиница в съответствие с установената традиция:

България — Bulgaria

Чл. 7. (1) Географските термини: планина, равнина, низина, плато, град, село, река, езеро, залив и други, които са част от географско име, се транслитерират по следния начин:

Стара планина — Stara planina

Атанасовско езеро — Atanasovsko ezero.

(2) Географските термини, които не са част от географското име, се превеждат според правилата на езика, избран за превод, по следния начин:

Нос Емине — Cape Emine.

(3) Прилагателните „северен“, „южен“, „източен“, „западен“, „централен“ и други подобни, когато влизат в състава на географското име, се транслитерират по следния начин:

Централен Балкан — Tsentralen Balkan

София-юг — Sofia-yug

Перник-север — Pernik-sever.

Предполагам че с някой скрипт на питон лесно може да се осъществи подобна конверсия. Гледам руснаците масово правят подобни скриптове за модифициране на osm данните.

Тук само мога да добавя че в имената нищо не се превежда, а само се транслитерира. Примерно “Стара Загора” няма да стане “Old Zagora” :slight_smile:
“Нос Емине” следва да се преведе като “Cape Emine”, но все пак “Нос” не е част от името на обекта и не би трябвало да фигурира в name тага :slight_smile:

Мисля че намерих един пример скрипт на Питон писан и използван за някои имена на гръцки. Остава само да се редактира за нашите нужди и готово. Навит съм да си поиграя да напиша скрипта, но поради моите бегли познания с програмирането като цяло малко ще ми е трудно като задача. Преди доста време съм си играл да редактирам някой готов Питонски скрипт и може да ми е трудно да се спрява сам.
Иначе за ето това става дума http://code.google.com/p/mapsforge/issues/attachmentText?id=90&aid=900005000&name=transliterator.py&token=2X2TOic2sRtYJLVlj8NkAlZB7u8%3A1344710171684

На много села съм им оправял името на български. Мисля, че са били импортнати набързо от някаква база на латиница. Айдемир все още си е Аидемир. Валкан, Иорданово и т.н., така че първо трябва да се оправи тази транслитерация, а после да се пуска пак обратно на латиница.

Имената на населените места са грешни на места по простата причина и както си се досетил са наистина от готова карта и тя е на Константин Коцев в случая BGtopomaps. Като цяло той първи започна въобще картографирането на страната ни в проекта на Openstreetmap и импортна имената от своята карта. А тя оригинално е правена за Гармин приемници и то доста отдавна може би преди 8 и повече години, а тогава всички туристически приемници поддържаха латиница и са вкарани точно оттам и явно процеса е направен автоматично и според мен заради това има разминавания в имената на кирилица. Пък и лично съм си играл да транслетирам карти за Гармин от латиница на кирилица и точно там се получават тези разминавания поради, защото бягай и кажи на програмата кое "a’’ да се чете като “а” или “ъ” например и оттам идват грешките.

Най-фрапиращото е Kazanlak, но пък го има преведено на 10-на езици вкл. финландски. :smiley: Е, няма ли някой от него край да го пооправи малко :slight_smile:
Бтв, кое е по-правилно да се пише в population taga? Жители по настоящ адрес или по постоянен адрес? Иначе таблици - бол. Може да се автоматизира процеса, стига да си отговарят българските имена.

Да те успокоя името на Казанлък си е точно изписано и няма нищо грешно в него. Ако видиш правилата за транслитериране се изписва точно така. По фрапиращото на немски как е описанието Kasanlak.
По принцип относно броя на населението по правилното според мен е по постоянен адрес, тъй като може да се каже че той е сравнително постоянна величина, макар че настоящ адрес е по обективна велечина за по кратък период от време.
Относно имената на всички населени места ги има в регистъра на населените места в България (ЕКАТТЕ): http://www.nsi.bg/nrnm/

Нищо успокояващо няма в името града на родния език :slight_smile:

int_name = Kazanlak
is_in = Bulgaria
name = Казанлак

Таман днес вече го редактирах, че да не ни се смеят от чужденеция :slight_smile:

Така, до днес не бях видял този форум(или съм забравил за него) :))

Относно населенте места ще поясня накратко. Навремето ги вкарвах от база на латиница, от където и проблема с имената съдържащи Ъ, Ю и т.н.
Сега мисля, че този тип проблем вече е решен.
Извърших следните действия:

  1. Взех всички точки на населените места и проверих с пространствена заявка в кое землище попадат. Взех името на землището (от Екатте). Името съм променял само ако:
    1.1. Старото и новото се различват по малки/главни букви - в тези случаи съм взел името от Екатте changeset
    Забележка: Имената от вида ‘Горно Ново село’ в екатте са ‘Горно ново село’, което е грешно. Смятам да ги оправа, когато намеря всички подобни изключения, които са некоректни в екатте.
    1.2. Ако имената съвпадат над 80%. пак вземам името от Екатте. Тоест това решава проблема с Ъ, Ю и т.н. changeset
    Тези 2 действия се отразиха грубо на около 500 населени места.

  2. След това позлвайки правилата за транслитерация сложих int_name на всички които нямат, или чието int_name се различава от полученото по тези правила. Това се отрази на 4750 населени места, защото повечето нямаха int_name.
    changeset и changeset като във втория са оправени съчетанията за ‘ия’ от ‘iya’ на ‘ia’, както е по правилата
    Tагът name:en не съм го променал за сега, защото не мога да преценя дали трябва да е като int_name, мнения?

  3. Генерирах таг is_in за всички населени места от вида: ‘община,област,Bulgaria,Europe’, като общинта и областа са транслитерирани.
    Пак ползвах пространствени заявки. Не съм сигурен дали този таг не е по-добре да е на български с кирилица, мнения? Трабва ли да има отделни тагове is_in:region и is_in:municipality например?
    Последният въпрос е актуален защото потебителя gaffer е почнал да слага тагове от вида addr:region на населените места, което ми се струва некоректно. Контактнал съм го с предложение да сложим is_in:region и is_in:municipality, но за сега не сме се разбрали.

  4. Мисля да сложа население и евентуално таг wikipedia:bg, мнения?

След няколко процедури по редакция(благодаря на Пламен) останаха следните 50 населени места, които нямат 1:1 съответствие на името с екатте. Транслотерационните грешки са оправени. Причините да ги няма в Екатте са:

  1. Селото е закрито, или присъединиени към друго,
  2. Името се изписва спорно, например Кокорково/Кокорово, гарите, вилна зона, ж.к.

Линкове за редкация, и търсене в гугъл:

Бежанци [g], Беледие хан [[g]](https://www.google.com/#hl=bg&q=Беледие хан), Близница [g], Бостан [g], Ботунец [g], Върлище [g], Гара Бов [[g]](https://www.google.com/#hl=bg&q=Гара Бов), Гара Елин Пелин [[g]](https://www.google.com/#hl=bg&q=Гара Елин Пелин), Гара Лакатник [[g]](https://www.google.com/#hl=bg&q=Гара Лакатник), Горно Вършило [[g]](https://www.google.com/#hl=bg&q=Горно Вършило), Гъбарска [g], Диамандово [g], Долно Вършило [[g]](https://www.google.com/#hl=bg&q=Долно Вършило), Драгойца [g], Драгостин [g], Елените [g], Зоренишки дол [[g]](https://www.google.com/#hl=bg&q=Зоренишки дол), Илювци [g], Иракли [g], Каменна [g], Киркова Махала [[g]](https://www.google.com/#hl=bg&q=Киркова Махала), Киселичево [g], Клашка река [[g]](https://www.google.com/#hl=bg&q=Клашка река), Кокорково [g], Кремиковци [g], Кунево [g], Малко Църквище [[g]](https://www.google.com/#hl=bg&q=Малко Църквище), Мече корито [[g]](https://www.google.com/#hl=bg&q=Мече корито), Миромир [g], Мишкарете [g], Мъсърлии [g], Настан [g], Ниска поляна [[g]](https://www.google.com/#hl=bg&q=Ниска поляна), Ореша [g], Орешица [g], Пампорово [g], Присоето [g], Птичари [g], Радинка [g], Ръченица [g], Секирово [g], Сеславци [g], Средищна [g], Средна [g], Суевци [g], Требич [g], Черневото [g], в.з.Ярема [g], жк. Васил Левски [[g]](https://www.google.com/#hl=bg&q=жк. Васил Левски)

Относно is_in тага - според мен е добре да е на български език, както и name тага си е на български.
Чехите го ползват масово на родния си език - http://taginfo.openstreetmap.org/tags/is_in=Nov%C3%A9%20M%C4%9Bsto%20na%20Morav%C4%9B%2C%20Vyso%C4%8Dina%20kraj%2C%20CZ#overview

    Чл. 3. (1) Териториални единици са населените места и селищните образувания. 
    (2) Населените места са градове и села. 
    (3) Селищните образувания са вилни зони, промишлени зони, курортни комплекси и курортни местности. Те са разположени в землищата на населените места. 

Иракли и Пампорово може би трябва да са с някакъв таг от рода на http://wiki.openstreetmap.org/wiki/Tag:place%3Dhamlet или само locality.
Гара Елин Пелин е само село Елин Пелин в ЕКАТТЕ и http://www.grao.bg/tna/tab04.txt, може би тези гари от имената са отпаднали някъде след 1992 година http://statlib.nsi.bg:8181/isisbgstat/ssp/lister.asp?content=/FullT/extpages/SNM_23_P_1992_1992/SNM_23_P_1992_1992_P*.pdf&from=1&to=307&index=/FullT/extpages/SNM_23_P_1992_1992/SNM_23_P_1992_1992_index.pdf&cont=/FullT/extpages/SNM_23_P_1992_1992/SNM_23_P_1992_1992_content.pdf&type=%F1%F2%F0%E0%ED%E8%F6%E8 (141 стр.)?

Тагът is_in ще го променя да е на български, но може би трябва без частта ‘Европа’ на края?
За курортите си мисля, че все пак трабва да са с таг place, обикновенно са големи и населени?
Гарите(за Елин Пелин и Лакатник проверих само) ги има в екате без “Гара”, във википедия са с гара. При Елин Пелин могат да се разграничат, понеже гарата е село, другото град. При лакатник единствения начин е да се гледа колоната ‘кметство’, селото няма стойност в тази колона, а гарата има.
Тази разпознаваемост мисля е нужна само за да може перидочно да се обновяват данните за население и подобни. Мога да добавя таг екатте и това ще реши проблема. Но винаги ще има населени места(основно махали и села в замлищата на друго, които няма да имат екатте)

P.S.
При редактирането на селата на ръка открих едно с некоректно генериран is_in таг. Селото беше гранично за общината и точката му попадаше в съседната, но такива едва ли са много.

След няколкодневни проби, свалям архива от GEOFABRIK и конвертирам, по метода на проба грешка установих че за да работи пълноценно търсенето след конвертиране в mp формат и последващо конвертиране за навигационни програми - Навител, Гармин, Навикей и предполагам и други, не съм тествал, за полигоните очертаващи територията на населеното място трябва да се присвоят тагове, като на точката на населеното място:
is_in с името на населеното място, област, държава
is_in:region
is_in:country
name името на населеното място
place типа на населеното място.
Тези тагове добавих в очертанията на град Раднево и след конвертиране в mp на всички улици в града са присвоени тагове за име, населено място, регион, държава
На всички адресни точки - също.

Ако не противоречи на принципите на картата, добавянето им би било стъпка в използването на картата на България на OSM в програми за навигация.

редакция: За Гармин с използване на друг метод за конвертиране на картата няма проблем и сега

Погледанах няколко населени места в Европа и там не слагат тези тагове на полигоните на населените места. Технически това не е проблем, но например е възможно да има наеселни места без полигон. По-добре да правим нещата според възприетите принципи, а всички външни страни могат да си направят интелигентен конвертор за ОСМ данните и да си ги ползват както искат. Не мисля, че е гот да модифицираме данните така че да пасват на някакви временни услиовия.
Не разбирам защо ти трябва да чакаш? Най-лесно е да свалиш малко парче от България и офлайн да си добавяш тагове(с JOSM например) с които да тестваш.
Оsmosis e добър инструмент, с който може да си режеш парчета(Ако територията на България е твърде голяма за тест)
Geofabrik не са обновявали данните 13-14 септември, та не разчитай там да са актуални.
Това е добър сайт за екстракти на правоъгълни парчета: http://extract.bbbike.org/. После с осмозис може да си го изрежеш по полигон(клип-полигоните ги има на geofabrik)

Като разгледах по-обстойно osm2mp конвертора и възможонстта за адресация и свързаното с това да работи търсенето и индексацията на адреси в изходния мп файл, то наистина са излишни тези тагове is_in в полигона на населено място. По принцип osm2mp използва Карлсрухе системата на адресация и за да се индексират правилно например улиците ограничени в полигона на населеното място са необходими таговете, addr:country, addr:city, addr:region, като последния таг може да се промени мисля и на addr:state както е по-схема на адресацията описана в английското Wiki на Openstreetmap. Но по приницп се чете тага addr:region тъй като масово руснаците са приели него за описанието главно, но като цяло нещата са принципни и не е много от значение кой таг ще се използва.

Съгласен съм, но трябва да има полигон очертаваш населеното място (квартала) с тагове…

Здравейте! Много ми харесва идеята на OpenStreetMap за България, дано проекта да се разрастне бързо.

Аз също имам идея за обогатяване обаче с текст на българската Wikipedia, тъй като имам достъп до Online библиотека на немски език, бих искал да преведа и допълня статии към Wikipedia БГ, която за съжаления е доста бедна.

Ако някой от вас може да ми даде кантакти (Facebook или емейл) на някой редактор в WIKi БГ с малко по-високи Admin права, бих се радвал да работим заедно. Моят мейл е: carradios(att)yahoo.de