Всем привет.
Недавно написал программу для автоматического выявления некоторых ошибок в названиях объектов.
Среди явно выявленных ошибок заметил некоторые особенности, которые хотелось бы обсудить.
Сложно чётко сформулировать в чём дело, поэтому перейду сразу к примерам.
В украинских названиях очевидно встречаются апострофы. Проблема в том что нет устоявшегося кода символа, которым принято обозначать апостроф. Среди названий Харькова я встретил два варианта: ’ (U+0027) и ’ (U+2019). Преимущество первого варианта — символ можно ввести напрямую с клавиатуры, второй же вариант более красивый чтоли.
Точно так же обстоит дело с кавычками. С клавиатуры можно набрать “прямые кавычки”, следом по популярности идут «ёлочки» и „лапки". (вики)
Изредка в названиях встречаются сокращения. Можно написать «Парк Горького», «Парк им. Горького», «Парк имени Горького». Первые два варианта короче, последний — точнее.
Некоторые названия более популярны в сокращённом варианте, то есть велик шанс что именно так их и будут искать. Однако при этом хотелось бы иметь в базе и полное название. Идеально было бы получить на разных масштабах отображение разных вариантов. (Пример: НТУ «ХПИ» и его корпуса [У1, ГАК, ЭК, …])
Хотелось бы узнать у посетителей этого форума — какие варианты всё же предпочтительней использовать и почему. Если удастся договориться, можно будет полуавтоматически выполнить замены и привести наименования к единому виду.
P.S. Форум хоть и передаёт данные в utf-8, но это не мешает ему портить символы
Під Linux в українській розкладці є другий варіант апострофу(U+2019). А ось під WinXP(не знаю як у новіших версіях) там апострофу взагалі немає, тому доводиться використовувати апостроф з англійської розкладки(перший варіант).
Так звані лапки-ялинки ((« ») коди U+00AB та U+00BB) вживаються у машинописних текстах навіть згідно діючого правопису. Якщо назва вимагає використання подвійних лапок, то другі мають форму аналогічну письмовій від руки (наприклад, ТОВ «Підприємство „Мрія"») коди U+201E та U+201C. Звісно, що коректна типографіка розбігається з комп’ютерною глобалізацією. http://uk.wikipedia.org/wiki/%D0%9B%D0%B0%D0%BF%D0%BA%D0%B8
Здається лапки вживають, щоб відокремити назви у потоці звичайного тексту. Так як на мапі весь текст є всілякими назвами, лапки тут взагалі не доречні. Хоча, принаймні можна зустріти об’єкти, які потребують подвійних лапок, пропоную залишити їм лише другу пару.
А стосовно коротких назв на мапі, спробую найближчім часом сформулювати проект нової Угоди та винести його на окреме обговорення.
Підкажіть будь ласка чим керуватись для транслітерації, зокрема вулиця Солов’їна ?
Зараз на OSM картах є тільки одна така вулиця і вона без en варіанту.
Керуватись постановою КМУ від 2010 року? http://zakon3.rada.gov.ua/laws/show/55-2010-%D0%BF
В результаті получається Solovina, що мені не дуже подобається.
99.9% транслітерованих назв вулиць в Україні не містять у собі апострофа і підпорядковуються цим правилам
Я б не рекомендував робити це руками. Як показує практика, велика ймовірність зробити опечатку чи пропустити один з сегментів вулиці. Краще залишити цю роботу для ботів чи для інших напівавтоматизованих інструментів.
Ну і загалом, цінність такою інформацчії є сумнівною. Не дуже зрозуміло навіщо зберігати траснлітеровані назви в базі ОСМ, якщо транслітерацію можна робити динамічно, використовуючи будь-які правила. (Наприклад: https://www.openstreetmap.de/karte.html))
Для іноземців найліпше BGN/PCGN стандарт .
Якщо поґуґлити то виготовлені мапи йдуть зазначений мною , або ISO.
Solov’yina Street так я транслітерував в Малинському районі Житомир обл.
Постанова 2007-2010 стосується тільки при видачі паспорту.
З чого ви таке взяли?
В самій постанові вказано що таблиця транслітерації використовується також і для географічних назв, якими в тому числі є й назви вулиць.
Саме ці правила транслітерації використовуються для транслітерації назв населених пунктів на дорожніх вказівниках.
У Києві назви вулиць на покажчиках також транслітеровані за цими правилами.
Опенстритмап коритується то шо по факту є , а не то шо має бути. Проаналізуйте мапи України анґлійською і скільки у відсотковому співвдношенні користуються яким стандартом .
Викоритання постанови - то є порушення принципу - то шо є по факту, а не то шо має бути.
ігнорування апострофів / специфіка укр мови- не кожна мова має викоритання апострофів для розрізнення звуків - а не викоританя у запозиченнях
Марінка / зменшувально- ласкаво зросійщене / та населений пункт Мар’їнка відоме по АТО , ПЕРЕДАЮТЬСЯ ОДНАКОВО. Тобто відсутня можливість зворотньої транслітераціі на українську мову. Так само і інших випадків.
Не розрізнення пом’якшення м’яким знаком на письмі звуків та твердих :
л ль н нь с сь ц ць
нівелювання взагалі апострофів /не кожна мова мє апостроф як засіб передачі розрізнення звуків - тобто це унікальність мови.
Мої 5 копійок: я би назвав Solovyina Street. Апостроф в англ. мові означає пом’якшення (судячи з деяких дорожніх знаків). «Korsun’» наприклад. Але в ОСМ це правило не діє. Вже не знаю де, але колись читав прийняті правила спільноти.
Bondar Bohdan,
в OSM вноситься те, що є на місцевості (Kamianytsia, Kamianukha, Lukianivska), а не те, що на інших картах. Більше того, копіювання будь-яких даних з інших карт заборонене.
На дорожніх знаках застосовуються правила з постанови, саме тому спільнотою OSM було вирішено також керуватися цими правилами.
Не вигадуйте нових правил, користуйтесь тими, що уже використовуються.
я з андроiдного ОСМАНДу зробив висновок що рекомендаціі про непотрібність name=en та інші неправомiрні - автоматичний скрипт транслітерує жах. По якій сь сам собі видуманіі системі. Тому я англійська китайська і білоруська /треба помогти сусідам - бо в них через то шо мало білоруської -відсутні як одна з підстав змінити нейм =ру на нейм =бе/ додам теги обов’язково
З огляду важливості правильного використання типографських знаків в українській мові, останнім часом, я змінив власну думку на користь використання для апострофа наступного символу.
ʼ
MODIFIER LETTER APOSTROPHE
Unicode: U+02BC, UTF-8: CA BC
який на відміну від нижче наведених символів не є розділовим знаком, а являє собою літеру (це видно з його назви) та не розбиває слово, як інші знаки пунктуації, на два.
'
APOSTROPHE
Unicode: U+0027, UTF-8: 27
’
RIGHT SINGLE QUOTATION MARK
Unicode: U+2019, UTF-8: E2 80 99
як вчиняти якшо назва залізничної станції різниться та що на сайті Укрзалізниці і та таблоїдом на власне на станції Укрзалізниця і нейм на мапі Пенизевичі
А таблоїд і. , в побутовій мові, використовується Пенізевичі
На сайті Укрзалізниці і відповідно перенесене на мапу Опенстритмап name=Пенизевичі
Я сам з райцентру Малин , був у смт Гранітне і звернув увагу , що на самій станції вивіска Пенізевичі.
Тобто різниться у 1 букву
Зауваження :
1 - на сайті Укразалізниці допущено помилку, та зросійщений варіант. Назва походить від Піня - єврей, що тримав мережу шинків на цій території. Тому я вважаю , що має бути name=Пенізевичі,
а те що на сайті Укрзалізниці як альтернативна назва.
2/ місцеве населення використовує у побуті , що українською , що російською , що україно-російським суржиком - Пенізевичі