You are not logged in.
- Topics: Active | Unanswered
Announcement
Pages: 1
#1 2010-12-05 12:09:13
- Vort
- Member
- Registered: 2010-11-29
- Posts: 512
Стандартизация названий
Всем привет.
Недавно написал программу для автоматического выявления некоторых ошибок в названиях объектов.
Среди явно выявленных ошибок заметил некоторые особенности, которые хотелось бы обсудить.
Сложно чётко сформулировать в чём дело, поэтому перейду сразу к примерам.
1. В украинских названиях очевидно встречаются апострофы. Проблема в том что нет устоявшегося кода символа, которым принято обозначать апостроф. Среди названий Харькова я встретил два варианта: ' (U+0027) и ' (U+2019). Преимущество первого варианта — символ можно ввести напрямую с клавиатуры, второй же вариант более красивый чтоли.
2. Точно так же обстоит дело с кавычками. С клавиатуры можно набрать "прямые кавычки", следом по популярности идут «ёлочки» и „лапки". (вики)
3. Изредка в названиях встречаются сокращения. Можно написать «Парк Горького», «Парк им. Горького», «Парк имени Горького». Первые два варианта короче, последний — точнее.
4. Некоторые названия более популярны в сокращённом варианте, то есть велик шанс что именно так их и будут искать. Однако при этом хотелось бы иметь в базе и полное название. Идеально было бы получить на разных масштабах отображение разных вариантов. (Пример: НТУ «ХПИ» и его корпуса [У1, ГАК, ЭК, ...])
Хотелось бы узнать у посетителей этого форума — какие варианты всё же предпочтительней использовать и почему. Если удастся договориться, можно будет полуавтоматически выполнить замены и привести наименования к единому виду.
P.S. Форум хоть и передаёт данные в utf-8, но это не мешает ему портить символы
Offline
#2 2010-12-05 13:20:42
- Upliner
- Member
- From: Kyiv
- Registered: 2008-09-18
- Posts: 845
Re: Стандартизация названий
1. В украинских названиях очевидно встречаются апострофы. Проблема в том что нет устоявшегося кода символа, которым принято обозначать апостроф. Среди названий Харькова я встретил два варианта: ' (U+0027) и ' (U+2019). Преимущество первого варианта — символ можно ввести напрямую с клавиатуры, второй же вариант более красивый чтоли.
Під Linux в українській розкладці є другий варіант апострофу(U+2019). А ось під WinXP(не знаю як у новіших версіях) там апострофу взагалі немає, тому доводиться використовувати апостроф з англійської розкладки(перший варіант).
Last edited by Upliner (2010-12-05 13:24:04)
Big cat is watching you
Offline
#3 2010-12-05 15:29:23
- andygol
- Moderator
- From: Дніпро
- Registered: 2009-07-31
- Posts: 1,963
- Website
Re: Стандартизация названий
Я використовую як у Linux так Windows Українську розкладку клавіатури з символами Unicode — http://r2u.org.ua/wiki/keyboard/UkrainianUnicode. Тобто апостроф ' (U+2019).
Offline
#4 2010-12-05 15:56:05
- Vort
- Member
- Registered: 2010-11-29
- Posts: 512
Re: Стандартизация названий
и что с этим делать?
оставить как есть - вперемешку - или выбрать таки что-то одно?
і що з цим робити?
залишити як є - упереміш - або вибрати таки щось одне?
Last edited by Vort (2010-12-05 15:57:46)
Offline
#5 2010-12-05 16:27:56
- andygol
- Moderator
- From: Дніпро
- Registered: 2009-07-31
- Posts: 1,963
- Website
Re: Стандартизация названий
1. приводити все до (U+2019). див. https://forum.openstreetmap.org/viewtop … 93#p632293
2. про лапки не можу сказати нічого - мабуть лишати так як є, а потім повернутись до цього питання.
3. …
4. якщо більш популярною є скорочена назва: лишаємо її, а в official_name пишемо вже повну назву.
Last edited by andygol (2010-12-05 16:28:20)
Offline
#6 2010-12-05 21:03:23
- va-deam
- Member
- From: Ukraine
- Registered: 2009-07-24
- Posts: 110
- Website
Re: Стандартизация названий
Так звані лапки-ялинки ((« ») коди U+00AB та U+00BB) вживаються у машинописних текстах навіть згідно діючого правопису. Якщо назва вимагає використання подвійних лапок, то другі мають форму аналогічну письмовій від руки (наприклад, ТОВ «Підприємство „Мрія"») коди U+201E та U+201C. Звісно, що коректна типографіка розбігається з комп'ютерною глобалізацією.
http://uk.wikipedia.org/wiki/%D0%9B%D0% … 0%BA%D0%B8
Здається лапки вживають, щоб відокремити назви у потоці звичайного тексту. Так як на мапі весь текст є всілякими назвами, лапки тут взагалі не доречні. Хоча, принаймні можна зустріти об'єкти, які потребують подвійних лапок, пропоную залишити їм лише другу пару.
А стосовно коротких назв на мапі, спробую найближчім часом сформулювати проект нової Угоди та винести його на окреме обговорення.
Offline
#7 2010-12-05 21:56:09
- Vort
- Member
- Registered: 2010-11-29
- Posts: 512
Re: Стандартизация названий
Здається лапки вживають, щоб відокремити назви у потоці звичайного тексту. Так як на мапі весь текст є всілякими назвами, лапки тут взагалі не доречні.
ось приклади:
http://www.openstreetmap.org/browse/way/24714709
http://www.openstreetmap.org/browse/way/84620826
Offline
#8 2016-12-12 14:55:02
- zalex_ua
- Member
- Registered: 2012-12-07
- Posts: 12
Re: Стандартизация названий
Шукав схожий топік - не знайшов, то створю новий.
Підкажіть будь ласка чим керуватись для транслітерації, зокрема вулиця Солов'їна ?
Зараз на OSM картах є тільки одна така вулиця і вона без en варіанту.
Керуватись постановою КМУ від 2010 року? http://zakon3.rada.gov.ua/laws/show/55-2010-%D0%BF
В результаті получається Solovina, що мені не дуже подобається.
Є купа всяких конвертерів транслітерації в інеті які пропонують різні варіанти, ось який попався http://www.slovnyk.ua/services/translit.php
А як щодо апострофу - знайшов старий топік де це начебто вже вирішено https://forum.openstreetmap.org/viewtopic.php?id=10246
То використовувати
’
?
Offline
#9 2016-12-12 18:40:39
- olehz
- Member
- From: Lviv
- Registered: 2011-08-11
- Posts: 729
- Website
Re: Стандартизация названий
1. 99.9% транслітерованих назв вулиць в Україні не містять у собі апострофа і підпорядковуються цим правилам
2. Я б не рекомендував робити це руками. Як показує практика, велика ймовірність зробити опечатку чи пропустити один з сегментів вулиці. Краще залишити цю роботу для ботів чи для інших напівавтоматизованих інструментів.
3. Ну і загалом, цінність такою інформацчії є сумнівною. Не дуже зрозуміло навіщо зберігати траснлітеровані назви в базі ОСМ, якщо транслітерацію можна робити динамічно, використовуючи будь-які правила. (Наприклад: https://www.openstreetmap.de/karte.html)
Offline
#10 2016-12-17 16:47:18
- Bondar Bohdan
- Banned
- From: Malyn Zt oblast'
- Registered: 2016-11-19
- Posts: 153
Re: Стандартизация названий
Для іноземців найліпше BGN/PCGN стандарт .
Якщо поґуґлити то виготовлені мапи йдуть зазначений мною , або ISO.
Solov'yina Street так я транслітерував в Малинському районі Житомир обл.
Постанова 2007-2010 стосується тільки при видачі паспорту.
Offline
#11 2016-12-17 17:51:50
- dudka
- Member
- From: Київ
- Registered: 2011-04-22
- Posts: 1,605
Re: Стандартизация названий
Постанова 2007-2010 стосується тільки при видачі паспорту.
З чого ви таке взяли?
В самій постанові вказано що таблиця транслітерації використовується також і для географічних назв, якими в тому числі є й назви вулиць.
Саме ці правила транслітерації використовуються для транслітерації назв населених пунктів на дорожніх вказівниках.
У Києві назви вулиць на покажчиках також транслітеровані за цими правилами.
Offline
#12 2016-12-18 07:39:26
- Bondar Bohdan
- Banned
- From: Malyn Zt oblast'
- Registered: 2016-11-19
- Posts: 153
Re: Стандартизация названий
Опенстритмап коритується то шо по факту є , а не то шо має бути. Проаналізуйте мапи України анґлійською і скільки у відсотковому співвдношенні користуються яким стандартом .
Викоритання постанови - то є порушення принципу - то шо є по факту, а не то шо має бути.
https://www.google.com.ua/search?q=map+ … rjqxqrM%3A
У зв язку з тим щоУкраїна є головною темою світових новин , то ви зайдіть на англомовні версіі світових масмедіа і подивіться як пишеться - французи мапять Україну відштовхуючись від BGN/PSGN - спрощуючи відкидаючи апостроф в кінці /Коростень /
2/Чинник
Ця постанова - то є ґвалтування укр мови. Не потрібно бути вченим , шоб то розуміти.
- ігнорування апострофів / специфіка укр мови- не кожна мова має викоритання апострофів для розрізнення звуків - а не викоританя у запозиченнях
- Марінка / зменшувально- ласкаво зросійщене / та населений пункт Мар'їнка відоме по АТО , ПЕРЕДАЮТЬСЯ ОДНАКОВО. Тобто відсутня можливість зворотньої транслітераціі на українську мову. Так само і інших випадків.
- Не розрізнення пом'якшення м'яким знаком на письмі звуків та твердих :
л ль н нь с сь ц ць
- нівелювання взагалі апострофів /не кожна мова мє апостроф як засіб передачі розрізнення звуків - тобто це унікальність мови.
Offline
#13 2016-12-18 15:05:13
- VARVAR8
- Member
- Registered: 2016-07-11
- Posts: 266
Re: Стандартизация названий
Мої 5 копійок: я би назвав Solovyina Street. Апостроф в англ. мові означає пом’якшення (судячи з деяких дорожніх знаків). «Korsun’» наприклад. Але в ОСМ це правило не діє. Вже не знаю де, але колись читав прийняті правила спільноти.
Offline
#14 2016-12-18 15:20:04
- dudka
- Member
- From: Київ
- Registered: 2011-04-22
- Posts: 1,605
Re: Стандартизация названий
Bondar Bohdan,
в OSM вноситься те, що є на місцевості (Kamianytsia, Kamianukha, Lukianivska), а не те, що на інших картах. Більше того, копіювання будь-яких даних з інших карт заборонене.
На дорожніх знаках застосовуються правила з постанови, саме тому спільнотою OSM було вирішено також керуватися цими правилами.
Не вигадуйте нових правил, користуйтесь тими, що уже використовуються.
Last edited by dudka (2016-12-19 09:50:26)
Offline
#15 2017-01-25 18:54:11
- Bondar Bohdan
- Banned
- From: Malyn Zt oblast'
- Registered: 2016-11-19
- Posts: 153
Re: Стандартизация названий
я з андроiдного ОСМАНДу зробив висновок що рекомендаціі про непотрібність name=en та інші неправомiрні - автоматичний скрипт транслітерує жах. По якій сь сам собі видуманіі системі. Тому я англійська китайська і білоруська /треба помогти сусідам - бо в них через то шо мало білоруської -відсутні як одна з підстав змінити нейм =ру на нейм =бе/ додам теги обов'язково
Last edited by Bondar Bohdan (2017-01-25 18:55:21)
Offline
#16 2017-02-15 22:43:54
- andygol
- Moderator
- From: Дніпро
- Registered: 2009-07-31
- Posts: 1,963
- Website
Re: Стандартизация названий
З огляду важливості правильного використання типографських знаків в українській мові, останнім часом, я змінив власну думку на користь використання для апострофа наступного символу.
ʼ
MODIFIER LETTER APOSTROPHE
Unicode: U+02BC, UTF-8: CA BC
який на відміну від нижче наведених символів не є розділовим знаком, а являє собою літеру (це видно з його назви) та не розбиває слово, як інші знаки пунктуації, на два.
'
APOSTROPHE
Unicode: U+0027, UTF-8: 27
’
RIGHT SINGLE QUOTATION MARK
Unicode: U+2019, UTF-8: E2 80 99
Offline
#17 2017-02-25 06:16:58
- Bondar Bohdan
- Banned
- From: Malyn Zt oblast'
- Registered: 2016-11-19
- Posts: 153
Re: Стандартизация названий
як вчиняти якшо назва залізничної станції різниться та що на сайті Укрзалізниці і та таблоїдом на власне на станції Укрзалізниця і нейм на мапі Пенизевичі
А таблоїд і. , в побутовій мові, використовується Пенізевичі
Offline
#18 2017-02-26 00:27:29
- andygol
- Moderator
- From: Дніпро
- Registered: 2009-07-31
- Posts: 1,963
- Website
Re: Стандартизация названий
Шановний, Bondar Bohdan!
Будь ласка, розтлумачте так, щоб й інші змогли зрозуміти в чому проблема.
Offline
#19 2017-02-26 07:22:35
- Bondar Bohdan
- Banned
- From: Malyn Zt oblast'
- Registered: 2016-11-19
- Posts: 153
Re: Стандартизация названий
На сайті Укрзалізниці і відповідно перенесене на мапу Опенстритмап name=Пенизевичі
Я сам з райцентру Малин , був у смт Гранітне і звернув увагу , що на самій станції вивіска Пенізевичі.
Тобто різниться у 1 букву
Зауваження :
1 - на сайті Укразалізниці допущено помилку, та зросійщений варіант. Назва походить від Піня - єврей, що тримав мережу шинків на цій території. Тому я вважаю , що має бути name=Пенізевичі,
а те що на сайті Укрзалізниці як альтернативна назва.
2/ місцеве населення використовує у побуті , що українською , що російською , що україно-російським суржиком - Пенізевичі
Offline
#20 2017-02-26 13:49:09
- andygol
- Moderator
- From: Дніпро
- Registered: 2009-07-31
- Posts: 1,963
- Website
Re: Стандартизация названий
Залишити name=Пенизевичі
в loc_name або alt_name=Пенізевичі
Взагалі то там такий бардак Історична назва – Пинязевичі (http://cdiak.archives.gov.ua/baza_geog_ … ni_001.xml), https://uk.wikipedia.org/wiki/Українка_ … кий_район),
Offline
#21 2017-02-26 16:36:22
- dudka
- Member
- From: Київ
- Registered: 2011-04-22
- Posts: 1,605
Re: Стандартизация названий
те що на табличці на станції має вищий пріоритет ніж те що на сайті УЗ, просто хтось помилився наповнюючи базу УЗ
я за name=Пенізевичі + alt_name=Пенизевичі
http://railwayz.info/photolines/images/ … 839173.jpg
https://uk.wikipedia.org/wiki/Пенізевичі_(станція)
Offline
#22 2017-02-27 19:21:26
- KKS
- Member
- From: Київ / Житомирське Полісся
- Registered: 2015-07-06
- Posts: 587
Re: Стандартизация названий
Насправді в УЗ з назвами дуже погано на місці. Є багато прикладів коли офіційна назва не відповідає реальній.
Я думаю що це відбулось через перехід на українську мову в залізниці. Бо корінь слова "Пенизевичі" графічно однаковий як для української так і для російської, тому вирішили що це правильно. Я так думаю. На хоперах УЗ які були збудовані в 2010+ роках на сьогодні є єдиний напис "Приписан станция Пенизевичи", тобто українська залізниця й досі використовує російську мову і відповідно російське написання. Але воно затверджено так в УЗ і я вважаю що варіант andygol - вірний, бо така офіційна назва. Навіть якщо ми знаємо що вона не вірна, то поки УЗ її не перейменує - в ОСМ має бути УЗшний варіант.
PS
Плутанини "І" та "И" дуже багато навіть в назвах НП. Ось для прикладу НП "Великий Дивлин", всі здавня кажуть "Дівлин", впевнений коли царський писар почув це так і записав російською "Дивлин" (варіант "Дивльін" в рос. граматиці ж наче недопустимий"?) А коли приводили назви в україномовний варіант то бачать що всі літери українські - значить Дивлин. Хоча ті хто знали що назва написана російською, але говорили українською не з місцевих читали "Дівлін". В мене навіть в родичів в росії були проблеми з юридичними питаннями через коверкання нашого "И" в прізвищі.
PPS Плюс до всього інколи назва станції спеціально відрізняється по назві від населного пункту поруч.
Offline
#23 2021-11-22 12:07:34
- Velikodsky
- New Member
- Registered: 2020-12-09
- Posts: 1
Re: Стандартизация названий
З огляду важливості правильного використання типографських знаків в українській мові, останнім часом, я змінив власну думку на користь використання для апострофа наступного символу.
ʼ MODIFIER LETTER APOSTROPHE Unicode: U+02BC, UTF-8: CA BC
який на відміну від нижче наведених символів не є розділовим знаком, а являє собою літеру (це видно з його назви) та не розбиває слово, як інші знаки пунктуації, на два.
' APOSTROPHE Unicode: U+0027, UTF-8: 27
’ RIGHT SINGLE QUOTATION MARK Unicode: U+2019, UTF-8: E2 80 99
Я погоджуюсь, що символ U+02BC є найбільш правильним символом для відображення українського апострофа. Але на жаль, його використання призводить до помилок пошуку. Розпишу детальніше.
Отже, в Юнікоді є символ апострофа U+02BC "modifier letter apostrophe"
ʼ
(його можна ввести клавішами Shift + ~ у розкладці Ukrainian Unicode). Цей символ використовується в українській та деяких інших мовах. Також він є офіційним апострофом в українських доменних іменах. Але лише там. В усіх інших місцях переважає прямий апостроф U+0027 "apostrophe"
'
(клавіша ~), оскільки саме він вводиться з клавіатури, як у Windows, так і у Linux. На відміну від прямого апострофа, ввести символ U+02BC з клавіатури вже не так просто: треба затискати Shift, і то лише якщо встановлена розкладка Ukrainian Unicode (в Linux вона стоїть за замовчуванням, а у Windows треба ставити). Тому цей символ використовується рідко. Хіба що у доменних іменах, і то тому, що прямий апостроф там заборонений.
Здавалось би, непогано було б перейти поступово на правильний апостроф U+02BC. Але це виявляється проблематичним, оскільки Google, Nominatim та усі інші пошуковики вважають U+02BC та U+0027 різними символами. Якщо частина слів написана через інший апостроф – вони не знайдуться. Виходить, краще все уніфікувати, використовуючи лише один апостроф. На даний момент це де-факто прямий апостроф U+0027. Якщо ж перейти на U+02BC, то нові назви все одно будуть переважно вводитись учасниками через U+0027, і крім цього користувачі будуть шукати в Nominatim слова з символом U+0027 і нічого взагалі не знайдуть.
Зараз я спробував знайти у Nominatim:
"Слов'янська вулиця"
(через U+0027) – результатів багато, а також
"Словʼянська вулиця"
(через U+02BC) – результатів лише 4. Причому останні – не знаходяться у першому запиті. Мабуть варто подумати, щоб зробити заміну апострофа в усіх українських назвах в OSM на U+0027.
Вішенька на торті - Word та Writer автоматично замінюють апостроф U+0027 на ще один (вже третій) апостроф – одинарну закривальну лапку U+2019 "right single quotation mark"
’
(в Ukrainian Unicode – клавіші Right Alt + Shift + 2). Проте пошуковики вважають U+2019 та U+0027 однаковим символом, і тому проблем це не викликає.
Offline
#24 2021-11-22 21:40:12
- darkonus
- Member
- Registered: 2014-09-21
- Posts: 170
Re: Стандартизация названий
Теж знаю про цю проблему і хочу поділитися думками. Використання правильного апострофа схоже на запровадження нового теґа. Коли теґ тільки зʼявляється, ніякі сервіси його не показують і не знаходять. У той момент хочеться поставити неточний теґ, щоб на мапі відрендерився нанесений обʼєкт. Але це хибний шлях. Правильний шлях, коли розробники оновлюють стилі на мапах. Для ситуації з різними апострофами варто покращити алгоритми пошуку.
На комерційні сервіси, такі як Apple Maps ми не маємо впливу, але багато сервісів на базі OpenStreetMap є відкритим ПЗ. Цю проблему можливо й потрібно вирішувати у відповідних репозиторіях. Один з варіантів — можна вдосконалювати алгоритми так, щоб для української мови при уведенні в пошукове поле слова з одним із трьох апострофів йшов пошук по словах з усіма трьома варіантами апострофа.
Ось чому я б віддав перевагу не символу U+0027 з часів друкарських машинок, і не правим одинарним лапкам U+2019, а саме апострофу-модифікатору букви U+02BC. Чим у більшій кількості місць буде правильний апостроф, тим швидше розробники його помітять.
Хай живе ʼ
Last edited by darkonus (2021-11-22 21:58:45)
Offline
Pages: 1