You are not logged in.

Announcement

*** NOTICE: forum.openstreetmap.org is being retired. Please request a category for your community in the new ones as soon as possible using this process, which will allow you to propose your community moderators.
Please create new topics on the new site at community.openstreetmap.org. We expect the migration of data will take a few weeks, you can follow its progress here.***

#1 2010-12-05 12:09:13

Vort
Member
Registered: 2010-11-29
Posts: 512

Стандартизация названий

Всем привет.
Недавно написал программу для автоматического выявления некоторых ошибок в названиях объектов.
Среди явно выявленных ошибок заметил некоторые особенности, которые хотелось бы обсудить.
Сложно чётко сформулировать в чём дело, поэтому перейду сразу к примерам.

1. В украинских названиях очевидно встречаются апострофы. Проблема в том что нет устоявшегося кода символа, которым принято обозначать апостроф. Среди названий Харькова я встретил два варианта: ' (U+0027) и ' (U+2019). Преимущество первого варианта — символ можно ввести напрямую с клавиатуры, второй же вариант более красивый чтоли.
2. Точно так же обстоит дело с кавычками. С клавиатуры можно набрать "прямые кавычки", следом по популярности идут «ёлочки» и „лапки". (вики)
3. Изредка в названиях встречаются сокращения. Можно написать «Парк Горького», «Парк им. Горького», «Парк имени Горького». Первые два варианта короче, последний — точнее.
4. Некоторые названия более популярны в сокращённом варианте, то есть велик шанс что именно так их и будут искать. Однако при этом хотелось бы иметь в базе и полное название. Идеально было бы получить на разных масштабах отображение разных вариантов. (Пример: НТУ «ХПИ» и его корпуса [У1, ГАК, ЭК, ...])

Хотелось бы узнать у посетителей этого форума — какие варианты всё же предпочтительней использовать и почему. Если удастся договориться, можно будет полуавтоматически выполнить замены и привести наименования к единому виду.

P.S. Форум хоть и передаёт данные в utf-8, но это не мешает ему портить символы sad

Offline

#2 2010-12-05 13:20:42

Upliner
Member
From: Kyiv
Registered: 2008-09-18
Posts: 845

Re: Стандартизация названий

Vort wrote:

1. В украинских названиях очевидно встречаются апострофы. Проблема в том что нет устоявшегося кода символа, которым принято обозначать апостроф. Среди названий Харькова я встретил два варианта: ' (U+0027) и ' (U+2019). Преимущество первого варианта — символ можно ввести напрямую с клавиатуры, второй же вариант более красивый чтоли.

Під Linux в українській розкладці є другий варіант апострофу(U+2019). А ось під WinXP(не знаю як у новіших версіях) там апострофу взагалі немає, тому доводиться використовувати апостроф з англійської розкладки(перший варіант).

Last edited by Upliner (2010-12-05 13:24:04)


Big cat is watching you

Offline

#3 2010-12-05 15:29:23

andygol
Moderator
From: Дніпро
Registered: 2009-07-31
Posts: 1,968
Website

Re: Стандартизация названий

Я використовую як у Linux так Windows Українську розкладку клавіатури з символами Unicode — http://r2u.org.ua/wiki/keyboard/UkrainianUnicode. Тобто апостроф ' (U+2019).
KB_Ukrainian_Unicode.png

Offline

#4 2010-12-05 15:56:05

Vort
Member
Registered: 2010-11-29
Posts: 512

Re: Стандартизация названий

и что с этим делать?
оставить как есть - вперемешку - или выбрать таки что-то одно?

і що з цим робити?
залишити як є - упереміш - або вибрати таки щось одне?

Last edited by Vort (2010-12-05 15:57:46)

Offline

#5 2010-12-05 16:27:56

andygol
Moderator
From: Дніпро
Registered: 2009-07-31
Posts: 1,968
Website

Re: Стандартизация названий

1. приводити все до (U+2019). див. https://forum.openstreetmap.org/viewtop … 93#p632293
2. про лапки не можу сказати нічого - мабуть лишати так як є, а потім повернутись до цього питання.
3. …
4. якщо більш популярною є скорочена назва: лишаємо її, а в official_name пишемо вже повну назву.

Last edited by andygol (2010-12-05 16:28:20)

Offline

#6 2010-12-05 21:03:23

va-deam
Member
From: Ukraine
Registered: 2009-07-24
Posts: 110
Website

Re: Стандартизация названий

Так звані лапки-ялинки ((« ») коди U+00AB та U+00BB) вживаються у машинописних текстах навіть згідно діючого правопису. Якщо назва вимагає використання подвійних лапок, то другі мають форму аналогічну письмовій від руки (наприклад, ТОВ «Підприємство „Мрія"») коди U+201E та U+201C. Звісно, що коректна типографіка розбігається з комп'ютерною глобалізацією.
http://uk.wikipedia.org/wiki/%D0%9B%D0% … 0%BA%D0%B8

Здається лапки вживають, щоб відокремити назви у потоці звичайного тексту. Так як на мапі весь текст є всілякими назвами, лапки тут взагалі не доречні. Хоча, принаймні можна зустріти об'єкти, які потребують подвійних лапок, пропоную залишити їм лише другу пару.

А стосовно коротких назв на мапі, спробую найближчім часом сформулювати проект нової Угоди та винести його на окреме обговорення.

Offline

#7 2010-12-05 21:56:09

Vort
Member
Registered: 2010-11-29
Posts: 512

Re: Стандартизация названий

va-deam wrote:

Здається лапки вживають, щоб відокремити назви у потоці звичайного тексту. Так як на мапі весь текст є всілякими назвами, лапки тут взагалі не доречні.

ось приклади:
http://www.openstreetmap.org/browse/way/24714709
http://www.openstreetmap.org/browse/way/84620826

Offline

#8 2016-12-12 14:55:02

zalex_ua
Member
Registered: 2012-12-07
Posts: 12

Re: Стандартизация названий

Шукав схожий топік - не знайшов, то створю новий.

Підкажіть будь ласка чим керуватись для транслітерації, зокрема вулиця Солов'їна ?
Зараз на OSM картах є тільки одна така вулиця і вона без en варіанту.
Керуватись постановою КМУ від 2010 року? http://zakon3.rada.gov.ua/laws/show/55-2010-%D0%BF
В результаті получається Solovina, що мені не дуже подобається.

Є купа всяких конвертерів транслітерації в інеті які пропонують різні варіанти, ось який попався http://www.slovnyk.ua/services/translit.php

А як щодо апострофу - знайшов старий топік де це начебто вже вирішено https://forum.openstreetmap.org/viewtopic.php?id=10246
То використовувати

  ?

Offline

#9 2016-12-12 18:40:39

olehz
Member
From: Lviv
Registered: 2011-08-11
Posts: 731
Website

Re: Стандартизация названий

1. 99.9% транслітерованих назв вулиць в Україні не містять у собі апострофа і підпорядковуються цим правилам
2. Я б не рекомендував робити це руками. Як показує практика, велика ймовірність зробити опечатку чи пропустити один з сегментів вулиці. Краще залишити цю роботу для ботів чи для інших напівавтоматизованих інструментів.
3. Ну і загалом, цінність такою інформацчії є сумнівною. Не дуже зрозуміло навіщо зберігати траснлітеровані назви в базі ОСМ, якщо транслітерацію можна робити динамічно, використовуючи будь-які правила. (Наприклад: https://www.openstreetmap.de/karte.html)

Offline

#10 2016-12-17 16:47:18

Bondar Bohdan
Banned
From: Malyn Zt oblast'
Registered: 2016-11-19
Posts: 153

Re: Стандартизация названий

Для іноземців найліпше BGN/PCGN стандарт .
Якщо поґуґлити то виготовлені мапи йдуть зазначений мною , або ISO.
Solov'yina Street так я транслітерував в Малинському районі Житомир обл.
Постанова 2007-2010 стосується тільки при видачі паспорту.

Offline

#11 2016-12-17 17:51:50

dudka
Member
From: Київ
Registered: 2011-04-22
Posts: 1,605

Re: Стандартизация названий

Bondar Bohdan wrote:

Постанова 2007-2010 стосується тільки при видачі паспорту.

З чого ви таке взяли?
В самій постанові вказано що таблиця транслітерації використовується також і для географічних назв, якими в тому числі є й назви вулиць.
Саме ці правила транслітерації використовуються для транслітерації назв населених пунктів на дорожніх вказівниках.
У Києві назви вулиць на покажчиках також транслітеровані за цими правилами.

Offline

#12 2016-12-18 07:39:26

Bondar Bohdan
Banned
From: Malyn Zt oblast'
Registered: 2016-11-19
Posts: 153

Re: Стандартизация названий

Опенстритмап коритується то шо по факту є , а не то шо має бути. Проаналізуйте мапи України анґлійською і скільки у відсотковому співвдношенні користуються яким стандартом .
Викоритання  постанови - то є порушення принципу - то шо є по факту, а не то шо  має бути.

https://www.google.com.ua/search?q=map+ … rjqxqrM%3A
У зв язку з тим щоУкраїна є головною темою світових новин , то ви зайдіть на англомовні версіі світових масмедіа і подивіться як пишеться - французи мапять Україну відштовхуючись від BGN/PSGN - спрощуючи відкидаючи апостроф в кінці /Коростень /
2/Чинник
Ця постанова - то є ґвалтування укр мови. Не потрібно бути вченим , шоб то розуміти.
- ігнорування апострофів / специфіка укр мови- не кожна мова має викоритання  апострофів для розрізнення звуків - а не викоританя у запозиченнях

- Марінка / зменшувально- ласкаво зросійщене / та населений пункт Мар'їнка відоме по АТО , ПЕРЕДАЮТЬСЯ ОДНАКОВО. Тобто відсутня можливість зворотньої транслітераціі на українську мову. Так само і інших випадків.
- Не розрізнення пом'якшення м'яким знаком на письмі звуків та твердих :
л          ль                                 н        нь                      с   сь                                 ц          ць   
- нівелювання взагалі апострофів  /не кожна мова мє апостроф як засіб передачі розрізнення звуків - тобто це унікальність мови.

Offline

#13 2016-12-18 15:05:13

VARVAR8
Member
Registered: 2016-07-11
Posts: 266

Re: Стандартизация названий

Мої 5 копійок: я би назвав Solovyina Street. Апостроф в англ. мові означає пом’якшення (судячи з деяких дорожніх знаків). «Korsun’» наприклад. Але в ОСМ це правило не діє. Вже не знаю де, але колись читав прийняті правила спільноти.

Offline

#14 2016-12-18 15:20:04

dudka
Member
From: Київ
Registered: 2011-04-22
Posts: 1,605

Re: Стандартизация названий

Bondar Bohdan,
в OSM вноситься те, що є на місцевості (Kamianytsia, Kamianukha, Lukianivska), а не те, що на інших картах. Більше того, копіювання будь-яких даних з інших карт заборонене.
На дорожніх знаках застосовуються правила з постанови, саме тому спільнотою OSM було вирішено також керуватися цими правилами.
Не вигадуйте нових правил, користуйтесь тими, що уже використовуються.

Last edited by dudka (2016-12-19 09:50:26)

Offline

#15 2017-01-25 18:54:11

Bondar Bohdan
Banned
From: Malyn Zt oblast'
Registered: 2016-11-19
Posts: 153

Re: Стандартизация названий

я з андроiдного ОСМАНДу зробив висновок що рекомендаціі про непотрібність name=en та інші неправомiрні - автоматичний скрипт транслітерує жах. По якій сь сам собі видуманіі системі. Тому я англійська китайська і білоруська /треба помогти сусідам - бо в них через то шо мало білоруської -відсутні як одна з підстав змінити нейм =ру на нейм =бе/ додам теги обов'язково

Last edited by Bondar Bohdan (2017-01-25 18:55:21)

Offline

#16 2017-02-15 22:43:54

andygol
Moderator
From: Дніпро
Registered: 2009-07-31
Posts: 1,968
Website

Re: Стандартизация названий

З огляду важливості правильного використання типографських знаків в українській мові, останнім часом, я змінив власну думку на користь використання для апострофа наступного символу.

ʼ
MODIFIER LETTER APOSTROPHE
Unicode: U+02BC, UTF-8: CA BC

який на відміну від нижче наведених символів не є розділовим знаком, а являє собою літеру (це видно з його назви) та не розбиває слово, як інші знаки пунктуації, на два.

'
APOSTROPHE
Unicode: U+0027, UTF-8: 27
’
RIGHT SINGLE QUOTATION MARK
Unicode: U+2019, UTF-8: E2 80 99

Offline

#17 2017-02-25 06:16:58

Bondar Bohdan
Banned
From: Malyn Zt oblast'
Registered: 2016-11-19
Posts: 153

Re: Стандартизация названий

як вчиняти якшо назва залізничної станції різниться та що на сайті Укрзалізниці і та таблоїдом на власне на станції Укрзалізниця і нейм на мапі Пенизевичі
А таблоїд і. , в побутовій мові, використовується Пенізевичі

Offline

#18 2017-02-26 00:27:29

andygol
Moderator
From: Дніпро
Registered: 2009-07-31
Posts: 1,968
Website

Re: Стандартизация названий

Шановний, Bondar Bohdan!

Будь ласка, розтлумачте так, щоб й інші змогли зрозуміти в чому проблема.

Offline

#19 2017-02-26 07:22:35

Bondar Bohdan
Banned
From: Malyn Zt oblast'
Registered: 2016-11-19
Posts: 153

Re: Стандартизация названий

На сайті Укрзалізниці і відповідно перенесене на мапу Опенстритмап name=Пенизевичі

Я сам з райцентру Малин , був у смт Гранітне і звернув увагу , що на самій станції вивіска Пенізевичі.

Тобто різниться у 1 букву

Зауваження :
1   - на сайті Укразалізниці допущено помилку, та зросійщений варіант. Назва походить від Піня - єврей, що тримав мережу шинків на цій території. Тому я вважаю , що має бути name=Пенізевичі,
а те що на сайті Укрзалізниці як альтернативна назва.

2/  місцеве населення використовує у побуті , що українською , що російською , що україно-російським суржиком  - Пенізевичі

Offline

#20 2017-02-26 13:49:09

andygol
Moderator
From: Дніпро
Registered: 2009-07-31
Posts: 1,968
Website

Re: Стандартизация названий

Залишити name=Пенизевичі
в loc_name або alt_name=Пенізевичі

Взагалі то там такий бардак yikes Історична назва – Пинязевичі (http://cdiak.archives.gov.ua/baza_geog_ … ni_001.xml), https://uk.wikipedia.org/wiki/Українка_ … кий_район),
1868_BB_Pin_Stas_Jalc_map.png

Offline

#21 2017-02-26 16:36:22

dudka
Member
From: Київ
Registered: 2011-04-22
Posts: 1,605

Re: Стандартизация названий

те що на табличці на станції має вищий пріоритет ніж те що на сайті УЗ, просто хтось помилився наповнюючи базу УЗ
я за name=Пенізевичі + alt_name=Пенизевичі
http://railwayz.info/photolines/images/ … 839173.jpg
https://uk.wikipedia.org/wiki/Пенізевичі_(станція)

Offline

#22 2017-02-27 19:21:26

KKS
Member
From: Київ / Житомирське Полісся
Registered: 2015-07-06
Posts: 587

Re: Стандартизация названий

Насправді в УЗ з назвами дуже погано на місці. Є багато прикладів коли офіційна назва не відповідає реальній.
Я думаю що це відбулось через перехід на українську мову в залізниці. Бо корінь слова "Пенизевичі" графічно однаковий як для української так і для російської, тому вирішили що це правильно. Я так думаю. На хоперах УЗ які були збудовані в 2010+ роках на сьогодні є єдиний напис "Приписан станция Пенизевичи", тобто українська залізниця й досі використовує російську мову і відповідно російське написання. Але воно затверджено так в УЗ і я вважаю що варіант andygol - вірний, бо така офіційна назва. Навіть якщо ми знаємо що вона не вірна, то поки УЗ її не перейменує - в ОСМ має бути УЗшний варіант.

PS
Плутанини "І" та "И" дуже багато навіть в назвах НП. Ось для прикладу НП "Великий Дивлин", всі здавня кажуть "Дівлин", впевнений коли царський писар почув це так і записав російською "Дивлин" (варіант "Дивльін" в рос. граматиці ж наче недопустимий"?) А коли приводили назви в україномовний варіант то бачать що всі літери українські - значить Дивлин. Хоча ті хто знали що назва написана російською, але говорили українською не з місцевих читали "Дівлін". В мене навіть в родичів в росії були проблеми з юридичними питаннями через коверкання нашого "И" в прізвищі.

PPS Плюс до всього інколи назва станції спеціально відрізняється по назві від населного пункту поруч.

Offline

#23 2021-11-22 12:07:34

Velikodsky
Member
Registered: 2020-12-09
Posts: 3

Re: Стандартизация названий

Update 2022-09-22: Ця пропозиція вже не актуальна, оскільки алгоритм Nominatim виправлено (див. https://forum.openstreetmap.org/viewtop … 99#p872399 ).

andygol wrote:

З огляду важливості правильного використання типографських знаків в українській мові, останнім часом, я змінив власну думку на користь використання для апострофа наступного символу.

ʼ
MODIFIER LETTER APOSTROPHE
Unicode: U+02BC, UTF-8: CA BC

який на відміну від нижче наведених символів не є розділовим знаком, а являє собою літеру (це видно з його назви) та не розбиває слово, як інші знаки пунктуації, на два.

'
APOSTROPHE
Unicode: U+0027, UTF-8: 27
’
RIGHT SINGLE QUOTATION MARK
Unicode: U+2019, UTF-8: E2 80 99

Я погоджуюсь, що символ U+02BC є найбільш правильним символом для відображення українського апострофа. Але на жаль, його використання призводить до помилок пошуку. Розпишу детальніше.

Отже, в Юнікоді є символ апострофа U+02BC "modifier letter apostrophe"

ʼ

(його можна ввести клавішами Shift + ~ у розкладці Ukrainian Unicode). Цей символ використовується в українській та деяких інших мовах. Також він є офіційним апострофом в українських доменних іменах. Але лише там. В усіх інших місцях переважає прямий апостроф U+0027 "apostrophe"

'

(клавіша ~), оскільки саме він вводиться з клавіатури, як у Windows, так і у Linux. На відміну від прямого апострофа, ввести символ U+02BC з клавіатури вже не так просто: треба затискати Shift, і то лише якщо встановлена розкладка Ukrainian Unicode (в Linux вона стоїть за замовчуванням, а у Windows треба ставити). Тому цей символ використовується рідко. Хіба що у доменних іменах, і то тому, що прямий апостроф там заборонений.

Здавалось би, непогано було б перейти поступово на правильний апостроф U+02BC. Але це виявляється проблематичним, оскільки Google, Nominatim та усі інші пошуковики вважають U+02BC та U+0027 різними символами. Якщо частина слів написана через інший апостроф – вони не знайдуться. Виходить, краще все уніфікувати, використовуючи лише один апостроф. На даний момент це де-факто прямий апостроф U+0027. Якщо ж перейти на U+02BC, то нові назви все одно будуть переважно вводитись учасниками через U+0027, і крім цього користувачі будуть шукати в Nominatim слова з символом U+0027 і нічого взагалі не знайдуть.

Зараз я спробував знайти у Nominatim:

"Слов'янська вулиця"

(через U+0027) – результатів багато, а також

"Словʼянська вулиця"

(через U+02BC) – результатів лише 4. Причому останні – не знаходяться у першому запиті. Мабуть варто подумати, щоб зробити заміну апострофа в усіх українських назвах в OSM на U+0027.

Вішенька на торті - Word та Writer автоматично замінюють апостроф U+0027 на ще один (вже третій) апостроф – одинарну закривальну лапку U+2019 "right single quotation mark"

(в Ukrainian Unicode – клавіші Right Alt + Shift + 2). Проте пошуковики вважають U+2019 та U+0027 однаковим символом, і тому проблем це не викликає.

Last edited by Velikodsky (2022-09-22 18:58:49)

Offline

#24 2021-11-22 21:40:12

darkonus
Member
Registered: 2014-09-21
Posts: 174

Re: Стандартизация названий

Теж знаю про цю проблему і хочу поділитися думками. Використання правильного апострофа схоже на запровадження нового теґа. Коли теґ тільки зʼявляється, ніякі сервіси його не показують і не знаходять. У той момент хочеться поставити неточний теґ, щоб на мапі відрендерився нанесений обʼєкт. Але це хибний шлях. Правильний шлях, коли розробники оновлюють стилі на мапах. Для ситуації з різними апострофами варто покращити алгоритми пошуку.

На комерційні сервіси, такі як Apple Maps ми не маємо впливу, але багато сервісів на базі OpenStreetMap є відкритим ПЗ. Цю проблему можливо й потрібно вирішувати у відповідних репозиторіях. Один з варіантів — можна вдосконалювати алгоритми так, щоб для української мови при уведенні в пошукове поле слова з одним із трьох апострофів йшов пошук по словах з усіма трьома варіантами апострофа.

Ось чому я б віддав перевагу не символу U+0027 з часів друкарських машинок, і не правим одинарним лапкам U+2019, а саме апострофу-модифікатору букви U+02BC. Чим у більшій кількості місць буде правильний апостроф, тим швидше розробники його помітять.

Хай живе ʼ smile

Last edited by darkonus (2021-11-22 21:58:45)

Offline

#25 2022-09-22 12:25:22

Velikodsky
Member
Registered: 2020-12-09
Posts: 3

Re: Стандартизация названий

Погоджуюсь с darkonus: треба боротись за правильний апостроф ʼ (U+02BC). Для цього необхідно змінити алгоритми пошуковиків так, щоб вони вважали його тим же символом, що й інші апострофи (U+0027 та U+2019). Звісно, домогтись цього від Google поки важко, а от з Nominatim проблему вже вдалось вирішити!

У січні я написав issue (https://github.com/osm-search/Nominatim/issues/2569) і розробники Nominatim внесли необхідні зміни у свій алгоритм. Їм, правда, для цього довелось букву-апостроф U+02BC додати до списку розділових знаків (це звісно неправильно), але в принципі нам неважливо, як воно працює, головне - що працює. Після внесення змін в алгоритм довелось чекати багато місяців, поки зроблять імпорт. І ось зараз вже все працює. Пошук назв в OSM видає однакові результати, незалежно від того, який апостроф використовується (U+02BC, U+0027 та U+2019). Це можна перевірити, наприклад, зробивши три таких пошуки:

1) Завʼялівка (через U+02BC)
2) Зав'ялівка (через U+0027)
3) Зав’ялівка (через U+2019)

Усі три пошуки дають однаковий результат - знаходять три об'єкти, один з яких написано через U+02BC.

Таким чином, зараз нам нічого (крім війни) не заважає виконати стандартизацію назв, що містять апостроф. Пропоную, якщо є така технічна можливість, замінити усі апострофи в назвах на правильний український апостроф U+02BC, а також прописати у wiki рекомендацію використовувати саме цей апостроф в українських назвах. Набрати апостроф U+02BC на клавіатурі можна клавішами Shift + ~ (в Linux це працює, а у Windows треба встановити розкладку UkrainianUnicode).

Якщо в OSM буде всюди використовуватись апостроф U+02BC, то далі це може бути аргументом, щоб спробувати змінити алгоритм Google.

Offline

Board footer

Powered by FluxBB