Перевод названий всех городов

В базе я вижу для одной и той же страны названия латиницей в скобках, без скобок, через пробел, без пробела, через слэш, в верхнем регистре и еще несколько вариантов. Соглашение, может, едино, но бардак присутствует. Только в Японии более-менее порядок. Кроме того, «соглашение», которое описано в wiki OSM, подразумевает, что есть поля name:en и name:LN, в которых названия даны по отдельности. В жизни этого нет.

И этот бардак не разберут никакие алгоритмы транскрипции или что там еще… Для одной страны — да, можно придумать. Для всего мира — не реально.

Я постепенно убеждаюсь, что такая слабо структурированная система слабо подходит для какой-либо машинной обработки. Даже из Википедии оказалось проще распарсить данные. Там есть шаблон для описания населенных пунктов. Он описан, понятен и соблюдается достаточно строго. Ошибки и неопределенности есть менее чем в 1% случаев на 161 000 точек.

Транслитерация вещь сильно в себе. Она должна быть уникальной для каждого языка. Тут даже просто привести примеры. Вот как пишутся названия некоторых населённых пунктов на территории России и попытки их “интернализировать”.

Вщиж - Vshchizh
Тлюстенхабль (адыг. Лъэустэнхьабл) - Tlyustenkhabl
Выдропужск - Vydropuzhsk.
Ыллымах - Yllymakh

Когда в языке-источнике используются совсем другие звуке чем в языке отображения то получаются очень странная смесь букв. И то что поймёт англичанин с трудом прочитает француз. Ведь не смотря на то что и тот и другой использует алфавит построенный на латинице все эти страшные нагромождения букв звучат по-разному. Ведь тот же Челябинск по-французски передаётся как Tcheliabinsk.

Тот же самый Вщиж в итальянской википедии называется Vščiž. А Тлюстенхабль на испанском (согласно википедии) - Tliustenjabl

Аналогично и с азиатскими языками. Не надо думать что транслитерация у англичан и русских будет одинаковой …

Поэтому ффтопку двойные “названия”.

skymeteo, никто и не говорил что база идеальна, скорее наоборот, требует дополнительного переваривания для использования в своих целях. И поддерживать такую огромную базу в порядке реально не просто, википедия всё-таки статьи, а у нас куча “типов” и вариантов данных, от люков на дороге до 3Д моделей :slight_smile:

И ваша инициатива очень хороша была, до предложения заливать в базу какие-то готовые варианты транскрипций… Эта тема уже мусолилась раз 5 на моей только памяти…

5 раз, боже мой! Соберите аргументы и напишите в wiki — больше не будет этой темы.

Тут пять страниц обсуждения. На каждой странице разные предложения и инициативы. Я тогда вообще ничего про OSM не знал, поэтому идеи менялись вместе с появлением новой информации. Это всё были рабочие идеи для обсуждения, а не готовое ТЗ. Но в каждой инициативе вам (сообществу) что-то да не нравилось. Лицензионная паранойя, импорты не приветствуются, новые теги никому не нужны и почти все уверены, что сейчас всё прекрасно. На каждой странице мне говорили, что идея плохая.

Мне в самом начале написали «это тема для википедии, а не OSM». Но для меня было очевидно, что именно для OSM, т.к. у вас, по идее, должна быть хорошо структурированная база географических данных. Сама возможность выгрузки в json всех городов (по тегу type=city) как бы намекала на это. Но в реальности оказалось, что данных мало, качество хреновое, а в базе — бардак. Набор недокументированных тегов без типизации и без валидации, да еще и рендер, провоцирующий вводить некорректные данные. Плюс сообщество консерваторов, которых трясет от слова «импорт». То есть, нет перспектив, что качество данных принципиально улучшится в ближайшие несколько лет.

А в Википедии нашелся шаблон {{НП}}, по которому можно парсить точки. Шаблон хорошо описан и соблюдается в 98% случаев (сейчас я в этом уверен, т.к. распарсил 161 000 стратей). Да, парсить сложнее. Скрипт получился аж в 250 строк и работает он минут 40.

В итоге у меня сейчас есть готовый «валидатор» населенных пунктов, но я не буду приделывать к нему импорт в OSM, а сделаю из него бота для Википедии, т.к. там сообщество принимает такую схему работы. Есть правила для ботов, они открыты и понятны. Можно их почитать и сделать так, чтобы всех всё устраивало. Есть форум для ботоводов, где отвечают на вопросы. И там понимают, что навести порядок в сотне тысяч записей можно только с использованием автоматизации.

Больше вас беспокоить не буду.

skymeteo, я вас от части понимаю, но перечитав топик вызвалось впечатление непонимания. Конечно в ОСМ нужно наводить порядок, и даже где то ботами. Но вам указывали упорно не на это, а то что принятые вами алгоритмы неправильные (и только ухудшат бардак), а вы как будто слушаете но не слышите.

Я не одобряю оценок участников по вкладу, но skymeteo зарегистрировался меньше месяца назад и успел только изменить одну точку. Гораздо более опытные осмеры впадали в эту программистскую болезнь – взять и поправить теги на всей планете. Последним оправдания нет, новичкам вроде skymeteo есть шанс объяснить и попросить зайти через полгода, после получения опыта.

Вот только я сомневаюсь, что он воспринимает OSM не только как инструмент для решения своей локальной задачи.

К вопросу о том, что “советская картография была чудесной”. Один бывший коллега, работающий в Англии, раздобыл с моей помощью “генштабовские” пятикилометровки Великобритании, дабы поприкалываться над тамошними друзьями. Так вот он долго смеялся над тем, что город Cambridge назван там “Кембридж”, а вот река Cam (через которую тот самый bridge, давший название городу) подписана как “Кам”. А населенный пункт Melbourne, что в Дербишире, на карте значится как “Мелберн”. (Почему-то уверен, что аналогичный город в Австралии таки называется “Мельбурн”).
Это не к тому, что все названия на этих картах - дерьмо, а к тому, что какое из них - дерьмо, а какое - нет, вопрос открытый.

Вот Яндекс решил именно так. :slight_smile:

http://habrahabr.ru/company/2gis/blog/209408/ - вот и 2ГИС прошлись по граблям…

Ниндерданды уже откатывают мапсьмишников
https://forum.openstreetmap.org/viewtopic.php?id=57524

Я понял слово reverten

Так может стоит уже при редактировании названий подсовывать пользователю серую транскрипцию, что бы у него не возникало соблазна переправлять. Как там вообще дела с отображением НП без переводов?

Пользуйся Google Translate, пожалуйста.
Что там произошло — пользователь Batareikin, осмер с 2009 года, пользуется maps.me для (ручного, очевидно) добавления русских названий нидерландским городам, в тег name:ru. Местные жители смотрят на это подозрительно, потому что, цитирую, для этих городов нет страниц в русской википедии. Есть один радикал, который не замедлил выдать вердикт «всё откатить», но другие к нему относятся адекватно, т.е. игнорируют.

Ну да, человек заметил знакомое слово “ревертер”. И вынес свой вердикт - Ниндерданды уже откатывают мапсьмишников.

Да, парочка радикалов там есть. Из того что понял я:
Один из аргументов (довольно часто у европейцев проявляется) - автоматом это все делается (т.е. транлитерируется), нафиг надо. Как им объяснять упертым, разницу между транскрипцией (которая на русский используется) и транслитерацией, и сложности с первой, даже не представляю. Сами даже ссылку приводят где проблема показана и разжевана Talk:Map_internationalization.

Второй немного удивляет. Раз статьи в рувики нет, то и слова такого нет. Ну непонимают некоторые, что русский язык вобще-то был до рувики, и топоним может быть, а статьи при этом нет (местных рек России коих тысячи - лет пять не осилить, какие уж тут голландские деревни). И вообще Википедия это вторичный, а не первичный источник. Но это и не все и с кирилической письменностью понимают.

Третий. Все русские знают латиницу, могут ведь так прочесть. Латиницу то может и знают. Но в лучшем случае прочтут по-английски (по-французски, по-немецки). А голландские дифтонги-то отличаются.

Но есть там и аргументы местных за. Кто понимает что тяжко вот читать к примеру арабскую вязь. Кто - раскладки для поиска голландской может не быть :slight_smile: Кто - мол ничего не испорчено, мне не мешает, ну пусть будет. Есть и те кто понимает всю проблему в целом и правильно.

Кто бы на английском там объяснил. Но лучше на голладском.

Википедия, в данном случае, не источник, а индикатор того, что названия на русском языке для того, для чего они в данном случае придумываются по ходу дела, не существуют. Так что голландцы понимают всё правильно. Сто раз везде написано (и специально разжёвано для русскоязычных в Wiki), что name:language_code не предназначен для транскрипции, транслитерации и прочей хрени.

Да, им повезло, что не понадобилось кому-нибудь ввести через мапьсми бурятские имена, а вот нам нет.

Откомментил им в топике и чейнджсете: https://www.openstreetmap.org/changeset/46446967#map=10/52.0352/6.2471&layers=N
К сожалению, в данном конкретном случае имена действительно некорректные.

Почему нет, есть же name:bua. А русская википедия устарела. Допускаются и трехбуквенные коды, если их нет в двубуквенных.

Там не все так однозначно. В бурятском есть “парные” буквы: У у и Ү ү а также О о и Ө ө.
В топонимах могут быть как те, так и эти. Вот например русское название Зун-Хурай он переименовал в бурятское Зуун Хуурай.
Для бурятского написания русского Зун есть как минимум три варианта:

  1. Зуун - “сто”;
  2. Зүүн - “восточный”, “игла”.
  3. Зун - “лето”

Для Хурай как минимум один вариант:

  1. Xуурай - “сухой”, “подпилок, напильник”

Итого получается что на бурятском это могло быть и Зун-Хуурай (сухое лето) и Зүүн-Хурай (сто напильников) и другие варианты на вашу фантазию. В любом случае место таким наименованиям в name:bua. Может потом носители бурятского языка напишут правильно ү там где она нужна.

BushmanK
А Википедия (русская) в данном случае не индикатор ничего. Просто индикатор интересов рускоязычного населения планеты, которые могут тратить на безвозмедной основе свое время. Прям как и в ОСМ.

Мне все равно что там написано про name:language_code
Я знаю для чего нужен name:ru - для написания топонимов на русском языке. Как я вижу не только голландцы (хотя им простительно) имеют представление о том, что у нас иноязычные топонимы пишутся на кириллице , но и рускоговорящие. Хоть тысячу раз могут голландцы (англичане, шведы и …) объяснять и разжевывать, что надо писать “жи” “ши” через Ы, но я правила русского языка все-таки знаю лучше и буду писать по правилам.

И названия иноязычных топонимов “не придумываюся на ходу”. Они вообще не придумываются. Они передаются.
На что сущетвует достаточно отечественной литературы, где описывается как это рекомедутся делать. И как только этот топоним возник (или изменл свое написание) он может иметь написание по-русски. Потому как проблема передачи возникла не когда появился ОСМ, и даже не когда появися Интернет, а когда письменность возникла. И как минимум повека назад эту проблему успешно решали.

Поэтому ситуация когда эту проблему начинают решать по своему разумению латинопишущие коллеги в 2016 году, в Интернете, которые искренне считают, что на Википедии и ОСМ и Гугле мир закачивается (и для ктоторых вообще контретно этой проблемы нет), вызывает умиление.

ghost_07 Для того чтобы судить корректность или нет имен в данном случае, нужно вобще как-то определить критерии корректности. Ну и уточнить что имеется ввиду под случаем, а что под именами (случай в единственном числе, а имена во множественном, не совсем понял).

Ну, дальше

можно было бы и не писать - сэкономили бы время.

  1. нету в the-app-wich-must-not-be-named
  2. более подходящий для РФ код bxr. Именно на нем у нас и пишут вики.