Перевод названий всех городов

Импорты в OSM не приветствуются. Они вредят как самим данным, так и мотивации сообщества.
Лучше всего вместо импорта сделать валидатор, который бы показывал расхождение между текущей картиной в данных и той, которую бы вам хотелось получить. Показать там, например, картинку с непереведёнными городами с предложениями вариантов перевода и кнопкой загрузки в JOSM - найдутся желающие позаполнять.

Есть довольно старый бумажный словарь географических названий мира (СГНЗС). Он не обновлялся с 80-х и там поисчезали даже некоторые страны (включая крупнейшую). Если данные оттуда достаточно лицензионно приемлемы, то его можно использовать хотя для верификации правильности написания. Парсить его в машиночитаемый вид очень сложно. Впрочем кто-то на викизнании постепенно это делает - осенью было только А и Б. Сейчас дошло до П

Да, механизм планируется именно такой. Будет сводная таблица с названием из OSM, названием из Wiki, из geonames, из Яндекс-поиска и еще откуда-нибудь. Будет возможность выбрать один из этих вариантов или предложить свой.

Просто я в итоге сяду за эту админку и буду проверять по 600 названий в день, чтобы за 10 дней закрыть эту проблему. И боюсь, что на «загрузку в JOSM» будет уходить слишком много времени. А желающие позаполнять будут делать это целый год, судя по текущему состоянию базы. Вот такие у меня опасения.

Был бы вразумительный инструмент (валидатор) - с удовольствием присоединился к заполнению. Русских переводов названий реально очень не хватает.

http://forum.openstreetmap.org/viewtopic.php?id=19708 - есть что-то подобное в украинской ветке форума

для русских названий см. http://toolserver.org/~kentaur/osm_wp/show_osm_wp.php?lang=ru&

Накинулись на человека)
Те русские названия, которые взяты с карт/газетиров, вполне можно залить, с отдельного аккаунта.
А безграмотность так называемой общественности ужасает. Пекин-Бейджынг, Йокогама-Ёкохама. Продолжите сами :slight_smile:

Ok. А данные из Википедии подходят? То есть, если в русской Вики есть статья про город N (координаты совпадают) и русское название, могу я его использовать? Можно придумать критерий качества статьи (много букв; нет предупреждений, что данные не проверены…)

Я пока сам не в курсе, какого качества там данные, т.к. делал лишь поверхностный осмотр, а не массовый парсинг. Но какие-то стереотипы уже есть на эту тему?

Вы путаете, подменяете понятия. Это безграмотность конкретного человека. Вот вы заметили и исправили. Это уже общественное.

Отлично. Сделаю так же, но в 10 раз лучше. Хорошо, что пакетная загрузка в принципе возможна.

Там Роскартография почти везде, где можно. По крупным городам всё должно быть ок.
Заливки по деревням обычно делаются транскрибированием, без источников.

Можно только в 2 раза :slight_smile:
Имхо, надо

  1. разделение по типам объектов
  2. разделение по территории

Мне на одной странице выдало городок в Англии и железную дорогу в Китае.

Ну а потом чуток порекламировать - и дело само пойдёт. Вон, можно со свежей темой по Эстонии ознакомиться (читать с середины или даже с конца).

Если не ошибаюсь то это уже осуществлено. http://osm.cupivan.ru/validator/#RU-ULY/wiki_places только берутся не названия а ссылки на эти вики-статьи.

Какая лицензия на данные у этих открытых источников? Если не Public Domain / CC0, то скорее всего их нельзя использовать. Если лицензия хоть на 1 источник вам не известна - нельзя использовать.

Под какими условиями ваши базы “редактировались под давлением общественности”? Если не только вами, то было ли какое-либо соглашение на вносимые данные от пользователей? Если не было (с некоторой натяжкой таким соглашением, наверное, можно считать disclaimer, что всё вносимое переходит под авторство владельца сайта и т.п.), то опять данные нельзя использовать.

Насчёт Википедии - тоже вопрос. Википедия вроде как под CC-BY-SA 3.0 Unported License, что не позволяет напрямую копировать данные. У нас в вики есть раздел про сотрудничество, но я не вижу в нём прямого разрешения копировать текст из Википедии. Кто-нибудь может прокомментировать?

Текст нельзя, интервики-ссылки (по сути, будет работа только с ними) можно. Те же самые интервики лежат на Викиданных под CC0.

UPD: Забыл, что ещё и координаты надо, но сути это не меняет. Википедия не база, а отдельная фактическая информация из неё неохраноспособна.

Про интервики - согласен. Раз CC0, можем брать.

Про координаты - не согласен. Использование координат из текста статьи, ИМХО, является созданием derivative work, а значит должно быть share alike, что OSM явно не выполняет.

Есть данные Natural Earth: «All versions of Natural Earth raster + vector map data found on this website are in the public domain».

Есть данные Geonames: «This work is licensed under a Creative Commons Attribution 3.0 License». Можно им написать и попросить разрешение использовать данные для OSM.

Но мне кажется, наименования географических объектов — это общественное достояние. С численностью — вопрос.

Мне присылали e-mail «исправьте пожалуйста пос. Железнодорожный, у него какие-то левые координаты» или «у вас в базе три Москвы». Я лез в MySQL-базу и исправлял. На сайте никаких соглашений нет. Это какие условия?

Ну это уже перебор. Я же не копировать собираюсь, а показать пользователю, что на этот счет думает Википедия. И пользователь уже будет принимать решение насчет названий.

Координаты и сам набор городов я не буду менять. Да и вообще не понимаю, как может существовать копирайт на географические наименования. Если я из Википедии узнал, что есть город Усть-Каменогорск, то что теперь? Нельзя использовать это знание?

Спасибо за ссылку, но там ад какой-то. 15 минут смотрел на эту таблицу, но так и не понял, как этим пользоваться. Что значит кнопка upd? Что должна делать кнопка JOSM, почему она этого не делает? Как мне выбрать все приличные города (city) по всему миру или по региону?

В общем, я примерно понял ситуацию, пойду программировать.

Остались два вопроса.

В базе OSM я вижу много объектов вида “type”: “area”, “tags”.“place”: “city”.
Ведь это границы городов и меня они не должны интересовать?

Если русское название для населенного пункта не найдено, могу ли я использовать транскрипцию для известных языков?
Насколько я понял, не могу:

Плохо, что при этом получится множество объектов без русского наименования и его придется придумывать на этапе отображения. Это значит, что каждый движок должен содержать правила транскрипции для десятков языков. Мне известны правила (и есть код) для шестнадцати. На практике это значит, что транскрипции не будет.

Хотя, на странице multilingual names я вижу примеры, которые явно говорят о необходимости транскрипции (но в сторону от местного названия к международному — не наш случай):

Example:
name=: name in Bulgarian (булевард Източен)
int_name=: transcribed name (bulevard Iztochen)
name:en= (optional): Iztochen Blvd.

Про словарь

Его и с викизнания распарсить довольно сложно… К тому же, непонятно, есть ли в этом смысл, т.к. сам словарь получен путем транскрибирования местных названий:

place = city — это территория населенного пункта, а ни в коем случае не граница. Часто рисуется на глаз по видимому на спутниковых снимках краю застройки.
Все границы у нас boundary.

Вижу области (area), в которых одновременно есть теги “place”: “city” и “type”: “boundary”.

Скажите, фактически ставится ли точка (node) для каждого города? Или бывают города, у которых только территория/граница?
Точка нужна для определения таких штук, как координаты города и расстояние от города до других точек. С area это неудобно делать.

Вижу в форуме дискуссии на эту тему. Там, как обычно, у каждого есть свое мнение и нет способа выяснить, как же в итоге нужно делать.

Не совсем понимаю причем тут координаты если хотят брать перевод из Вики.
Берем к примеру Москва
И вот вам перевод на разные языки:


[[ab:Москва]]
[[ace:Moskow]]
[[af:Moskou]]
[[ak:Moscow]]
[[als:Moskau]]
[[am:ሞስኮ]]
[[an:Moscú]]
[[ang:Moscoƿ]]
[[ar:موسكو]]
[[arc:ܡܘܣܩܒܐ]]
[[arz:موسكو]]
[[ast:Moscú]]
[[av:Москва]]
[[ay:Mosku]]
[[az:Moskva]]
[[ba:Мәскәү]]
[[bar:Moskau]]
[[bat-smg:Maskva]]
[[bcl:Mosku]]
[[be:Горад Масква]]
[[be-x-old:Масква]]
[[bg:Москва]]
[[bi:Moskow]]
[[bn:মস্কো]]
[[bo:མོ་སི་ཁོ།]]
[[br:Moskov]]
[[bs:Moskva]]
[[bxr:Мушхаваа]]
[[ca:Moscou]]
[[ce:Москох]]
[[ch:Moscow]]
[[ckb:مۆسکۆ]]
[[co:Moscù]]
[[crh:Moskva]]
[[cs:Moskva]]
[[csb:Mòskwa]]
[[cu:Москъва]]
[[cv:Мускав]]
[[cy:Moscfa]]
[[da:Moskva]]
[[de:Moskau]]
[[diq:Moskowa]]
[[dsb:Moskwa]]
[[dv:މޮސްކޯ]]
[[dz:མཽས་ཀོ།]]
[[el:Μόσχα]]
[[eml:Måssca]]
[[en:Moscow]]
[[eo:Moskvo]]
[[es:Moscú]]
[[et:Moskva]]
[[eu:Mosku]]
[[ext:Moscú]]
[[fa:مسکو]]
[[fi:Moskova]]
[[fiu-vro:Moskva]]
[[fo:Moskva]]
[[fr:Moscou]]
[[frp:Moscou]]
[[frr:Moskva]]
[[fy:Moskou]]
[[ga:Moscó]]
[[gag:Moskva]]
[[gan:莫斯科]]
[[gd]]
[[gl:Moscova - Москва]]
[[gn:Mosku]]
[[got:??????/Moskwa]]
[[gv:Moscow]]
[[haw:Mokekao]]
[[he:מוסקבה]]
[[hi:मास्को]]
[[hif:Moscow]]
[[hr:Moskva]]
[[hsb:Moskwa]]
[[ht:Moskou]]
[[hu:Moszkva]]
[[hy:Մոսկվա]]
[[ia:Moscova]]
[[id:Moskwa]]
[[ie:Moskwa]]
[[ilo:Moscow]]
[[io:Moskva]]
[[is:Moskva]]
[[it:Mosca]]
[[iu:ᒨᔅᑯ]]
[[ja:モスクワ]]
[[jbo]]
[[jv:Moskwa]]
[[ka:მოსკოვი]]
[[kaa:Moskva]]
[[kab:Mosku]]
[[kbd:Мэзкуу]]
[[kg:Moskva]]
[[kk:Мәскеу]]
[[kl:Moskva]]
[[kn:ಮಾಸ್ಕೋ]]
[[ko:모스크바]]
[[koi:Мӧсква]]
[[krc:Москва]]
[[ku:Moskow]]
[[kv:Мӧскуа]]
[[kw:Moskva]]
[[ky:Москва]]
[[la:Moscua]]
[[lad:Mosku]]
[[lb:Moskau]]
[[lbe:Москав]]
[[lez:Москва]]
[[lg:Moosko]]
[[li:Moskou]]
[[lij:Mosca (çittæ)]]
[[lmo:Musca (Rüssia)]]
[[ln:Moskú]]
[[lt:Maskva]]
[[lv:Maskava]]
[[mdf:Моску]]
[[mg:Moskva]]
[[mhr:Моско]]
[[mi:Mohikau]]
[[mk:Москва]]
[[ml:മോസ്കോ]]
[[mn:Москва]]
[[mr:मॉस्को]]
[[mrj:Москва]]
[[ms:Moscow]]
[[mt:Moska]]
[[mwl:Moscobo]]
[[my:မော်စကိုမြို့]]
[[myv:Москов ош]]
[[mzn:موسکو]]
[[na:Moscow]]
[[nah:Moscohuia]]
[[nap:Mosca]]
[[nds:Moskau]]
[[nds-nl:Moskou (stad)]]
[[new:मस्को]]
[[nl:Moskou]]
[[nn:Moskva]]
[[no:Moskva]]
[[nov:Moskva]]
[[nrm:Moscou]]
[[oc:Moscòu]]
[[or:ମସ୍କୋ]]
[[os:Мæскуы]]
[[pa:ਮਾਸਕੋ]]
[[pap:Moskou]]
[[pcd:Moscou]]
[[pdc:Moscow]]
[[pl:Moskwa]]
[[pms:Mosca]]
[[pnb:ماسکو]]
[[pnt:Μόσχα]]
[[ps:مسکو]]
[[pt:Moscovo]]
[[qu:Moskwa]]
[[rmy:Moscova]]
[[ro:Moscova]]
[[roa-rup:Moscova]]
[[roa-tara:Mosche]]
[[rue:Москва]]
[[sah:Москва]]
[[sc:Mosca]]
[[scn:Mosca (Russia)]]
[[sco:Moscow]]
[[se:Moskva]]
[[sg:Moscow]]
[[sh:Moskva]]
[[simple:Moscow]]
[[sk:Moskva]]
[[sl:Moskva]]
[[sm:Moscow]]
[[so:Moskow]]
[[sq:Moska]]
[[sr:Москва]]
[[ss:Moscow]]
[[st:Moscow]]
[[stq:Moskau]]
[[su:Moskwa]]
[[sv:Moskva]]
[[sw:Moscow]]
[[szl:Moskwa]]
[[ta:மாஸ்கோ]]
[[te:మాస్కో]]
[[tet:Moskovu]]
[[tg:Маскав]]
[[th:มอสโก]]
[[tk:Moskwa]]
[[tl:Moscow]]
[[tpi:Mosko]]
[[tr:Moskova]]
[[tt:Мәскәү]]
[[ty:Moscou]]
[[udm:Муско]]
[[ug:Moskwa]]
[[uk:Москва]]
[[ur:ماسکو]]
[[uz:Moskva]]
[[vec:Mosca (Rusia)]]
[[vep:Moskv]]
[[vi:Moskva]]
[[vls:Moskou]]
[[vo:Moskva]]
[[wa:Moscou]]
[[war:Moscow]]
[[wo:Mosku]]
[[xal:Москва балһсн]]
[[xmf:მოსკოვი]]
[[yi:מאסקווע]]
[[yo:Mọsko]]
[[za:Moscow]]
[[zea:Moskou]]
[[zh:莫斯科]]
[[zh-classical:莫斯科]]
[[zh-min-nan:Bo̍k-su-kho]]
[[zh-yue:莫斯科]]
[[zu:IMoskwa]]

Причем это берется на одной странице (ссылка выше).
Переход на страницу неоднозначности будет говорить об ошибке в самой статье. (Как то городок в Британии и железная дорога в Китае.)
Ссылка должна однозначно определять . К примеру Грузия
Для анг. Вики четко определена ссылка [[en:Georgia (country)]] заметьте страна а не штат.

Ну и раз пошла такая пьянка может и теги wikipedia=en: сразу заполнить. Один черт данные те же самые :slight_smile:

У себя - используйте как хотите, но только в базу это вносить не нужно.

Не на этапе отображения, а на этапе конвертации. Там это делается элементарно через плугин к osmosis-у. Кроме того, есть разные правила даже для одного языка, сегодня нужен один вариант, а завтра понадобился другой - опять базу курочить?

Какие языки этот плугин может транскрибировать на русский?

Ну, это тупик. Так вы навсегда останетесь без русских названий, т.к. во всех печатных справочниках названия появляются с использованием таких непостоянных правил. Дело ваше, конечно. Мне без разницы, на чьей стороне будет происходить транскрибирование.