Я бы поостерегся сам придумывать транслитерацию. Практика показывает, что имена собственные не подчиняются общим правилам, а идут, скорее, от исторической традиции. (пример принцессы Дианы и Дайаны Росс я уже приводил)
Поэтому мне кажется следует вносить в базу ТОЛЬКО те имена, которые нашли подтверждение в независимых источниках, но никак не результаты алгоритмического перевода.
Поэтому, кстати, я и рекомендовал помимо прочего проверять и координаты, т.к. одинаковые наименования на языке оригинала могут по-разному писаться по-русски в зависимости от исторических традиций.
Я анализировал по декабрьской Planet.osm, тогда их было немного более 300 (более 100 т.ж.), после моей правки должно было остаться уже менее 300. Правда, я еще ставил обязательным условием наличие либо name:en либо int_name.
Прошу прощения. Работой завалило. Пока не стал брать планету. Взял сегодняшнюю Европу с геофабрика. Выбирались точки с тегами:
place=city
population=“>99999”
Поиск по английской википедии.
Отчет: http://navitel.gis-lab.info/logs/NameRuBot-log-2011-04-02-23-30.htm
Результат хороший. Красного, белого и бежевого очень мало
Прошу прощения, пропустил. Список НП выкладывал? Можешь повторить?
Зачем вручную, когда компьютер для этого есть? Если устроит то, что получилось для Европы, запущу для планеты. Только у меня есть одна трудность: планета в распакованном виде занимает очень много места и на винт не влезает, а в сжатом виде у меня чего-то мозгов не хватает, как осмосис на нее натравить… (винда)
Насколько я понял Fortress нужен сервер под виндой. В принципе это возможно, просто должен найтись кто-то ответственный за него (не я ). Провести начальную установку и IPKVM периодически подключать можем, но желательно пореже.
Сомнительная значимость — проставлять русские названия иностранным городам. Лучше проставить городам на кириллице альтернативное название на латинице, чтобы иностранцы, хоть как то ориентировались. Для них наша кириллица как для нас иероглифы или арабская вязь. К слову, в той же Японии под названием города иероглифами в скобках название на латинице — это упрощает жизнь.
Гораздо полезнее 100500 постов на форуме. Меня всегда убивало, когда кто-то что-то ДЕЛАЕТ, а ему кто-то другой начинает рассказывать, почему то, что он делает, нафиг никому не нужно… Человек уже ДЕЛАЕТ, значит он считает это НУЖНЫМ. Значит как минимум одному человеку это НУЖНО, значит это уже не бессмысленно. Помогите или отойдите и не трогайте.
Ну если этой дорогой пойти, то недалек тот день, когда на одном НП в РФ его название будут записаны в четырех тегах, по паре name и name:ru на точке и на полигоне. Причем рано или поздно имена будут разные. Решительно не хотеть такого. По сути проблемы, то конечно нужно сопоставлять точки и полигоны НП это довольно просто, по рф+украине в базе osm2pgsql делается минут за 5 на слабой машине, по миру видимо подольше, но результаты довольно просто кэшируются между обновлениями дифами osm2pgsql.
С алгоритмом все нормально, просто нужно работать с каждой страной (и соответствующим разделом педии) отдельно. И, конечно вручную править результаты работы, т.к. очень много неверных сопоставлений. Ну это уже к самой педии вопрос…
Да я специально убрал фразу округ, возможно напрасно.
Надеялся оставить юзерам на откуп
Согласен.
По финке уже проходился не так давно. Можно попробовать обработать (транслитерировать) все наименования как я уже предлагал, но существуют мнения, что это не есть хорошо. Или по крайней мере перед заливкой такая правка требует тщательной стопроцентной проверки.
Можно транслит автоматикой и в скобках название по фински, да это под рендеры получится, зато удобно углядывать и руками править если ошибка. если ошибки нет убирать скобки, кто тут по фински шарит? Я то просто туда намыливаюсь и их “крякозяблое произношение” мне моск ломает.