NameRuBot

dedNikifor, ссылку надо давать только на одну википедию

Автоматически только на совпадение osm-name и wiki-name. А дальше в ручную.

А зачем? Я планирую запускать бота на определенную территорию, ограниченную одним государством. Т.е. теоритически возможно конечно, что в одном и том же государстве находятся два города с одинаковыми названиями и разными названиями на русском языке, но я про такие не слышал. Т.е. я хочу сказать, что н.п. Любань к примеру в Ленинградской области и где-нибудь в Челябинской должны одинаково переводиться на другие языки, поэтому мне не обязательно проверять координаты и численность населения, чтобы определить, какая именно это Любань, т.к. мне для перевода на другой язык это роли не играет.

А почему только по ним? Я хотел бы видеть карту полностью на русском языке, а не выборочные н.п.

Постараюсь сделать. Сейчас пока буду делать список исключений, чтоб автоматически убирать фразы типа " (значения)" или " город)".

Конечно некошерно. Именно поэтому рекомендуется иное: задавать только wikipedia=ru:Екатеринбург, а остальное вытягивать при помощи API самой википедии. Тем самым не будет необходимости в OSM следить за актуальностью синхронизации между названиями на разных языках (ссылки в википедии тоже иногда меняются).

Но это играет существенную роль, если таки захотите проставлять ссылку на википедию - т.к. ссылки, очевидно, будут отличаться.
Кроме того, перевод даже одноимённых городов в разных местностях может таки отличаться (в силу исторических, диалектовых и прочих причин).

Sergey Astakhov
на самом деле ссылки на города должны выглядеть так:

ru:Киров (Калужская область)
ru:Киров (Кировская область)

И в самой Википедии статьи о разных городах должны быть разными. Если вдруг города переводятся по-разному - этот конфликт тоже разрешается средствами Википедии.

Зависит от конкретного города. “Москва (Московская область)” или “Москва (Россия)” ведь не пишут, несмотря на наличии населённых пунктов Москва в других местах. Просто убирают неодназначности в ссылках тем или иным способом.

Sergey Astakhov
для таких случаев в статье “Москва” ставится disambig на “Москва (значения)”, откуда идут ссылки на “Москва (река)” и тд.

Я регулярно отслеживаю города в Википедии. Так вот статьи постоянно переименовываются. Ещё не хватало дубляжа Интервики здесь.

P.S. Если кого интересует - могу вывести список статей Википедии по всем городам России.

А это реально?
Сколько примерно населенных пунктов предполагается обработать вручную?

Не согласен.
К тому, что н/п с одинаковым названием могут по-разному переводиться на русский язык есть куча предпосылок. (оффтоп: почему, например, мы пишем “принцесса Диана”, но “певица Дайана Росс”?)
Например, много городов располагаются в т.н. развивающихся, т.е. бывших колониальных странах.
Соответственно, существуют варианты названия:

  • транскрипция с местного наречия на русский,
  • перевод с местного наречия на русский,
  • на языке метрополии - перевод с местного - транскрипция на русский,
  • на языке метрополии - транскрипция с местного - транскрипция с языка метрополии на русский,

    А если учесть, что метрополия могла время от времени меняться и названия - соответственно, что одноименные на местном наречии н/п могли оказаться в колониях разных стран и т.п…

Ну, задачи должны быть посильными, иначе они никогда не будут решены.
Отсутствие достаточно простых и эффективных проверок для отсева большей части вариантов, которые надо разбирать ручками с одной стороны и ничем не ограниченное количество “кандидатов” мне кажется, способно похоронить любую разумную идею.
Кстати, а не лучше ли не обрабатывать весь мир по маленьким кусочкам (на маленьких кусочках может статься, что существенные проблемы вылезут далеко не сразу), а сначала проанализировать ВЕСЬ мир для сбора статистики и проверки предположений по количеству “претендентов”, по количеству совпадений и возможных конфликтов и только после этого уточнять и совершенствовать алгоритм и переходить к реальной правке.

В данном контексте гораздо более интересным был бы список всех населенных пунктов Мира, имеющихся в русской Википедии.

Собственно, с последнего поста прошло 2 недели.
Хотелось бы более или менее регулярно получать информацию о том, как продвигается работа. (тем более, что я после создания этой темы прервал работу по ручному проставлению name:ru в городах более 100 тыс. жителей)

Хочется карту соседей на русском, так что я пока осторожно курю в сторону: http://ru.wikipedia.org/wiki/Финско-русская_практическая_транскрипция

Сколько таких городов всего? Запущу завтра, посмотрим. Главное, чтоб на вики-педии не забанили за выкачивание больших объемов…

Я бы поостерегся сам придумывать транслитерацию. Практика показывает, что имена собственные не подчиняются общим правилам, а идут, скорее, от исторической традиции. (пример принцессы Дианы и Дайаны Росс я уже приводил)
Поэтому мне кажется следует вносить в базу ТОЛЬКО те имена, которые нашли подтверждение в независимых источниках, но никак не результаты алгоритмического перевода.
Поэтому, кстати, я и рекомендовал помимо прочего проверять и координаты, т.к. одинаковые наименования на языке оригинала могут по-разному писаться по-русски в зависимости от исторических традиций.

Я анализировал по декабрьской Planet.osm, тогда их было немного более 300 (более 100 т.ж.), после моей правки должно было остаться уже менее 300. Правда, я еще ставил обязательным условием наличие либо name:en либо int_name.

Собственно, прошло еще 3 недели.
Интересует, проект еще дышит или уже почил в бозе?

Прошу прощения. Работой завалило. Пока не стал брать планету. Взял сегодняшнюю Европу с геофабрика. Выбирались точки с тегами:
place=city
population=“>99999”
Поиск по английской википедии.
Отчет: http://navitel.gis-lab.info/logs/NameRuBot-log-2011-04-02-23-30.htm
Результат хороший. Красного, белого и бежевого очень мало :slight_smile:

Ну, список от 100К для всей планеты я выкладывал.
Но если вручную проверять по википедии, за вечер получается штук 20. И ОЧЕНЬ муторно. :frowning:

Прошу прощения, пропустил. Список НП выкладывал? Можешь повторить?

Зачем вручную, когда компьютер для этого есть? :wink: Если устроит то, что получилось для Европы, запущу для планеты. Только у меня есть одна трудность: планета в распакованном виде занимает очень много места и на винт не влезает, а в сжатом виде у меня чего-то мозгов не хватает, как осмосис на нее натравить… (винда)

http://wiki.openstreetmap.org/wiki/RU:Сервера_OSM_в_Рамблере

Насколько я понял Fortress нужен сервер под виндой. В принципе это возможно, просто должен найтись кто-то ответственный за него (не я :slight_smile: ). Провести начальную установку и IPKVM периодически подключать можем, но желательно пореже. :slight_smile:

Глеб, давай я попробую.