NameRuBot

Sergey Astakhov
для таких случаев в статье “Москва” ставится disambig на “Москва (значения)”, откуда идут ссылки на “Москва (река)” и тд.

Я регулярно отслеживаю города в Википедии. Так вот статьи постоянно переименовываются. Ещё не хватало дубляжа Интервики здесь.

P.S. Если кого интересует - могу вывести список статей Википедии по всем городам России.

А это реально?
Сколько примерно населенных пунктов предполагается обработать вручную?

Не согласен.
К тому, что н/п с одинаковым названием могут по-разному переводиться на русский язык есть куча предпосылок. (оффтоп: почему, например, мы пишем “принцесса Диана”, но “певица Дайана Росс”?)
Например, много городов располагаются в т.н. развивающихся, т.е. бывших колониальных странах.
Соответственно, существуют варианты названия:

  • транскрипция с местного наречия на русский,
  • перевод с местного наречия на русский,
  • на языке метрополии - перевод с местного - транскрипция на русский,
  • на языке метрополии - транскрипция с местного - транскрипция с языка метрополии на русский,

    А если учесть, что метрополия могла время от времени меняться и названия - соответственно, что одноименные на местном наречии н/п могли оказаться в колониях разных стран и т.п…

Ну, задачи должны быть посильными, иначе они никогда не будут решены.
Отсутствие достаточно простых и эффективных проверок для отсева большей части вариантов, которые надо разбирать ручками с одной стороны и ничем не ограниченное количество “кандидатов” мне кажется, способно похоронить любую разумную идею.
Кстати, а не лучше ли не обрабатывать весь мир по маленьким кусочкам (на маленьких кусочках может статься, что существенные проблемы вылезут далеко не сразу), а сначала проанализировать ВЕСЬ мир для сбора статистики и проверки предположений по количеству “претендентов”, по количеству совпадений и возможных конфликтов и только после этого уточнять и совершенствовать алгоритм и переходить к реальной правке.

В данном контексте гораздо более интересным был бы список всех населенных пунктов Мира, имеющихся в русской Википедии.

Собственно, с последнего поста прошло 2 недели.
Хотелось бы более или менее регулярно получать информацию о том, как продвигается работа. (тем более, что я после создания этой темы прервал работу по ручному проставлению name:ru в городах более 100 тыс. жителей)

Хочется карту соседей на русском, так что я пока осторожно курю в сторону: http://ru.wikipedia.org/wiki/Финско-русская_практическая_транскрипция

Сколько таких городов всего? Запущу завтра, посмотрим. Главное, чтоб на вики-педии не забанили за выкачивание больших объемов…

Я бы поостерегся сам придумывать транслитерацию. Практика показывает, что имена собственные не подчиняются общим правилам, а идут, скорее, от исторической традиции. (пример принцессы Дианы и Дайаны Росс я уже приводил)
Поэтому мне кажется следует вносить в базу ТОЛЬКО те имена, которые нашли подтверждение в независимых источниках, но никак не результаты алгоритмического перевода.
Поэтому, кстати, я и рекомендовал помимо прочего проверять и координаты, т.к. одинаковые наименования на языке оригинала могут по-разному писаться по-русски в зависимости от исторических традиций.

Я анализировал по декабрьской Planet.osm, тогда их было немного более 300 (более 100 т.ж.), после моей правки должно было остаться уже менее 300. Правда, я еще ставил обязательным условием наличие либо name:en либо int_name.

Собственно, прошло еще 3 недели.
Интересует, проект еще дышит или уже почил в бозе?

Прошу прощения. Работой завалило. Пока не стал брать планету. Взял сегодняшнюю Европу с геофабрика. Выбирались точки с тегами:
place=city
population=“>99999”
Поиск по английской википедии.
Отчет: http://navitel.gis-lab.info/logs/NameRuBot-log-2011-04-02-23-30.htm
Результат хороший. Красного, белого и бежевого очень мало :slight_smile:

Ну, список от 100К для всей планеты я выкладывал.
Но если вручную проверять по википедии, за вечер получается штук 20. И ОЧЕНЬ муторно. :frowning:

Прошу прощения, пропустил. Список НП выкладывал? Можешь повторить?

Зачем вручную, когда компьютер для этого есть? :wink: Если устроит то, что получилось для Европы, запущу для планеты. Только у меня есть одна трудность: планета в распакованном виде занимает очень много места и на винт не влезает, а в сжатом виде у меня чего-то мозгов не хватает, как осмосис на нее натравить… (винда)

http://wiki.openstreetmap.org/wiki/RU:Сервера_OSM_в_Рамблере

Насколько я понял Fortress нужен сервер под виндой. В принципе это возможно, просто должен найтись кто-то ответственный за него (не я :slight_smile: ). Провести начальную установку и IPKVM периодически подключать можем, но желательно пореже. :slight_smile:

Глеб, давай я попробую.

Ок. И давай переходить в email.

Сомнительная значимость — проставлять русские названия иностранным городам. Лучше проставить городам на кириллице альтернативное название на латинице, чтобы иностранцы, хоть как то ориентировались. Для них наша кириллица как для нас иероглифы или арабская вязь. К слову, в той же Японии под названием города иероглифами в скобках название на латинице — это упрощает жизнь.

Вовсе не сомнительная, плюсы написаны в первом мессадже.

Это уже обсуждалось в теме на нескольких страницах. Насколько я помню, ни к какому решению не пришли.

Но это точно нифига не правильно. Если латиннице и быть, то в отдельном теге. В name ей нечего делать.

Гораздо полезнее 100500 постов на форуме. Меня всегда убивало, когда кто-то что-то ДЕЛАЕТ, а ему кто-то другой начинает рассказывать, почему то, что он делает, нафиг никому не нужно… Человек уже ДЕЛАЕТ, значит он считает это НУЖНЫМ. Значит как минимум одному человеку это НУЖНО, значит это уже не бессмысленно. Помогите или отойдите и не трогайте.

Административные единицы без name:ru по всему миру по подготовленному Котярой осм:
http://www.openstreetmap.org/browse/changeset/9488870

Тут что-то не так с алгоритмом:
http://www.openstreetmap.org/browse/way/74142252
http://www.openstreetmap.org/browse/way/74142260

Вот это http://www.openstreetmap.org/browse/way/75390339 тоже довольно странно, с учетом http://ru.wikipedia.org/wiki/%D0%A0%D1%83%D0%BC%D1%8B%D0%BD%D1%81%D0%BA%D0%BE-%D1%80%D1%83%D1%81%D1%81%D0%BA%D0%B0%D1%8F_%D0%BF%D1%80%D0%B0%D0%BA%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F_%D1%82%D1%80%D0%B0%D0%BD%D1%81%D0%BA%D1%80%D0%B8%D0%BF%D1%86%D0%B8%D1%8F, а статья из которой подтянулось имя про Испанию.

Необходимость ставить name:ru на полигон НП при наличии его на точке, не очень понятна. Пример: http://www.openstreetmap.org/browse/way/30711482.

И вот это не очень понятно как получилось: http://www.openstreetmap.org/browse/relation/1020716 - википедия говорит что это “Округ Чероки”

Исправления, внесенные в википедию, после автоматической расстановки name:ru каким образом планируете отслеживать?

Ну и если уж заливать такие правки, то мне кажется удобнее было бы делать это по странам, тогда можно более предметно проверять.