Валидатор населённых пунктов и границ (http://atd.openstreetmap.ru)

Ну да, только после этого имеем “Поречье-Рыбное сельское поселение”. Такие прилагательные часто относятся не к поселению.

Есть еще прикол в одном районе

  • сельское поселение поселок Бабынино
  • сельское поселение село Бабынино
    как-то “поселок” и сокращать-то боязно.

Кстати про районы

Муниципальный район имени Полины Осипенко
Муниципальный район имени Лазо
Муниципальный район Вуктыл
Муниципальный район Печора

Запустил валидатор на новых данных … и загрустил. Он снова ползёт как черепаха и по прикидкам закончит где-то в районе полуночи, я не готов столько сидеть на работе … Границ сломанных у нас предостаточно - порядка 130, но там сельские поселения, не регионы. А валидатор еле ползёт. Начал смотреть логи системы и удивился, почему алгоритм так часто улетает на медленные проверки.

В общем проблема нашлась и со следующего прогона скорость должна вырасти. Оказалась что правильно построенный индекс по которому бежит оптимизационный алгоритм был грохнут мною перед запуском прогона. А алгоритм видя что данные не валидны идёт по самому надёжному но медленному пути.

В остатке - текущий прогон я прерывать не буду так как всё равно до ухода с работы он не завершится. Завтра я сгенерю текущий отчёт и попробую запуститься ещё раз, но уже с правильным индексом.

Можно еще цвета заливки поменять на что нибудь более мягкое, а то глаза режет?

Например
красное на #FFAAAA
зеленое на #99FF99

Внезапно валидатор обновлён :slight_smile: Состояние - утренний дамп.

После того как прибил индексы отвечающие за оптимизацию алгоритм ускорился и закончил работу в разумное время.

Изменения в основном косметические, но их набралось некоторое количество.

Отлично, а с буквой ё не разбирался ?

Я отключу Ё на выходных, сейчас не охота в тот алгоритм есть. Потом сверю расхождения между ОСМ и моими данными, исправлю у себя где надо. А потом верну Ё на место.

Попробовал (локально). Зелёный стал мягче а красный превратился в гламурный розовый :slight_smile: Может тогда и спокойный жёлтый предложите? Со следующего отчёта должен появиться жёлтый цвет отмечающий серьёзные но не критические ошибки.

Приятно это осознавать :slight_smile:

Пока locality трогать не буду. Как известно, им в СПб и кладбища отмечают, там нужно штучно разбираться. По логике нужно к locality добавить что-нибудь типа was:locality=hamlet чтобы отличать абстрактное locality от останков населённого пункта.
Про Ё я уже ответил - на выходных.

Желтый #EEEEAA :slight_smile:

Да, спасибо, пойдёт :slight_smile: Когда будет следующая выгрузка (завтра или послезавтра - ведь у нас же БД сейчас на ТО) жёлтым будут отмечаться НП которые не попали в правильные сельские/городские поселения, но попали в правильный район. Т.е. в отчётах будет преобладать жёлтый а не красный :slight_smile:

А потом нужно будет пиктограммки на разные типы ошибок заводить. В общем валидатор ещё пилить и пилить.

Могу сказать что за последнее обновление количество распознанных НП увеличилось на 2.5% (полторы тысячи). Это, в принципе, уже успех.

что делать с опечатками в базе?
про Е/Ё уже писали конечно
и как быть со статусными частями? в случаях ПГТ валидатор требует наличия “поселок” в name

С чего ты взял ?

Обработка статусных частей это следующий этап. Я более-менее подготовил технический алгоритм, но что и как писать в ОСМе - это вопрос который требует некоторого обсуждения и следовательно времени. Думаю через пару недель этим займусь - раньше у меня совсем запары будут …

А слово “посёлок” валидатор кстати не требует - “посёлок” пишется в городских поселениях (хотя и там он не требуется). Проблема в другом - в результате муниципальной реформы были придуманы городские поселения, в которые могут входить как сами пгт так и другие населённые пункты. Но “пгт Петрово” и “городское поселение Петрово” суть разные объекты. “пгт Петрово” это place=village (скорее всего) с тегом official_status=ru:пгт а “городское поселение Петрово” это admin_level=8, official_status=ru:городское_поселение. Это две близких но разных сущности. В ОСМ они по привычке смешаны. Про это и wowik говорил.

А расскажи подробнее про алгоритм для статусных частей. На самом деле на границах нужно требовать явного указания полного названия со статусной частью - так для сверки нужно всего два сравнения: ==“<статусная часть> <название>” и ==“<название> <статусная часть>”. На place, понятно, в name только название, одинаковые названия различаются по official_status и/или full_name. Не думаю что послабления в этой схеме допустимы.

Кстати, откуда всё-таки эталонная база? Я вот заметил следующую штуку (к вопросу о опечатках): часто есть деревни с разночтением названий (Спас vs. Спасс, Большое Софроново vs. Большое Сафроново, Маковицы vs. Маковницы), при этом в большинстве карт используется название (условно) A, но в кадастре - название B. Так вот в валидаторе также используется B, и возможно есть основания доверять ему больше чем <большинству карт>. Под большинством карт здесь подразумевается подложка росреестра, яндекс, навител и гармин, под кадастром - информация о кадастровых участках с того же росреестра. Хотелось бы на эту тему услышать комментарии Zkir и Sergey Astakhov.

Я думаю про названия своих деревень должна знать соответствующая администрация, а не кадастровый инженер или кто там данные вносит.

Я думаю он всё-таки не с потолка их вносит и данные у него наиболее приближенные к администрации. Уж точно не к говнокартам, если уж кадастр с ними не совпадает.

Всё, отработал новый прогон и первый анализ говорит что результаты стали лучше. К сожалению, выложить я пока не могу, т.к. выяснилось что на работе заблокированы как ftp так и ssh наружу, т.е. результаты станут доступны поздно вечером когда я это сделаю из дома.

Из новшеств:

  • Был запущен был оптимизированный а не стандартный алгоритм, в результате чего самая долгая часть его работы ускорилась на 2 часа, а это существенный прирост производительности. Теперь всё время работы валидатора стало строго меньше чем рабочий день, т.е. проблем с его регулярным обновлением быть не должно (за исключением того что нет ftp или ssh). Ошибок не было обнаружено.

  • Были найдены недостающие муниципальные районы и сельские поселения (раньше часть из них отсутствовала). Осталось только несколько НП находящихся в межселенных территориях - ими займусь позже

  • Добавился жёлтый статус, т.е. НП распозналось на уровне района а не на уровне поселения. Красным цветом выделены НП которые не удалось сопоставить (включая правда и НП с одним названием - это ещё нужно обрабатывать). И да, цвета теперь используется предложенные zetx16

  • Немного подкрутил сопоставление поселений

По сравнению со вчерашним прогоном сопоставилось на 600 НП больше.

Чем не вариант перенести рабочую часть валидатора на рамблер?