Импорт открытых данных министерства культуры

Я согласен, что набор важный и что его хорошо бы импортировать, так или иначе. Но выбранный инструмент для этого импорта не подходит. Валидатор импортов хорош, когда данные хорошие: кликаешь good-good-good-good-здесь тег не меняем-good-на снимке нет-good-good-good… А не как с музеями, когда получаешь очередную точку и «блин, а с этой-то что делать?». За время импорта обнаружили:

  • проблемы геокодирования, когда в деревнях точка ложится на середину улицы (и у нас тоже нет адресов);
  • улёты на многие километры — например, Изборский музей в Псковской области улетел в центр Печор;
  • отдельные залы музея обозначены как отдельные музеи, в результате получается куст;
  • в дополнение, одна из этих точек главная (музей + его экспозиции), и сматчится на OSM, конечно, не она;
  • вместо музея в базе какие-то другие достопримечательности, типа церквей или «Новой Голландии»;
  • некоторые музеи давно закрыты, иногда вместе с сайтами;
  • неконсистентные названия и операторы: иногда название два слова, иногда — три строки, для карты это плохо;
  • в данных Минкульта далеко не все музеи, и часто музей матчится на какой-то частный музей, которого у них нет.

По-моему, тут больше задача для валидатора типа как CupIvan написал, либо нужно писать отдельный плагин для JOSM или iD. Чтобы вместе с очередной точкой выдавал редактор, и точку сразу встраивать в окружающую карту.

В JOSM же богатый удалённый доступ. Ссылкой из браузера можно создать новый объект и напихать туда тегов.

в josm мне как-то попадалась чтото типа апи универсального валидатора. но что к чему не помню :frowning:

Полностью поддерживаю! Информация действительно полезная, но для валидации а не импорта.

Я знаю, вы уже успели соскучиться по нажатию на теги и на кнопку «Record changes» :slight_smile:

Попробовал аналогичным образом обработать открытые данные по театрам — и их качество значительно лучше! Театров в базе всего 600, из них 450 сматчились. Сейчас прокликал около двадцати, в целом всё здраво. Отдельные проблемы встречаются, чаще из-за плохого геокодирования, но на то и валидатор импорта, чтобы их отлавливать и либо перетаскивать маркер в правильное место, либо жать «Duplicate».

Посмотрите и прощёлкайте десяток-другой театров сами: http://audit.osmz.ru/project/mrkf_theaters

operator как-то больно на official_name смахивает.
а operator там скорее просится “Управление культуры города Ростова-на-Дону”

Где как. Мне часто попадается official_name с приставками организации. Например, «ГАУ КО «Калининградский областной музыкальный театр». Ну и в данных это поле organization.

Надо допиливать валидатор до operator:wikidata=*, потому как “operator=ИП Иванов” в общем случае ни о чём.

Сначала нужно решить, зачем нам тег operator :slight_smile:

Здесь ремонт, и театр убран под was:amenity=theatre
http://audit.osmz.ru/browse/mrkf_theaters/28576

А если нет уверенности, что он нужен, зачем его массово рассавлять?

На всякие магазины я его ставлю, чтобы определить, какие по франшизе работают.

Во вновь создаваемых проставляется addr:full, хотя геокодировалось до здания.

На заброшенном здании:
http://audit.osmz.ru/browse/mrkf_theaters/18353
можно его погуглить, найдём сайт на реконструкции:
http://diclon.ru/

Одно на другое мэтчится:
http://audit.osmz.ru/browse/mrkf_theaters/28288

  • значит проверять надо вообще всё, а не только то, что будет (или не будет) добавлено.

По центру СПб из того, что реально есть, добавится всякая экзотика типа театр при музее:
http://audit.osmz.ru/browse/mrkf_theaters/18388

  • примерно так же, как если бы сделать импорт музеев, добавились бы музей такого-то завода или музей такого-то института.

Всякой мелочёвки, типа подпорченных сайтов, тоже будет изрядно
http://audit.osmz.ru/browse/mrkf_theaters/12853

Что такое opening_hours для театра?
Возьмём для примера
http://audit.osmz.ru/run/mrkf_theaters/14398
по данным импорта он закрывается в 19:00. Если посмотрим на афишу, то обнаружим там в 19:00 начинающиеся спектакли.

to Zverik
Илья, а насколько сложно в телефонные номера ставить правильный код региона? У нас, например, четырёх/пятизначные коды а предлагается трёхзначный.

Я сделал выключение addr:full при наличии addr:housenumber, но информации об адресе здания, в котором содержится точка, у меня нет. Кликай на «not set» в таких случаях.

Если видно, что со зданием что-то не так, жми «Not There». Это не настолько важные данные, чтобы вносить каждую точку любой ценой.

Конечно нужно проверять всё. В таких случаях я пишу в поле fixme «проверить на дубликаты» и жму «Don’t Change» → «Create New Instead».

Специально для этого я сегодня сделал нажимаемые ссылки. Можно быстро проверить, если глаз за что-то зацепился.

Обратите внимание, что вы не просто смотрите на точки и решаете, импортировать всё целиком или нет. Вы выбираете, какая часть данных будет импортирована, а какая — пропущена. В этом плане это уже не обычный пассивный импорт. Любую проблему с данными можете разрешить вы же. В случае музеев проблем было столько, что проще было отменить. Здесь же, условно, три из четырёх точек качественные, и три из четырёх оставшихся — с мелкими погрешностями.

Полагаю, время работы касс. Или стола информации.

Довольно сложно и, по-моему, излишне. 4 и 5 знаков — это обычные трёхзначные коды, дополненные двойками. Не знаю, бывает ли обычный трёхзначный код и обычный номер, начинающийся с двоек. В следующем импорте постараюсь учесть.

А с такими что делать?

http://audit.osmz.ru/browse/mrkf_theaters/18363

Адрес указан по юридическому адресу, но в своих контактах они его не указывают, т.к. театр странствующий, постоянной площадки нет и по указанному адресу вы скорей всего никого не застанете: http://pejo.ru/ru/category/contacts

Жать «Not There». Хорошо, что ты это заметил. Объясняет некоторые театры в жилых высотных домах.

Пробежался по нескольким десяткам театров в Москве. Не знаю, как в других городах, но в Москве смысла от такого импорта мало. В 80% случаев результатом импорта будет дубль контактов из contact:phone в phone + добавление ненужного addr:full и opening_hours (который, по хорошему, должен проставляться на точке кассы shop=tickets). Много мусора - исчезнувших театров, офисов театральных компаний, которые никак не amenity=theatre. Много матчится не с теми театрами, т.к. в центре Москвы они часто расположены кластерами.

Возможно, в других городах толку будет больше (т.к. в Москве более-менее хорошо все замаплено).