Я как-то обрабатывал такого рода данные. Получилось Garbage In - Garbage Out. Качество исходных данных оказалось сильно ниже ожидаемого. Как раз куча ситуаций типа приведённых выше. Пришлось каждый музей проходить отдельно “ручками”.
Так, ладно, я понял. Снова остановил проверку, на этот раз — навсегда. Дам ссылку на эту тему сотруднику, который предложил импортировать. Большое спасибо всем за комментарии и извините за потраченное время. «Новая Голландия» убила, конечно.
Я согласен, что набор важный и что его хорошо бы импортировать, так или иначе. Но выбранный инструмент для этого импорта не подходит. Валидатор импортов хорош, когда данные хорошие: кликаешь good-good-good-good-здесь тег не меняем-good-на снимке нет-good-good-good… А не как с музеями, когда получаешь очередную точку и «блин, а с этой-то что делать?». За время импорта обнаружили:
проблемы геокодирования, когда в деревнях точка ложится на середину улицы (и у нас тоже нет адресов);
улёты на многие километры — например, Изборский музей в Псковской области улетел в центр Печор;
отдельные залы музея обозначены как отдельные музеи, в результате получается куст;
в дополнение, одна из этих точек главная (музей + его экспозиции), и сматчится на OSM, конечно, не она;
вместо музея в базе какие-то другие достопримечательности, типа церквей или «Новой Голландии»;
некоторые музеи давно закрыты, иногда вместе с сайтами;
неконсистентные названия и операторы: иногда название два слова, иногда — три строки, для карты это плохо;
в данных Минкульта далеко не все музеи, и часто музей матчится на какой-то частный музей, которого у них нет.
По-моему, тут больше задача для валидатора типа как CupIvan написал, либо нужно писать отдельный плагин для JOSM или iD. Чтобы вместе с очередной точкой выдавал редактор, и точку сразу встраивать в окружающую карту.
Я знаю, вы уже успели соскучиться по нажатию на теги и на кнопку «Record changes»
Попробовал аналогичным образом обработать открытые данные по театрам — и их качество значительно лучше! Театров в базе всего 600, из них 450 сматчились. Сейчас прокликал около двадцати, в целом всё здраво. Отдельные проблемы встречаются, чаще из-за плохого геокодирования, но на то и валидатор импорта, чтобы их отлавливать и либо перетаскивать маркер в правильное место, либо жать «Duplicate».
Где как. Мне часто попадается official_name с приставками организации. Например, «ГАУ КО «Калининградский областной музыкальный театр». Ну и в данных это поле organization.