Резюме: главной целью данной работы является именно упорядочивание документации. Вторая цель — валидация. Наименее значимая цель — выявление мусорных данных и создание механизма по их удалению из проекта. Последняя цель наиболее спорная, но в перспективе неизбежная.
Что-то мне подсказывает что это всё глобальные идеи. А сообщество здесь несколько ленивое для стандартов (или точнее - “наш стандарт - отсутствие стандартов”). Идея чумовая, но не прокатит из-за того что в каждой стране, городе, улице, пользователя свой “стандарт”.
Но идея стандартизации неизбежна. Лучше просто к этому быть во всеоружии готовым Никто не требует установления единого стандарта, как устава в армии. Но стандартизация вообще - проекту необходима. Просто проекту всего несколько лет и он не вышел из ранней стадии, так что всё ещё впереди Чем более популярен проект - тем больше потребности от разных пользователей, тем больше требования к формализации.
Об этом даже не думайте, никаких “к удалению”, fixme и to_be_deleted, как минимум потому что any tags you like. Пнуть автора насчет пропозала можно, но если он не соберётся, это не должно быть поводом ни для каких деструктивных действий с данными.
Я так и знал что все прочитают текст по диагонали, пропустят текст выделенный жирным и выхватят фразу про удаление … и начнут холивар
А ведь я чётко написал - “создание механизма по удалению мусора из проекта”. Это как смертная казнь - механизм должен быть а помиловать или казнить - решается индивидуально. При этом жирным выделил что эта третья по значимости задача, конкретно меня особенно не волнующая. Меня более волнует бардак с документацией. А в шкафах OSM хранится немало скелетов …
Ну вот, самая простая часть закончена - создание БД и импорт в неё данных из OSM. Закачка файла СПб и ЛО длится 46 минут. Долго, наверное нужно будет подумать об увеличении памяти сервера.
Сейчас балуюсь с отчётами. Пока они более-менее дублируют то что уже есть в latlon-е - http://stat.latlon.org/ru/leningrad/latest/ Геометрию я пока не трогаю, это мне сейчас не особо интересно, а вот атрибутивная информация интересна.
Отпишусь когда будет собрана нормальная статистика к размышлению. Промежуточные построения нет смысла описывать.
После недели возни с файлами .osm появились первые результаты. Главный из них (для больше всех переживавших Zverik и AMDmi3) - объём несистематических данных весьма невелик. Для каких-либо техник удаления нет почвы и из своей повестки я это точно убираю. Я подозреваю, что это связано с гораздо более высоким порогом входа чем скажем в википедию и большая наглядность результатов действия вандалов.
180 ключей (k=““), описанных в вики или (если это что-то служебное типа esr или cladr) в форуме покрывают 99.5% всех свойств по выбранным мною регионам. Из оставшихся 0.5% что-то будет ещё разобрано, т.е. “за бортом” оказываются какие-то очень разовые малоценные теги либо очепятки. 825 значений (v=””) также покрывают около 99% данных. Здесь есть ряд спорных моментов, но о них отдельно.
Думаю что в промэксплуатацию что-то пойдёт в районе майских праздников. Собственно запланировано 5 итераций:
Собрать статистику по использованным в .osm (на нескольких регионах) ключам и привязать к wiki-документации или описанию на форуме. Это сделано
Собрать статистику по использованию в .osm (на нескольких регионах) key=value и отсылка к документации. Это тоже сделано
Далее - сложнее.
Собрать статистику по фактическим комбинациям тегов. И обкатать на rus.osm. Здесь уже начинается определённый уровень абстракции и есть параллели с упомянутым Tag Central, хотя и без фанатизма.
Обкатанный и отлаженный инструмент попробовать испытать на соседях - финнах, голландцах, немцах. Уже неоднократно натыкался на то, что один и тот же тег используется нами по разному.
Собственно создать валидатор годный для нормального использования.
Ну и параллельно хотелось бы как-то приводить в порядок документацию. Несмотря на то, что она достаточно неплоха (я ожидал худшего) неточностей хватает. Во всяком случае новичков она легко собьёт
Какой-то такой план. Не думаю что я делаю что-то уникальное для проекта, но какой-то позитивный выхлоп в виде большей нормализации данных должен быть.
Тут многие ставят на лесные участки местности landuse=forest , причем полянки и прочие дырки исправно исключают.
Но это же не правда! Полянка или болот в лесу ровно также управляется лесничеством, как и деревья.
Лично я за то, чтобы поотрывать руки вообще не использовать landuse=forest, по крайней мере так бездумно, просто для обрисовки леса.
Ведь надо правильно очертить административные границы landuse, а потом внутри них очертить лес, полянки, болото, воду.
Мапник конечно нарисует ужасно, но это дело поправимо.