Нормализация данных (пилотный проект — Спб и ЛО)

Не закончилось, ещё только начинается. К сожалению, я забыл, как его сейчас называют, но проект жив.

Что-то мне подсказывает что это всё глобальные идеи. А сообщество здесь несколько ленивое для стандартов (или точнее - “наш стандарт - отсутствие стандартов”). Идея чумовая, но не прокатит из-за того что в каждой стране, городе, улице, пользователя свой “стандарт”.

Но идея стандартизации неизбежна. Лучше просто к этому быть во всеоружии готовым :slight_smile: Никто не требует установления единого стандарта, как устава в армии. Но стандартизация вообще - проекту необходима. Просто проекту всего несколько лет и он не вышел из ранней стадии, так что всё ещё впереди :slight_smile: Чем более популярен проект - тем больше потребности от разных пользователей, тем больше требования к формализации.

Об этом даже не думайте, никаких “к удалению”, fixme и to_be_deleted, как минимум потому что any tags you like. Пнуть автора насчет пропозала можно, но если он не соберётся, это не должно быть поводом ни для каких деструктивных действий с данными.

Я так и знал что все прочитают текст по диагонали, пропустят текст выделенный жирным и выхватят фразу про удаление … и начнут холивар :slight_smile:

А ведь я чётко написал - “создание механизма по удалению мусора из проекта”. Это как смертная казнь - механизм должен быть а помиловать или казнить - решается индивидуально. При этом жирным выделил что эта третья по значимости задача, конкретно меня особенно не волнующая. Меня более волнует бардак с документацией. А в шкафах OSM хранится немало скелетов …

Так не надо было писать эту фразу, вызывающую холивар :slight_smile: Тем более, что она хорошо если третьестепенной важности в этом задуманном проекте.

систематизация нужна
посмотрим, что за инструмент вы сможете предложить :slight_smile:

Ну вот, самая простая часть закончена - создание БД и импорт в неё данных из OSM. Закачка файла СПб и ЛО длится 46 минут. Долго, наверное нужно будет подумать об увеличении памяти сервера.

Сейчас балуюсь с отчётами. Пока они более-менее дублируют то что уже есть в latlon-е - http://stat.latlon.org/ru/leningrad/latest/ Геометрию я пока не трогаю, это мне сейчас не особо интересно, а вот атрибутивная информация интересна.

Отпишусь когда будет собрана нормальная статистика к размышлению. Промежуточные построения нет смысла описывать.

После недели возни с файлами .osm появились первые результаты. Главный из них (для больше всех переживавших Zverik и AMDmi3) - объём несистематических данных весьма невелик. Для каких-либо техник удаления нет почвы и из своей повестки я это точно убираю. Я подозреваю, что это связано с гораздо более высоким порогом входа чем скажем в википедию и большая наглядность результатов действия вандалов.

180 ключей (k=““), описанных в вики или (если это что-то служебное типа esr или cladr) в форуме покрывают 99.5% всех свойств по выбранным мною регионам. Из оставшихся 0.5% что-то будет ещё разобрано, т.е. “за бортом” оказываются какие-то очень разовые малоценные теги либо очепятки. 825 значений (v=””) также покрывают около 99% данных. Здесь есть ряд спорных моментов, но о них отдельно.

А на сочетаемость проводилась проверка? К примеру что не может быть на одном полигоне landuse=forest и building=yes.

Думаю что в промэксплуатацию что-то пойдёт в районе майских праздников. Собственно запланировано 5 итераций:

  1. Собрать статистику по использованным в .osm (на нескольких регионах) ключам и привязать к wiki-документации или описанию на форуме. Это сделано
  2. Собрать статистику по использованию в .osm (на нескольких регионах) key=value и отсылка к документации. Это тоже сделано

Далее - сложнее.

  1. Собрать статистику по фактическим комбинациям тегов. И обкатать на rus.osm. Здесь уже начинается определённый уровень абстракции и есть параллели с упомянутым Tag Central, хотя и без фанатизма.
  2. Обкатанный и отлаженный инструмент попробовать испытать на соседях - финнах, голландцах, немцах. Уже неоднократно натыкался на то, что один и тот же тег используется нами по разному.
  3. Собственно создать валидатор годный для нормального использования.

Ну и параллельно хотелось бы как-то приводить в порядок документацию. Несмотря на то, что она достаточно неплоха (я ожидал худшего) неточностей хватает. Во всяком случае новичков она легко собьёт :frowning:

Какой-то такой план. Не думаю что я делаю что-то уникальное для проекта, но какой-то позитивный выхлоп в виде большей нормализации данных должен быть.

Здание лесничества.

Здание лесничества - становиться землепользованием что ли?

Земля под знанием управляется лесничеством.

Если территория лесничества ограничивается только этим зданием. Чет я сильно сомневаюсь в реальности такой ситуации.

Где я писал ТОЛЬКО? Может анклав такой. Внутри landuse=residential, к примеру :wink:

Кстати о лесничествах.

Тут многие ставят на лесные участки местности landuse=forest , причем полянки и прочие дырки исправно исключают.
Но это же не правда! Полянка или болот в лесу ровно также управляется лесничеством, как и деревья.

Лично я за то, чтобы поотрывать руки вообще не использовать landuse=forest, по крайней мере так бездумно, просто для обрисовки леса.
Ведь надо правильно очертить административные границы landuse, а потом внутри них очертить лес, полянки, болото, воду.

Мапник конечно нарисует ужасно, но это дело поправимо.

Вот я в существовании таких анклавов очень сильно сомневаюсь, и проверил бы: анклав ли это или человек ошибся.

Придумывать формально корректные, но весьма странные примеры я тоже большой мастак.

Сейчас в 99% случае landuse=forest используется там, где человек рисует лес, а не землепользование.

Убивать полянки внутри landuse=forest сейчас ни в коем случае нельзя. Только если сначала конвертнуть все текущие landuse=forest в natural=wood. Потом донести до всех без исключения пользователей, что landuse - это землепользование, и только после этого использовать по полной программе правильную семантику этого тэга.

Сейчас нельзя, т.к. фактически синоним wood.

ИМХО, рисуют landuse=fores бездумно обводя именно лес, исключительно по причине кривого рендеринга таких территорий мапником. По идее-бы рендер landuse=forest и natural=wood поменять местами, или даже землепользование сделать ещё более тусклым, как всё остальное землепользование. Сейчас-же landuse=forest отрисовывается пышным зелёным лесом с ёлочками иль сосенками.

А по-моему, корень путаницы состоит в том, что в джосм лэндюз=форест переведён на русский язык как лесопосадки.