Нормализация данных (пилотный проект — Спб и ЛО)

После недели возни с файлами .osm появились первые результаты. Главный из них (для больше всех переживавших Zverik и AMDmi3) - объём несистематических данных весьма невелик. Для каких-либо техник удаления нет почвы и из своей повестки я это точно убираю. Я подозреваю, что это связано с гораздо более высоким порогом входа чем скажем в википедию и большая наглядность результатов действия вандалов.

180 ключей (k=““), описанных в вики или (если это что-то служебное типа esr или cladr) в форуме покрывают 99.5% всех свойств по выбранным мною регионам. Из оставшихся 0.5% что-то будет ещё разобрано, т.е. “за бортом” оказываются какие-то очень разовые малоценные теги либо очепятки. 825 значений (v=””) также покрывают около 99% данных. Здесь есть ряд спорных моментов, но о них отдельно.

А на сочетаемость проводилась проверка? К примеру что не может быть на одном полигоне landuse=forest и building=yes.

Думаю что в промэксплуатацию что-то пойдёт в районе майских праздников. Собственно запланировано 5 итераций:

  1. Собрать статистику по использованным в .osm (на нескольких регионах) ключам и привязать к wiki-документации или описанию на форуме. Это сделано
  2. Собрать статистику по использованию в .osm (на нескольких регионах) key=value и отсылка к документации. Это тоже сделано

Далее - сложнее.

  1. Собрать статистику по фактическим комбинациям тегов. И обкатать на rus.osm. Здесь уже начинается определённый уровень абстракции и есть параллели с упомянутым Tag Central, хотя и без фанатизма.
  2. Обкатанный и отлаженный инструмент попробовать испытать на соседях - финнах, голландцах, немцах. Уже неоднократно натыкался на то, что один и тот же тег используется нами по разному.
  3. Собственно создать валидатор годный для нормального использования.

Ну и параллельно хотелось бы как-то приводить в порядок документацию. Несмотря на то, что она достаточно неплоха (я ожидал худшего) неточностей хватает. Во всяком случае новичков она легко собьёт :frowning:

Какой-то такой план. Не думаю что я делаю что-то уникальное для проекта, но какой-то позитивный выхлоп в виде большей нормализации данных должен быть.

Здание лесничества.

Здание лесничества - становиться землепользованием что ли?

Земля под знанием управляется лесничеством.

Если территория лесничества ограничивается только этим зданием. Чет я сильно сомневаюсь в реальности такой ситуации.

Где я писал ТОЛЬКО? Может анклав такой. Внутри landuse=residential, к примеру :wink:

Кстати о лесничествах.

Тут многие ставят на лесные участки местности landuse=forest , причем полянки и прочие дырки исправно исключают.
Но это же не правда! Полянка или болот в лесу ровно также управляется лесничеством, как и деревья.

Лично я за то, чтобы поотрывать руки вообще не использовать landuse=forest, по крайней мере так бездумно, просто для обрисовки леса.
Ведь надо правильно очертить административные границы landuse, а потом внутри них очертить лес, полянки, болото, воду.

Мапник конечно нарисует ужасно, но это дело поправимо.

Вот я в существовании таких анклавов очень сильно сомневаюсь, и проверил бы: анклав ли это или человек ошибся.

Придумывать формально корректные, но весьма странные примеры я тоже большой мастак.

Сейчас в 99% случае landuse=forest используется там, где человек рисует лес, а не землепользование.

Убивать полянки внутри landuse=forest сейчас ни в коем случае нельзя. Только если сначала конвертнуть все текущие landuse=forest в natural=wood. Потом донести до всех без исключения пользователей, что landuse - это землепользование, и только после этого использовать по полной программе правильную семантику этого тэга.

Сейчас нельзя, т.к. фактически синоним wood.

ИМХО, рисуют landuse=fores бездумно обводя именно лес, исключительно по причине кривого рендеринга таких территорий мапником. По идее-бы рендер landuse=forest и natural=wood поменять местами, или даже землепользование сделать ещё более тусклым, как всё остальное землепользование. Сейчас-же landuse=forest отрисовывается пышным зелёным лесом с ёлочками иль сосенками.

А по-моему, корень путаницы состоит в том, что в джосм лэндюз=форест переведён на русский язык как лесопосадки.

Раньше там вообще было landuse=forest - “Лес”, natural=wood - “Лесистая местность”. Потом я предложил поменять на текущий вариант. Если у вас есть лучшие предложения - welcome в тему о русификации JOSM.

Надо сказать, это далеко не самый худший вариант.
natural=wood - лес,
landuse=forest - искусственные лесопосадки.
Что здесь нелогичного?
И какая предлагается альтернатива?

Обнаружил в Питере у многих building=yes наличие addr:street без addr:housenumber. Думаю, такую комбинацию тоже следует считать ошибкой.

andriano, такое реально бывает: дом приписан улице, но без номера (б/н)

http://forum.openstreetmap.org/viewtopic.php?pid=146740#p146740

Можно пример?

Можно пример из КЛАДРа?

а откуда в кладре номера домов???