Нормализация данных (пилотный проект — Спб и ЛО)

fserges · February 22, 2011, 10:42am

Резюме: главной целью данной работы является именно упорядочивание документации. Вторая цель — валидация. Наименее значимая цель — выявление мусорных данных и создание механизма по их удалению из проекта. Последняя цель наиболее спорная, но в перспективе неизбежная.

О процессе работы буду отписываться в этой теме.

Zverik · February 22, 2011, 11:29am

Нда.
Ссылки по теме: Machine-readable Map Feature list, Tag Central: a Schema for OSM.
А предложения по автоматическому удалению чего бы то ни было автоматически отвергаются сообществом.

Magomogo · February 22, 2011, 12:10pm

Ого. И чем дело закончилось с идеей Tag Central?

Zverik · February 22, 2011, 12:15pm

Не закончилось, ещё только начинается. К сожалению, я забыл, как его сейчас называют, но проект жив.

fserges · February 22, 2011, 12:23pm

Что-то мне подсказывает что это всё глобальные идеи. А сообщество здесь несколько ленивое для стандартов (или точнее - “наш стандарт - отсутствие стандартов”). Идея чумовая, но не прокатит из-за того что в каждой стране, городе, улице, пользователя свой “стандарт”.

Но идея стандартизации неизбежна. Лучше просто к этому быть во всеоружии готовым Никто не требует установления единого стандарта, как устава в армии. Но стандартизация вообще - проекту необходима. Просто проекту всего несколько лет и он не вышел из ранней стадии, так что всё ещё впереди Чем более популярен проект - тем больше потребности от разных пользователей, тем больше требования к формализации.

AMDmi3 · February 22, 2011, 2:19pm

fserges:

Если странные данные не удалось документировать и авторы не отвечают, то такие данные добавляются на вики-страницу «К удалению».

Если данные вызывают вопросы, то перед удалением можно проставить специальный тег типа “FIXME=Proposal needed” или какой-нибудь новый тег типа «To_be_deleted».

Если данные находятся долгое время (скажем пол-года, год) на странице «К удалению» и никто не смог дать объяснения — что это за данные, то такие данные подлежат удалению

Как альтернатива - предлагаю составить список мусорных данных которые препроцессором будут выкидываться из импортированных OSM файлов. Физическое удаление из БД OSM не потребуется.

Об этом даже не думайте, никаких “к удалению”, fixme и to_be_deleted, как минимум потому что any tags you like. Пнуть автора насчет пропозала можно, но если он не соберётся, это не должно быть поводом ни для каких деструктивных действий с данными.

fserges · February 22, 2011, 2:32pm

Я так и знал что все прочитают текст по диагонали, пропустят текст выделенный жирным и выхватят фразу про удаление … и начнут холивар

А ведь я чётко написал - “создание механизма по удалению мусора из проекта”. Это как смертная казнь - механизм должен быть а помиловать или казнить - решается индивидуально. При этом жирным выделил что эта третья по значимости задача, конкретно меня особенно не волнующая. Меня более волнует бардак с документацией. А в шкафах OSM хранится немало скелетов …

gps-Max · February 23, 2011, 1:40am

Так не надо было писать эту фразу, вызывающую холивар Тем более, что она хорошо если третьестепенной важности в этом задуманном проекте.

dedNikifor · February 23, 2011, 2:30am

систематизация нужна
посмотрим, что за инструмент вы сможете предложить

fserges · February 23, 2011, 5:53pm

Ну вот, самая простая часть закончена - создание БД и импорт в неё данных из OSM. Закачка файла СПб и ЛО длится 46 минут. Долго, наверное нужно будет подумать об увеличении памяти сервера.

Сейчас балуюсь с отчётами. Пока они более-менее дублируют то что уже есть в latlon-е - http://stat.latlon.org/ru/leningrad/latest/ Геометрию я пока не трогаю, это мне сейчас не особо интересно, а вот атрибутивная информация интересна.

Отпишусь когда будет собрана нормальная статистика к размышлению. Промежуточные построения нет смысла описывать.

fserges · March 3, 2011, 3:27pm

После недели возни с файлами .osm появились первые результаты. Главный из них (для больше всех переживавших Zverik и AMDmi3) - объём несистематических данных весьма невелик. Для каких-либо техник удаления нет почвы и из своей повестки я это точно убираю. Я подозреваю, что это связано с гораздо более высоким порогом входа чем скажем в википедию и большая наглядность результатов действия вандалов.

180 ключей (k=““), описанных в вики или (если это что-то служебное типа esr или cladr) в форуме покрывают 99.5% всех свойств по выбранным мною регионам. Из оставшихся 0.5% что-то будет ещё разобрано, т.е. “за бортом” оказываются какие-то очень разовые малоценные теги либо очепятки. 825 значений (v=””) также покрывают около 99% данных. Здесь есть ряд спорных моментов, но о них отдельно.

dkiselev · March 3, 2011, 4:36pm

А на сочетаемость проводилась проверка? К примеру что не может быть на одном полигоне landuse=forest и building=yes.

fserges · March 3, 2011, 5:23pm

Думаю что в промэксплуатацию что-то пойдёт в районе майских праздников. Собственно запланировано 5 итераций:

Собрать статистику по использованным в .osm (на нескольких регионах) ключам и привязать к wiki-документации или описанию на форуме. Это сделано
Собрать статистику по использованию в .osm (на нескольких регионах) key=value и отсылка к документации. Это тоже сделано

Далее - сложнее.

Собрать статистику по фактическим комбинациям тегов. И обкатать на rus.osm. Здесь уже начинается определённый уровень абстракции и есть параллели с упомянутым Tag Central, хотя и без фанатизма.
Обкатанный и отлаженный инструмент попробовать испытать на соседях - финнах, голландцах, немцах. Уже неоднократно натыкался на то, что один и тот же тег используется нами по разному.
Собственно создать валидатор годный для нормального использования.

Ну и параллельно хотелось бы как-то приводить в порядок документацию. Несмотря на то, что она достаточно неплоха (я ожидал худшего) неточностей хватает. Во всяком случае новичков она легко собьёт

Какой-то такой план. Не думаю что я делаю что-то уникальное для проекта, но какой-то позитивный выхлоп в виде большей нормализации данных должен быть.

wowik · March 4, 2011, 9:08am

Здание лесничества.

dkiselev · March 4, 2011, 9:14am

Здание лесничества - становиться землепользованием что ли?

wowik · March 4, 2011, 9:35am

Земля под знанием управляется лесничеством.

dkiselev · March 4, 2011, 9:43am

Если территория лесничества ограничивается только этим зданием. Чет я сильно сомневаюсь в реальности такой ситуации.

wowik · March 4, 2011, 10:00am

Где я писал ТОЛЬКО? Может анклав такой. Внутри landuse=residential, к примеру

wowik · March 4, 2011, 10:19am

Кстати о лесничествах.

Тут многие ставят на лесные участки местности landuse=forest , причем полянки и прочие дырки исправно исключают.
Но это же не правда! Полянка или болот в лесу ровно также управляется лесничеством, как и деревья.

Лично я за то, чтобы ~~поотрывать руки~~ вообще не использовать landuse=forest, по крайней мере так бездумно, просто для обрисовки леса.
Ведь надо правильно очертить административные границы landuse, а потом внутри них очертить лес, полянки, болото, воду.

Мапник конечно нарисует ужасно, но это дело поправимо.

dkiselev · March 4, 2011, 10:20am

Вот я в существовании таких анклавов очень сильно сомневаюсь, и проверил бы: анклав ли это или человек ошибся.

Придумывать формально корректные, но весьма странные примеры я тоже большой мастак.