OpenStreetMap Forum

The Free Wiki World Map

You are not logged in.

Announcement

A fix has been applied to the login system for the forums - if you have trouble logging in please contact support@openstreetmap.org with both your forum username and your OpenStreetMap username so we can make sure your accounts are properly linked.

#1 2011-02-22 11:36:38

fserges
Member
From: St.Petersburg/Russia
Registered: 2010-11-08
Posts: 3,658

Нормализация данных (пилотный проект — Спб и ЛО)

Я начинаю проект по приведению данных в удобный для автоматического использования вид, т.е. нормализацию данных. Работа (пока) будет вестись только в рамках одного региона, т.к. найти консенсус по всей стране может оказаться нереально трудно, а в СПб и Ленинградской области любой спорный момент может быть проверен мною на месте, ибо это мой родной регион. Фактический старт проекта - март 2011 (не всё ПО ещё разработано).

Суть проекта — анализ и проверка атрибутивной информации и вычленение мусорных данных. Основной целью является приведение в порядок документации а также установление рабочего механизма по поддержанию БД в документированном состоянии. Как это выглядит (см. далее)?

Offline

#2 2011-02-22 11:37:56

fserges
Member
From: St.Petersburg/Russia
Registered: 2010-11-08
Posts: 3,658

Re: Нормализация данных (пилотный проект — Спб и ЛО)

Создание БД


1. Файл leningrad.osm заливается в специализированную БД (моя разработка)
2. Для каждого ключа (landuse, amenity, shop и т.п.) описанного в русской вики-документации создаются записи в БД, которые отмечают корректные ключи
3. Для каждого значения ключа (yes, university, footway и т.п.) описанного в вики-документации создаются записи в БД, которые отмечают корректные значения ключей
4. Аналогичное действо на комбинации ключей, скажем maxspeed и natural – некорректные сочетания ключей
5. Дополнительные проверки

Это всё моя внутренняя работа, в конце могу создать отдельную страницу с результатами.

Offline

#3 2011-02-22 11:39:29

fserges
Member
From: St.Petersburg/Russia
Registered: 2010-11-08
Posts: 3,658

Re: Нормализация данных (пилотный проект — Спб и ЛО)

Обработка исключений

1. То что не описано в документации подвергается анализу в виде валидационных страниц
2. Если данные — следствия опечаток то исправляются вручную в моём валидаторе
3. Если какие-то данные активно используются но не описаны корректно в документации — выставляю запрос на форуме о необходимости создания proposal или перевода страницы. Перевод могу сделать сам
4. Если данные непонятны но используются несколькими авторами то попытка связаться с авторами и создание соответствующей темы в форуме
5. Если данные созданы когда-то одним-двумя авторами давно и никаких упоминаний в документации то создаётся новая тема и эти данные объявляются мусорными в случае отсутствия какой-либо ясности

Это основной массив работы.

Offline

#4 2011-02-22 11:41:52

fserges
Member
From: St.Petersburg/Russia
Registered: 2010-11-08
Posts: 3,658

Re: Нормализация данных (пилотный проект — Спб и ЛО)

Процесс выявления и обработки мусорных данных

1. О данных, значение которых не ясно и отсутствует какая-либо документация оповещаются все потенциально заинтересованные люди
2. Если кто-то сможет создать адекватный proposal на эти данные то это наилучший вариант
3. Если странные данные не удалось документировать и авторы не отвечают, то такие данные добавляются на вики-страницу «К удалению».
4. Если данные вызывают вопросы, то перед удалением можно проставить специальный тег типа "FIXME=Proposal needed" или какой-нибудь новый тег типа «To_be_deleted».
5. Если данные находятся долгое время (скажем пол-года, год) на странице «К удалению» и никто не смог дать объяснения — что это за данные, то такие данные подлежат удалению
6. Как альтернатива - предлагаю составить список мусорных данных которые препроцессором будут выкидываться из импортированных OSM файлов. Физическое удаление из БД OSM не потребуется.

Пока это план, детали будут обсуждены по результатам фактической работы.

Offline

#5 2011-02-22 11:42:44

fserges
Member
From: St.Petersburg/Russia
Registered: 2010-11-08
Posts: 3,658

Re: Нормализация данных (пилотный проект — Спб и ЛО)

Резюме: главной целью данной работы является именно упорядочивание документации. Вторая цель — валидация. Наименее значимая цель — выявление мусорных данных и создание механизма по их удалению из проекта. Последняя цель наиболее спорная, но в перспективе неизбежная.

О процессе работы буду отписываться в этой теме.

Offline

#6 2011-02-22 12:29:07

Zverik
Moderator
From: Москва
Registered: 2010-10-14
Posts: 5,430
Website

Re: Нормализация данных (пилотный проект — Спб и ЛО)

Нда.
Ссылки по теме: Machine-readable Map Feature list, Tag Central: a Schema for OSM.
А предложения по автоматическому удалению чего бы то ни было автоматически отвергаются сообществом.


ШТОСМ | josm.ru | обо мне | taste is just another name for misogyny

Offline

#7 2011-02-22 13:10:07

Magomogo
Member
From: Novosibirsk
Registered: 2010-11-20
Posts: 220
Website

Re: Нормализация данных (пилотный проект — Спб и ЛО)

Ого. И чем дело закончилось с идеей Tag Central?

Offline

#8 2011-02-22 13:15:22

Zverik
Moderator
From: Москва
Registered: 2010-10-14
Posts: 5,430
Website

Re: Нормализация данных (пилотный проект — Спб и ЛО)

Не закончилось, ещё только начинается. К сожалению, я забыл, как его сейчас называют, но проект жив.


ШТОСМ | josm.ru | обо мне | taste is just another name for misogyny

Offline

#9 2011-02-22 13:23:40

fserges
Member
From: St.Petersburg/Russia
Registered: 2010-11-08
Posts: 3,658

Re: Нормализация данных (пилотный проект — Спб и ЛО)

Magomogo wrote:

Ого. И чем дело закончилось с идеей Tag Central?

Что-то мне подсказывает что это всё глобальные идеи. А сообщество здесь несколько ленивое для стандартов (или точнее - "наш стандарт - отсутствие стандартов"). Идея чумовая, но не прокатит из-за того что в каждой стране, городе, улице, пользователя свой "стандарт".

Но идея стандартизации неизбежна. Лучше просто к этому быть во всеоружии готовым smile Никто не требует установления единого стандарта, как устава в армии. Но стандартизация вообще - проекту необходима. Просто проекту всего несколько лет и он не вышел из ранней стадии, так что всё ещё впереди smile Чем более популярен проект - тем больше потребности от разных пользователей, тем больше требования к формализации.

Offline

#10 2011-02-22 15:19:26

AMDmi3
Member
From: Москва
Registered: 2009-08-12
Posts: 3,315

Re: Нормализация данных (пилотный проект — Спб и ЛО)

fserges wrote:

3. Если странные данные не удалось документировать и авторы не отвечают, то такие данные добавляются на вики-страницу «К удалению».
4. Если данные вызывают вопросы, то перед удалением можно проставить специальный тег типа "FIXME=Proposal needed" или какой-нибудь новый тег типа «To_be_deleted».
5. Если данные находятся долгое время (скажем пол-года, год) на странице «К удалению» и никто не смог дать объяснения — что это за данные, то такие данные подлежат удалению
6. Как альтернатива - предлагаю составить список мусорных данных которые препроцессором будут выкидываться из импортированных OSM файлов. Физическое удаление из БД OSM не потребуется.

Об этом даже не думайте, никаких "к удалению", fixme и to_be_deleted, как минимум потому что any tags you like. Пнуть автора насчет пропозала можно, но если он не соберётся, это не должно быть поводом ни для каких деструктивных действий с данными.

Offline

#11 2011-02-22 15:32:51

fserges
Member
From: St.Petersburg/Russia
Registered: 2010-11-08
Posts: 3,658

Re: Нормализация данных (пилотный проект — Спб и ЛО)

Я так и знал что все прочитают текст по диагонали, пропустят текст выделенный жирным и выхватят фразу про удаление ... и начнут холивар smile

А ведь я чётко написал - "создание механизма по удалению мусора из проекта". Это как смертная казнь - механизм должен быть а помиловать или казнить - решается индивидуально. При этом жирным выделил что эта третья по значимости задача, конкретно меня особенно не волнующая. Меня более волнует бардак с документацией. А в шкафах OSM хранится немало скелетов ...

Offline

#12 2011-02-23 02:40:55

gps-Max
Member
Registered: 2010-01-12
Posts: 736

Re: Нормализация данных (пилотный проект — Спб и ЛО)

fserges wrote:

Я так и знал что все прочитают текст по диагонали, пропустят текст выделенный жирным и выхватят фразу про удаление ... и начнут холивар smile

Так не надо было писать эту фразу, вызывающую холивар :-) Тем более, что она хорошо если третьестепенной важности в этом задуманном проекте.

Offline

#13 2011-02-23 03:30:08

dedNikifor
Member
From: Свердловская обл.
Registered: 2009-09-11
Posts: 3,414

Re: Нормализация данных (пилотный проект — Спб и ЛО)

систематизация нужна
посмотрим, что за инструмент вы сможете предложить smile


Графическая (в виде карты с точками опасных объектов) база спидкамов для разных навигационных программ. Подложка OSM присутствует

Offline

#14 2011-02-23 18:53:03

fserges
Member
From: St.Petersburg/Russia
Registered: 2010-11-08
Posts: 3,658

Re: Нормализация данных (пилотный проект — Спб и ЛО)

Ну вот, самая простая часть закончена - создание БД и импорт в неё данных из OSM. Закачка файла СПб и ЛО длится 46 минут. Долго, наверное нужно будет подумать об увеличении памяти сервера.

Сейчас балуюсь с отчётами. Пока они более-менее дублируют то что уже есть в latlon-е - http://stat.latlon.org/ru/leningrad/latest/ Геометрию я пока не трогаю, это мне сейчас не особо интересно, а вот атрибутивная информация интересна.

Отпишусь когда будет собрана нормальная статистика к размышлению. Промежуточные построения нет смысла описывать.

Offline

#15 2011-03-03 16:27:30

fserges
Member
From: St.Petersburg/Russia
Registered: 2010-11-08
Posts: 3,658

Re: Нормализация данных (пилотный проект — Спб и ЛО)

После недели возни с файлами .osm появились первые результаты. Главный из них (для больше всех переживавших Zverik и AMDmi3) - объём несистематических данных весьма невелик. Для каких-либо техник удаления нет почвы и из своей повестки я это точно убираю. Я подозреваю, что это связано с гораздо более высоким порогом входа чем скажем в википедию и большая наглядность результатов действия вандалов.

180 ключей (k="*"), описанных в вики или (если это что-то служебное типа esr или cladr) в форуме покрывают 99.5% всех свойств по выбранным мною регионам. Из оставшихся 0.5% что-то будет ещё разобрано, т.е. "за бортом" оказываются какие-то очень разовые малоценные теги либо очепятки. 825 значений (v="*") также покрывают около 99% данных. Здесь есть ряд спорных моментов, но о них отдельно.

Offline

#16 2011-03-03 17:36:13

dkiselev
Member
Registered: 2010-02-09
Posts: 3,361

Re: Нормализация данных (пилотный проект — Спб и ЛО)

А на сочетаемость проводилась проверка? К примеру что не может быть на одном полигоне landuse=forest и building=yes.


mail: dkiselev@osm.me      skype: dmitry.v.kiselev
Open Street Maps are supreme! Exterminate all map forms! Exterminate! Exterminate!

Offline

#17 2011-03-03 18:23:23

fserges
Member
From: St.Petersburg/Russia
Registered: 2010-11-08
Posts: 3,658

Re: Нормализация данных (пилотный проект — Спб и ЛО)

Думаю что в промэксплуатацию что-то пойдёт в районе майских праздников. Собственно запланировано 5 итераций:

1) Собрать статистику по использованным в .osm (на нескольких регионах) ключам и привязать к wiki-документации или описанию на форуме. Это сделано
2) Собрать статистику по использованию в .osm (на нескольких регионах) key=value и отсылка к документации. Это тоже сделано

Далее - сложнее.

3) Собрать статистику по фактическим комбинациям тегов. И обкатать на rus.osm. Здесь уже начинается определённый уровень абстракции и есть параллели с упомянутым Tag Central, хотя и без фанатизма.
4) Обкатанный и отлаженный инструмент попробовать испытать на соседях - финнах, голландцах, немцах. Уже неоднократно натыкался на то, что один и тот же тег используется нами по разному.
5) Собственно создать валидатор годный для нормального использования.

Ну и параллельно хотелось бы как-то приводить в порядок документацию. Несмотря на то, что она достаточно неплоха (я ожидал худшего) неточностей хватает. Во всяком случае новичков она легко собьёт sad

Какой-то такой план. Не думаю что я делаю что-то уникальное для проекта, но какой-то позитивный выхлоп в виде большей нормализации данных должен быть.

Offline

#18 2011-03-04 10:08:20

wowik
Member
From: Zelenograd
Registered: 2009-09-29
Posts: 7,011

Re: Нормализация данных (пилотный проект — Спб и ЛО)

dkiselev wrote:

А на сочетаемость проводилась проверка? К примеру что не может быть на одном полигоне landuse=forest и building=yes.

Здание лесничества.

Online

#19 2011-03-04 10:14:53

dkiselev
Member
Registered: 2010-02-09
Posts: 3,361

Re: Нормализация данных (пилотный проект — Спб и ЛО)

Здание лесничества - становиться землепользованием что ли?


mail: dkiselev@osm.me      skype: dmitry.v.kiselev
Open Street Maps are supreme! Exterminate all map forms! Exterminate! Exterminate!

Offline

#20 2011-03-04 10:35:52

wowik
Member
From: Zelenograd
Registered: 2009-09-29
Posts: 7,011

Re: Нормализация данных (пилотный проект — Спб и ЛО)

dkiselev wrote:

Здание лесничества - становиться землепользованием что ли?

Земля под знанием управляется лесничеством.

Online

#21 2011-03-04 10:43:18

dkiselev
Member
Registered: 2010-02-09
Posts: 3,361

Re: Нормализация данных (пилотный проект — Спб и ЛО)

Если территория лесничества ограничивается только этим зданием. Чет я сильно сомневаюсь в реальности такой ситуации.


mail: dkiselev@osm.me      skype: dmitry.v.kiselev
Open Street Maps are supreme! Exterminate all map forms! Exterminate! Exterminate!

Offline

#22 2011-03-04 11:00:07

wowik
Member
From: Zelenograd
Registered: 2009-09-29
Posts: 7,011

Re: Нормализация данных (пилотный проект — Спб и ЛО)

dkiselev wrote:

Если территория лесничества ограничивается только этим зданием. Чет я сильно сомневаюсь в реальности такой ситуации.

Где я писал ТОЛЬКО? Может анклав такой. Внутри landuse=residential, к примеру wink

Online

#23 2011-03-04 11:19:54

wowik
Member
From: Zelenograd
Registered: 2009-09-29
Posts: 7,011

Re: Нормализация данных (пилотный проект — Спб и ЛО)

Кстати о лесничествах.

Тут многие ставят на лесные участки местности landuse=forest , причем полянки и прочие дырки исправно исключают.
Но это же не правда! Полянка или болот в лесу ровно также управляется лесничеством, как и деревья.

Лично я за то, чтобы поотрывать руки вообще не использовать landuse=forest, по крайней мере так бездумно, просто для обрисовки леса.
Ведь надо правильно очертить административные границы landuse, а потом внутри них очертить лес, полянки, болото, воду.

Мапник конечно нарисует ужасно, но это дело поправимо.

Last edited by wowik (2011-03-04 11:26:26)

Online

#24 2011-03-04 11:20:00

dkiselev
Member
Registered: 2010-02-09
Posts: 3,361

Re: Нормализация данных (пилотный проект — Спб и ЛО)

Вот я в существовании таких анклавов очень сильно сомневаюсь, и проверил бы: анклав ли это или человек ошибся.

Придумывать формально корректные, но весьма странные примеры я тоже большой мастак.


mail: dkiselev@osm.me      skype: dmitry.v.kiselev
Open Street Maps are supreme! Exterminate all map forms! Exterminate! Exterminate!

Offline

#25 2011-03-04 12:16:24

glebius
Member
From: Moscow, RU
Registered: 2009-02-24
Posts: 1,170

Re: Нормализация данных (пилотный проект — Спб и ЛО)

Сейчас в 99% случае landuse=forest используется там, где человек рисует лес, а не землепользование.

Убивать полянки внутри landuse=forest сейчас ни в коем случае нельзя. Только если сначала конвертнуть все текущие landuse=forest в natural=wood. Потом донести до всех без исключения пользователей, что landuse - это землепользование, и только после этого использовать по полной программе правильную семантику этого тэга.

Сейчас нельзя, т.к. фактически синоним wood.

Offline

Board footer

Powered by FluxBB