Теги: стандартизация и исправление ошибок.

KekcuHa, не поверишь, но нормы есть всегда и везде.
Они сами собой как-то возникают и устанавливаются.
И даже когда они не записаны в вики, и даже когда они “фо фан”.

Не поверю.
Проверял лично, стандартов в данных нет ни в чем.

Если бы их не было, было бы не 10% “белого шума”, а 100% :slight_smile:
Сам посмотри первый пост и сравни количество общепринятых тегов с количеством левых.

Вот и интересно, что делать с этими “левыми” тегами?
Стоит их тем или иным путем пытаться исправлять или нет?
Стоит ли пытаться создать какой-либо справочный материал, в котором бы были исключительно “правильные” теги?
Если “да”, то нужен ли он в открытом доступе?
Нужна ли автоматизированная правка баз OSM для приведения новых (а на первом этапе - и старых) правок в соответствии с этим справочным материалом?

Конечно нет! Максимум что можно, так это опечатки править. Но это вроде уже делают давно.

Явные ошибки стоит исправлять, остальные имхо лучше не трогать.
Справочный материал уже есть - Map Features

Мне не понятно такая любовь к разброду и шатанию.
Объясните, чего я не понимаю?

KekcuHa, какого конкретно стандарта не хватает-то?
Стандарта на что?

Только одного - стандарта на качество хранимых и вносимых данных.

+1
А если есть подозрение на то, что автор просто не знает как обозначать правильно - написать ему как это делать правильно.
Если человек адекватный - он примет к сведению. Путь это более медленный способ, зато более перспективный и дружественный.

Это возможно только при централизованой организации. Там можно железной рукой загонять в светлое будущее. В децентрализованой OSM это невозможно - разбегутся.

А как ты его себе представляешь??

Military-то всего 52 штуки на ‘3.5 гб’. А шуму, шуму-то было :slight_smile:
По теме: пользователи-новички просто не знают, как правильно присваивать теги объектам. Один раз объясняешь, всё становится понятно. Люди ХОТЯТ вносить данные, но не знают как.
Им можно послать письма от робота, который будет всё это разгребать.
Разгребать лучше руками, программой править только самые явные ошибки - фактически, описки. ЯВНО распознанные описки.
Править всё автоматом слишком боязно.

Осталось только привести твоё определение “качества”, а то недосказанность получается…

Хотелось бы еще иметь формальный алгоритм, позволяющий отличить первое от второго. :wink:

Интересно, и как же этот справочный материал может быть использован ботом для пакетной правки “явных ошибок”?
Собственно, тот XML, который я разместил в первом посте, получен автоматом именно из Map Features, но если приглядеться повнимательнее, там нужна довольно существенная правка руками.
Не говоря уже о том, что, например, даже такой набивший оскомину тег “landuse=military” там попросту не отражен.

Если это уже давно делается, откуда тогда опечатки?
Кстати, в каких из приведенных ниже случаев опечатки, а в каких нет? (hint: в 615 строке в теге содержатся “лишние” символы, которые при просмотре в режиме utf8 на экране не отображаются - такие случаи тоже бывают)

  78       1 "name:krl"
  82       1 "game:patrizer2:bier"
  83       1 "game:patrizer2:eisenerz"
  84       1 "game:patrizer2:felle"
 102       1 "old_name:pl"
 129       1 "island"
 161       1 "AND_nodes"
 230       1 "inat_name"
 239       1 "oldname"
 378       1 "source:highway"
 387       1 "name_engl"
 399       2 "ont_name"
 402       1 "name_3"
 411       1 "abbr_name"
 426       1 "ent_name"
 429       1 "private"
 434       1 "name_old:ru"
 440       1 "boat"
 451       1 "currency"
 452       1 "postcode"
 480       1 "books"
 481       1 "polulation"
 533       1 "school"
 566       1 "x-point-id"
 567       1 "open_hours"
 576       1 "dogs"
 585       1 "poi"
 606       1 "_сladr:code"
 610       1 "closed"
 612       1 "game"
 615       1 "сladr:note"
 625       1 "zip"
 639       1 "tel"
 642       1 "female"
 643       1 "male"
 650       1 "
name"
 692       1 "Лесоарк"
 693       1 "№"
 710       1 "name_"
 715       1 "cladr:namt"
 717       1 "restruktion"
 719       1 "дом 59"
 729       1 "отделение милиции Хабаровск-2"

ну вот например опечатка - polulation. andriano, а какой смысл массово исправлять одиночные опечатки? то есть это дело конечно хорошее, но КПД у него очень низкий будет.

Опечатки - можно просто считать разность между тегами из map features и тегами на карте, если разность меньше 2 - скорее всего это опечатка. Кирилические тэги - скорее всего опечатка. Таковые можно наверное и автоматом править.

Редкие теги, которые встречаются 1-2 раза на карте - тут уж скорее писать автору.

А повышать качество коллективного продукта надо двумя путями:

  1. Толковое описание в вики. С примерами и туториалами.
  2. Стимуляция - расставь релейшены так то - получишь роутинг в таких то навигаторах. Расставь теги так-то получишь нормальное отображение в рендере.

В общем я за пряники а не за кнуты :slight_smile:

Слишком оптимистичное заявление.
Во-первых, я не упомянул, но оанализ касался ТОЛЬКО nodes, при этом ways и relations попросту не учитывались.
Но самое главное, military - это в данном случае key, огда как нормальное применение этого атрибута должно быть val. (а val я и не пытался обрабатывать по понятным причинам)
Другими словами, те 52 вхождения military - это только явные ошибки.

Ну, когда КАЖДОМУ новичку нужно один раз объяснить. А потом оказывается, что и не один… надобность в автомате, который бы проверял корректность ввода, мне кажется, достаточно насущна.
Ведь все “нестандартные” теги - это просто информационный мусор, т.к. любой перекодировщик (а без перекодирования использовать данные OSM ни в одной конкретной программе невозможно) все равно это выкинет.

andriano, military в качестве ключа вполне допустимо: http://wiki.openstreetmap.org/wiki/Key:military

И не надо считать чужие теги мусором.
Any tags you like - один из принципов OSM
Хотя против правки очевидных вещей, типа engl_name на name:en или tel на phone вряд ли кто-то будет возражать.