Нормализация данных по областям

По просьбе AMDmi3 и в результате обсуждений сегодня днём в IRC залито:

Номер раз: http://www.openstreetmap.org/browse/changeset/9541061 - вернуты на место те name, которые были при нормализации разнесены по другим тегам.
Номер два: http://www.openstreetmap.org/browse/changeset/9541529 - в пределах РФ building=entrance преобразован в entrance=*.

По поводу второй правки:

Начато голосование по пропозалу entrance=yes: http://wiki.openstreetmap.org/wiki/Proposed_features/entrance
Вторую правку я сейчас пытаюсь откатить. Это явный пример рисования под рендерер, от авторов рендереров.

Явно поторопились что-то всё править, +1 за откат.

Я должен извиниться, ибо настойчиво просил Котяру исправить ошибки, в том числе откатить замену entrance=yes на building=entrance, что в итоге по моей вине превратилось в обратную замену. Я руководствовался тем что entrance, являясь надмножеством building=entrance во всех случаях является лучшей ему заменой, хотя на деле оказалось что building=entrance используется на полтора порядка шире entrance (и на два порядка шире чем я думал) и где-то по нему даже строится адресация, в то время как entrance=* даже не принят. Итого я напоролся на то за что боролся, что в очередной раз подтверждает насколько плохо делать массовые правки без предварительного уведомления и обсуждения.

Замену действительно стоит откатить, либо добавить к каждому из building=entrance и entrance=yes второй. Только не надо больше спешить.

Что-то страсти накаляются)

(написал, удалил)

лучше пойду спать все-таки.

А с чего вообще решили, что entrance=* является эквивалентом building=entrance и отменяет его? А почему не barrier=entrance ?

Это же общепринятая схема теггирования последовательным уточнением свойств:

x=y => x=y + y=z => x=y + y=z + z=k

и так далее.

building=entrance/barrier=entrance/*=entrance - общая категория входа внутрь куда-то и вполне могут иметь разные свойства.
К примеру add:flats имеют смысл на building=entrance, но для barrier=entrance скорей всего неприменимы.

entrance=* - уточнение типа и предназначения входа.

Оставляя один entrance вы теряете информацию и схема рассыпается.

  • снёс -
    опездал. в смысле опоздал

Я даже комментировать не буду.

Эта тема — рекордсмен по количеству написанных и сразу удалённых ответов :slight_smile:

Заметил еще там, где фонтаны, вода из
landuse=reservoir
стала
natural=water
water=reservoir

landuse=reservoir - это не фонтаны. Фонтаны - amenity=fountain.
Описание схемы water=: http://wiki.openstreetmap.org/wiki/Key:water

Убедительнейшая просьба: не надо валить “сотню вещей” в одну кучу.
В получившихся многостраничных ченджсетах хрен разберёшься теперь.

… и номинатума. Решили бы сначала эти проблемы, а потом сносили. Есть добровольцы? Нету? Ну вот не трогайте, пожалуйста.

Кстати да - для подобных массовых правок думаю было бы лучше заливать отдельными коммитами по каждому типу исправлений. Скрипту-то всё равно один ченджсет сгенерировать или двадцать, а людям понимать, что именно на что было заменено и проверить на наличие ошибок будет гораздо легче. Ну и хорошим тоном было бы конечно обсудить изменения на форуме перед заливкой.

Номинатим вообще обновляется? Он вроде же уже несколько месяцев не обновлялся.

Да я не про то.
Сейчас он находит и точку, и полигон, если они имеют тэг name - возникает дублирование результатов.

После обсуждаемой “нормализации” таких дублей рано или поздно вылезет заметно больше.

Это неисправимая проблема номинатима. Чтобы адресный поиск имел смысл, он должен вестись по адресному реестру, а из данных осм его нужно предварительно построить, чего номинатим даже близко не делает. Он ищет просто объекты осм по имени.

Я не про фонтаны, а воду, там где фонтан, точнее резервуар с водой

В сфере нормализации, пришло время для очевидных вещей, которые надеюсь споров не вызовут, а именно удаление той информации из базы, которая никаким образом не может быть полезна, а только увеличивает объем данных. Речь в данном случае об архаичных тегах created_by на самих объектах, оставшиеся со времён предыдущей версии API. В текущей версии API created_by пишется исключительно в свойствах самого ченжсета, а на объектах постепенно удаляется по мере правок.

Удаление будет произведено в несколько этапов:

  1. удаление всех created_by=Potlach|Josm|Merkaartor (99%)
  2. анализ остальных и если содержимое тега применимо к source, но source отсутсвует, то перенос в source

Уже производится