Чистка cladr тэгов

Ситуация следующая: в базе присутствуют некоторые данные, связанные с или взятые из КЛАДР.

  • cladr:name, cladr:suffix на улицах. Это данные из КЛАДР и их распространение в OSM нарушает лицензию на использование классификатора КЛАДР: http://www.gnivc.ru/html/gnivcsoft/KLADR/licenziya_kladr.doc Кроме того, эти данные не обновляются и постепенно тухнут (не добавляются для новых объектов; не обновляются по новым версиям КЛАДР; перестают соответствать действительности когда, например, оказывается что кусок улицы принадлежит другой улице - name меняется, cladr:* - нет)
  • 17-значный cladr:code на зданиях. Эти коды были проставлены специально для pocketgis как средство связи зданий и улиц, и больше не нужны (Ezhick это подтвердил). В них по факту содержатся неверные данные, потому что
    • это коды улиц, а не зданий (в КЛАДР для зданий используются 19-значные коды), соотв-но на зданиях их быть не должно
    • это коды не улиц, по которым по факту адресуется здание, а ближайших улиц. Соответственно во многих случаях просто неверные

По этим объективным причинам предлагается эти данные удалить. Вопрос к сообществу - не пользуется ли ими кто-то для каких-то задач, поскольку в таком случае будет иметь смысл обсудить альтернативные варианты решения этих задач и, возможно, помочь с их реализацией.

Сразу скажу что cladr:code я удалять не предлагаю: во-первых, он нужен для связи баз, во-вторых, я не считаю что его использование подпадает под распространение базы данных КЛАДР.

Также (но уже по субъективным) причинам предлагаю удалить sorting_name. Если я правильно понял, он проставлялся из ОМКУМ’а только по Москве. Причины для его удаления следующие:

  • опять же, не обновляется со всеми вытекающими (отсутствует на новых улицых, не меняется на переименованных)
  • для real-world применения не подходит по причине локальности - одна Москва используется редко, а для остальных случаев если использовать этот тэг, его придётся мешать с сортировочными именами, полученными по другим алгоритмам. Это будет работать плохо.
  • название для сортировки можно всегда получить из name тем же streetmangler’ом

Подробнее о том же самом: http://wiki.openstreetmap.org/wiki/User:AMDmi3/Чистка_cladr_тэгов

в чем конкретно противоречие с лицензией КЛАДР?

удалять нужно все cladr-теги
уже были ситуации, когда кладр-код не соответствовал НП. причем неоднократно

Нет, коды надо валидировать. Удалять их нельзя.

но никто ничего никуда не передает, просто с помощью КЛАДР вводится информация в ЭВМ.

А вот собственно назначение КЛАДР:

Короче, в OSM кладр и кладр-коды использовались по прямому назначению, в целях унификации адресной информации и автоматического контроля, при хранении ее в базе данных (osm) в строгом соответствии с лицензией.

В отквотированном речь идёт о использовании КЛАДР как отдельной базы. Т.е. “можете не хранить/передавать сразу кучу номеров и строк, а передавать один кладрокод, а остальное получать из КЛАДР налету”. Поэтому cladr:code хранить можно.
А вот когда у нас в тэгах хранится cladr:name и cladr.suffix, это однозначно “предоставление доступа третьим лицам к компоненту КЛАДР”.

addr:postcode на улицах от туда же и не всегда верно (намого чаще не верно)
addr:city на полигоне нп, вместо addr:district, еще и с устаревшими/не верными данными

Я за удаление! Пока ещё никто не привел пример прямого использования данных тегов. Не используется = не нужно. При это за более чем год после остановки кладр бота никто не озаботился его реанимацией. Так что, ИМХО - стирать.

а та информация мешает кому-то?
а по какой причине стопанули бота?

UPD: “Прежде, чем разрушать что-то, будь уверен, что сможешь создать нечто лучшее взамен.” ©

Я смотрю, выпиливание и стирание тегов - новый тренд в ОСМ.
Привет от building=entrance и addr:street :slight_smile:

Какой тренд? Данные давно являются неживыми. Тут только два варианта - реанимировать бота по проставлению кода или удалить мусорные данные. Третьего не дано. За пару лет бота никто так и не реанимировал …

Не знаю как для улиц, а вот cladr:suffix для НС бывает полезным.

Ему придумали замену — official_status:ru

Я об этом ясно написал, по-моему. Одну нельзя иметь в базе по лицензионным соображением, другая изначально неверена, а всё вместе стухло. При этом то же самое всегда можно получить напрямую из (свежего!) КЛАДР.

А НП я пока трогать не планирую.

Что за “удалятельский” зуд поразил в последнее время ОСМ?

Насколько я понимаю:

  • если тебе нужны какие-то данные - сносишь их в ОСМ,
  • если обнаружил ошибку - исправил,
  • если лично тебе какие-то данные не нужны - игнорируешьо их,
  • но удалять - не сметь! Ибо - вандализм.

Что же касается бота, то, думаю, он определенную часть работы сделал и больше гн нужен. Остальное следует делать ручками, а именно - проставлять теги новых объектов и исправлять те ошибки, которые бот в свое времяч допустил. Реанимация бота никого смысла не имеет - она лишь увековечит имеющиеся ошибки.
Это нормально - когда нужно проделать большой объем работы, который невозможно на 100% формализовать, то сначала то часть, которую можно, делаент бот, а по окончании его работы - остатки разгребаются ручками.
Поэтому факт остановки бота не может служить аргументом в пользу ненужности данных - это рациональный этап работы, который закончен.

В конце концов, если есть соображения по поводу замены одних тегов на другие (кстати, зачем?), то разумная организация этого процесса:

  • расставить заменяющие теги,
  • провести валидациию новых тегов с существующими кладр-тегами,
  • только после этого поднимать вопрос об удалении ДУБЛИРУЮЩЕЙ информации.
    Хочу подчеркнуть: именно ДУБЛИРУЮЩЕЙ, а не той, которая по чьему-то мнению не нужна.

PS. Лично я использую только cladr:code, но категорически против удаления, т.к. исхожу из принципа: “внося свою лепту, не выноси чужую”.

PPS. По поводу “протухшей” инеформации: вношу альтернативное предложение - удалять как протухшие любые данные, которые не редактировались в течение 12 месяцев.

andriano, не читатель?

Кстати, есть подозрение, что именно из-за этого соглашение на КЛАДР и запрещает редистрибуцию. Чтобы не выдавали непоймешь что непоймешь какой давности за КЛАДР.

Нет, в нем идет речь об использовании КЛАДР вообще. Про отдельную базу там ничего не говориться.

Ахренеть! кладр-код хранить можно, а адреса нет! Напомню, Кладр получен коллекционированием адресов [налогоплательщиков], имеющимися в обиходе. Никакого исключительного права у ФНС на адреса нет.