Чистка cladr тэгов

Я смотрю, выпиливание и стирание тегов - новый тренд в ОСМ.
Привет от building=entrance и addr:street :slight_smile:

Какой тренд? Данные давно являются неживыми. Тут только два варианта - реанимировать бота по проставлению кода или удалить мусорные данные. Третьего не дано. За пару лет бота никто так и не реанимировал …

Не знаю как для улиц, а вот cladr:suffix для НС бывает полезным.

Ему придумали замену — official_status:ru

Я об этом ясно написал, по-моему. Одну нельзя иметь в базе по лицензионным соображением, другая изначально неверена, а всё вместе стухло. При этом то же самое всегда можно получить напрямую из (свежего!) КЛАДР.

А НП я пока трогать не планирую.

Что за “удалятельский” зуд поразил в последнее время ОСМ?

Насколько я понимаю:

  • если тебе нужны какие-то данные - сносишь их в ОСМ,
  • если обнаружил ошибку - исправил,
  • если лично тебе какие-то данные не нужны - игнорируешьо их,
  • но удалять - не сметь! Ибо - вандализм.

Что же касается бота, то, думаю, он определенную часть работы сделал и больше гн нужен. Остальное следует делать ручками, а именно - проставлять теги новых объектов и исправлять те ошибки, которые бот в свое времяч допустил. Реанимация бота никого смысла не имеет - она лишь увековечит имеющиеся ошибки.
Это нормально - когда нужно проделать большой объем работы, который невозможно на 100% формализовать, то сначала то часть, которую можно, делаент бот, а по окончании его работы - остатки разгребаются ручками.
Поэтому факт остановки бота не может служить аргументом в пользу ненужности данных - это рациональный этап работы, который закончен.

В конце концов, если есть соображения по поводу замены одних тегов на другие (кстати, зачем?), то разумная организация этого процесса:

  • расставить заменяющие теги,
  • провести валидациию новых тегов с существующими кладр-тегами,
  • только после этого поднимать вопрос об удалении ДУБЛИРУЮЩЕЙ информации.
    Хочу подчеркнуть: именно ДУБЛИРУЮЩЕЙ, а не той, которая по чьему-то мнению не нужна.

PS. Лично я использую только cladr:code, но категорически против удаления, т.к. исхожу из принципа: “внося свою лепту, не выноси чужую”.

PPS. По поводу “протухшей” инеформации: вношу альтернативное предложение - удалять как протухшие любые данные, которые не редактировались в течение 12 месяцев.

andriano, не читатель?

Кстати, есть подозрение, что именно из-за этого соглашение на КЛАДР и запрещает редистрибуцию. Чтобы не выдавали непоймешь что непоймешь какой давности за КЛАДР.

Нет, в нем идет речь об использовании КЛАДР вообще. Про отдельную базу там ничего не говориться.

Ахренеть! кладр-код хранить можно, а адреса нет! Напомню, Кладр получен коллекционированием адресов [налогоплательщиков], имеющимися в обиходе. Никакого исключительного права у ФНС на адреса нет.

Ну на адреса нет, а на классификатор адресов есть. В то по вашей логике можно сказать, что никакого исключительного права у гугл-транслейт на перевод нет. Буду брать их перевод и заносить к себе в базу.

“Использование КЛАДР вообще” и есть отдельная база. А тут речь идёт о её распространении.

Суть базы в хранении данных и обеспечении связи между ними. Один код - не часть базы. Код в паре с любым другим полем из КЛАДР - часть.

Я за удаление этого мега-мусора!

Почему именно в паре, а не весь набор полей? Сам по себе КЛАДР код в своей структуре несет значительный объем информации: принадлежность к субъекту, району, НП и т.д.

Кладр код кстати тоже не считаю нужным, сопоставление другой базы с нашей не наша задача, тем более что сопоставить можно всегда по name*. Да сложнее, но это нужно тем, кому нужно. Если у нас будет десятка 3 баз, нам что все их коды прописывать для привязки баз? Я думаю это глупо и задача нейтральной стороны, которая обрабатывает данные обоих баз.

Весь - это вся база. Два или больше - её часть. Распространять нельзя ни то, ни другое.

Что значит “наша задача”? Прописывать их буду конечно не я и не ты, а тот, кому это надо, но да - эти коды должны храниться в OSM, потому что только по адресу сопоставить однозначно объекты нельзя и потому что в OSM нет постоянных id’ов (т.е. соответствие в другую сторону хранить не получится).
И да, если будет 3 десятка баз, то нужно будет прописывать 30 кодов. В идеале, конечно, только на те объекты, для которых присутствует неоднозначность.

GaM собственно если пользователи пользуются растром, им какая разница что находится в полях вектора?
а кто берет сырые данные, для последующей обработки, тот все равно лишнее удаляет.

пусть будет. мусор не мусор. а данные всегда в цене. а если зайдет о правовом решении нахождения этих данных, то пусть заинтересованная сторона пишет… куда там… кто держит сервера… там разберутся и без вас.

что вы лезете впереди паровоза? или подражаете по аналогии медведеву по запрету русских мультов? когда западные мульт.фильмы 99% нужно запретить. дабы нефиг детишек делать тупыми

Ценность невалидной информации равна нулю. Так можно и генератором случайных чисел нагенерить мусора и сказать - “данные всегда в цене, храните”. Данные в цене только когда они корректные и поддерживаются в таком состоянии. Хотя бы через использование кем-либо. А пока что тенденция однозначная - теги никем не используются и не поддерживаются и даже изначально не везде корректные данные постепенно превращаются в полный трэш. По Питеру я эти теги с улиц повыпиливал, никто особо и не заметил. Думаю можно спокойно их удалить и по всей России. Включая и cladr:code.

Sergey Astakhov лично мне данные из КЛАДР не интересны. но когда их вносили с большим энтузиазмом значит многие считали это целесообразным. так нет? получается те кто вносил тупо бестолковые люди, сори. но с выше слов так оно звучит

слово мусор не мое слово. КЛАДР все же данные. возможно в будущем или уже их кто то использует.

как вам они мешают?

п.с. такое ощущение что здесь присутствуют вселенские благодетели и законники, которые хотят сделать мир чище :smiley:

в цене валидные данные. теги “cladr” таковыми, к сожалению, не являются

я до сих пор помню, как бот брал область, находилв ней первую деревню “Ивановка” и прописывал ей теги первой попавшейся Ивановки из кладра
а потом оказывалось, что у НП, находящегося в одном районе прописаны теги адреса другого района.
и случаев таких было дофига