Импорт адресов из открытых данных Москвы

«Данные в импортах хуже качеством» — это «а как же дети» в мире OSM. Ты поди проверь качество данных OSM. Найти изъяны можно в любых данных, но скрупулёзно проверяем только импорты.

Музеи были плохи, да, но импорт и быстро закрыли. Есть разница между адом а-ля музеи и «вот тут одно название неправильно, НЕ ТРОГАЙ НАШУ СТРАНУ».

Впрочем, кажется, я совсем отклонился от темы.

У тех, кто их делает, есть начальство и план.
Соответственно и результаты нужны в первую очередь для отчета перед начальством.
А начальству нужны победные реляции:
“Теперь на нашей карте есть адреса всей Москвы”.

Если брать мой опыт использования адресного реестра Москвы, подложку из которого делал trolleway, то она чаще оказывается верной (если смотреть панорамы или сходить вживую глянуть) чем то, что отражено в ОСМ.
Потому что много чего в Москве отрисовано, и с тех пор не трогалось, в 2011-2014 года. По тем спутниковым снимкам, диванно. Потому иногда вместо трех домов - один. Вместо одного - семь. А двойная/тройная адресация или отменена по факту (вывески с домов сняли), или же могла быть тестовым полигоном в упражнении с схемами тегирования или фантазией самого мапера (на углу дома висело несколько указателей, и он подумал, что это один дом с двумя адресами. а это по факту два дома, каждый со своим адресом).

Long story short — подложка адресного реестра по Москве внушает больше доверия чем адреска из ОСМ.

нормально получается с музеями, если делать нормально.
я обошел небольшое количество музеев по тому “импорту”, поправил и музеи и окружающее через джосм, залезал на оф.сайты, поставил кучу информации как в довесок так и в замен некоторых полей импорта, но большинство полей напрямую скопировал в осм.
так что получился наиболее лучшее решение, объединяющее плюсы и импорта и ручного редактирования.

согласен что тупой импорт ложит на сообщество с пробором, ибо он “тупой” импорт. тигра вон в америке как положена так до сих пор и лежит. пару раз натыкался - в некоторых местах внесена откровенная туфта, не возможно качественно охватить большой объем данных.

ты сейчас пытаешься создать “умный” импорт с элементами ручной валидации живыми человеками перед импортом. это карошо для продукта который пойдет в комерческие массы.

но система получается не полноценная с точки зрения активного прикладного маппера (он функциолнально и по целям несколько отличается от нанятого работника или не сильно незаинтересованного в осм лица), о чем и речь.

Если делать таку систему под мапперов, то вместо валидаци исходника импорта сразу сделать систему прямого мерджинга данных импорта в осм с самым активным участием эффективной “живой” прослойки.

К примеру месяц дается на мерджинг: т.е. точки либо вносятся с отметкой в импорте внесено (+ обязательный матчинг по результатам в осм) либо удаляются/помечаются как недействительные в реальности.
полсе чего неразобранные остатки тупо импортятся в осм с тегом fixme=“import by conflator, please check”.

И овцы целы (у мапперов есть время эффективно обработать свалившиеся счастье) и волки сыты (заказчику/владельцу можно указать сроки внесения,затем отрапортовать о окончании священного действа с вразумительными результатами или показывать красивую онлайн-рапортовалку).

мож я просто не все понимаю в целях проектах, но вот таков мой взгляд.

И висят там аки тигр в Америке

ну как говорится - “вам шанс был дан, чего же тормозили ??” :slight_smile:
выявить импортированное и допилить уже в базе тоже возможно

Импорты очень нужны. Конечно будет некоторый процент ошибок, но количество новых данных, которые руками (особенно в частном секторе) внесли бы очень не скоро. Опять же, что такое ошибка в адресе? В 90% случаев таких ошибок, дом с правильным адресом будет соседним, а это on the ground всяко лучше чем полное отсутствие адреса.

Зато народу больше сагрится: " у вас музей на дороге, а должен быть на соседней улице".

Частный сектор вообще изи, достаточно круговых панорам на перекрёстках, а дальше интерполяцией. Ну и отдельно зайти где не сошлось.

Это, кстати, отличный случай! Чем быстрее и больше народа сагрится, тем быстрее эти ошибки будут исправлены. Тут, как бы, уже роляет настрой участников, а не качество данных в том или ином наборе.

Но кажется, беседа скатывается не в обсуждение этого импорта, а в осбуждение самих импортов. Чем грешит рассылка про импорты.

Вот именно. А что будет через несколько лет после данного импорта, когда данные опять разъедутся? И хорошо, если источник хорошего качества, как в данном случае, а если нет? У меня есть тут одна цитата по этому поводу:

http://shtosm.ru/2013/01/15/1/

В классической для ОСМ ситуации, когда настолько мало участников, что отсутствует 120к адресов по Москве, имо, можно сбросить атомную бомбу, залить всё с нуля и всё равно остаться в плюсе.

Я правильно понимаю, что это вопрос про следующую итерацию импорта этого же набора данных (через 3-6-12 месяцев)?

Касательно этого импорта хочется верить, что по его окончанию в ОСМ окажется примерно 200к адресов в Москве, вопиющие косяки из которых исправятся с гневными комментариями, проклятиями, неверными указаниями навигатора и результатами выдачи геокодера, и пеной изо рта (ну или если получится без пены, то пусть без пены).

То есть иметь 200к плавно устаревающих адресов (неизвестно какого) среднего качества — лучше чем иметь 80к плавно устаревающих адресов (неизвестно какого) среднего качества. Или не лучше, а — так же. Не хуже.

Вообще это закономерность, можно посмотреть на заметки.

Вся проблема что вы рассматриваете не перспективу, а только одномоментное состояние. Это может быть оправданно для коммерческих поставщиков, у которых есть куча ограничений по бюджету, штату, срокам и надо выдать результат на гора.

Однако в социальных проектах всё немного по другому устроено, тут мапперы важнее набора данных. Это именно они добавляют и исправляют/актуализируют данные. И чем их больше - тем данные будут полнее и корректнее. Пытаясь подменить их импортами вы решаете только первую часть (добавление), но никак не решаете вторую - актуализация/исправление.

Грубая формула: Качество данных = Кол-во мапперов/кол-во данных

Увеличение кол-ва данных без увеличения кол-ва мапперов в результате снижает общее качество. А из-за деморализующего эффекта импортов кол-во мапперов может даже снизиться в итоге, что ещё больше усугубляет проблему.

Поэтому, IMHO, гараздо полезнее на перспективу было бы иметь регулярно обновляемый валидатор, который бы показывал расхождение адрески.

Погодите. Почему мы в обсуждении этого импорта решаем проблему не импорта? Не лучше ли ее решать в отдельной теме?

Как может устранение нехватки 120к адресов снизить качество данных? И где оценка качества имеющихся данных, чтобы было с чем сравнить и делать вывод об изменении качества?

Мапперам бы научиться поменьше деморализовываться. И научиться брать от импортов хорошее, а не делать вид, что без них было бы лучше. Но опять же. Почему это обсуждает в рамках этого импорта, а не отдельным обсуждением?

Что-то мешает его сделать и использовать?

В данном импорте придётся править и ОСМ и Валидатор, потому что исходные данные криво сидят.

ой да камон, всё упирается в людей. никто не мапит адреса. есть слой адрески для джосма уже сколько лет и чего? есть свежие яндекс панорамы с новыми табличками адресов и что? где адреска в москве? через раз валидатор импорта выдает в осм несуществующие адреса/один адрес вместо двух/жилые(!) дома без адреса. Без импорта всё так и останется протухшим говном мамонта, сообщество в таком количестве ничерта не может.

Но да, валидатор с адресным реестром и быстрым редактированием в джосм тоже было бы круто иметь.

Выскажу свое мнение. Имхо, импорт адрески в Москве вещь очень нужная и полезная. Conflator - классный инструмент.

Но очень важно, на мой взгляд, для валидирующих - не спешить, не торопиться поскорее нажать кнопку “Good” на как можно большем количестве домов, а подходить к делу вдумчиво. При малейшем сомнении грузить панорамы, смотреть слой адресного реестра, думать, писать замечания. Полагаю, спешить здесь некуда: если валидация какого-то округа Москвы будет длиться не три дня, а месяц, кардинально ничего не изменится.

Как мне видится, вся любительская картография делится на два “рукава”:

  1. Фанатская специфическая - отрисовка ж/д инфраструктуры, ВПП и рулёжек в аэропортах, ЛЭП, цехов в заводах и т. д. Отличительный признак - интересно рисовать, и неважно, скольким ещё людям это надо и надо ли вообще. Просто have fun от процесса.
  2. Ширпотребная - дороги и ограничения движения, адреса, границы населённых пунктов, магазины/аптеки/театры/автосервисы/… Тут наоборот - всем надо и желательно максимально полно и точно, но мало кому интересно рисовать. Фанат аптек/Пятёрочек/адресов - явление ещё более редкое, чем фанат авиации или энергетики.

П. 1 вполне реально осилить небольшим, но увлечённым сообществом, особенно, если аналогичного никто до этого не делал (если делали, то стоит задуматься об объединении усилий в одном проекте, а не распылять их).
П. 2 без импортов пока решить не сумел никто, включая Яндекс. Заполнять вручную с чистого листа - быстро опускаются руки от осознания объёма и рутинности. Фишка-то в том, что пока покрытие адресами/поями не превысит некий минимальный порог, оно бесполезно для практических целей - конечные пользователи всё равно будут юзать для геопоиска Яндекс, ну и никакие промежуточные сервисы для этих пользователей на данных ОСМ не появятся, ибо с таким качеством данным никто на них с того же Яндекса или 2ГИСа не перейдёт. Более того, у рисующих будет всё чаще появляться мысль, что при таком “соотношении сил” быстрее и полезнее для всех будет исправить десяток/другой окружающих адресов на НЯКе, чем пытаться “голыми руками” довести покрытие в ОСМ до уровня Яндекса.

Поэтому если хочется, чтобы слой адресов в ОСМ когда-нибудь стал реально полезным, то за импорты надо держаться обеими руками. Или сразу признать, что нашей адреской пользоваться никто никогда не будет и переключить силы на что-то другое. Конечно, ОСМ не ставит целью превзойти Яндекс и всё такое, ну так и потребители тоже не ставят целью пользоваться именно ОСМ…

Удивительное рядом. Здравые идеи на форуме руосм.