Обсуждение массовых правок по Российской Федерации

Позвольте, а кто вам дал право на обработку персональных данных пользователей проекта?
С какого такого перепуга (или напротив) вы собираете статистику по пользователям?
Я вам такого права не давал, как минимум. Думаю и другие пользователи вас об этом не просили.
Мало того что обрабатываете, так еще и на всеобщее обозрение выкладываете!

Администрация проекта спрашивает что можно обнародовать, а что нет. Либо просит согласиться с правилами. А вы в обход правил, соглашений, дозволения … Это форменное безобразие. Пожалуй пора и мне донос состряпать. Статья вам обеспечена. :stuck_out_tongue:

З.Ы. ога, осознали, начали подчищать хвосты. Не всё вычистили. А я предусмотрительно копии сохранил.

Перечитайте условия участия, которые Вы подписывали.

Ну и напишите в whodoit, пока они хвосты не обрубили

Соседи ответили. Ответы стандартные: альтруисты и для родственников в соседней станице. Источник - адресные таблички.
Нарисуют - получат деньги - данные выпилят. Profit!

1260 – это не про “набор данных”, она про творческие составные произведения. “Набор данных” в виде адресной информации охраняется максимум смежным правом изготовителя БД (1333 ГК и далее).

Закон о персональных данных. Данные общедоступные, обрабатывать может и жук и жаба.

Как можно повлиять на вас, что бы вы не откатывали правки определенных пользователей которых вы посчитали или посчитал инструмент “негодными”?
Вы будете сначала задавать вопросы, разбираться или сразу махать шашкой?

Вопрос для меня достаточно острый.

Количество измененных линий с тегами building=yes и addr:city=* в период с 1 апреля 2019 года.
В списках только пользователи у которых количество исправленных домов больше 300.

Волгоградская область

Дарья Фокина	13485
iWowik	10296
Goncharova_Anna	9032
lyusya	8724
Оля Пономарева	8258
Skuratov	7059
Ефремова Екатерина	6506
Екатерина 1307	6060
Инна Тапилина	2982
YulyaP	1788
Инна Т	1649
Nadezhda777	356
ИннаТ	328
katenka_ef	302

Ростовская область

TST_1	16498
irusa	12523
zim-zim	9878
Понамарева Татьяна	9859
Марченко Ирина	9761
777ss	9728
Alex-Sander	8207
Мари333	6933
Иман	6515
Holden McNeil	6500
Светлана Стрельцова	4214
DENISTTN	2397
iWowik	1889
ИЛар	1724
Ирина Ен	1402
luiswoo	905
soda_90	359
Марина Пшенецкая	329

Краснодарский край

Александр_Черепов	26798
I_Napidenina	15270
Галина Малина	10292
L_Leonova	8429
Irina_S	6983
kvyzya	5234
SergOldy	3511
Черткова	2861
nikolay1905	2714
iWowik	2544
АнастасияКузнецова	1689
Владимир Мерзликин	1397
Алиса Минасаровна	1305
ghor	1250
Ирина Найденова	1056
Наталья Павловна7	920
Азаркин Никита Валерьевич	654
TST_1	608
Елена_	506
Nikolay Dolbnin	463
АлексейСкибо	455
Русет	403
ol7ka	378
Sergeevich Vadim	302

На вскидку, многие пользователи из списка - члены одной команды.

Техпроцесс получения списков:

  1. Запрос в overpass, экспорт данных в CSV
  2. Импорт данных в Excel, создание сводной таблицы с количеством правок по каждому пользователю, сортировка в обратном порядке.

Каждый легко может повторить запрос по интересуемой области: http://overpass-turbo.eu/s/ME4

Я был бы благодарен если бы кто-то более опытный проверил запрос и сводные данные и сказал нет ли в них критической ошибки.

Нужно же кто добавил адрес, а не кто последний оквадратил дом. Да и при чём тут "addr:city"

Группа товарищей не только добавляет новые дома с указанием города в адресе, но и добавляет город в уже имеющиеся адреса домов.

Подозреваю (но это мои тараканы) что именно по городу в адресе потом строится статистика и производится оплата за проделанную работу.

Ну, квадрат влияет только на точки углов, а на линию нет.
Но на версию линии влияет исправления адреса под принятый формат номеров домов и названий улиц.

Поэтому мне пришлось вставлять выкачку истории объекта, чтобы установить версию, когда адрес впервые появился, а автора этой правки.
Через OSM API это не быстро, поэтому дописываю сохранение полученной истории на диск, ну и может буду пробовать множественные запросы.

Или скачать с геофабрики полный дамп истории на РФ. Там не так уж и много, меньше даже чем два раза по обычному дампу.

На геофабрике в обычном дампе вырезан user.
В полном это может быть также?

А что если написать письмо в РосКомНадзор? Дескать некие не установленные лица (список пользователей прилагаем), зарегистрировавшиеся в период с ( указать интервал) вносят адресную информацию в базу данных ОСМ. Внутренние правила сообщества запрещаю вносить данные из источников, явно не разрешающихся их свободное использование. Учитывая большое количество вносимых данных мы подозреваем незаконное использование данными лицами адресных баз данных принадлежащих коммерческим или государственным структурам - отдельные пользователи из указанного списка ссылались на использование Публичной кадастровой карты как источника адресной информации. В связи с вышеизложенным просим проверить законность деятельности указанной группы лиц.

А зачем такие сложности?
Ведь задача состоит в том чтобы выявить пользователей, массово вносивших правки с определенным паттерном. Это можно сделать простым запросом.

Затем необходимо каждому пользователю задать вопрос об источниках информации, и принять решение об откате правок. Откатывать нужно все правки пользователя, а не выборочно.

(Хотя лично мне кажется что если у человека стоит задача обмануть систему то достоверно доказать что он нарушитель будет практически невозможно, всё сведётся к субъективному верю/не верю)

Начать откаты можно с самых продуктивных, в надежде что объявится заказчик и начнет нормальный диалог. Вот можно взять Александр_Черепов, который за 23 дня сделал изменения почти в 27 тысячах домов. Или TST_1, у которого с мая месяца более 17000 правок адресов в нескольких городах. Или **I_Napidenina **(15+ тысяч правок).

Или вот например интересный случай:
Инна Тапилина, дата регистрации 15 мая 2019, 2982 адреса в г.Волгограде, комментарии к правкам в стиле “Добавление домов с адресом по " и " всего домов с адресами NN”. Последняя правка 18 июля.
Инна Т, дата регистрации 30 июня 2019, 1649 адресов в г.Волгограде, комментарии к правкам в стиле “Добавление домов с адресом по *”. Последняя правка 12 сентября.
ИннаТ, дата регистрации 23 сентября 2019, 328 адресов (уже больше, наверное) в г.Котельниково Волгоградской области, комментарии к правкам в стиле “Добавление адреса домам по улицам *”. Последняя правка 8 часов назад.

И тут вот еще какой момент нужно принимать во внимание.

Теоретически возможно что заказчик нанял сотню фрилансеров для внесения в ОСМ массы адресов только затем чтобы потом импортировать данные в свою локальную базу. И возможно что импорт информации делается итерациями - то есть условный город Волгоград, уже заполненный адресами, может уже быть импортированным в БД заказчика.

Тогда результат уже проделанной к текущему моменту работы может быть не интересен не только фрилансерам (которым уже заплатили), но и заказчику (который уже выкачал из ОСМ нужную информацию). Волгоград в ОСМ можно откатывать, заказчику всё равно.

При таком сценарии, если дождаться окончания работ, или начать делать откаты со старых учетных записей, у заказчика может и не возникнуть мотивации выйти на диалог с сообществом ОСМ.

Какой интересный это заказчик: деньги платит, работу не проверяет (не, ну возможно это косяк кадастра и на земле так и есть, включая пропущенные дома). Скачал Волгоград, нанял ещё наёмников, что бы они шерстили эти авгиевы конюшни? Работодатель года! Чего меня не позвали на этот праздник жизни…
Вот серьёзно, любопытство распирает, кому и зачем нужны данные такого качества?
Да, место на скриншоте.

В массе данные более-менее верные. Я переделывал за таким работником часть своего города, там процент ошибок не очень большой. Хотя есть явные косяки, которые невозможно пропустить внося данные “с натуры”. И местами верные адреса исправлены на неверные.

Может быть заказчика устраивает такое качество - мы этом можем только гадать.

Да я замучился за ними нормализовать номера домов и названия улиц.
Довел свою программу почти до не виданного совершенства, да вот, поскольку это усложняет откаты, как было в Тамбове, я пока ее простановил.

Им все пофиг. Сделал и забыл. Типа как тяп-ляп и в продакшн.
Никто ни разу не оглянулся на то, что стало с их работой.
Почему улица, которую мапил вчера, вдруг поменяла порядок слов. А мапит при этом соседнюю.

Вовик, а вы переложили лицензионное соглашение OSM с его непонятным для нашего права лицензированием, на местные юридические реалии? Вы можете на кого-то за что-то подать в суд, только в тех случаях: был нанесён здоровью (жизни)/ имуществу ущерб, маловероятно, но таки (да и первое тоже не меньше вероятно доказать) упущенной прибыли, сознательное нарушения частного права в личных целях с выгодой или ущербом. Боюсь, что вы не только не выиграете ничего, а ещё и вас заставят платить издержки по суду, если таковой случится. На правила какой-то там непонятной интернет группы, чем по-сути OSM и является, суду плевать вот абсолютно. Все потуги доказать надругательство над правом интеллектуальной собственности неликвидные без железобетонных подтверждений, это вам каждого осмера придётся тащить в суд и как ответчика и как истца, и это без вариантов, а такой надстройки как какой-то там совет не существует в принципе, читайте собственную лицензию.
Не скрою, меня радует бурная деятельность в получахлом проекте в который больше пяти лет вносил правки.
Будете “зверствовать” неплохо было бы этим неведомым конторам призвать к суду вас, но боюсь, спасуете и вы и они, так всё и закиснет в болоте без развлекухи.

Не нужно этого ничего.

Правило проще. Нужно ответить на вопрос:
Источник вызывает сомнения?

Ну а сомнительным источникам в OSM не рады.
Это правила данного проекта, а какой-то не группы.
Проект как раз и хочет от всяких судов обезопаситься.

Если сомнения до конца не развеяны, то зачем ждать когда грянет?

В тиши ночной немного занялся программой.

Вот такая пока табличка получается, можно кликать и смотреть активность пользователей по месяцам и в целом за год:

**addr:housenumber tags created in 2019: **
http://wowik.byethost7.com/hn/2019/ru.htm

Но может и врет программа, разбираюсь…

  1. Статистика именно по регионам, поэтому у пользователя возможна главная активность в соседнем регионе.
  2. В отличие от https://forum.openstreetmap.org/viewtopic.php?pid=763985#p763985 обрабатываются не только последние версии объектов, а проникается вглубь времени к моменту первого появления addr:housenumber
    Поэтому, к примеру, в Волгоградской области у iWowik не 10296, а 1, так как iWowik просто нормализовал уже введеные адреса: номера и улицы.

Дополнил колонкой про дату регистрации пользователя account_created

Update! Теперь обновляемые таблички живут на
http://wowik.byethost7.com/hn