Федеральная информационная адресная система (ФИАС)

Scondo · March 21, 2013, 5:09am

Не считая филосовского фопроса “кому же тогда подчинена Балашиха”…

Попробовать что ли задать вопрос налоговой на сайте ФИАС? Потому что

Hind · March 21, 2013, 5:11am

Ну, скажем так, он существует, но теперь называется городским округом.
А как пользоваться, я тоже не понял. Везде сопоставлено с осмом 0 объектов.

liosha · March 21, 2013, 5:12am

На самом деле, так и должно быть. Просто ФИАС предназначен не только для сравнения с ОСМ

Если хоть у кого-то в паспорте осталась старая прописка в “Балашихинском районе”, ФИАС должен давать возможность разложить этот адрес по своим полям, даже если теперь этот адрес в реальности поменялся.

Scondo · March 21, 2013, 5:14am

Выводится следующая информация:
Сколько всего подчиненных адресных элементов в ФИАС.
Сколько из них найденно в ОСМ в качестве территорий.
Сколько найдено в ОСМ в качестве улиц.
Сколько в ОСМ не найдено.

Сколько домов в ФИАС в этом адресном элементе
Сколько из них найдено в ОСМ.
Сколько из них не найдено в ОСМ.

Подчинение пока считается только непосредственное. Рекурсивная статистика - в ближайшем будущем.

Просьба предлагать более наглядное описание граф, если не понятно. У меня уже глаз “замылился” - мне эти колонки очевидны.

Scondo · March 21, 2013, 5:16am

В ФИАС все еще район. Из-за этого сопоставитель не может найти Балашиху и все лежащее в ней, поскольку ищет “сверху вниз”

Hind · March 21, 2013, 5:24am

Понимаю. Но не в ущерб же современному названию…

Zkir · March 21, 2013, 6:55am

Что бы можно было пользоваться, нужна агрегированная статистика по регионам/НП,
и раскраска цветом, где сколько адресов сопоставлено.

Ну и разделение на страницы выкинуть. Найти в Мск какую-либо улицу просто невозможно.

Scondo · March 21, 2013, 3:13pm

С раскраской я подумаю, суммарная статистика в планах https://github.com/Scondo/fiosm/issues/4
Технически там все понятно, но пока обсчет такой статистики вешает рендер. Ищу пути обхода в частности https://github.com/Scondo/fiosm/issues/6

Увы, но постраничное разделения явилось вынужденной мерой - данные обрезались при рендере. Учимся половинному делению…

Zkir · April 9, 2013, 11:42am

Так, чуваки и чувихи, какие новости на Плюке?

Нельзя ли опубликовать наконец какой процент адресов из ФИАС есть в осм, по России в целом и в разрезе по областям?

AMDmi3 · April 9, 2013, 5:33pm

Есть более насущный вопрос - когда fiosm.openstreetmap.ru хотя-бы как-нибудь заработает?

Scondo · April 10, 2013, 5:14am

К сожалению проблемы производительности посредством таймаутов переросли в проблемы с доступом.
Причем сейчас я не могу установить причину проблем с производительностью, т.к. они не воспроизводятся на отладочной машине, где ведется разработка.
Возможно это что-то с базой, в этом я сейчас пытаюсь разобраться, но, увы, очень медленно, поскольку “горячий” сезон на работе пока не кончился.

Расчет “рекурсивной” статистики - это та же проблема производительности, только в кубе.
К ней ищется параллельное решение в виде предварительного обсчета статистики.

В худшем случае сяду в режиме рабочего дня на майские. Обещать ничего не могу, но работа идет… или по крайней мере ползет.

Artyomka · May 6, 2013, 4:35am

Как там работа над проектом? Майские уже

Scondo · May 6, 2013, 3:08pm

Починил пару глюков, нарисовал новую мордочку с тегом meter.

Надо: заменить прогрев кеша статистики на отстройку, увеличить число потоков сервера. После этого сайт должен стать рабочим.

Рекурсивная статистика постоянно имелась ввиду в рамках прибивания багов и, вероятно, как только будет прогрев кеша нарисую рекурсивные цифры. Т.е. не сколько районов подчиненных МО найдено в МО, а сколько всего районов, улиц (и отдельно - домов) найдено в МО.

В очереди: сделать страничку по списку сопоставленных домов.

pankdm · May 6, 2013, 4:06pm

Scondo:

Починил пару глюков, нарисовал новую мордочку с тегом meter.

Надо: заменить прогрев кеша статистики на отстройку, увеличить число потоков сервера. После этого сайт должен стать рабочим.

Рекурсивная статистика постоянно имелась ввиду в рамках прибивания багов и, вероятно, как только будет прогрев кеша нарисую рекурсивные цифры. Т.е. не сколько районов подчиненных МО найдено в МО, а сколько всего районов, улиц (и отдельно - домов) найдено в МО.

В очереди: сделать страничку по списку сопоставленных домов.

А можешь напомнить, почему ты не хочешь просто сгенерить статические html-ки? Тогда все вообще должно залетать…

Scondo · May 7, 2013, 7:39am

Сейчас: потому что на выбранной мной архитектуре единственный понятный мне способ это сделать - это пройтись по сайту “архиватором интернета”.

А в целом потому, что я все-таки надеюсь на то, что когда-нибудь перейду на работу в дифф-режиме, когда статистика будет пересчитываться только для обновленных данных.

Zverik · May 7, 2013, 8:38am

Scondo, а что за странная архитектура, при которой сайт ложится от трёх пользователей? Подозреваю, этого сложно достичь даже если всё хранить в текстовых файлах и при каждом запросе их парсить целиком.

Hind · May 7, 2013, 9:17am

Мне тоже интересно. Если готовые данные для выдачи хранятся в БД, можно выводить их вполне быстро, этим занимаются миллионы сайтов.

akks · May 7, 2013, 11:10am

Возможно, при первом обращении в базе ничего ещё нет и она лихорадочно начинает заполняться…
Ничего такого в коде не вижу, но оно, возможно, хорошо спрятано.
Наверное, когда появится время, надо добавить кучу отладочного вывода в логи - тогда станет хотя бы понятно, на чем висит.

Производительность Python-приложений, на мой неопытный взгляд, вообще очень зависит от настроек сервера и наличия на нём всяких наворотов/служб/хитроумных настроек… Я ставил себе только готовый Rhodecode - при самой простой конфигурации висело от 5 пользователей в локальной сети. После плясок с бубном по инструкциям и активации наворотов (mod_wsgi и (в случае Rhodecode) серверов+настроек Сelery, RabbitMQ) всё залетало…

Scondo · May 8, 2013, 11:07am

Хранение в БД самого факта сопоставления.
Соответственно на каждый запрос идет куча селектов по джойнам на немаленькие таблички.

Собственно эту проблему и был призван решать кеш статистики (отдельная табличка хранящая только цифры для каждого объекта), но именно с ним и лезут проблемы.

Vitalts · May 8, 2013, 12:14pm

Если БД на постгре и осмелитесь подпустить к ней постороннего человека, помогу, чем смогу.

Если я правильно понял суть, то как-то совсем не хорошо. На каждый запрос пользователя должен быть один сложный селект, тогда, при должном уходе за базой, джойны и размеры таблиц будут иметь уже не столь большое значение.