OSM Gazetteer

Можно сделать чтоб удалялось сразу при отправке нового запроса.

Чего-то с весами не то. Вот, например: http://osm.me/checkuik.html#17

Надо было найти

Республика Карелия г. Олонец, ул. Карла Маркса, д. 3а,

в ОСМ под маркером есть в Олонце здание

addr:street улица Карла Маркса
addr:housenumber 3-а

нашлось здание

Петрозаводск, проспект Карла Маркса, 3A

Там проблема в 3-а.

Т.к. совпадения для 3а не нашлось тоопциональным считается любой из кусков запроса.

Ну я и говорю, что проблема с весами кусков запроса. Что если в запросе Олонец, и он опознался, то Петрозаводск выдавать неприлично. Уж лучше выдать интерполяцию между найденными другими домами на той же улице.

Кстати, для обычного человека 3-А и 3А - это один и тот же дом. (Да, я сам знаю примеры когда это не так, но их единицы на всю страну)

А вот это что такое http://osm.me/checkuik.html#1099 ?

Адрес совпадает с указанным в ОСМ дословно, а геокодер нашел здание с точно таким же адресом, но в соседнем городе.

И вот еще очень странное поведение - вместо точного совпадения улицы и дома нашло здание с таким же номером на соседней улице:

http://osm.me/checkuik.html#2237

Спасибо всем кто помогал перепроверить УИКи.

Выгрузка с репортами тут https://github.com/kiselev-dv/tools-uik/blob/master/report.json
Чуть попозже сделаю интерфейс для внесения адресов в осм для случая “Адреса нет в OSM”.
Исходники, если вдруг они кому-то нужны, в той же репе.

Из перепроверенных адресов, газетир не находит 431 адрес из 5163 адресов тестового набора это 8.3% но среди не найденных остаются очень интересные.
Надеюсь еще улучшить поиск адресов.

Сам тестовый набор здесь: https://github.com/kiselev-dv/gazetteer/blob/develop/GazetteerWeb/src/test/resources/test_uik.json

Можно будет для интереса теперь прогнать их через гугель и яндекс.

Это значит - проект заморожен? Выше же примеры багов есть, надо бы их исправить. Да и перепрогнать можно, я сколько-то адресов по сайтам школ добавил, должно было стать лучше.

Цель была не внести адреса, а найти то, что распознавалось, но должно было. Фидбек получен, улучшения последуют, все довольны.

У меня 400 примеров, если бы я не хотел их исправить я бы не затевался с перероверкой уиков.
Что в каком порядке исправлю - пока не знаю. Но и о разработке новой функциональности я бы забывать не хотел, например фильтровать пои хочу по доп. атрибутам. Чтоб можно было получить не просто все заправки а только те где есть газ и т.п.

Mir76, или ты имел ввиду заморозку проверялки уиков?
Ее планирую запустить в обратном направлении, чтобы можно было из интерфейса генерить чейнджсеты для джосма.

Ну так и я про то же. Это же фактически обучение на множестве, а обучение таких нечетких систем только мелкими итерациями и делается. Допилили чуток, перепрогнали на всем массиве (ведь и карта все время меняется), сравнили с предыдущим результатом - и так много-много раз. Вот я и спрашиваю - если итерации остановились, то допиливание 'этого куска отложено?

Это плохо. Это практически провоцирует копирование не глядя информации из БД УИКов, которая тоже местами не достоверна. Как было сейчас (с просто ссылкой на osm.org) - лучше. Максимум сделать такую же ссылку на редактирование этого куска в JOSM.

Ну мне сделать ссылку на редактирование проще чем делать редактирование из интерфейса, хотя редактирование из интерфейса - интереснее. Провоцирует ли это добавлять не глядя, может и да, но перепроверялкой уиков воспользовалось 4-5 человек, при том в OSM весьма и всьма искушенных и вроде осознающих что ошибки есть и в осм и в бд уиков.

Я не делал и не делаю обучние на выборке. Я не систему искусственного интеллекта все-же пишу.
Хотя для отдельных операций было бы интересно сделать такой анализ (например выделять в запросе город/улицу/дом/пои), но это не в ближайшее время.
Если кто на этой выборке и обучался - то это я :slight_smile:

Сейчас у меня 5% ошибок, имхо это неплохой результат, правда сравниться мне особо нескем. осм.ру не переваривает ул. д. и прочие сокращения коих для уиков была масса. Номинатим чуть лучше, д. г. пр-т его не ломают, но и не находит он с половиной сокращений ничего.

Теперь на osm.me работает поиск по РФ

Нашёл где можно найти десятки тысяч косых адресов по России: http://forum.openstreetmap.org/viewtopic.php?pid=520159#p520159

Крупные ритейловые сетевеки могут подойти. Для жавы есть такая игрушка http://jsoup.org/

Для тестов?

Да, как бенчмарк они показательные. Они ведь ненастоящие да и импортировать их нельзя даже если захотели.

Тебе ведь не интересно чтобы геокодер работал только на полностью указанных адресах в строгом нормализованном порядке.

Регрессию смотреть ими полезно:

  • % геокодируется до города
  • % геокодируется до улицы
  • % геокодируется до дома/номера/корпуса
  • % геокодируется до подъезда и квартир

Если квартиры стали исчезать значит что-то в логике сломалось. Ухудшения точности геокодирования не должно быть при дополнениях геокодера, а если у тебя инструмента нет чтобы следить за этим, ты ничего судить и не можешь.

Ок спасибо, у меня еще есть, все никак не займусь.

Что-то демки не работают :frowning:
Глянул на sql-parser и мне показалось, что дом с тегами


addr2:housenumber	31
addr2:street	Инзенская улица
addr:housenumber	20
addr:housenumber2	20/31
addr:street	1-й Инзенский

Найти по адресу “1-й Инзенский 20/31” не выйдет, т.к. для addr:housenumber2 не бъётся на части.