OSM Gazetteer

Ну так и я про то же. Это же фактически обучение на множестве, а обучение таких нечетких систем только мелкими итерациями и делается. Допилили чуток, перепрогнали на всем массиве (ведь и карта все время меняется), сравнили с предыдущим результатом - и так много-много раз. Вот я и спрашиваю - если итерации остановились, то допиливание 'этого куска отложено?

Это плохо. Это практически провоцирует копирование не глядя информации из БД УИКов, которая тоже местами не достоверна. Как было сейчас (с просто ссылкой на osm.org) - лучше. Максимум сделать такую же ссылку на редактирование этого куска в JOSM.

Ну мне сделать ссылку на редактирование проще чем делать редактирование из интерфейса, хотя редактирование из интерфейса - интереснее. Провоцирует ли это добавлять не глядя, может и да, но перепроверялкой уиков воспользовалось 4-5 человек, при том в OSM весьма и всьма искушенных и вроде осознающих что ошибки есть и в осм и в бд уиков.

Я не делал и не делаю обучние на выборке. Я не систему искусственного интеллекта все-же пишу.
Хотя для отдельных операций было бы интересно сделать такой анализ (например выделять в запросе город/улицу/дом/пои), но это не в ближайшее время.
Если кто на этой выборке и обучался - то это я :slight_smile:

Сейчас у меня 5% ошибок, имхо это неплохой результат, правда сравниться мне особо нескем. осм.ру не переваривает ул. д. и прочие сокращения коих для уиков была масса. Номинатим чуть лучше, д. г. пр-т его не ломают, но и не находит он с половиной сокращений ничего.

Теперь на osm.me работает поиск по РФ

Нашёл где можно найти десятки тысяч косых адресов по России: http://forum.openstreetmap.org/viewtopic.php?pid=520159#p520159

Крупные ритейловые сетевеки могут подойти. Для жавы есть такая игрушка http://jsoup.org/

Для тестов?

Да, как бенчмарк они показательные. Они ведь ненастоящие да и импортировать их нельзя даже если захотели.

Тебе ведь не интересно чтобы геокодер работал только на полностью указанных адресах в строгом нормализованном порядке.

Регрессию смотреть ими полезно:

  • % геокодируется до города
  • % геокодируется до улицы
  • % геокодируется до дома/номера/корпуса
  • % геокодируется до подъезда и квартир

Если квартиры стали исчезать значит что-то в логике сломалось. Ухудшения точности геокодирования не должно быть при дополнениях геокодера, а если у тебя инструмента нет чтобы следить за этим, ты ничего судить и не можешь.

Ок спасибо, у меня еще есть, все никак не займусь.

Что-то демки не работают :frowning:
Глянул на sql-parser и мне показалось, что дом с тегами


addr2:housenumber	31
addr2:street	Инзенская улица
addr:housenumber	20
addr:housenumber2	20/31
addr:street	1-й Инзенский

Найти по адресу “1-й Инзенский 20/31” не выйдет, т.к. для addr:housenumber2 не бъётся на части.

А что за sql-parser?
И какие демки ты имеешь ввиду, http://osm.me/#!/ru/ работает.

Газетировский парсер схем вот тут https://github.com/kiselev-dv/gazetteer/blob/develop/Gazetteer/src/main/java/me/osm/gazetter/addresses/impl/AddressesSchemesParserImpl.java

Который из соседней темы https://github.com/kiselev-dv/osm-addresses-pgsql/blob/master/carlsrue.sql

Обнови тогда в первом мосте, а то там нерабочий домен.

Проверил, работает.

Ааа, это разные вещи :slight_smile:

Обновил, спасибо.

Газетир бдшку не использует, это старый скрипт. Адрес из примра - не найдет, но могу подрихтовать чтоб нашел.

Нашёл, но как “1-й Инзенский 20”, что впрочем тоже неплохо.

А у тебя гитхабчик есть? Заведи мне ишью на парсинг (опционально хотябы) адресов вида addrN:housenumberN
Точнее что он видимо неправильно работает.

Создам.

По-моему у тебя база старая, обычные дома не находит, добавленные 2 месяца назад.

Очень может быть. Я немного другим был занят.

Добавил на osm.me фильтрацию по тегам для поек, правда выглядит покамест ужасно и местами может не работать.

Работает примерно следующим образом:
если была выбрана ветка каталога или конкретный тип поек, для них подсчитывается статистика по распарщенным и заполненым тэгам. Тэги группируются и для комбинаций тэг=значение для которых существует более 10 объектов, добавляется опция по которой их можно отфильтровать из общего набора.

Модель данных для разбора поек, значений тегов и их переводов тут https://github.com/kiselev-dv/osm-doc (весьма похоже на то что есть на openstreetmap.ru но и не совсем тоже самое).

Да, кстати mapsurfer сломался.