Ну так и я про то же. Это же фактически обучение на множестве, а обучение таких нечетких систем только мелкими итерациями и делается. Допилили чуток, перепрогнали на всем массиве (ведь и карта все время меняется), сравнили с предыдущим результатом - и так много-много раз. Вот я и спрашиваю - если итерации остановились, то допиливание 'этого куска отложено?
Это плохо. Это практически провоцирует копирование не глядя информации из БД УИКов, которая тоже местами не достоверна. Как было сейчас (с просто ссылкой на osm.org) - лучше. Максимум сделать такую же ссылку на редактирование этого куска в JOSM.
Ну мне сделать ссылку на редактирование проще чем делать редактирование из интерфейса, хотя редактирование из интерфейса - интереснее. Провоцирует ли это добавлять не глядя, может и да, но перепроверялкой уиков воспользовалось 4-5 человек, при том в OSM весьма и всьма искушенных и вроде осознающих что ошибки есть и в осм и в бд уиков.
Я не делал и не делаю обучние на выборке. Я не систему искусственного интеллекта все-же пишу.
Хотя для отдельных операций было бы интересно сделать такой анализ (например выделять в запросе город/улицу/дом/пои), но это не в ближайшее время.
Если кто на этой выборке и обучался - то это я
Сейчас у меня 5% ошибок, имхо это неплохой результат, правда сравниться мне особо нескем. осм.ру не переваривает ул. д. и прочие сокращения коих для уиков была масса. Номинатим чуть лучше, д. г. пр-т его не ломают, но и не находит он с половиной сокращений ничего.
Да, как бенчмарк они показательные. Они ведь ненастоящие да и импортировать их нельзя даже если захотели.
Тебе ведь не интересно чтобы геокодер работал только на полностью указанных адресах в строгом нормализованном порядке.
Регрессию смотреть ими полезно:
% геокодируется до города
% геокодируется до улицы
% геокодируется до дома/номера/корпуса
% геокодируется до подъезда и квартир
Если квартиры стали исчезать значит что-то в логике сломалось. Ухудшения точности геокодирования не должно быть при дополнениях геокодера, а если у тебя инструмента нет чтобы следить за этим, ты ничего судить и не можешь.
Добавил на osm.me фильтрацию по тегам для поек, правда выглядит покамест ужасно и местами может не работать.
Работает примерно следующим образом:
если была выбрана ветка каталога или конкретный тип поек, для них подсчитывается статистика по распарщенным и заполненым тэгам. Тэги группируются и для комбинаций тэг=значение для которых существует более 10 объектов, добавляется опция по которой их можно отфильтровать из общего набора.