You are not logged in.

#51 2011-10-09 10:03:56

j-wills
Member
From: Russia, Moscow
Registered: 2010-06-01
Posts: 860
Website

Re: NameRuBot

Товарищи, проставьте плз тэг в Тайланде! Думаю,не я одним благодарным туристом буду! ;-)
У них ппц там с алфавитом...

Offline

#52 2011-10-09 11:18:02

Kostik
Member
From: Moscow
Registered: 2011-01-02
Posts: 2,103

Re: NameRuBot

Ага, а ещё Китай, Корею, Японию, Грецию и прочие страны с иероглифами.

Last edited by Kostik (2011-10-09 11:21:16)

Offline

#53 2011-10-10 07:33:48

kolen
Member
From: Йошкар-Ола
Registered: 2009-12-23
Posts: 47

Re: NameRuBot

Насчет неоднозначностей, когда одно название населенного пункта или еще чего может ссылаться на статьи о разных сущностях в Википедии (и когда два города с одним названием в разных странах):

Есть такой проект как Freebase, при добавлении данных туда есть такое понятие как reconclie. Допустим, ты нашел данные о загрязненности рек в виде такой таблицы и хочешь добавить их во freebase:
Название реки, Загрязненность
Москва, 100500
Нил, 9000
Ганг, 100000000000

Так как в freebase всё типизировано и везде сущности, надо как-то сопоставить первую колонку -- название -- конкретной реке, а потом у этой реки проставить атрибут "загрязненность". Проблема в том что "Москва" -- это и город, и река, и еще фотоаппарат такой есть. Вот сопоставление строки с названием, опционально с какими-то аттрибутами конкретному объекту там называется reconcile, и делается через ихнее API программой Google Refine и загружалкой спредшитов http://wiki.freebase.com/wiki/Freebase_Loader.
Так как объекты там имеют тип, в данном случае просто при reconcile указываем тип "река" /geography/river, и уже получаем более точные результаты при сопоставлении.

Сопоставление обычно делается вручную, система возвращает несколько кандидатов с разным значением "confidence", и нужно посмотреть и выбрать то что действительно подходит; если кандидатов мало и первый с высоким confidence, то можно сразу автоматически.

Так вот, там основная часть объектов привязана к статьям википедии. И тип указан. И при reconcile можно указывать не только тип, но и страну (где находится город). Тогда будут выдаваться более точные результаты. Можно это как-то использовать.

Так как это всё есть в Google Refine, можно предложить такой порядок работы:
- Какой-то утилитой выгружаем список населенных пунктов внутри области, в csv/tsv. Колонки -- название населенного пункта и id(ы) точек/линий/релейшенов в osm (и может другие атрибуты).
- Вручную грузим этот csv в Google Refine
- Запускаем reconcile, указывая тип "город" (/location/citytown), страну, где он находится, для лучшего сопоставления, можно еще что-нибудь указать
- Смотрим, как совпало, проверяем вручную
- Так как у нас теперь объекты сопоставлены, то можно сделать в Refine еще одну колонку -- название статьи в википедии (в английской, это используется практически как основной ключ в Freebase)
- Запускаем утилиту, которая ищет в википедии по английским статьям русскую статью (это можно прямо из refine, а не отдельной утилитой)
- Смотрим еще раз, что нашло, обрезаем "(город)" и т.д.
- Еще одной утилитой генерим xml изменений для загрузки в osm
- Смотрим его еще раз и заливаем

Кстати из freebase можно еще всяких данных извлечь для занесения в osm.

Тут есть 3 видео где можно увидеть как работает этот Refine http://code.google.com/p/google-refine/

Update: скрипт для конвертации .osm файлов в таблицы (.tsv) с колонками: id, тип объекта (node, way, relation) и все атрибуты https://gist.github.com/1274978

Выложил файл проекта для refine: http://dl.dropbox.com/u/2671035/thailan … ine.tar.gz , это города в Тайланде, из выгрузки с cloudmade, отфильтровано осмозисом по place=, судя по всему содержит города и из соседних стран (в выгрузке к области обрезки наверно добавлена буферная зона, я не стал снова обрезать уже по нормальной границе), затем скриптом выше сгенерена таблица. Особо не экспериментировал пока что.

Last edited by kolen (2011-10-10 11:23:43)

Offline

#54 2012-08-21 14:52:40

Kostik
Member
From: Moscow
Registered: 2011-01-02
Posts: 2,103

Re: NameRuBot

Fortress wrote:

NameRuBot. Предназначен для добавления "name:ru" зарубежным городам.

Что то тема заглохла. Забросил разработку?
PS: Ищу транслитератор с армянского и грузинского.

Last edited by Kostik (2012-08-21 14:54:54)

Offline

#55 2012-08-21 15:02:03

fserges
Member
From: St.Petersburg/Russia
Registered: 2010-11-08
Posts: 3,998

Re: NameRuBot

Я бы сказал что нет ... вот один последних глобальных changset по Финляндии - http://www.openstreetmap.org/browse/changeset/12762531
Я так понял что финка более-менее готова smile


Бывший редактор ОСМ

Offline

#56 2012-08-21 15:47:00

Vitalts
Member
From: Estonia
Registered: 2010-12-30
Posts: 1,440

Re: NameRuBot

Яй-яй
name = Põltsamaa !~ name:ru = Пылцамаа.
Должно быть name:ru = Пылтсамаа
Если так уж нужны названия на русском, почему бы не делать их на стороне клиента, а занесение в базу все таки оставить людям?

Offline

#57 2012-08-21 15:51:51

Vitalts
Member
From: Estonia
Registered: 2010-12-30
Posts: 1,440

Re: NameRuBot

name = Otepää !~ name:ru = Отепяа
Изменить на name:ru = Отепя

   
name = Helme !~ name:ru = Хелме
Изменить на name:ru = Хельме

Просмотрел только те, где по моему мнению могут возникнуть проблемы транлитерации. Все 64 особого желания проверять нет. ИМХО, данный бот - зло.

Last edited by Vitalts (2012-08-21 16:14:24)

Offline

#58 2012-08-21 17:57:32

Fortress
Member
From: Russia, Saint-Petersburg
Registered: 2009-07-09
Posts: 1,109

Re: NameRuBot

fserges wrote:

Я бы сказал что нет ... вот один последних глобальных changset по Финляндии - http://www.openstreetmap.org/browse/changeset/12762531
Я так понял что финка более-менее готова smile

Я бы так не сказал: http://navitel.osm.rambler.ru/names/fin … ce.osm.htm

Vitalts wrote:

Яй-яй
name = Põltsamaa !~ name:ru = Пылцамаа.
Должно быть name:ru = Пылтсамаа
Если так уж нужны названия на русском, почему бы не делать их на стороне клиента, а занесение в базу все таки оставить людям?

Я если вношу названия, то либо проверенные из свободных источников либо ставлю на вей, окружающий точку с name:ru имя такое же, как и на точке. В данном случае название было взято с этой точки: http://www.openstreetmap.org/browse/node/281044699
По поводу занесения в базу людьми написал внизу сообщения.

Vitalts wrote:

name = Otepää !~ name:ru = Отепяа
Изменить на name:ru = Отепя

   
name = Helme !~ name:ru = Хелме
Изменить на name:ru = Хельме

Просмотрел только те, где по моему мнению могут возникнуть проблемы транлитерации. Все 64 особого желания проверять нет. ИМХО, данный бот - зло.

Вы сейчас приводите примеры тех названий, что я добавил?

Кстати, для всех интересующихся темой поднял что-то типо валидатора по некоторым странам по name:ru. Пока без веб-морды, использовать as-is: http://navitel.osm.rambler.ru/names/

Offline

#59 2012-08-22 08:29:30

Vitalts
Member
From: Estonia
Registered: 2010-12-30
Posts: 1,440

Re: NameRuBot

Я если вношу названия, то либо проверенные из свободных источников либо ставлю на вей, окружающий точку с name:ru имя такое же, как и на точке.

ОК, извиняюсь за нападки, думал это результат транслитерации.

Вы сейчас приводите примеры тех названий, что я добавил?

Да, эти значения добавлены вами в чейнджсетах с комментарием "name:ru - places - Estonia". Насколько я понял, они также взяты с других, имевшихся в ОСМ, объектов. Т.е. во всех приведенных мною случаях имеет место ошибка в начальных данных.

Можно сказать, эти ошибки исправлены.

Offline

#60 2012-08-22 12:49:36

Fortress
Member
From: Russia, Saint-Petersburg
Registered: 2009-07-09
Posts: 1,109

Re: NameRuBot

Vitalts, спасибо за информацию. Будет очень здорово, если Вы, пользуясь этой шпагралкой, добавите недостающие русские названия. Тогда Эстония будет первой страной, где заполнены русскоязычные названия на 100%. Честно говоря, 92% имеющихся сейчас уже впечатляет.

Offline

#61 2012-08-22 14:01:19

Vitalts
Member
From: Estonia
Registered: 2010-12-30
Posts: 1,440

Re: NameRuBot

Fortress, обязательно добавлю, пока руки не доходят. Уже пробежался по этой таблице до "J", перейдя по линку из вашего предыдущего поста, кое-что внес, кое-что подправил smile

Offline

#62 2012-10-19 12:27:05

Vitalts
Member
From: Estonia
Registered: 2010-12-30
Posts: 1,440

Re: NameRuBot

Done, без name:ru остался только "Ивангород" smile

Offline

Board footer

Powered by FluxBB