Машиночитаемый справочник тегов для программ [TOSM]

Ezhick · March 27, 2012, 1:54pm

Это не ИСПОЛЬЗУЕМЫЕ, это ИЗ ВИКИ выгрузка.

Константин_Гам · March 27, 2012, 2:00pm

Мммм, тогда давай. Только форматец попроще вроде JSON могешь? Как доколдую мониторинг займусь импортом тегов, чтобы осталось по категориям распихать и описания сделать.

Константин_Гам · March 27, 2012, 2:01pm

Вы их давно открывали? Там теги устарели на год так точно многие. Ещё теги с потлача предлагайте)))

osmisto · March 27, 2012, 2:06pm

Дофоркаются, конечно. Но кому это мешает? Кому какая-разница что там у какого-то user-а в тегсетах, если он не портит официальный.

Зато из форков можно вынести пользу. Например открываем /Shop/Clothes, делаем поиск “как там у других” и видим грубо говоря три столбика:

официальный вариант для этого пресета,
потом наш,
а потом самые популярные изменения: 120 человек добавили brand в свой /Shop/Clothes, ещё 100 добавили age, ещё 10 добавили новый тип одежды “валенки”. И на каждое новшество кнопки “утянуть себе”.

Таким образом из облака форков можно вытянуть самые популярные новшества в свои пресеты. А те, кто рулит официальным пресетом, могут просто просматривать самые популярные изменения. Например, если изменение набирает 100 и больше редакторов, то автоматически идёт pull request

Хз, правда, как это реализовать.

s777n · March 27, 2012, 2:06pm

xml файл - править просто. И стоит использовать уже имеищися опыт - того же линукса. Что-то нужно - сделай сам и пришли тем кто поддерживает.

Не стоит автоматически делать pull request, если сотня потлачеров, что-то сделала, то это не означает, что это правильно.

Ezhick · March 27, 2012, 2:09pm

Формат могу примерно любой, только зачем там json? Там же пара - key-value. Проще в CSV выгрузить.

Константин_Гам · March 27, 2012, 2:14pm

Давай CSV, ещё проще. Мне главное всосать это средствами php Не более)))

osmisto · March 27, 2012, 2:16pm

Точно такая же идеология у JOSM-а. Исходники открыты, а на пресеты даже исходники не нужны. XML файл - надо просто залезть и поправить, а потом отправить изменения тем кто поддерживает. Однако, отстаёт на год.

Pull request, это не merge. Можно и отклонить.

osmisto · March 27, 2012, 2:20pm

Я не буду спорить дальше.

Если не нравится гитхаб-лайк, значит не нравится. Не настаиваю на своей идее, всё таки сам я пока не готов помочь, а настаивать на своей точке зрения, если сам не буду помогать, считаю неправильным. Пусть это были мысли вслух, а проекту помогу чем смогу и когда смогу %)

s777n · March 27, 2012, 2:47pm

Может тогда сделать несколько веток? Одна - то что уже принято. Вторая - то что используется, но пока еще в proposal.

А кому не нарвится github -лайк? Мне нравится.

Константин_Гам · March 27, 2012, 2:48pm

Да харош флудить!

Я не спрашивал о методах реализации, я уже конкретно сделал структуру и механизм работы, меня интересуют детали, которые я мог упустить.

s777n · March 27, 2012, 3:00pm

Наоборот. Никто же не мешает сделать и так и так. Пусть и не вами. Интересно же узнать что по этому поводу думают.

Hind · March 27, 2012, 3:21pm

Другие реализации и вправду лучше обсуждать в отдельной теме. Эта про TOSM.

По теме: GaM, если хочешь машиночитаемости, формализуй, к чему можно применять значение.
value я бы сунул в values, а в value описание значения на разных языках. Ну и к чему применяется. Сразу на будущее - node / line / area / relation. При этом в условиях API 0.6 подразумевается, что line разрешает ставить на вей, area разрешает вей и мультиполигон.
XML не нужен.

BushmanK · March 27, 2012, 3:31pm

Гхм, говоря “XML” и “допустимые тэги” подразумеваем DTD или XSD (XML Schema) и валидатор… Нет?

Константин_Гам · March 27, 2012, 3:36pm

Hind, а какой формат предлагаешь? Я сам от xml тошнюсь, но как понимаю это более менее будет понятней нашему софту. Я люблю простой json, всегда и везде

Про типы тегов спасибо, надо видимо true/false сделать на все 4 типа.

Я так и подумал что сначала идёт коллекция категорий с вложенностью, а потом объекты. Ну и уже софтина или берёт нужную себе категорию или обрабатывает все, её дело.

upd: действительно… лучше описать значения тега все в одном контексте, чем кучу плодить. спасибо за идею!

fserges · March 27, 2012, 3:39pm

Я что-то подобное делал для себя в прошлом году. По России и окрестностям насчитал 276 описанных в вики или документации ключей и 1023 уникальные комбинации ключ/тег. Списко далеко не поплон! Потом забил так как значений огромное количество а фактических объектов - мизер.

При этом не забываем про теги типа source:addr или official_name:be

s777n · March 27, 2012, 3:39pm

В первичной постановке вопроса задача была сделать не только машиночитаемый но и человеко-читаемый.

Константин_Гам · March 27, 2012, 3:48pm

s777n:

Hind:

Другие реализации и вправду лучше обсуждать в отдельной теме. Эта про TOSM.

По теме: GaM, если хочешь машиночитаемости, формализуй, к чему можно применять значение.
value я бы сунул в values, а в value описание значения на разных языках. Ну и к чему применяется. Сразу на будущее - node / line / area / relation. При этом в условиях API 0.6 подразумевается, что line разрешает ставить на вей, area разрешает вей и мультиполигон.
XML не нужен.

В первичной постановке вопроса задача была сделать не только машиночитаемый но и человеко-читаемый.

И что в словах Hind`a убирает человеко-читаемость? note и description никуда не исчезнут, а языки я думаю это просто надо файл типа tosm-ru.json, tosm-en.json и т.п. Правда донести до англоязычного сообщества это не так просто будет, потому надо хотя бы для себя сделать для начала.

Hind · March 27, 2012, 3:52pm

Только json для человекочитаемости должен быть с индентами, как через бьютифаер выгнан :3
И с комментариями в начале по синтаксису.

Что касается отдельных файлов для языков. Есть нюанс, в нескольких файлах немножко сложнее валидировать, например, полноту перевода. Требуется либо эталонный файл, либо синтез словаря в памяти с пробегом по файлам и проверкой наличия описанных тего/значений.

Константин_Гам · March 27, 2012, 3:54pm

Может ты не совсем уловил, всю инфу я храню в обычном mysql, а потом оно выгружается в ацкие файлики которые не должны быть понятны человеку, они должны быть понятны для программы, так чтобы человек смог найти тег и понятное описание на нужном языке уже внутри программы, сами файлы делать читаемыми для людей это ВАХ