Preslovljavanje preko wikipedije

Postovanje svima,
Znam da ima velika tema za preslovljavanje i jos jedna novija za bota:), ali moja je malko drugacija, pa ne bih da zagadjujem ove druge dve. Pitanje je - da li je bilo tema/prica da se uradi “poluautomatizovani” bot za preslovljavanje koriscenjem wikipedije? Koristim OsmMap na androidu sa srpskim jezikom i strani gradovi/drzave su (u najboljem slucaju) poluprevedeni. Ideja mi je da bot moze da nadje grad “Barcelona”, da vidi da on nema sr ime i doda ga, koristeci https://en.wikipedia.org/wiki/Barcelona da ga pronadje. Naravno, mogao bi o istom trosku da radi i validaciju postojecih tagova.

Pitanje bi bila:

  • da li je neko tako nesto vec radio (deluje bas kao ocigledna ideja),
  • da li postoji neki svetski bot koji to radi, posto vidim da ovo vrlo lako moze da se generalizuje
  • sta mislite da krenem ovo da radim, sta bi vam smetalo da ima/nema ovaj bot (npr. nikako automatizaciju, nikako da je Ruby…:),
  • kako da reportujem progres (da koristim ovaj topic?)

Da delimicno odgovorim sam sebi, postoji ovo: https://github.com/EdwardBetts/osm-wikidata i pokriva bas dosta use case-ova, ali ne vidim da je ovo bot, vise kao nesto sto rade ljudi preko http://osm.wikidata.link/. Kontaktiracu coveka,vidim da ima kao neki API. Mozda postoji razlog zasto se ne pravi bot:) (mada sam ja mislio da pravim mnogo uzi skup funkcionalnosti - samo gradovi, samo kad postoji wikidata:* tag…). Mozda cak bot koji proverava da li je latinicno ime isto kao cirilicno, ili da proverava da li link na wikipediji vodi na engleskom na isto ime, kao i name:en tag. Sta mislite?

Бранко,

Овде демократија функционише мало другачије - када направиш “нешто” онда заинтересовани (ако их има) могу да се укључе да предлажу/критикују или просто користе те нове алате. Процес планирања у напред се, углавном, своди на планирање једног човека.

Иначе, сваки унос нових тагова је свакако користан…

Hvala,
Poznato mi je malo kako open tehnologije funkcionisu;) Elem, naravno da sam se bacio na posao, samo htedoh da proverim da ne radim dupli posao.

Program je ovde: https://gitlab.com/osm-serbia/serbian-osm-lint. Program radi svasta nesto, najbolje da se pogleda README. Trebalo bi da je dosta lako da se napravi novi “check”, tako da, ako neko ima ideju sta bi voleo da automatizovano proverava ili automatski ispravlja, nek se dere ovde (ili nek sam napravi:) Iskoristio sam deo koda od “zeljkovu” (ako citas ovo - hvala!:slight_smile:

Trenutni izvestaj je ovde: http://kokanovic.org/serbian-osm-lint/. Ukljucio sam za sad svega nekoliko zemalja i nekoliko check-ova. Opet - najbolje tu da pogledate koji su check-ovi prisutni i sta/kako rade. Ima tu dosta i smeca, ali bitno je da dosta od ovoga moze da se ispravi automatski.

U svakom slucaju, plan mi je da dodajem nove check-ove, i da ispravljam ono sto se ovde moze ispravljati (napravicu novi bot nalog i dodacu se na wiki). Svako je dobrodosao da daje ideje za check-ove, da ih implementira, ili da samo prolazi kroz report i ispravlja rucno ono sto ne moze automatizovano:) Ja cu svakako gledati da saslusam i (mozda cak i implementiram:) svaciju ideju:)

Za vas koji ste aktivni na OSM - razmisljajte razmazeno:), razmisaljte sta moze sve da doda od provera/sanity check-ova… Framework je tu, sad trebaju Vasi input-i:)

edit: promena URL-a za serbian osm lint

OK, botko počeo da radi (mislim, nije ovo bot, ovo je više skripta :slight_smile: ). Napravio sam nalog za njega:
https://www.openstreetmap.org/user/Serbian%20OSM%20Lint%20bot

Napravio i wiki stranu:
https://wiki.openstreetmap.org/wiki/Automated_edits/Serbian-OSM-Lint

Poslednja dva dana je uglavnom radio na dodavanju sr-Latn tamo gde je falilo “kako u zemlji, tako i u inostranstvu”:slight_smile: Molim pogledajte kako vam se čini!!!

Jedno pitanje:
Primetio sam stariji “name_1” tag, šta mislite, da li bi mogao da proveravam da je to izbrisano? (report da prijavljuje to kao problem, a fix bi bio da se izbriše). Vidim da ovde i ovde kažu da su deprecated? To je jedino što mi je palo još od ideja, a da moram da se konsultujem. I dalje stoji - ako imate ideja, šibajte ovde!

Evo da dam update. Sve izmene bota mozete (i dalje) videti ovde. Trenutni report (i dalje) mozete videti ovde. Javite nove ideje sta moze da proverava. Javite koje su (pored City/Town/Village) najbitniji objekti koje treba da proverava!

  1. Skripta se razvija lepo. Pocistio sam da sva mesta u Srbiji imaju name:sr-Latn i da name:sr bude na cirilici. Ima tu jos malo da se radi, ali nista vise automatizovano
  2. Naucio sam na tezi nacin da je “name:sr-Latn” nas lokalni tag i da ga nema u svetu:)[1] Nisam znao u pocetku, pa je bio nesporazum, ali OK, prepravicu skriptu da name:sr-Latn ignorise “u svetu”
  3. Poceo sam da dzaram “wikipedia” tag. Za svaki place=City/Town/Village sam dodao wiki link na srpsku wikipediju. Prvo sam proveravao da li se ime mesta slaze sa wiki imenom. Tako smo spali sa 2208 mesta koja nemaju wiki na 942. Onda sam proveravao da li je ta wiki strana zapravo ambigous strana, pa trazio medju ostalim i tako je sad ostalo “samo” 390 mesta bez wiki clanka. Naravno, i u jednom i u drugom slucaju proveravam da g.sirina i duzina na wikiju i u OSM-u ne budu vise od 5km razlike! Sledeca ideja mi je da ove postojece wikipedia tagove prepravim da pokazuju na srpsku wiki (dosta ih pokazuje na englesku, a Beograd cak pokazuje na nemacku:) To se slaze sa ovim smernicama:
  1. Sledece posle vikipedije planiram wikidata. Derite se ako ima problema sa ovim

Sve u svemu, TL;DR sva trenutna pitanja:

  • Primetio sam stariji “name_1” tag, šta mislite, da li bi mogao da proveravam da je to izbrisano? (report da prijavljuje to kao problem, a fix bi bio da se izbriše)
  • Da li je OK da “wikipedia” tag uvek bude sa srpske vikipedije?
  • Da li OK da popunjavam “wikidata”?
  • Koje jos tipove entiteta skripta najpre ima smisla da proverava?

Бранко,
Свака част на до сада уложеном труду. Све делује обећавајуће :smiley:
Можеш ли да ми појасниш какав је план о “рамени података” између ОСМ и wikipedia односно wikidata? По некој мојој логици, имало би смисла да се ОСМ ажурира са википедијиним линковима а википедијини чланци да се ажурирају са координатама са ОСМ, док у целој причи нисам сигуран где би се уденула викидата.

Nisam dosao do two-way sync-a jos :stuck_out_tongue: Zapravo, mislim da cu da ostanem na one-way sync-u jer ovako moze da se napravi loop i plasim se da greske ne propagiraju svuda :confused: Znas kako ide ona izreka:

One-way sync bi mi bio:

  • wikipedia → wikidata (ovo ne znam ko radi, da li su ljudi ili botovi, ali oslanjamo se da postoji…report (treca stavka ispod) ce nam reci gde ne postoji podaci)
  • wikipedia → OSM (ovo radi bot - dodavanje i naknadna provera “wikipedia” taga na OSM-u, uz dodatne provere (udaljenost, slicnost imena…)
  • wikipedia → wikidata → OSM (ako imamo “wikipedia” tag na OSM-u, proveravamo ime Q objekta na wikidata i ako je to to, verujemo mu…naravno, report ce reci ako se nesto izmeni na ovoj putanji u medjuvremenu)
  • wikidata → OSM “name:*” (kad imamo wikidata, mogli bi da imamo imena svih entiteta na svim ostalim jezicima. Nije mi ovo plan, posto vec ima ovakvih projakata, ali ako budem zaludan…:slight_smile:

Nadam se da se sve svesti na inicijalno popunjavanje automatizacijom, onda malo rucnog dopeglavanja i na kraju report koji treba da se pogleda sa vremena na vreme i koji idealno treba da prikazuje svuda 0 (imam Twilio, moze i SMS da saljemo ako “regressujemo”, tj. narednog dana bude veci broj gresaka:)

Naravno, otvoren sam za predloge two-way synca, pisao sam i wikipedia bota (evo sad gledam, pre skoro 8 godina:D), pa moze tehnicki sve da se uklopi, ali ni ja ne znam kako bi sve to radilo!

Чини ми се да су wikipedia и wikidata два паралелна пројекта - да нема директног копирања података између њих. У сваком случају ово није место за дискусију на ту тему, јер би са ОСМ само координате могле да се искористе.

Једино што сада видим да има смисла је синхронизација координата на википедији. Са википедије би могли да се само узму линкови са страница на које се односе, и то је једнократно и то само за објекте (места) који постоје и на ОСМ и у википедији. Не видим нешто превише опасности од пропагирања грешака докле год се зна где се налази “тачнији”, поузданији податак…