Graue Kacheln in OpenStreetMap.com

Mit ausreichend Geld, kannst Du durchaus auch was am Schiff verbessern, oder was noch besseres als Mapnik konzipieren. https://www.youtube.com/watch?v=U_ZcgdC6SSU&feature=emb_logo

Nein. Denn wenn es ev. auch einen Anteil “zu komplex” vor ein paar Wochen gab ist das schon längst gegessen, dass Problem aktuell ist schlicht Überlast des Cache Netzwerkes durch immer mehr Leute die die Kacheln verwenden, sprich also so wie immer.

OK, das ist beruhigend. Dann würde ich vorschlagen, anstelle von grauen Kacheln einen Text zu rendern, der auf die Möglichkeit der Spende hinweist. So was wie : “Hier fehlt uns leider das Geld” oder “Schade, wir haben nicht genug Rechenleistung”

Die Idee finde ich auch am Besten. Ich hatte mir schon überlegt, je nach Abfragendem die ganze Seite mit einem Banner zu überlagern; sowas wie
“Sie sind ein kommerzieller Nutzer unseres kostenlosen Dienstes und verursachen hohe Kosten. Durch eine regelmäßige Spende werden Sie dieses lästige Banner los.” :smiley:
Angemeldete Benutzer auf osm.org sehen das nicht.

Ein Sysadmin meinte gestern auf Rückfrage, es seien in Deutschland im Laufe dieser Woche einige Server dazugeschaltet werden und das Problem sollte daher im Moment im Griff sein. Entspricht das euren Eindrücken oder gibt es unverändert Probleme?

Ich habe seit Samstag nach dem Carto v5.1.0 Release täglich einzelne Tests gemacht und hatte schon den Eindruck, dass es seit Mittwoch deutlich besser ist.

Allerdings sehe ich gerade eben wieder Totalausfälle mit 504 timeout Fehler nach 2 Minuten.

Ich beobachte folgenden witzigen Effekt: Wenn ich einen CS hochlade und wenige Minuten später die Hauptkarte unter osm.org aufrufe, sind meine Änderungen zumindest in einzelnen Tiles, meist aber in allen betroffenen, bereits gerendert. Rufe ich aber denselben Bereich eine oder drei Stunden später wieder auf, sehe ich die alte Version. Auch Neuladen vom Server (Strg-F5) ändert nichts.

Aktuell habe ich z.B. in der Wiese um https://www.openstreetmap.org/#map=17/50.12663/8.25097 einige Feuchtgebiete gemappt.

Für mich heißt das: Gerendert wird zügig, gecachet wird schleppend (Caching-Server haben noch lange einen alten Stand).

–ks

Es hat aktuell 7 verschiedene Renderingserver, einer oder ein paar davon dürften einfach noch nicht so weit sein.

Bei mir ist jetzt alles grau :frowning: :frowning:

Dann bekommst du sicher bald “neue” …

Grundsätzlich ist es hilfreich, wenn eine Fehlermeldung “graue Kacheln” möglichst präzise ist. Wann wurden vom von wo aus graue (oder eben keine, oder nur sehr langsame) Kacheln geliefert, welche Fehlermeldung gab es genau, und vorallem auch: Wann hat es gut funktioniert? Sicher sind nicht alle in der Lage, überhaupt so genau zu diagnostizieren, aber für die, die sich dafür interessieren, hier ein paar Hinweise.

Zunächst einmal kann man in den meisten Browsern eine “Entwickler-Werkzeuge-Ansicht” öffnen und dort einen Netzwerk-Monitor anschalten. Da sieht man, welche Anfragen der Browser an den Server schickt, und wie lange die Antworten gebraucht haben (oder ob es eine Fehlermeldung gab).

Da sieht man oben rechts auch (“remote address”), welche Server diese Anfrage bearbeitet hat. In meinem Beispiel ist das der Server 195.201.226.63. Wer “whois” und “traceroute” kann, der sieht, dass dieser Server bei Hetzner steht; das DNS verrät mir, dass der “keizer.openstreetmap.org” heisst. (Ich könnte auch in der Liste aller für Deutschland verwendeten Caches unter https://github.com/openstreetmap/dns/blob/master/src/tile.openstreetmap.yml#L155 nachsehen und dort die IP-Nummer finden).

Details über den Server, der mich bedient hat, finde ich dann auf https://munin.openstreetmap.org/openstreetmap.org/keizer.openstreetmap.org/index.html - dort kann ich eventuell schon erahnen, falls ich gerade einen schlechten Service hatte, woran das lag. Hier zum Beispiel sehe ich, wie viele Anfragen der Server insgesamt beantwortet (eine hereinkommende Anfrage landet zuerst beim “nginx”):

https://munin.openstreetmap.org/openstreetmap.org/keizer.openstreetmap.org/index.html#nginx

Zum Zeitpunkt dieser Nachricht waren das im Durchschnitt 450 pro Sekunde über die letzte Woche. Wenn der nginx den Request nicht selber beantworten kann, geht er an den Squid

https://munin.openstreetmap.org/openstreetmap.org/keizer.openstreetmap.org/index.html#squid

das sind im Durschnitt nur noch 120 pro Sekunde, d.h. 330 pro Sekunde federt der nginx direkt ab. Von den 120 pro Sekunde, die beim Squid ankommen, sind ca. 80 “cache misses” und werden an den Renderingserver weitergereicht.

https://munin.openstreetmap.org/openstreetmap.org/keizer.openstreetmap.org/squid_icp.html

Hier sieht man, welche Rendering-Server von diesem Cache angesprochen werden - in meinem Fall “germany.render.openstreetmap.org” (IP: 130.117.76.15, Standort: Amsterdam). https://github.com/openstreetmap/dns/blob/master/src/hosts.js verrät mir, dass der Server “odin” heisst, und ich kann dann wieder auf https://munin.openstreetmap.org/openstreetmap.org/odin.openstreetmap.org/index.html schauen, wie die Last auf dem Renderer so aussieht.

Das ist alles ein bisschen mühevoll, aber auch sehr interessant; man kann mit ein bisschen Arbeit nachvollziehen, wo genau es eigentlich gerade “hakt”, und so natürlich auch eine bessere Fehlermeldung produzieren.

Bye
Frederik

Noch als Ergänzung (siehe auch #69 und Gray tiles Issue Kommentar):

Im Netzwerkanalyse/Network Tab in den Entwickler-Werkzeugen (F12) gibt es in den Details zu einer Tile-Anfrage (Zeile klicken) unter “Antwortkopfzeilen”/“Response Headers” zwei Einträge, die Auskunft über den verwendeten Cache- und Render-Server geben:

  • “x-cache” = Cache Server
  • “x-tilerender” = Render Server

In Chrome kann man diese Custom Header per Rechtsklick auf die Kopfzeile auch direkt zur Anfrage-Tabelle hinzufügen (siehe Chrome Referenz), das sieht dann z.B. so aus ¹:

¹ Screenshot vom 27.02.2020 16:28 (UTC), siehe Gray tiles Issue Kommentar

Edit: Beschriftung Screenshot ergänzt

Ich nehm das zurück und behaupte das Gegenteil, ich nehm an woodpeck schreibt noch was dazu.

Ich hätte noch dazu schreiben sollen, dass der Screenshot in #129 nicht aktuell ist, sondern vom 27.02. (hab’s ergänzt), siehe auch Gray tiles Issue Kommentar.

Das Hauptproblem der 404 (not found) Fehler wurde inzwischen behoben. Das Cache Fallback-Handling wurde von Squid zu Nginx verschoben und vor allem wurden regelmäßige Performance-Tests eingeführt, die bei der Wahl des Fallback Servers berücksichtigt werden. Siehe Commits (und weitere):
tilecache: add basic performance monitor script · openstreetmap/chef@7585a17
tilecache: disable squid siblings · openstreetmap/chef@38ed352
tilecache: add tile_siblings to nginx · openstreetmap/chef@ae900e3

So wie ich das sehe ist es aber weiterhin so, dass die Weiterleitung an einen anderen Cache Server bei Überlastung (unter welchen Umständen genau weiß ich nicht) pro Request erfolgt und es keine Bindung an eine Session oder ähnliches gibt. Das führt dazu, dass ein Metatile für einen Aufruf oftmals auf zwei oder mehr Servern gerendert wird und meiner Ansicht nach so potentiell die Last auf den Render-Servern vervielfacht.

Ups! Wenn das so ist, ist das nicht so toll …

ok, jetzt kommen die Tiles aber teilweise dauert es 29440ms also fast eine halbe Minute :confused:

Ein Beispiel:

HTTP/2.0 200 OK
server: nginx
date: Thu, 23 Apr 2020 10:33:21 GMT
content-type: image/png
content-length: 16943
expect-ct: max-age=0
etag: "ddb82045165af26272f0f4cf9c903240"
cache-control: max-age=16277, stale-while-revalidate=604800, stale-if-error=604800
expires: Thu, 23 Apr 2020 13:41:22 GMT
access-control-allow-origin: *
x-tilerender: odin.openstreetmap.org
age: 479
x-cache: HIT from konqi.openstreetmap.org
x-cache-lookup: HIT from konqi.openstreetmap.org:3128
via: 1.1 konqi.openstreetmap.org (squid/4.10)
x-cache-status: HIT - konqi
strict-transport-security: max-age=31536000; includeSubDomains; preload
X-Firefox-Spdy: h2

Warten:
7755 ms
Empfangen:
21005 ms

x-cache: HIT from konqi.openstreetmap.org

Vom Cache-Server konqi hab ich die letzten Tage auch ein paar längere Wartezeiten von bis zu 45 Sekunden gesehen, dazwischen dann aber wieder schnelle Antworten von unter 1-2 Sekunden, aber immer einen Tick langsamer als die anderen Caches.

In den Statistiken geht das aber vermutlich unter, da kann ich nichts auffälliges entdecken. Bin aber auch kein Admin und die Statistiken sagen mir nur bedingt was:
https://munin.openstreetmap.org/openstreetmap.org/konqi.openstreetmap.org/index.html

Ich habe jetzt nicht die ganze Diskussion gelesen, insbesondere da mir für den IT-Teil einfach die Kenntnis fehlt.
Hat es einen Grund dass hier niemand mehr postet? Es scheinen ja einige Probelme behoben worden zu sein.
Aber bei mir wird nach wie vor nur sehr langsam gerendert (also graue/unscharfe Kacheln).

Ist das immer noch ein allgemeines Problem?

Hatte auch gerade keine Kacheln. Aber jetzt scheint es behoben und es flutscht richtig, wow. So müsste es immer sein.

Scheint ein etwas anderes Problem zu sein (hat sich aber oben in #133, #134 schon angedeuted), ich habe mal einen neuen Faden aufgemacht:
Tile-Caches für Deutschland