[Discuss] [Wien] Aufall OLSR gestern
Christian Pock
(spam-protected)
Mi Dez 27 16:28:46 CET 2017
@Mathias: danke für den Reboot auf jed99. Die Liste hat sich somit merklich verkürzt:
JCN-78.41.113.99 offline
TD1-78.41.113.151 offline
baer2-78.41.113.162 offline
benni3d-78.41.112.6 offline
ber13-193.238.158.186 offline
ber13-193.238.158.53 offline
ber13-193.238.159.246 offline
ber13-78.41.112.213 offline
erlachp-78.41.112.31 offline
es112-78.41.112.204 offline
es112-78.41.113.127 offline
hag10-78.41.113.192 offline
ley21-193.238.158.137 offline
ley21-78.41.112.211 offline
maxbrod-78.41.118.177 offline
mayerhofer2-78.41.113.185 offline
men10-78.41.113.42 offline
metalab-78.41.112.119 offline
rosen2-193.238.159.253 offline
rosen2-78.41.118.89 offline
sche11-193.238.158.15 offline
schenkich-193.238.156.152 offline
schenkich-193.238.159.44 offline
schenkich-193.238.159.46 offline
schenkich-78.41.113.61 offline
scho33-78.41.118.143 offline
siegfried28-78.41.112.20 offline
stern-78.41.112.28 offline
stern-78.41.118.18 offline
wpaeC501-78.41.113.85 offline
wpaeC501-78.41.113.9 offline
wrkch-78.41.112.22 offline
LG
Von: Mathias Ballner [mailto:(spam-protected)]
Gesendet: Mittwoch, 27. Dezember 2017 15:02
An: Christian Pock <(spam-protected)>
Cc: (spam-protected)
Betreff: Re: [Discuss] [Wien] Aufall OLSR gestern
Hallo!
Danke allen für die Mithilfe! Ja jed99 ist ebenfalls seit gestern offline. Von Manhartsbrunn aus ist die Interne Management IP aber noch pingbar, auch SSH ist noch verfügbar. Wenn mir jemand das Passswort zukommen lässt, könnte ich sie neustarten. Dem AirOS Problem sollte man jedenfalls nachgehen.
LG Mathias
Am 27. Dezember 2017 um 14:43 schrieb Christian Pock <(spam-protected) <mailto:(spam-protected)> >:
[discuss only]
Hallo allerseits. Es scheint als hätte es nicht nur EdgeRouter betroffen: eine AirOS-Antenne mit der alten Custom-Firmware von v5.5.9 am Nessus ging ebenfalls offline. Interessanterweise ist auch der ToughSwitch am nessus-roof (AirOS) zwar nur pingbar, aber nicht managebar (weder https, noch ssh reagieren).
Jedenfalls gibt es aktuell den EdgeRouter-OLSRd_V1 Wizard nun mit dem Feature "watchdog", der die eingefrorene/gestürtze olsrd-Instanz neu starten sollte. Ob das den gestrigen Vorfall abgefangen hätte, kann ich leider jetzt auch nicht sagen. Der watchdog ist im Wizard optional zu aktivieren (per default nicht aktiviert).
Folgende olsr IPv4-Adressen sind gestern zwischen 11:00 und 17:15 offline gegangen und seither nicht wieder online. Vermutlich nicht alle sind direkt betroffen, aber durch den Ausfall von Transitknoten (jed99, biss, …?) vom übrigen Netzwerk abgeschnitten.
LG, Pocki
-----Ursprüngliche Nachricht-----
Von: Wien [mailto:(spam-protected) <mailto:(spam-protected)> ] Im Auftrag von Erich N. Pekarek
Gesendet: Mittwoch, 27. Dezember 2017 12:31
An: Leo KLAMMER <(spam-protected) <mailto:(spam-protected)> >; (spam-protected) <mailto:(spam-protected)> ; (spam-protected) <mailto:(spam-protected)>
Betreff: Re: [Wien] Aufall OLSR gestern
Hallo Leo!
Nach akkus Meldung habe ich mit ihm gerätselt, was die Ursache sein könnte. Anschließend habe ich mit vchrizz und pocki telefoniert.
Die Knoten, die pocki erretten konnte, waren über olsrv2 noch erreichbar
- außer jenen, die hinter garten94 liegen... .
Auf diese Weise und mit diesen Infos habe ich dann auch noch weiter gesucht, und, soweit mit ein Login zur Verfügung stand (eine handvoll Knoten), den olsrv1/ipv4 neu gestartet. Dabei ist mit aufgefallen, dass einige EdgeRouter die Session kurz nach dem Login abgebrochen haben:
„ free -packet_write_wait: Connection to 2a02:61:[...] port [...]:
Broken pipe. “
Nach erneutem Login zeigten diese Nodes nur wenig freien Speicher (10-15 MB). Dort und nur dort -etwa biss- habe ich mir erlaubt, zu rebooten.
Da ja doch ein paar Knoten betroffen waren, würde ersuchen, dies im Auge zu behalten und weitere Informationen bereitzustellen - bitte dann aber auf der Diskuss-Liste.
Darüber hinaus würde ich mir wünschen, dass wir die Erreichbarkeit von Nodes via IPv6 weiter vorantreiben, und Komponenten, die das verhindern, in einer gemeinschaftlichen Aktion auswechseln. Es ist mir bewusst, dass das nicht überall einfach möglich ist, aber mit etwas gutem Willen ist es wohl machbar.
Der Vorfall zeigt aber auch, dass wir beim protokollübergreifenden Route-/Node-Monitoring besser zusammenarbeiten sollten. Etwa auch durch Zusammenführung der Maps, ebendort durch graphische Darstellung der Veränderung von Routen im Zeitverlauf, etc. Auch auf die Aktivierung von OLSR-Watchdogs wäre zu achten.
Vielleicht können wir ja das „Neujahrstreffen“ der Gruppe Wien-Süd diesem Zweck widmen. Der Termin wird wunschgemäß noch verschoben und hernach angekündigt.
LG
Erich
Am 2017-12-27 um 05:40 schrieb Leo KLAMMER:
> Hallo!!
>
> DANKE an alle Beteiligten für die rasche Lösung!!! 👏👏👍👍 is ja
> nicht selbstverständlich an einem Weihnachtsfeiertag 👍👍👍🔝🔝🔝
>
> LG & guten Rutsch
> LK
>
>
>
> --
> Wien mailing list
> (spam-protected) <mailto:(spam-protected)>
> https://lists.funkfeuer.at/mailman/listinfo/wien
--
Wien mailing list
(spam-protected) <mailto:(spam-protected)>
https://lists.funkfeuer.at/mailman/listinfo/wien
--
Discuss mailing list
(spam-protected) <mailto:(spam-protected)>
https://lists.funkfeuer.at/mailman/listinfo/discuss
-------------- nächster Teil --------------
Ein Dateianhang mit HTML-Daten wurde abgetrennt...
URL: <http://lists.funkfeuer.at/pipermail/discuss/attachments/20171227/241d63b7/attachment.htm>
Mehr Informationen über die Mailingliste Discuss