[Discuss] [Wien] Aufall OLSR gestern

Christian Pock (spam-protected)
Mi Dez 27 16:28:46 CET 2017


@Mathias: danke für den Reboot auf jed99. Die Liste hat sich somit merklich verkürzt:

 

JCN-78.41.113.99 offline

TD1-78.41.113.151 offline

baer2-78.41.113.162 offline

benni3d-78.41.112.6 offline

ber13-193.238.158.186 offline

ber13-193.238.158.53 offline

ber13-193.238.159.246 offline

ber13-78.41.112.213 offline

erlachp-78.41.112.31 offline

es112-78.41.112.204 offline

es112-78.41.113.127 offline

hag10-78.41.113.192 offline

ley21-193.238.158.137 offline

ley21-78.41.112.211 offline

maxbrod-78.41.118.177 offline

mayerhofer2-78.41.113.185 offline

men10-78.41.113.42 offline

metalab-78.41.112.119 offline

rosen2-193.238.159.253 offline

rosen2-78.41.118.89 offline

sche11-193.238.158.15 offline

schenkich-193.238.156.152 offline

schenkich-193.238.159.44 offline

schenkich-193.238.159.46 offline

schenkich-78.41.113.61 offline

scho33-78.41.118.143 offline

siegfried28-78.41.112.20 offline

stern-78.41.112.28 offline

stern-78.41.118.18 offline

wpaeC501-78.41.113.85 offline

wpaeC501-78.41.113.9 offline

wrkch-78.41.112.22 offline

 

LG

 

Von: Mathias Ballner [mailto:(spam-protected)] 
Gesendet: Mittwoch, 27. Dezember 2017 15:02
An: Christian Pock <(spam-protected)>
Cc: (spam-protected)
Betreff: Re: [Discuss] [Wien] Aufall OLSR gestern

 

Hallo!

Danke allen für die Mithilfe! Ja jed99 ist ebenfalls seit gestern offline. Von Manhartsbrunn aus ist die Interne Management IP aber noch pingbar, auch SSH ist noch verfügbar. Wenn mir jemand das Passswort zukommen lässt, könnte ich sie neustarten. Dem AirOS Problem sollte man jedenfalls nachgehen.

 

LG Mathias

 

Am 27. Dezember 2017 um 14:43 schrieb Christian Pock <(spam-protected) <mailto:(spam-protected)> >:

[discuss only]

Hallo allerseits. Es scheint als hätte es nicht nur EdgeRouter betroffen: eine AirOS-Antenne mit der alten Custom-Firmware von v5.5.9 am Nessus ging ebenfalls offline. Interessanterweise ist auch der ToughSwitch am nessus-roof (AirOS) zwar nur pingbar, aber nicht managebar (weder https, noch ssh reagieren).

Jedenfalls gibt es aktuell den EdgeRouter-OLSRd_V1 Wizard nun mit dem Feature "watchdog", der die eingefrorene/gestürtze olsrd-Instanz neu starten sollte. Ob das den gestrigen Vorfall abgefangen hätte, kann ich leider jetzt auch nicht sagen. Der watchdog ist im Wizard optional zu aktivieren (per default nicht aktiviert).

Folgende olsr IPv4-Adressen sind gestern zwischen 11:00 und 17:15 offline gegangen und seither nicht wieder online. Vermutlich nicht alle sind direkt betroffen, aber durch den Ausfall von Transitknoten (jed99, biss, …?) vom übrigen Netzwerk abgeschnitten.

LG, Pocki


-----Ursprüngliche Nachricht-----
Von: Wien [mailto:(spam-protected) <mailto:(spam-protected)> ] Im Auftrag von Erich N. Pekarek
Gesendet: Mittwoch, 27. Dezember 2017 12:31
An: Leo KLAMMER <(spam-protected) <mailto:(spam-protected)> >; (spam-protected) <mailto:(spam-protected)> ; (spam-protected) <mailto:(spam-protected)> 
Betreff: Re: [Wien] Aufall OLSR gestern


Hallo Leo!

Nach akkus Meldung habe ich mit ihm gerätselt, was die Ursache sein könnte. Anschließend habe ich mit vchrizz und pocki telefoniert.
Die Knoten, die pocki erretten konnte, waren über olsrv2 noch erreichbar
- außer jenen, die hinter garten94 liegen... .

Auf diese Weise und mit diesen Infos habe ich dann auch noch weiter gesucht, und, soweit mit ein Login zur Verfügung stand (eine handvoll Knoten), den olsrv1/ipv4 neu gestartet. Dabei ist mit aufgefallen, dass einige EdgeRouter die Session kurz nach dem Login abgebrochen haben:

„ free -packet_write_wait: Connection to 2a02:61:[...] port [...]:
Broken pipe. “

Nach erneutem Login zeigten diese Nodes nur wenig freien Speicher (10-15 MB). Dort und nur dort -etwa biss- habe ich mir erlaubt, zu rebooten.
Da ja doch ein paar Knoten betroffen waren, würde ersuchen, dies im Auge zu behalten und weitere Informationen bereitzustellen - bitte dann aber auf der Diskuss-Liste.

Darüber hinaus würde ich mir wünschen, dass wir die Erreichbarkeit von Nodes via IPv6 weiter vorantreiben, und Komponenten, die das verhindern, in einer gemeinschaftlichen Aktion auswechseln. Es ist mir bewusst, dass das nicht überall einfach möglich ist, aber mit etwas gutem Willen ist es wohl machbar.

Der Vorfall zeigt aber auch, dass wir beim protokollübergreifenden Route-/Node-Monitoring besser zusammenarbeiten sollten. Etwa auch durch Zusammenführung der Maps, ebendort durch graphische Darstellung der Veränderung von Routen im Zeitverlauf, etc. Auch auf die Aktivierung von OLSR-Watchdogs wäre zu achten.

Vielleicht können wir ja das „Neujahrstreffen“ der Gruppe Wien-Süd diesem Zweck widmen. Der Termin wird wunschgemäß noch verschoben und hernach angekündigt.

LG
Erich


Am 2017-12-27 um 05:40 schrieb Leo KLAMMER:
> Hallo!!
>
> DANKE an alle Beteiligten für die rasche Lösung!!! 👏👏👍👍 is ja
> nicht selbstverständlich an einem Weihnachtsfeiertag 👍👍👍🔝🔝🔝
>
> LG & guten Rutsch
> LK
>
>
>
> --
> Wien mailing list
> (spam-protected) <mailto:(spam-protected)> 
> https://lists.funkfeuer.at/mailman/listinfo/wien


--
Wien mailing list
(spam-protected) <mailto:(spam-protected)> 
https://lists.funkfeuer.at/mailman/listinfo/wien


--
Discuss mailing list
(spam-protected) <mailto:(spam-protected)> 
https://lists.funkfeuer.at/mailman/listinfo/discuss

 

-------------- nächster Teil --------------
Ein Dateianhang mit HTML-Daten wurde abgetrennt...
URL: <http://lists.funkfeuer.at/pipermail/discuss/attachments/20171227/241d63b7/attachment.htm>


Mehr Informationen über die Mailingliste Discuss