Nutzeransturm führte zu Laststörungen diese Woche

Liebe mailbox.org-Nutzer,

unser gesamtes Admin-Team hat eine harte Woche hinter sich — und Sie als mailbox.org-Nutzer teilweise auch. Zu verschiedenen Uhrzeiten — gerade im „Morgen-Peak“ zwischen 9 und 10 Uhr und im „Mittags-Peak“ rund um 13 Uhr waren unsere mailbox.org-Systeme derart ausgelastet, dass Logins teilweise sehr langsam gingen oder am Ende — wenn alles zusammenkam — auch fehlschlugen. Das ist alles andere als schön und wir möchten uns dafür bei Ihnen ausdrücklich entschuldigen.

Der Ansturm durch den Warentest-Sieg zwang uns eine länger geplante und bereits vorbereitete Erweiterung der Kapazitäten, diese Woche spontan vorzuziehen.

Die gute Nachricht: Seit Donnerstag 16 Uhr konnten die dringend benötigten neuen Systeme in Betrieb genommen werden. Seitdem sind unsere Lastkurven auf den Systemen wieder im normalen Bereich.

Wir haben gestern versucht, Sie im Forum und über den roten Infobanner auf der Startseite informiert zu halten. Um Sie hier zukünftig noch transparenter zu informieren, nehmen wir in den nächsten Tagen eine neue Status-Seite online. Hier sehen Sie dann auf einen Blick, ob alles im grünen Bereich ist oder ob z.B. Wartungsarbeiten durchgeführt werden. Zusätzlich werden wir zukünftig konsequenter im Vorfeld über größere Systemarbeiten informieren.

Mit der nun neuen Mailserver-Infrastruktur sind wir aber über den Berg und wieder zuverlässig für Sie da.

Mit herzlichen Grüßen,
Peer Heinlein & das Team von mailbox.org

 

Für alle, die es genauer wissen wollen,
geben wir gern einen Blick hinter die Kulissen

Schon vor einem Jahr haben wir begonnen eine leistungsfähigere Infrastruktur aufzubauen: Neue Server an unserem neuen Rechenzentrumsstandort, vor allem aber ein neues SAN, also eines dieser schrankgroßen Festplattenspeichersysteme, die die enormen Datenmengen eines solchen Providers aufnehmen können. Leider konnten wir das neue Speichersystem durch Softwarefehler des Herstellers viele Monate nicht in Betrieb nehmen, da die dort verbauten extrem schnellen SSDs nicht richtig funktionierten und das Speichersystem nicht den notwendigen Datendurchsatz erbrachte. Nach vielen Monaten Analyse und Diskussion mit dem Hersteller haben wir Anfang Sommer 2016 ein komplett neues Speichersystem bekommen, das in den Tests dann endlich die notwendige Leistung erbrachte.

Im Sommer 2016 haben wir dann auf dieser Basis den neuen Standort umgerüstet und die neuen Systeme aufgebaut, was am Ende vor allem heißt, immense Datenmengen auf neue Systeme zu übertragen und auch alte Systeme in ihrer Konfiguration auf neue Versionen anzuheben, damit alles untereinander kompatibel ist. Auch hier sind wir leider im Juli auf verschiedene Software-Probleme in eigentlich weit verbreiteter Provider-Software gestoßen, die wir als Fehlermeldung reporten und in Zusammenarbeit mit dem Hersteller der Software lösen mußten.

Auch das kostete Zeit, in der vorhandene Systeme weiter wachsen und stärker und stärker ausgelastet sind. -Irgendwann wird es ein Wettrennen gegen die Zeit.

Über den Testsieg bei der Stiftung Warentest haben wir uns enorm gefreut, insofern fällt es uns jetzt schwer zu schreiben: „Leider“ kam uns der Testsieg der Stiftung Warentest dazwischen. Bei normalem Lastanstieg, hätten wir die neuen Systeme geplant und unproblematisch in Betrieb nehmen können. So hat der (ansonsten wunderschöne) Ansturm durch Stiftung Warentest und die daraus erfolgende Presseberichterstattung unser Wettrennen gegen die Zeit schlagartig zu unserem Nachteil verschoben. Wir waren gezwungen, die für Herbst geplante Inbetriebnahme der neuen Systeme diese Woche binnen weniger Tage durchzuführen. -Die Lastprobleme in den Morgenstunden waren ja bereits sichtbar.

Nun ist es schwierig auf Systemen, die bereits teilweise am Limit arbeiten, noch Datenmigrationen durchzuführen: Was normalerweise eine Stunde dauert, zieht sich auf stark ausgelasteten Systemen plötzlich 24 Stunden hin.

Wir haben uns darum schweren Herzens dafür entscheiden müssen, diese Woche einige Arbeiten durchzuführen die vorhergesehen oder auch überraschend, zu kurzen für User sichtbaren Aussetzern führen konnten. Beim Testbetrieb der neuen Systeme seit vergangenen Dienstag traten Software-Probleme auf, die wir an den Hersteller eskalieren mußten. Außerdem führte ein Software-Bug gestern Nachmittag dazu, dass eingehende E-Mails unter Last über einige Stunden nicht richtig einsortiert wurden, bis wir gegen 16 Uhr einen anderen Lösungsweg finden konnten. Der Softwarehersteller hat den Bug letzte Nacht gefunden und behoben — bis zum Release der neuen Version in 3 Wochen bleiben wir auf unserem Lösungsweg.

Seit gestern Nachmittag haben wir das Kernstück des Umzugs auf die neuen Systeme jedoch vollbracht und ab ca. 20 Uhr die letzten auch für User noch sichtbaren Auswirkungen nacharbeiten können.

Aktuell sind noch Kleinigkeiten offen, so werden für ca. 2/3 der Nutzer im mailbox.org Office noch keine richtigen Quota-Informationen angezeigt, also die Auslastung des Mailspeichers. Diese Information wird ab heute Abend wieder zur Verfügung stehen. Dafür werden einige Systeme noch einmal neu gestartet werden müssen, was aufgrund der neuen Infrastruktur jedoch ohne sichtbare Auswirkungen für Nutzer stattfinden kann. Auch werden wir die nächsten Tage noch weitere Server zusätzlich in Betrieb nehmen, was wir aufgrund der neuen Infratruktur aber ab sofort ebenfalls entspannt und ohne Anpassungen an vorhandenen Systemen vornehmen können.

Liebe mailbox.org-Nutzer: Diese Woche war für unser Team eine harte Zeit, egal ob Administration, User-Helpdesk oder alle anderen Beteiligten. Ab sofort können wir den Warentest-Sieg wieder in vollem Umfang genießen und auch ein paar Mützen Schlaf nachholen.

Gleichzeitig möchten wir uns bei Ihnen für Geduld und Verständnis bedanken, dass diese besondere Situation aufgrund vieler verschiedener Umstände nicht spurlos an unserer Nutzerschaft vorübergegangen ist. Für Unannehmlichkeiten oder eventuell enstandenen Ärger wegen kurzzeitiger Offline-Zeiten möchten wir uns ausdrücklich entschuldigen.

Der neue Systemaufbau unserer Mailserver-Infrastruktur sollte jedoch wirklich ein wichtiger Meilenstein sein, um zukünftig sowohl Wachstum, als auch notwendige Wartungsarbeiten oder andere Systemausfälle so unproblematisch abzufangen, dass Störungen nach außen keine Wirkung mehr entfalten sollten.

Mit schönen Grüßen,

Peer Heinlein