Hallo, mein Name ist Max Meyschein und ich möchte euch noch was kurz erzählen dazu,
wie ich versuche, einen Harddisk Crash vor dem tatsächlichen Crash zu erkennen.
Ich habe daheim ein bisschen Infrastruktur, also hauptsächlich einen Server,
der aber meine Git Repositories hält und für SSH zuständig ist und natürlich ganz viele meiner
Fotos aufbewahrt und auch noch mein lokaler Mail Server ist. Seit ich den habe, lebe ich natürlich
in der Angst vor dem Crash der Harddisks und die Angst ist auch nicht ganz unbegründet,
weil ich hatte schon einen Harddisk Crash. Ich mache also auch brav Backups, aber ich würde
halt gerne irgendwie eine Vorwarnung haben, um auch wirklich noch mal ein gutes Backup zu machen,
wovor die Platten denn abbrauchen. Ich habe natürlich Raid, aber da ich die Platten beim
selben Hersteller zum gleichen Zeitpunkt gekauft habe, gehen sie wahrscheinlich wenn sie kaputt
gehen, auch gleichzeitig kaputt. Deswegen will ich mich auf das Raid nicht verlassen. Vor allen
Dingen kann es mir ja auch passieren, dass das Raid einfach die kaputte Festplatte schon maskiert.
Wenn nur eine der beiden Festplatten kaputt ist, dann bekomme ich es vielleicht nicht mit und es
funktioniert ja alles auch noch weiter. Andererseits gibt es Backblaze, die betreiben
einen Backup Service, wo man ich weiß nicht für 5 Dollar oder so beliebig viel oder ich weiß nicht
vielleicht sind es auch 5 Dollar pro Terabyte im Monat beliebig viel Backup Platz bekommt. Also
ich meine es, man bekommt beliebig viel Backup Platz und die kaufen jede Menge Festplatten und
das coole von denen ist, die veröffentlichen auch Statistiken darüber, welche Festplatten ihnen im
letzten Quartal oder von ihren Festplatten, welche kaputt gegangen sind und haben auch eine
Statistik darüber veröffentlicht, was eben die Smart Statistiken, das sind irgendwie die
Firmware Statistiken von den meisten Festplatten so ausspucken und welche davon was taugen.
Angeguckt haben sie sich den Smart Nummer 5, also Fehler Nummer 5, 187, 88, 97 und 98. 198 ist dann
schon das hässliche ein nicht korrigierbarer Fehler und was zumindest Backblaze sagt, wenn die 187
auftritt, also nicht korrigierbare Fehler, das ist die Anzahl der Sektoren, die nicht mehr mit
Fehlerkorrektur korrekt gelesen werden konnten. Das ist im Prinzip der erste Indikator dafür,
dass die Platte relativ bald ganz unlesbar sein wird und ja das ist also die Eigenschaft der
Festplatte, die ich überwachen möchte, um relativ früh oder möglichst früh darüber informiert zu
werden, dass ich ein Problem habe und meine Daten jetzt möglichst schnell noch mal kopieren sollte.
Wie mache ich das? Naja, ist jetzt kein Hexenwerk, einfach ein Cron-Drop mit Smart Control auf dem
Laufwerk bzw. über alle meine Laufwerke lasse ich das laufen und da wird danach gegreppt,
ob in der Zeile reported uncorrekt irgendwas drin steht, was nicht eine Null ist und wenn ja,
kriege ich automatisch eine Mail von Cron. Funktioniert das? Manuell habe ich es natürlich
getestet, ich weiß es aber nicht, ob es wirklich funktioniert, weil glücklicherweise ist bisher
dieser Fehler bei mir nicht aufgetreten und ich kann also nicht sagen, ob der Fehler jetzt
hilfreich ist beim Evakuieren der Festplatte oder nicht, aber ich fühle mich damit besser. Vielen
Dank.
Presenters
Max Maischein
Zugänglich über
Offener Zugang
Dauer
00:04:46 Min
Aufnahmedatum
2020-03-05
Hochgeladen am
2020-03-05 17:44:18
Sprache
de-DE
Daten verfügbar zu halten ist gar nicht so einfach. Die Backblaze Statistiken zeigen, dass Festplatten irgendwann ihren Geist aufgeben.
Der Vortrag zeigt mein Setup zur Überwachung der Gesundheit meines Heimservers um eine frühzeitige Erkennung von Festplattenproblemen anhand der S.M.A.R.T. Attribute und eine Evakuierung der Daten zu ermöglichen.
Slides: https://corion.net/talks