25 - Harddisk-Crash vorher erkennen [ID:12895]
36 von 36 angezeigt

Hallo, mein Name ist Max Meyschein und ich möchte euch noch was kurz erzählen dazu,

wie ich versuche, einen Harddisk Crash vor dem tatsächlichen Crash zu erkennen.

Ich habe daheim ein bisschen Infrastruktur, also hauptsächlich einen Server,

der aber meine Git Repositories hält und für SSH zuständig ist und natürlich ganz viele meiner

Fotos aufbewahrt und auch noch mein lokaler Mail Server ist. Seit ich den habe, lebe ich natürlich

in der Angst vor dem Crash der Harddisks und die Angst ist auch nicht ganz unbegründet,

weil ich hatte schon einen Harddisk Crash. Ich mache also auch brav Backups, aber ich würde

halt gerne irgendwie eine Vorwarnung haben, um auch wirklich noch mal ein gutes Backup zu machen,

wovor die Platten denn abbrauchen. Ich habe natürlich Raid, aber da ich die Platten beim

selben Hersteller zum gleichen Zeitpunkt gekauft habe, gehen sie wahrscheinlich wenn sie kaputt

gehen, auch gleichzeitig kaputt. Deswegen will ich mich auf das Raid nicht verlassen. Vor allen

Dingen kann es mir ja auch passieren, dass das Raid einfach die kaputte Festplatte schon maskiert.

Wenn nur eine der beiden Festplatten kaputt ist, dann bekomme ich es vielleicht nicht mit und es

funktioniert ja alles auch noch weiter. Andererseits gibt es Backblaze, die betreiben

einen Backup Service, wo man ich weiß nicht für 5 Dollar oder so beliebig viel oder ich weiß nicht

vielleicht sind es auch 5 Dollar pro Terabyte im Monat beliebig viel Backup Platz bekommt. Also

ich meine es, man bekommt beliebig viel Backup Platz und die kaufen jede Menge Festplatten und

das coole von denen ist, die veröffentlichen auch Statistiken darüber, welche Festplatten ihnen im

letzten Quartal oder von ihren Festplatten, welche kaputt gegangen sind und haben auch eine

Statistik darüber veröffentlicht, was eben die Smart Statistiken, das sind irgendwie die

Firmware Statistiken von den meisten Festplatten so ausspucken und welche davon was taugen.

Angeguckt haben sie sich den Smart Nummer 5, also Fehler Nummer 5, 187, 88, 97 und 98. 198 ist dann

schon das hässliche ein nicht korrigierbarer Fehler und was zumindest Backblaze sagt, wenn die 187

auftritt, also nicht korrigierbare Fehler, das ist die Anzahl der Sektoren, die nicht mehr mit

Fehlerkorrektur korrekt gelesen werden konnten. Das ist im Prinzip der erste Indikator dafür,

dass die Platte relativ bald ganz unlesbar sein wird und ja das ist also die Eigenschaft der

Festplatte, die ich überwachen möchte, um relativ früh oder möglichst früh darüber informiert zu

werden, dass ich ein Problem habe und meine Daten jetzt möglichst schnell noch mal kopieren sollte.

Wie mache ich das? Naja, ist jetzt kein Hexenwerk, einfach ein Cron-Drop mit Smart Control auf dem

Laufwerk bzw. über alle meine Laufwerke lasse ich das laufen und da wird danach gegreppt,

ob in der Zeile reported uncorrekt irgendwas drin steht, was nicht eine Null ist und wenn ja,

kriege ich automatisch eine Mail von Cron. Funktioniert das? Manuell habe ich es natürlich

getestet, ich weiß es aber nicht, ob es wirklich funktioniert, weil glücklicherweise ist bisher

dieser Fehler bei mir nicht aufgetreten und ich kann also nicht sagen, ob der Fehler jetzt

hilfreich ist beim Evakuieren der Festplatte oder nicht, aber ich fühle mich damit besser. Vielen

Dank.

Teil einer Videoserie :

Presenters

Max Maischein Max Maischein

Zugänglich über

Offener Zugang

Dauer

00:04:46 Min

Aufnahmedatum

2020-03-05

Hochgeladen am

2020-03-05 17:44:18

Sprache

de-DE

Daten verfügbar zu halten ist gar nicht so einfach. Die Backblaze Statistiken zeigen, dass Festplatten irgendwann ihren Geist aufgeben.

Der Vortrag zeigt mein Setup zur Überwachung der Gesundheit meines Heimservers um eine frühzeitige Erkennung von Festplattenproblemen anhand der S.M.A.R.T. Attribute und eine Evakuierung der Daten zu ermöglichen.

Slides: https://corion.net/talks

Tags

backup Kongress raid perl service hardware monitoring server disk corion smart reallocated_sector_count reported_uncorrectable_errors crash timeout ssds fear proactive unlimited corrected smartctl could codes runs hard command_ offline_uncorrectable current_pending_sector_count backblaze
Einbetten
Wordpress FAU Plugin
iFrame
Teilen