PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Raid 5 Array innerhalb weniger Wochen 2x degraded


robbitop
2017-07-27, 16:59:13
Mein Raid 5 Arry ist innerhalb von 2 Wochen jetzt 2x degraded. Laut HD-Sentinel (demo Version) ist der SMART Status aller 4 Drives 100% perfekt.

Gibt es ein ratsames Tool, was genauer untersuchen kann, an welcher Komponente es liegt?

Kann ja eigentlich nur Controller, SFF 8087 Kabel oder eine der HDDs sein?


"Logical device is degraded: controller 1, logical device 0"

Ob mit "logical device 0" das Raid 5 oder der Connector oder die HDD 0 gemeint ist, weiß ich nicht.

Komischerweise zeigt das Raid bei Device 3 "rebuilding" und bei Device 0-2, dass alles "optimal" ist. Bei "properties" stehen nur bei Device 3 4x "medium errors" (was auch immer das ist).


Laut HDSentinel ist alles töfte...?

Screenshots:
https://abload.de/thumb/adaptec19apfv.png (http://abload.de/image.php?img=adaptec19apfv.png) https://abload.de/thumb/device35tric.png (http://abload.de/image.php?img=device35tric.png) https://abload.de/thumb/hdsentinelbdo6v.png (http://abload.de/image.php?img=hdsentinelbdo6v.png)

Kann mir jemand bei der Diagnose helfen und ggf Ratschäge geben?


Controller: Adaptec 5805
HDDs: 4x WD Red Serie 6 TB -> in einem Raid 5 Array

restlicher PC:
1 x Samsung SSD 830 Series 128GB, 2.5", SATA 6Gb/s (MZ-7PC128B)
5 x DeLOCK SATA-Stromadapter 15pin (SATA) auf 2x 15pin (SATA), Y-Kabel (60105)
2 x LSI 3ware mini SAS x4 (SFF-8087) auf 4x SATA Kabel, 0.6m (CBL-SFF8087OCF-06M)
1 x Intel Core i3-3770, 4x 3.40GHz
1 x G.Skill RipJaws-X DIMM Kit 8GB PC3L-12800U CL9-9-9-24 (DDR3L-1600) (F3-12800CL9D-8GBXM)
1 x ASRock H61M-ITX, H61 (B3), (Sockel-1155, dual PC3-10667U DDR3)
1 x Lian Li PC-Q08B schwarz, Mini-DTX/Mini-ITX
1 x be quiet! System Power S6 80Plus 300W ATX 2.2 (S6-SYS-UA-300W/BN080)

Bilder:
https://www.flickr.com/photos/8606708@N04/sets/72157632374204822/

Bericht zum PC (2012):
https://www.forum-3dcenter.org/vbulletin/showthread.php?p=9597987#post9597987

kruemelmonster
2017-07-27, 18:09:36
"Logical device is degraded: controller 1, logical device 0"

Ob mit "logical device 0" das Raid 5 oder der Connector oder die HDD 0 gemeint ist, weiß ich nicht.

Logical Device 0 ist in diesem Fall das gesamte RAID5 Array, eine HDD würde vom Controller mit Physical Disk gemeldet werden.

Bei "properties" stehen nur bei Device 3 4x "medium errors" (was auch immer das ist).

Medium Errors sind Oberflächenfehler der physikalischen Festplatten.

Laut HDSentinel ist alles töfte...?

...wobei fraglich ist inwieweit HDSentinel durch den Adaptec durchgucken kann bzw wieviel Informationen der Adaptec an eine Drittsoftware rausrückt. Würde da eher dem RAID-Controller vertrauen wenn der schon meint das eine Platte nicht mehr ganz knusper ist.

Kann mir jemand bei der Diagnose helfen und ggf Ratschäge geben?

Ich würde bei der Platte ansetzen, wenn der Controller schon Medium Errors erkannt hat ist da meist auch was dran. Mein LSI 9260 macht regelmäßig eine Prüfung der Plattenoberflächen um solche Probleme rechtzeitig zu erkennen, dein Adaptec 5805 wird da ähnlich arbeiten.

/edit: Auffällig: Platte #3 hat nur eine SATA 1,5 Gbps Verbindung ausgehandelt obwohl der Controller 3G und die Platten 6G können. :confused:

robbitop
2017-07-27, 18:28:21
Die 1,5 Gbps sind bei allen HDDs anliegend. Kann man dem Controller sagen, er soll einen Oberflächentest durchführen? Wenn ja, wie geht das und was sagt mir das? Wie lange dauert das?

ilPatrino
2017-07-30, 12:49:27
bei nem kumpel wars ähnlich - gib der platte mal ein neues kabel bzw. klemm den eventuell verbauten wechselrahmen ab und häng die platte dirakt ran. nur testweise.

myMind
2017-07-30, 17:41:39
Mein Raid 5 Arry ist innerhalb von 2 Wochen jetzt 2x degraded.

Laut HD-Sentinel (demo Version) ist der SMART Status aller 4 Drives 100% perfekt.

Gibt es ein ratsames Tool, was genauer untersuchen kann, an welcher Komponente es liegt?

Kann ja eigentlich nur Controller, SFF 8087 Kabel oder eine der HDDs sein?

"Logical device is degraded: controller 1, logical device 0"

Ob mit "logical device 0" das Raid 5 oder der Connector oder die HDD 0 gemeint ist, weiß ich nicht.
Wenn du die Meldung noch einmal liest, dann fällt dir auf, dass sie völlig korrekt ist. Das Array, also das logische Laufwerk, ist degraded. Die Frage ist jetzt, was dazu geführt hat. Und eigentlich sollte es in dem Log von der Sentinel-Software zu sehen sein. Da muss irgendwo eine Meldung sein wie "Lesefehler device X. Array degraded" oder so.

Komischerweise zeigt das Raid bei Device 3 "rebuilding" und bei Device 0-2, dass alles "optimal" ist. Bei "properties" stehen nur bei Device 3 4x "medium errors" (was auch immer das ist).

Kann mir jemand bei der Diagnose helfen und ggf Ratschäge geben
Schau dir die Log-Meldungen an. Dort sollte für beide Fälle irgendwo stehen, dass Device 3 zum Degrade geführt hat. Verifizier das bitte. Dass es der Controller ist, ist dann unwahrscheinlich.

Wahrscheinliche Ursachen sind HDD, Spannungsversorgung oder Datenkabel.

Ich würde nicht lange fackeln und die HDD vom defekten Device 3 durch die hoffentlich vorhandene Ersatzplatte ersetzen. Die potentiell defekte Platte kann man dann in Ruhe offline untersuchen. Z.B. mit dem Tools von Hersteller.

BigKid
2017-08-01, 08:49:36
Rebuilding heist aber normalerweise dass er das Raid gerade wieder am aufbauen ist. Wenn jetzt noch ne andere Platte ausfällt wars das.
Mein Controller zeigt das dann allerdings rebuild direkt beim Raid (also dem logischen Device) und nicht bei den Einzeldrives. Aber wie myMind schon sagt - wenn man es so interpretiert dann passt das auch...

Kannst du im Log sehen, dass es immer die selbe Platte ist ?
Wenn es 2 mal die selbe war und dir die Daten wichtig sind -> austauschen. Wenn nicht dann erstmal Kabel tauschen alles überprüfen, Firmware+Treiber aktualiseren, schauen ob es nochmal passiert.

Sonst kann ich dir nur als Hilfestellung erzählen was mir vor c.a. 2 Jahren passiert ist:
Nachdem mein Home Server mit RocketRaid 2 Jahre lang problemlos in der Konstellation lief flog plötzlich immer wieder eine Platte raus - aber jedesmal ne andere...

Ich hatte recht schnell die Option "spin down when idle after x.... " des Treibers als Schuldigen ausgemacht. Immer beim Neuanlaufen der Platten passierte es. Darauf (Spin Down) wollte ich aber nicht verzichten.
Kabel getauscht... Controller getauscht... Platten getauscht... (von WD Green nach WD Red)... Mit dem Hersteller gesprochen der sich erstmal darauf zurückzog dass es ja keine Raidplatten seien also auch kein Support.

Am Ende dann eine Beta-Firmware für den Controller bekommen mit dem Hinweis dieser könnte die Kompatibiltät mit einem der letzten Windows Patches erhöhen... und Ruhe war...

Long Story Short:
Läst du deine Platten runterfahren wenn sie nix zu tun haben ?
Passt das mit den Problemzeitpunkten zusammen ?
Wann ging das los ?
Windows Update in der Zeit ?

robbitop
2017-08-03, 21:03:57
Das ist mir mit meinem Rocketraid 2680 auch passiert mit den damaligen 3 TB Platten. Deshalb nutze ich die Spindownfunktion nicht mehr.

Es ist immer die gleiche HDD. Jedoch sehen die SMART Werte gut aus.

Ich habe jetzt 2x neue HDDs und 2x neue SFF8087 Kabel gekauft. Auch dazu ein Fractal Design Arc XL Gehäuse und dazu eine Menge Lüfter und ein neues Netzteil.

Der Raid Controller wird dann auch von der Seitenwand aus mit frischer Luft versorgt. In meinem ITX Case wird er laut Software fast 90°C warm.