บทความนี้ให้ข้อมูลเกี่ยวกับข้อผิดพลาดของข้อมูลความผิดพลาดสองครั้งและการเจาะในอาร์เรย์ RAID นอกจากนี้ยังมีคําแนะนําในการป้องกัน / บรรเทาปัญหาเหล่านี้และวิธีการแก้ไขปัญหาหลังจากเกิดขึ้น
สารบัญ
- ข้อผิดพลาดของข้อมูลและความผิดพลาดสองครั้ง
- เจาะ: พวกเขาคืออะไรและเกิดขึ้นได้อย่างไร?
- การป้องกันปัญหาก่อนที่จะเกิดขึ้นและการแก้ปัญหาการเจาะหลังจากเกิดขึ้น
บทที่ 1 : ข้อผิดพลาดของข้อมูลและความผิดพลาดสองครั้ง
อาร์เรย์ RAID ไม่มีภูมิคุ้มกันต่อข้อผิดพลาดของข้อมูล คอนโทรลเลอร์ RAID และเฟิร์มแวร์ของฮาร์ดไดรฟ์มีฟังก์ชันในการตรวจสอบและแก้ไขข้อผิดพลาดของข้อมูลหลายชนิดก่อนที่จะเขียนไปยังอาร์เรย์/ไดรฟ์ การใช้เฟิร์มแวร์ที่ล้าสมัยอาจส่งผลให้มีการเขียนข้อมูลที่ไม่ถูกต้องไปยังอาร์เรย์/ไดรฟ์ เนื่องจากไม่มีคุณสมบัติการจัดการข้อผิดพลาด/การแก้ไขข้อผิดพลาดที่มีอยู่ในเฟิร์มแวร์รุ่น
ล่าสุด ข้อผิดพลาดของข้อมูลอาจเกิดจากบล็อกที่ไม่ดีทางกายภาพ ตัวอย่างเช่นสิ่งนี้สามารถเกิดขึ้นได้เมื่อหัวอ่าน / เขียนส่งผลกระทบต่อจานหมุน (ที่เรียกว่า "ความผิดพลาดของหัว") บล็อกอาจกลายเป็นไม่ดีเมื่อเวลาผ่านไปเนื่องจากการเสื่อมสภาพของความสามารถของจานในการจัดเก็บบิตแม่เหล็กในสถานที่เฉพาะ บล็อกที่ไม่ดีที่เกิดจากการย่อยสลายของจานมักจะสามารถอ่านได้สําเร็จ บล็อกที่ไม่ดีดังกล่าวอาจตรวจพบเป็นระยะ ๆ หรือมีการวินิจฉัยเพิ่มเติมในไดรฟ์เท่านั้น
บล็อกที่ไม่ดีหรือที่เรียกว่าที่อยู่บล็อกตรรกะ (LBA) ที่ไม่ดีอาจเกิดจากข้อผิดพลาดของข้อมูลทางตรรกะ เหตุการณ์นี้เกิดขึ้นเมื่อข้อมูลถูกเขียนลงในไดรฟ์อย่างไม่ถูกต้องแม้ว่าจะมีการรายงานว่าเป็นการเขียนที่สําเร็จแล้วก็ตาม นอกจากนี้ ข้อมูลที่ดีที่เก็บอยู่บนไดรฟ์สามารถเปลี่ยนแปลงได้โดยไม่ได้ตั้งใจ ตัวอย่างหนึ่งคือ "บิตพลิก" ซึ่งสามารถเกิดขึ้นได้เมื่อหัวอ่าน / เขียนผ่านหรือเขียนไปยังตําแหน่งใกล้เคียงและทําให้ข้อมูลในรูปแบบของศูนย์และคนเพื่อเปลี่ยนเป็นค่าอื่น เงื่อนไขดังกล่าวทําให้ "ความสอดคล้อง" ของข้อมูลเสียหาย ค่าของข้อมูลในบล็อกที่ระบุจะแตกต่างจากข้อมูลเดิมและอาจไม่ตรงกับ checksum ของข้อมูลอีกต่อไป LBA ทางกายภาพเป็นสิ่งที่ดีและสามารถเขียนเพื่อประสบความสําเร็จ แต่ขณะนี้มีข้อมูลที่ไม่ถูกต้องและอาจถูกตีความว่าเป็นบล็อกที่ไม่ดี
LBAs ที่ไม่ดีมักถูกรายงานเป็น
รหัสความรู้สึก 3/11/0 Sense Key 3 เป็น
ข้อผิดพลาดปานกลาง รหัสความรู้สึกเพิ่มเติมและตัวบ่งคุณลักษณะความรู้สึกเพิ่มเติมของ 11/00 หมายถึง
ข้อผิดพลาดในการอ่านที่ไม่ได้กู้คืน ไม่มีความพยายามในการแก้ไขบล็อกและไม่มีการตัดสินใจว่าบล็อกที่ไม่ดีเป็นผลมาจากข้อบกพร่องทางกายภาพบนจานไดรฟ์หรือข้อผิดพลาดของข้อมูลเนื่องจากสาเหตุอื่น ๆ การมีอยู่ของ Sense Code 3/11/00 ไม่ได้หมายความว่าไดรฟ์จริงล้มเหลวหรือควรเปลี่ยน
ไดรฟ์ คอนโทรลเลอร์ RAID ที่ใช้ฮาร์ดแวร์ของ Dell มีคุณสมบัติต่างๆ เช่น Patrol Read and Check Consistency เพื่อแก้ไขสถานการณ์ข้อผิดพลาดของข้อมูลจํานวนมาก Patrol Read ทํางานตามค่าเริ่มต้นเป็นงานพื้นหลังอัตโนมัติที่ตรวจสอบบล็อกทั้งหมดบนฮาร์ดไดรฟ์เพื่อให้แน่ใจว่าข้อมูลสามารถอ่านได้อย่างถูกต้อง การอ่านลาดตระเวนจะพยายามแก้ไขบล็อกที่ไม่ดีหรือแมปบล็อกที่แก้ไขไม่ได้ไปยังบล็อกที่สงวนไว้ Check Consistency เป็นฟังก์ชันที่เปิดใช้งานด้วยตนเอง (สามารถจัดกําหนดการได้) ที่เปรียบเทียบไดรฟ์ทั้งหมดในอาร์เรย์ซึ่งกันและกันเพื่อให้แน่ใจว่าข้อมูลและความซ้ําซ้อนตรงกันอย่างถูกต้อง ตัวอย่างเช่น จะมีการเปรียบเทียบไดรฟ์สามตัวในอาร์เรย์ RAID 5 เพื่อให้แน่ใจว่าข้อมูลและพาริตีกําลังใช้ค่าที่ถูกต้อง หากตรวจพบข้อผิดพลาดเดียวข้อมูลที่เหลือและ / หรือพาริตี้จะถูกใช้ในการเขียนใหม่และแก้ไขค่าที่ไม่ดี ในทํานองเดียวกันในอาร์เรย์ RAID 1 ข้อมูลในไดรฟ์หนึ่งจะถูกเปรียบเทียบกับไดรฟ์อื่นเพื่อให้แน่ใจว่าข้อมูลถูกมิเรอร์อย่างถูกต้อง
ข้อผิดพลาดเดียวในอาร์เรย์ RAID หากไม่ได้แก้ไขอาจทําให้เกิดข้อผิดพลาดร้ายแรงมากขึ้นในอาร์เรย์โดยเฉพาะอย่างยิ่งเมื่อเกิดข้อผิดพลาดที่สอง ข้อผิดพลาดเดียวอย่างน้อยหนึ่งข้อจะไม่ทําให้ข้อมูลสูญหายตราบใดที่อาร์เรย์ยังคงอยู่ในสถานะที่เหมาะสม ยังมีข้อมูลที่เพียงพอบวกกับความซ้ําซ้อนในการทํางานตามปกติในขณะที่อาร์เรย์เหมาะสมที่สุด
เนื่องจากความสามารถของตัวควบคุมในการแก้ไขข้อผิดพลาดในระหว่างการทํางานปกติจึงไม่ใช่เรื่องง่ายที่จะตรวจจับเมื่อมีปัญหาพื้นฐานในข้อมูลอยู่ ไม่ค่อยมีข้อผิดพลาดหรือการแจ้งเตือนใดๆ ในบันทึกของคอนโทรลเลอร์ บันทึกฮาร์ดแวร์ หรือบันทึกเหตุการณ์ของระบบปฏิบัติการ ด้วยเหตุนี้อาร์เรย์อาจใช้งานได้ตามปกติเป็นเวลานานแม้จะมีข้อผิดพลาดความสม่ําเสมอและ / หรือข้อผิดพลาด
เดียว
รูปที่ 1: ความผิดพลาดเดียวหลายครั้งในอาร์เรย์ RAID 5 - อาร์เรย์ที่ดีที่สุด
ดังแสดงในรูปที่ 1 อาร์เรย์มีข้อผิดพลาดหลายอย่าง อย่างไรก็ตามเนื่องจากมีข้อผิดพลาดเพียงครั้งเดียวในแถบใด ๆ คอนโทรลเลอร์จึงสามารถเข้าถึงข้อมูลทั้งหมดได้เนื่องจากความซ้ําซ้อนของ RAID 5 หากเกิดข้อผิดพลาดในส่วนพาริตี้ข้อมูลทั้งหมดจะคงอยู่และข้อผิดพลาดไม่มีผลกระทบต่อการอ่าน หากเกิดข้อผิดพลาดในส่วนข้อมูลการเปรียบเทียบ XOR จะต้องเกิดขึ้นระหว่างข้อมูลที่ดีและชิ้นส่วนพาริตี้ที่ดีเพื่อคํานวณส่วนที่ขาดหายไป / ไม่ดีใหม่ ไม่ว่าในกรณีใดเนื่องจากมีข้อผิดพลาดเพียงครั้งเดียวในแถบใด ๆ จึงมีความซ้ําซ้อนเพียงพอที่จะเข้าถึงข้อมูลทั้งหมดได้
สําเร็จ เมื่ออย่างน้อยหนึ่งไดรฟ์ในอาร์เรย์ RAID มีข้อผิดพลาดของข้อมูล และไดรฟ์อื่นในอาร์เรย์ไม่ใช่สมาชิกที่ใช้งานอยู่อีกต่อไปหากอาร์เรย์เนื่องจากความล้มเหลวของไดรฟ์การกําหนดค่าต่างประเทศการลบไดรฟ์หรือเหตุผลอื่นใดซึ่งจะสร้างเงื่อนไขที่เรียกว่า "Double Fault" สภาพความผิดพลาดสองครั้งส่งผลให้ข้อมูลใด ๆ สูญหายทันทีในแถบ
ที่ได้รับผลกระทบ
รูปที่ 2: ดับเบิลความผิดพลาดกับไดรฟ์ที่ล้มเหลว (ข้อมูลใน Stripes 1 และ 2 หายไป) - อาร์เรย์ที่เสื่อมสภาพ
เป็นไปได้ว่าเงื่อนไขความผิดพลาดสองครั้งสามารถเกิดขึ้นได้กับอาร์เรย์ที่เหลืออยู่ในสถานะที่เหมาะสม สิ่งนี้จะเกิดขึ้นกับ LBAs ที่ไม่ดีเหมือนกันในฮาร์ดไดรฟ์หลายตัว เงื่อนไขดังกล่าวจะหายากมากเนื่องจากจํานวน LBAs ในปัจจุบันฮาร์ดไดรฟ์ขนาดใหญ่ มันไม่น่าเป็นไปได้มากสําหรับ LBA เดียวกันในฮาร์ดไดรฟ์หลายตัวที่จะ "ไม่ดี" ในเวลาเดียวกัน
การดําเนินการตรวจสอบความสอดคล้องอย่างสม่ําเสมอจะแก้ไขสําหรับข้อบกพร่องเดียวไม่ว่าจะเป็นบล็อกที่ไม่ดีทางกายภาพหรือข้อผิดพลาดทางตรรกะของข้อมูล ตรวจสอบความสอดคล้องกันจะลดความเสี่ยงของเงื่อนไขความผิดพลาดสองครั้งในกรณีที่มีข้อผิดพลาดเพิ่มเติม เมื่อมีข้อผิดพลาดไม่เกินหนึ่งครั้งในแถบที่กําหนดการตรวจสอบความสอดคล้องสามารถกําจัดข้อผิดพลาดได้
เสมอ
กลับไปด้านบน
บทที่ 2: เจาะ: พวกเขาคืออะไรและเกิดขึ้นได้อย่างไร?
การเจาะเป็นคุณสมบัติของคอนโทรลเลอร์ PERC ของ Dell ที่ออกแบบมาเพื่อให้คอนโทรลเลอร์สามารถกู้คืนความซ้ําซ้อนของอาร์เรย์ได้แม้ว่าจะสูญเสียข้อมูลที่เกิดจากสภาพความผิดพลาดสองครั้ง อีกชื่อหนึ่งสําหรับการเจาะคือ "สร้างใหม่ด้วยข้อผิดพลาด" คอนโทรลเลอร์ RAID จะตรวจพบความผิดพลาดสองครั้งและเนื่องจากมีความซ้ําซ้อนไม่เพียงพอในการกู้คืนข้อมูลในแถบที่ได้รับผลกระทบตัวควบคุมจึงสร้างการเจาะในแถบนั้นและอนุญาตให้สร้างใหม่ต่อไป
- เงื่อนไขใดๆ ที่ทําให้ไม่สามารถเข้าถึงข้อมูลในแถบเดียวกันบนไดรฟ์มากกว่าหนึ่งไดรฟ์เป็นความผิดพลาดสองครั้ง
- ความผิดพลาดสองครั้งทําให้ข้อมูลทั้งหมดภายในแถบที่ได้รับผลกระทบสูญหาย
- การเจาะทั้งหมดเป็นความผิดพลาดสองครั้ง แต่ความผิดพลาดสองครั้งทั้งหมดไม่ใช่การเจาะ
รูปที่ 3: ลายทางเจาะ (ข้อมูลในลายเส้น 1 และ 2 หายไปเนื่องจากสภาพความผิดพลาดสองครั้ง) - อาร์เรย์ที่ดีที่สุด
โดยไม่มีคุณสมบัติการเจาะการสร้างอาร์เรย์ใหม่จะล้มเหลวและปล่อยให้อาร์เรย์อยู่ในสถานะที่เสื่อมโทรม ในบางกรณี ความล้มเหลวอาจทําให้ไดรฟ์เพิ่มเติมล้มเหลว และทําให้อาร์เรย์อยู่ในสถานะออฟไลน์ที่ไม่ทํางาน การเจาะอาร์เรย์ไม่มีผลกระทบต่อความสามารถในการบูตหรือเข้าถึงข้อมูลใด ๆ ในอาร์เรย์ ความเสียหายหรือข้อมูลที่สูญหายเนื่องจากสภาพความผิดพลาดสองครั้งได้เกิดขึ้นแล้ว
การเจาะสามารถเกิดขึ้นได้ในหนึ่งในสองสถานการณ์:
- มีความผิดพลาดสองครั้งอยู่แล้ว (ข้อมูลสูญหายไปแล้ว)
- ข้อผิดพลาดของข้อมูลบนไดรฟ์ออนไลน์ได้รับการเผยแพร่ (คัดลอก) ไปยังไดรฟ์การสร้างใหม่
- ไม่มีความผิดพลาดสองครั้งอยู่ (ข้อมูลจะสูญหายเมื่อเกิดข้อผิดพลาดที่สอง)
- ในขณะที่อยู่ในสถานะที่เสื่อมโทรมหากมีบล็อกที่ไม่ดีเกิดขึ้นในไดรฟ์ออนไลน์ LBA นั้นจะถูกเจาะ
ข้อดีของการเจาะอาร์เรย์นี้คือการรักษาระบบให้พร้อมใช้งานในการผลิตและความซ้ําซ้อนของอาร์เรย์จะถูกกู้คืน ข้อมูลในแถบที่ได้รับผลกระทบหายไปไม่ว่าการเจาะจะเกิดขึ้นหรือไม่ ข้อเสียเปรียบหลักของวิธีการ LSI คือในขณะที่อาร์เรย์มีการเจาะในนั้นข้อผิดพลาดที่ไม่สามารถแก้ไขได้จะยังคงพบเมื่อใดก็ตามที่เข้าถึงข้อมูลที่ได้รับผลกระทบ (ถ้ามี)
การเจาะสามารถเกิดขึ้นได้ในสามสถานที่ ขั้นแรกการเจาะสามารถเกิดขึ้นได้ในพื้นที่ว่างที่ไม่มีข้อมูล แถบนั้นจะไม่สามารถเข้าถึงได้ แต่เนื่องจากไม่มีข้อมูลในตําแหน่งนั้นจึงไม่มีผลกระทบอย่างมีนัยสําคัญ ความพยายามใด ๆ ในการเขียนไปยังแถบที่เจาะโดยระบบปฏิบัติการจะล้มเหลวและข้อมูลจะถูกเขียนไปยังตําแหน่งอื่น
ประการที่สองการเจาะอาจเกิดขึ้นในแถบที่มีข้อมูลที่ไม่สําคัญเช่น README แฟ้ม TXT หากไม่มีการเข้าถึงข้อมูลที่ได้รับผลกระทบ จะไม่มีการสร้างข้อผิดพลาดระหว่าง I/O ปกติ ความพยายามในการสํารองข้อมูลระบบไฟล์จะไม่สามารถสํารองข้อมูลไฟล์ใด ๆ ที่ได้รับผลกระทบจากการเจาะ การดําเนินการตรวจสอบความสอดคล้องกันหรือการดําเนินการอ่านลาดตระเวนจะสร้างรหัสความรู้สึก: 3/11/00 สําหรับ LBA และ/หรือลาย
เส้นที่เกี่ยวข้อง ประการที่สามการเจาะอาจเกิดขึ้นในพื้นที่ข้อมูลที่เข้าถึงได้ ตัวอย่างเช่นข้อมูลที่สูญหายอาจทําให้เกิดข้อผิดพลาดที่หลากหลาย ข้อผิดพลาดอาจเป็นข้อผิดพลาดเล็กน้อยที่ไม่ส่งผลเสียต่อสภาพแวดล้อมการผลิต ข้อผิดพลาดอาจรุนแรงขึ้นและสามารถป้องกันไม่ให้ระบบบูตไปยังระบบปฏิบัติการหรือทําให้แอปพลิเคชันล้มเหลว
อาร์เรย์ที่ถูกเจาะจะต้องถูกลบและสร้างใหม่เพื่อกําจัดการเจาะ กระบวนการนี้ทําให้ข้อมูลทั้งหมดถูกลบ จากนั้นข้อมูลจะต้องสร้างใหม่หรือกู้คืนจากการสํารองข้อมูลหลังจากถูกเจาะจะถูกตัดออก ความละเอียดสําหรับการเจาะสามารถกําหนดเวลาสําหรับเวลาที่เป็นประโยชน์มากขึ้นกับความต้องการของธุรกิจ
หากข้อมูลภายในแถบที่เจาะถูกเข้าถึงข้อผิดพลาดจะยังคงมีการรายงานกับ badLBAs ที่ได้รับผลกระทบโดยไม่มีการแก้ไขที่เป็นไปได้ ในที่สุด (ซึ่งอาจเป็นนาทีวันสัปดาห์เดือน ฯลฯ ) ตารางการจัดการบล็อกที่ไม่ดี (BBM) จะเติมเต็มทําให้ไดรฟ์อย่างน้อยหนึ่งไดรฟ์ถูกตั้งค่าสถานะเป็นความล้มเหลวในการทํานาย โดยทั่วไปแล้วไดรฟ์ 0 จะเป็นไดรฟ์ที่ถูกตั้งค่าสถานะเป็นความล้มเหลวในการคาดเดาเนื่องจากข้อผิดพลาดบนไดรฟ์ 1 และไดรฟ์ 2 กําลังแพร่กระจายไปยังไดรฟ์ ไดรฟ์ 0 อาจทํางานได้ตามปกติและการเปลี่ยนไดรฟ์ 0 จะทําให้การเปลี่ยนนั้นถูกตั้งค่าสถานะความล้มเหลวในการทํานายในที่สุดเช่นกัน
การตรวจสอบความสอดคล้องที่ดําเนินการหลังจากการเจาะเกิดขึ้นจะไม่แก้ไขปัญหา นี่คือเหตุผลว่าทําไมจึงเป็นสิ่งสําคัญมากที่จะต้องดําเนินการตรวจสอบอย่างสม่ําเสมอ มันเป็นสิ่งสําคัญอย่างยิ่งก่อนที่จะเปลี่ยนไดรฟ์เมื่อเป็นไปได้ อาร์เรย์ต้องอยู่ในสถานะที่เหมาะสมเพื่อดําเนินการตรวจสอบความสอดคล้องกัน
อาร์เรย์ RAID ที่มีข้อผิดพลาดข้อมูลเดียวร่วมกับเหตุการณ์ข้อผิดพลาดเพิ่มเติม เช่น ความล้มเหลวของฮาร์ดไดรฟ์ทําให้เกิดการเจาะเมื่อไดรฟ์ที่ล้มเหลวหรือไดรฟ์ทดแทนถูกสร้างขึ้นใหม่ในอาร์เรย์ ตัวอย่างเช่น อาร์เรย์ RAID 5 ที่ดีที่สุดประกอบด้วยสมาชิกสามคน ได้แก่ ไดรฟ์ 0 ไดรฟ์ 1 และไดรฟ์ 2 หากไดรฟ์ 0 ล้มเหลว (รูปที่ 2) และถูกแทนที่ ข้อมูลและพาริตี้ที่เหลืออยู่บนไดรฟ์ 1 และ 2 จะถูกใช้เพื่อสร้างข้อมูลที่ขาดหายไปกลับไปยังไดรฟ์แทนที่ 0 อย่างไรก็ตาม หากมีข้อผิดพลาดของข้อมูลอยู่บนไดรฟ์ 1 เมื่อการดําเนินการสร้างใหม่ถึงข้อผิดพลาดนั้น จะมีข้อมูลไม่เพียงพอภายในแถบเพื่อสร้างข้อมูลที่ขาดหายไปในแถบนั้น ไดรฟ์ 0 ไม่มีข้อมูลไดรฟ์ 1 มีข้อมูลที่ไม่ดีและไดรฟ์ 2 มีข้อมูลที่ดีในขณะที่กําลังสร้างใหม่ มีข้อผิดพลาดหลายอย่างภายในแถบนั้น ไดรฟ์ 0 และไดรฟ์ 1 ไม่มีข้อมูลที่ถูกต้อง ดังนั้นข้อมูลใดๆ ในแถบนั้นจึงไม่สามารถกู้คืนได้และสูญหายไป ผลลัพธ์ดังแสดงในรูปที่ 3 คือการเจาะ (เป็นลายเส้น 1 และ 2) ถูกสร้างขึ้นระหว่างการสร้างใหม่ ข้อผิดพลาดจะถูกเผยแพร่ไปยังไดรฟ์ 0
การเจาะอาร์เรย์จะคืนค่าความซ้ําซ้อนและส่งกลับอาร์เรย์ให้อยู่ในสถานะที่เหมาะสม ซึ่งจะช่วยให้อาร์เรย์ได้รับการปกป้องจากการสูญหายของข้อมูลเพิ่มเติมในกรณีที่มีข้อผิดพลาดเพิ่มเติมหรือความล้มเหลวของไดรฟ์
กลับไปที่ด้านบน
บทที่ 3: การป้องกันปัญหาก่อนที่จะเกิดขึ้น & การแก้ปัญหาการเจาะหลังจากเกิดขึ้น
มันสามารถดึงดูดให้ทํางานภายใต้หลักฐาน"ถ้ามันไม่ได้ยากจน, ไม่แก้ไข." แม้ว่าสิ่งนี้อาจเป็นจริงในหลาย ๆ ด้านเพื่อปกป้องและจัดการระบบย่อยการจัดเก็บที่ดีที่สุดขอแนะนําให้ทําการบํารุงรักษาตามปกติและเป็นประจํา การบํารุงรักษาเชิงรุกสามารถแก้ไขข้อผิดพลาดที่มีอยู่และป้องกันไม่ให้เกิดข้อผิดพลาดบางอย่าง ไม่สามารถป้องกันข้อผิดพลาดทั้งหมดที่เกิดขึ้น แต่ข้อผิดพลาดร้ายแรงที่สุดสามารถบรรเทาได้อย่างมากด้วยการบํารุงรักษาเชิงรุก สําหรับระบบย่อยของที่เก็บข้อมูลและ RAID ขั้นตอนเหล่านี้:
- อัปเดตไดรเวอร์และเฟิร์มแวร์ บนคอนโทรลเลอร์ฮาร์ดไดรฟ์แบ็คเพลนและอุปกรณ์อื่น ๆ
- ปฏิบัติงานตรวจสอบความสอดคล้องกันอย่างสม่ําเสมอเป็นประจํา
- ตรวจสอบบันทึก สําหรับการระบุปัญหา
นี่ไม่จําเป็นต้องเป็นการตรวจสอบทางเทคนิคระดับสูง แต่อาจเป็นมุมมองที่คร่าวๆของบันทึกที่กําลังมองหาข้อบ่งชี้ที่ชัดเจนอย่างยิ่งเกี่ยวกับปัญหาที่อาจเกิดขึ้น
ติดต่อฝ่ายสนับสนุนด้านเทคนิคของ Dell ด้วยคําถามหรือข้อกังวลใด ๆ
หนึ่งในสิ่งที่สําคัญที่สุดที่ควรทําคือตรวจสอบให้แน่ใจว่าเฟิร์มแวร์ได้รับการอัปเดตอยู่เสมอ เฟิร์มแวร์คือที่ที่ตรรกะทั้งหมดสําหรับการทํางานของอุปกรณ์อยู่ มันมีฟังก์ชั่นและคุณสมบัติของอุปกรณ์พร้อมกับการจัดการข้อผิดพลาดที่หลากหลายและฟังก์ชั่นการแก้ไขข้อผิดพลาด การรักษาเฟิร์มแวร์ให้ทันสมัยสามารถให้ประสิทธิภาพที่ดีขึ้นและข้อผิดพลาดน้อยลง นอกจากนี้ยังสามารถเพิ่มคุณสมบัติและการปรับปรุงใหม่ผ่านการอัปเดต
เฟิร์มแวร์ เฟิร์มแวร์สามารถอยู่ในสถานที่หลายแห่ง คอนโทรลเลอร์ RAID ประกอบด้วยเฟิร์มแวร์และฮาร์ดไดรฟ์แต่ละตัวที่ติดตั้งในระบบหรืออาร์เรย์ Backplanes และกล่องหุ้มภายนอกยังมีเฟิร์มแวร์ที่อาจส่งผลกระทบต่อการทํางานของไดรฟ์และอาร์เรย์ที่มีอยู่ภายใน
คําแนะนําการบํารุงรักษาเชิงรุกอีกประการหนึ่งคือการดําเนินการ "ตรวจสอบความสอดคล้อง" ความสอดคล้องของการตรวจสอบเป็นการดําเนินการด้วยตนเองเนื่องจากใช้แบนด์วิดท์โดยรวมที่มีอยู่บางส่วนของตัวควบคุม RAID อย่างไรก็ตาม ความสอดคล้องของเช็คสามารถจัดกําหนดการได้ในช่วงเวลาที่มีผลกระทบน้อยที่สุดต่อประสิทธิภาพการทํางาน
ตรวจสอบความสอดคล้องกันจะตรวจสอบบล็อกที่ไม่ดีบนไดรฟ์ แต่ที่สําคัญกว่านั้นคือการเปรียบเทียบข้อมูลในอาร์เรย์เพื่อให้แน่ใจว่าทุกชิ้นตรงกันอย่างถูกต้อง เมื่อพบปัญหาจะเป็นตัวกําหนดว่าข้อมูลควรมีลักษณะอย่างไรและแก้ไขโดยการตรวจสอบข้อมูลบนไดรฟ์อื่นในอาร์เรย์ การแก้ไขข้อผิดพลาดของข้อมูลเมื่อมีขนาดเล็กเป็นวิธีที่ดีที่สุดในการลดความเสี่ยงของการเจาะที่เกิดจากข้อผิดพลาดของข้อมูลที่มีอยู่ร่วมกับข้อผิดพลาดหรือความล้มเหลวที่สอง การมีอยู่ของความผิดพลาดสองครั้งและการเจาะอาจทําให้สูญเสียผลผลิตในช่วงเวลาที่จําเป็นในการกู้คืนอาร์เรย์และข้อมูลไปยังสถานะการทํางานหรือแม้กระทั่งการสูญเสียข้อมูลทั้งหมด
อย่างสมบูรณ์
เมื่อมีข้อบกพร่องสองครั้งหรือเงื่อนไขการเจาะอยู่มักจะมีการสูญเสียข้อมูลบางอย่าง หากตําแหน่งของข้อผิดพลาดเหล่านี้อยู่ในพื้นที่ว่างหรือพื้นที่ข้อมูลที่ไม่สําคัญผลกระทบทันทีต่อข้อมูลในสภาพแวดล้อมการผลิตจะค่อนข้างเล็ก อย่างไรก็ตามการมีข้อผิดพลาดเหล่านี้อาจหมายความว่าอาจมีปัญหาร้ายแรงมากขึ้น ข้อผิดพลาดของฮาร์ดแวร์และเฟิร์มแวร์ที่ล้าสมัยอาจต้องได้รับความสนใจทันที
หากมีข้อบกพร่องหรือเงื่อนไขการเจาะที่รู้จักหรือสงสัยว่าให้ทําตามขั้นตอนเหล่านี้เพื่อลดความเสี่ยงของปัญหาที่รุนแรงมากขึ้น:
- การดําเนินการตรวจสอบความสอดคล้องกัน (อาร์เรย์ต้องเหมาะสมที่สุด)
- ตรวจสอบว่ามีปัญหาฮาร์ดแวร์อยู่หรือไม่
- ตรวจสอบล็อกตัวควบคุม
- ทําการวินิจฉัยฮาร์ดแวร์
- ติดต่อฝ่ายสนับสนุนด้านเทคนิคของ Dell ตามต้องการ
หากทําตามขั้นตอนเหล่านี้แล้วมีข้อกังวลเพิ่มเติม การเจาะอาจทําให้ฮาร์ดไดรฟ์เข้าสู่สถานะความล้มเหลวในการทํานายเมื่อเวลาผ่านไป ข้อผิดพลาดของข้อมูลที่ถูกเผยแพร่ไปยังไดรฟ์จะถูกรายงานว่าเป็นข้อผิดพลาดของสื่อบนไดรฟ์ แม้ว่าจะไม่มีปัญหาฮาร์ดแวร์ก็ตาม ทุกครั้งที่เข้าถึง LBA จะมีการรายงานข้อผิดพลาด เมื่อบันทึกข้อผิดพลาดเต็มไดรฟ์จะรายงานตัวเองว่าเป็นความล้มเหลว
ในการคาดเดา สามารถรายงาน LBA ที่เจาะได้เพียงตัวเดียวบนไดรฟ์ได้หลายครั้ง ทั้งนี้ขึ้นอยู่กับจํานวนการเจาะ เป็นไปได้ที่ไดรฟ์หลายตัวในอาร์เรย์จะถูกรายงานว่าเป็นความล้มเหลวในการทํานาย การเปลี่ยนไดรฟ์ความล้มเหลวในการคาดคะเนจะทําให้การเจาะที่มีอยู่ถูกแพร่กระจายไปยังไดรฟ์ทดแทนอีกครั้งซึ่งจะทําให้ไดรฟ์ทดแทนถูกตั้งค่าสถานะความล้มเหลวในการทํานาย ในกรณีเช่นนี้การดําเนินการแก้ไขเพียงอย่างเดียวคือการแก้ไขเงื่อนไข
การเจาะ เมื่อดูรูปที่ 3 เราจะเห็นว่ามีการเจาะบนลายเส้นที่ 1 และ 2 การเปลี่ยนฮาร์ดไดรฟ์จะไม่แก้ไขปัญหานี้ เนื่องจากมีความซ้ําซ้อนของข้อมูลไม่เพียงพอที่จะสร้างข้อมูลเดิมใหม่ ข้อมูลใดๆ ที่มีอยู่ในแถบที่เจาะจะสูญหายไป (เว้นแต่จะถูกเก็บไว้ในการสํารองข้อมูลก่อนหน้า) โปรดจําไว้ว่าการเจาะไม่ทําให้ข้อมูลสูญหายสภาพความผิดพลาดสองครั้งส่งผลให้ข้อมูลสูญหาย การเจาะเป็นวิธีการคืนค่าความซ้ําซ้อนไปยังอาร์เรย์ที่มีความผิดพลาดสองครั้ง
หมายเหตุ: นี่คือกระบวนการที่ใช้ในการแก้ไขการเจาะส่วนใหญ่ อาจไม่จําเป็นต้องทําตามขั้นตอนเหล่านี้ทั้งหมดเพื่อแก้ไข หากทําตามขั้นตอนเหล่านี้ไม่สามารถแก้ไขปัญหาได้ โปรดติดต่อฝ่ายสนับสนุนด้านเทคนิคของ Dell เพื่อขอความช่วยเหลือเพิ่มเติม
คำเตือน: การทําตามขั้นตอนเหล่านี้จะส่งผลให้ข้อมูลทั้งหมดในอาร์เรย์สูญหาย โปรดตรวจสอบให้แน่ใจว่าคุณพร้อมที่จะคืนค่าจากการสํารองข้อมูลหรือวิธีการอื่นๆ ก่อนที่จะทําตามขั้นตอนเหล่านี้ ใช้ความระมัดระวังเพื่อให้การทําตามขั้นตอนเหล่านี้ไม่ส่งผลกระทบต่ออาร์เรย์อื่นๆ
- ละทิ้งแคชที่เก็บรักษาไว้ (ถ้ามีอยู่)
- ล้างข้อมูลการตั้งค่าคอนฟิกต่างประเทศ (ถ้ามี)
- ลบแถวลําดับ
- เลื่อนตําแหน่งของไดรฟ์ทีละไดรฟ์ (โดยใช้รูปที่ 1 ย้ายดิสก์ 0 ไปยังช่องที่ 1 ดิสก์ 1 ไปยังช่อง 2 และดิสก์ 2 ไปยังช่อง 0)
- สร้างอาร์เรย์ใหม่ตามต้องการ
- ดําเนินการเตรียมใช้งานอาร์เรย์ทั้งหมด (ไม่ใช่การเตรียมใช้งานอย่างรวดเร็ว)
- การดําเนินการตรวจสอบความสอดคล้องกันของอาร์เรย์
หากความสอดคล้องของการตรวจสอบเสร็จสมบูรณ์โดยไม่มีข้อผิดพลาดคุณสามารถสันนิษฐานได้อย่างปลอดภัยว่าอาร์เรย์มีสุขภาพดีและการลบการเจาะออก ตอนนี้ข้อมูลสามารถกู้คืนไปยังอาร์เรย์ที่ดีต่อสุขภาพได้แล้ว
ในกรณีที่รุนแรงมากขึ้นปัญหาอาจไม่สามารถแก้ไขได้และข้อผิดพลาดอาจยังคงมีอยู่แม้จะทําตามขั้นตอนเหล่านี้ หากทําตามขั้นตอนเหล่านี้ไม่สามารถแก้ไขปัญหาได้ โปรดติดต่อฝ่ายสนับสนุนด้านเทคนิคของ Dell เพื่อขอความช่วยเหลือเพิ่มเติม
อาจจําเป็นต้องวิเคราะห์การเจาะโดยละเอียดเพื่อพิจารณาว่าไดรฟ์ใดที่เหมือนกัน ตัวอย่างเช่น ในรูปที่ 3 บันทึกของคอนโทรลเลอร์จะแสดงการเจาะระหว่างดิสก์ 0 และ 1 และการเจาะระหว่างดิสก์ 0 และ 2 ดิสก์ 0 เป็นไดรฟ์ทั่วไป ทําตามขั้นตอนเดียวกันข้างต้น แต่ให้เอาไดรฟ์ทั่วไปออกอย่างสมบูรณ์ก่อน ดังนั้นการใช้ตัวอย่างในรูปที่ 1 ให้เอา Disk 0 ออก แล้วทําตามขั้นตอนที่อธิบายไว้ สร้างอาร์เรย์โดยใช้ดิสก์ที่เหลือ (1 และ 2) ที่เหลือ เมื่อเสร็จสิ้นและหลังจากการตรวจสอบสอดคล้องกันแล้วจะกําหนดว่าอาร์เรย์มีสุขภาพดีแล้วเพิ่มดิสก์ 0 กลับเข้าไปและทําตามขั้นตอนอีกครั้งด้วยไดรฟ์ทั้งหมดหรือใช้คุณสมบัติ RLM (การย้ายระดับ RAID) และ / หรือ OCE (การขยายความจุออนไลน์) เพื่อเพิ่มไดรฟ์ที่เหลือกลับเข้าไปในอาร์เรย์
ไดรฟ์ใดๆ ที่ตั้งค่าสถานะความล้มเหลวในการคาดคะเนควรถูกลบออกและไม่รวมอยู่ในกระบวนการกู้คืน อีกครั้งโดยใช้รูปที่ 3 เป็นตัวอย่างหากดิสก์ 0 เป็นความล้มเหลวในการคาดเดาให้เอาไดรฟ์นี้ออก จากนั้นทําตามขั้นตอนตามที่ระบุไว้ข้างต้น เนื่องจากเหลือไดรฟ์เพียง 2 ไดรฟ์ อาร์เรย์ RAID ที่สร้างขึ้นคือ RAID 1 แทนที่จะเป็น RAID 5 หลังจากได้รับดิสก์ 0 ทดแทน (เนื่องจากความล้มเหลวในการคาดเดา) ให้ทําตามขั้นตอนอีกครั้ง รวมถึงทั้ง 3 ไดรฟ์ หรือเพิ่ม Disk 0 ลงในอาร์เรย์ที่มีอยู่โดยใช้ RLM และเปลี่ยนจาก RAID 1 ที่มี 2 ไดรฟ์เป็น RAID 5 ที่มี 3 ไดรฟ์
กระบวนการนี้อาจเป็นเรื่องที่น่ากังวลโดยเฉพาะอย่างยิ่งเมื่อพิจารณาถึงศักยภาพในการสูญหายของข้อมูล คํากล่าวที่ว่า "การป้องกันหนึ่งออนซ์มีค่าต่อการรักษาหนึ่งปอนด์" เป็นความจริงอย่างแน่นอนที่นี่ ประสบการณ์แสดงให้เห็นว่าความผิดพลาดสองครั้งและเงื่อนไขการเจาะเกือบทั้งหมดสามารถหลีกเลี่ยงได้โดยการบํารุงรักษาเชิงรุกบนฮาร์ดแวร์และอาร์เรย์ RAID
หมายเหตุ: การตรวจสอบระบบอย่างมีประสิทธิภาพช่วยให้สามารถตรวจพบและแก้ไขปัญหาได้ทันทะลวงซึ่งจะช่วยลดความเสี่ยงของปัญหาที่ร้ายแรงกว่า
บทความที่เกี่ยวข้อง
PERC - วิธีแก้ไขการเจาะ RAID
กลับไปด้านบน