如何復原故障的RAID 5陣列資料？

RAID 5 array recovery process with failed disk

在管理香港資料中心的企業級儲存時，RAID 5故障可能會毫無預警地發生。本技術指南深入探討RAID 5復原程序，為面臨資料遺失場景的IT專業人員提供經過實戰檢驗的解決方案。無論您是處理單一磁碟故障還是多個磁碟機問題，我們都將探討基於軟體和硬體層面的復原方法。

理解RAID 5架構

RAID 5實現了具有分散式同位檢查的區塊級條帶化，需要至少三個磁碟機才能運行。同位檢查資訊在陣列中的所有磁碟機上進行條帶化，允許單一磁碟機容錯。以下是資料分佈的技術細節：


Disk 1: [A1] [B2] [Cp] [D4]
Disk 2: [A2] [Bp] [C3] [D5]
Disk 3: [Ap] [B3] [C4] [D6]
Disk 4: [A3] [B4] [C5] [Dp]

在此表示中，’p’表示同位檢查區塊。系統使用XOR運算來計算同位檢查，使得在磁碟機發生故障時能夠重建資料。同位檢查計算公式可以表示為：


Parity = Block1 XOR Block2 XOR Block3
Recovery = Parity XOR (remaining good blocks)

常見故障場景

現代RAID 5實現通常會遇到三種主要故障模式：

陣列運行時的單一磁碟機故障
重建過程中的多磁碟機效能降級
磁碟機完好但控制器故障

復原前評估協議

在啟動任何復原程序之前，執行以下診斷序列：


#!/bin/bash
# RAID健康檢查腳本
for drive in /dev/sd[a-z]; do
    echo "Checking drive: $drive"
    smartctl -H $drive
    smartctl -A $drive | grep -E "Reallocated_Sector_Ct|Current_Pending_Sector"
done

此腳本有助於識別實體磁碟機的健康狀態和潛在的磁區問題。使用以下清單記錄您的發現：

每個磁碟機的SMART狀態
當前陣列狀態（Linux系統使用cat /proc/mdstat）
寫入活動日誌
最近的系統變更

單一磁碟機故障的復原程序

在處理香港伺服器租用環境中的單一磁碟機故障時，時間至關重要。請遵循以下步驟：

識別故障磁碟機：


# Linux系統適用
mdadm --detail /dev/md0
# 硬體RAID適用
megacli -PDList -aALL | grep "Firmware state"

如果您的系統支援，熱插拔更換故障磁碟機

啟動陣列重建：


# 將新磁碟機添加到陣列
mdadm --add /dev/md0 /dev/sdX
# 監控重建進度
watch cat /proc/mdstat

多磁碟機故障的進階復原

多磁碟機故障需要專門的處理方法。在香港的資料中心，我們已成功實施以下復原技術：

1. 強制組裝方法（需謹慎使用）：


mdadm --assemble --force /dev/md0 /dev/sd[bcde]
mdadm --run /dev/md0

2. 復原前的磁碟映像：


# 建立位元組級磁碟映像
dd if=/dev/sdb of=/path/to/backup/disk1.img bs=4M status=progress
# 掛載映像以供檢查
mount -o loop,ro disk1.img /mnt/test

基於軟體的復原工具

對於香港伺服器代管設施，我們推薦以下企業級復原工具：

TestDisk：開源復原套件


# TestDisk基本復原命令
testdisk /dev/md0
# 進階掃描選項
testdisk --disk_only --enable-sudo /dev/md0

ddrescue：用於具有壞磁區的棘手情況


# 兩遍復原
ddrescue -n /dev/sdb /dev/sdc logfile
ddrescue -r3 /dev/sdb /dev/sdc logfile

預防措施和監控

在您的資料中心實施以下監控解決方案：


# 添加到crontab以進行自動監控
*/30 * * * * /usr/local/bin/raid_health_check.sh

# 示例監控腳本
#!/bin/bash
RAID_STATUS=$(mdadm --detail /dev/md0 | grep State)
if [[ $RAID_STATUS != *"clean"* ]]; then
    alert_admin "檢測到RAID陣列問題"
fi