You are currently viewing 디스크가 절전 모드에서 깨어날 때 스토리지 풀이 저하됩니다.

디스크가 절전 모드에서 깨어날 때 스토리지 풀이 저하됩니다.

스토리지 풀이 저하됩니다.

스토리지 풀이 저하되는 이유는 대부분 하드디스크가 고장났기 때문입니다. 하지만 최근에 접수된 스토리지 풀이 저하되는 증상에서는 하드디스크 자체에는 별 문제가 없어 보였습니다. 스토리지 풀이 저하된 원인은 하드디스크 절전 모드와 관련이 있어 보입니다. 스토리지 풀이 저하되는 시점이 하드디스크가 절전 모드에서 깨어나는 시점과 거의 일치하기 때문입니다.

로그 센터의 내용
DS420+ 로그 센터
DS420+의 로그 센터
DS918+ 로그 센터
DS918+의 로그 센터

스토리지 풀 저하 증상이 발생한 DS420+와 DS918+의 로그 센터 내용입니다. 하드디스크가 절전 모드에서 깨어난 시간과 스토리지 풀이 저하된 시간이 1초 밖에 차이나지 않습니다.

“Internal disks woke up from hibernation.”은 하드디스크가 절전 모드에서 깨어났을 때 기록됩니다. “Storage Pool [x] degraded [x/x of drives remaining]. Please repair it.”은 스토리지 풀이 저하 되었을 때 기록됩니다.

하드디스크를 나스에서 제거했어요?
DS420+에서 드라이브가 분리된 기록
DS918+에서 드라이브가 분리된 기록

HDD/SSD 로그에는 하드디스크를 나스에서 제거했다가 다시 장착한 기록이 있습니다. 하드디스크를 나스에서 빼면 “드라이브가 분리되어 있습니다.” 기록이 생깁니다. 하드디스크를 나스에 장착하면 “드라이브가 꽂혀 있습니다.” 기록이 생깁니다.

하드디스크를 나스에서 빼면 당연히 스톨리지 풀이 저하됩니다. 하드디스크를 나스에서 제거한 시간과 스토리지 풀이 저하된 시간이 1초 밖에 차이나지 않습니다. 하지만 누구도 하드디스크를 만지지 않았습니다.

 

하드디스크에는 문제가 없어 보입니다.
DS420+ 드라이브1 SMART 속성
DS420+의 드라이브 1 SMART 속성
DS918+ 드라이브2 SMART 속성
DS918+의 드라이브 2 SMART 속성

나스 운영체제는 하드디스크에서 고장이 발견되면 그 디스크를 레이드에서 제외시킵니다. 그 결과 스토리지 풀이 저하되는 증상이 발생하게 되는데요. DS420+와 DS918+ 모두 하드디스크의 상태가 “정상”이고  SMART 속성에서도 하드디스크에 문제가 있다고 판단하는 항목의 값이 모두 0(정상)입니다. 스토리지 풀이 저하된 원인이 하드디스크의 고장으로 인한 것은 아니라고 생각됩니다.

소요시간 : 20분    어려움 : ★★★★★

하드디스크 절전 모드 끄기. 스토리지 풀 수리하기.

스토리지 풀이 저하된 이유는 하드디스크가 절전 모드에서 깨어날 때 동시에 깨어나지 않았기 때문입니다. 절전 모드 이후에 스토리지 풀이 정상적으로 작동하려면 나스에 장착되어 있는 하드디스크 모두가 동시에 절전 모드에서 깨어나서 하나도 빠짐없이 인식이 돼야 하는데요. 무슨 이유에서인지 하드디스크 한 개가 30초 정도 늦게 깨어나는 증상이 발생했습니다.

나스의 운영체제 입장에서는 30초나 늦게 깨어나는 디스크는 나스에서 제거된 디스크와 다를 바가 없습니다. 그 결과 레이드에서 제외되고 스토리지 풀은 저하되게 됩니다.

7월 한 달 동안 동일한 증상을 4건 접했는데요. 나스 모델, 운영체제 버전, 나스를 사용한 기간이 모두 다릅니다. 공통점은 하드디스크 모델인데요. 모두 씨게이트 아이언울프 4TB 제품입니다. 1~5년 정도 잘 사용하다가 갑자기 이런 증상이 왜 발생했는지는 모르겠습니다.

나스 모델운영체제 버전하드디스크 모델과 개수레이드 유형SMART 정보
DS920+DSM 7.0.1-42218Seagate ST4000VN008-2DR166 x 3RAID 5하드디스크 Power On Hours 6,731시간 / 하드디스크 Power Cycle count 4,431회
DS420+DSM 7.1.1-42962 Update 4Seagate ST4000VN006-3CW104 x 2RAID 1하드디스크 Power On Hours 6,682시간 / 하드디스크 Power Cycle count 1,024회
DS918+DSM 7(증상이 발생하기 며칠 전에 설치한 버전)Seagate ST4000VN008-2DR166 x 4RAID 6하드디스크 Power On Hours 46,321시간 / 하드디스크 Power Cycle count 1,746회
DS918+DSM 6.2.4-25556 Update 7Seagate ST4000VN008-2DR166 x 4SHR하드디스크 Power On Hours 20,325시간 / 하드디스크 Power Cycle count 18,349회

4건 모두 똑같은 하드디스크를 사용하고 있다는 점이 특이하기는 한데요. 그렇다고 하드디스크 자체에 어떤 문제가 있다고 단정지을 만한 단서가 제 눈에는 보이지 않습니다. 정확한 원인을 찾으려면 하드디스크의 절전과 절전에서 복귀하는 메커니즘, 그리고 하드디스크와 운영체제와의 의사소통 과정도 알아야 할 텐데요. 그런 것은 알지 못하므로 일단은 저하된 스토리지 풀을 정상으로 되돌리는 작업을 진행합니다.

하드디스크는 교체하지 않고 다시 사용합니다. 하지만 절전 모드에서 복귀할 때 똑같은 문제가 다시 발생할 수 있으므로 하드디스크 절전 기능은 사용하지 않도록 합니다.

HDD 대기 기능을 "없음"으로 변경
최대 절전 모드 끄기
하드디스크 절전 모드 끄기

제어판 > 하드웨어 및 전원 > HDD 대기 기능으로 이동해서 “없음”을 선택하면 하드디스크가 절전 모드로 들어가지 않게 됩니다.

스토리지 풀 수리하기

“수리” 작업은 위험한 과정이 포함되어 있으므로 정신을 바짝 차리고 진행해야 합니다.

과정 중에 하드디스크의 사용을 중지(드라이브 비활성화)시키는 단계가 있습니다. 이때 엉뚱한 디스크를 중지시키면 나스의 자료를 모두 잃을 수 있으므로 디스크 번호를 잘 확인해야 합니다.

과정 중에 하드디스크를 나스에서 뺐다가 다시 장착하는 단계가 있습니다. 이때 엉뚱한 디스크를 빼면 나스의 자료를 모두 잃을 수 있으므로 디스크 위치를 잘 확인해야 합니다. 또한 디스크를 빼거나 장착할 때 나스에 충격이 가해지지 않도록 살살 다뤄야 합니다.

충돌한 디스크

절전 모드에서 늦게 깨어난 디스크는 할당 상태가 “충돌함”으로 표기 됩니다. 이 디스크를 다시 사용하려면 새로운 디스크(이 나스에서 사용한 적이 없는 디스크)처럼 인식시키는 과정이 필요합니다.

디스크가 비활성화 되었습니다.

새로운 디스크(이 나스에서 사용한 적이 없는 디스크)처럼 인식시키려면 다음 과정을 거쳐야 합니다.

  1. “작업 > 드라이브 비활성화”를 클릭합니다. 잠시 후에 할당 상태가 “비활성화됨”으로 변경됩니다. 2. “비활성화됨”으로 변경되면 디스크를 나스에서 제거합니다. 3. 제거 후 저장소 관리자 화면에서 제거한 디스크가 사라질 때까지 기다립니다. 보통 1분 안에 사라집니다. 4. 사라진 것을 눈으로 확인했으면 디스크를 다시 장착합니다. 5. 장착 후 1분 정도 지나면 저장소 관리자 화면에 디스크가 다시 나타나고 “초기화되지 않음“으로 표기됩니다. 6. “초기화되지 않음”으로 표기되면 새로운 디스크로 인식된 것입니다.
스토리지 풀 수리
스토리지 풀의 "수리" 버튼

스토리지 풀 메뉴에서 “수리”를 클릭합니다.

디스크 선택하기
드라이브 선택하기

조금 전에 제거했다가 다시 장착한 디스크를 선택합니다. “다음”을 클릭하고 이후 과정을 계속 진행합니다.

수리가 완료 됨
수리가 끝나면 스토리지 풀이 정상으로 돌아옵니다.

수리에 소요되는 시간은 하드디스크의 용량에 따라 다릅니다. 수리가 완료되면 스토리지 풀의 상태가 정상으로 표기됩니다.

궁금하면 ↓↓↓↓

절전 모드에서 깨어날 때의 기록. messages 파일.
절전 모드에서 정상적으로 깨어날 때의 기록
절전 모드에서 정상적으로 깨어날 때의 기록
절전 모드에서 정상적으로 깨어나지 않았을 때의 기록
절전 모드에서 정상적으로 깨어나지 않았을 때의 기록
root@NAS:/var/log# tail messages -n 500 | more

2023-07-13T23:13:58+09:00 NAS kernel: [1344208.321769] ata3 (slot 1): wake up from deepsleep, reset link now
2023-07-13T23:13:58+09:00 NAS kernel: [1344208.325176] ata4 (slot 2): wake up from deepsleep, reset link now
2023-07-13T23:13:58+09:00 NAS kernel: [1344208.657906] ata4: device plugged sstatus 0x1
2023-07-13T23:13:58+09:00 NAS kernel: [1344208.669229] ata3: device plugged sstatus 0x1
2023-07-13T23:14:04+09:00 NAS kernel: [1344217.082508] ata4 (slot 2): link is slow to respond, please be patient (ready=0)
2023-07-13T23:14:04+09:00 NAS kernel: [1344217.090929] ata3 (slot 1): link is slow to respond, please be patient (ready=0)
2023-07-13T23:14:04+09:00 NAS kernel: [1344217.449539] ata4 (slot 2): SATA link up 6.0 Gbps (SStatus 133 SControl 300)
2023-07-13T23:14:04+09:00 NAS kernel: [1344217.467598] ata4 (slot 2): wake up successful, the reset fail can be ignored
2023-07-13T23:14:04+09:00 NAS kernel: [1344217.509567] ata3 (slot 1): SATA link up 6.0 Gbps (SStatus 133 SControl 300)
2023-07-13T23:14:04+09:00 NAS kernel: [1344217.527867] ata3 (slot 1): wake up successful, the reset fail can be ignored

2023-07-14T04:00:04+09:00 NAS kernel: [1361374.672646] ata3 (slot 1): wake up from deepsleep, reset link now
2023-07-14T04:00:04+09:00 NAS kernel: [1361374.672682] ata4 (slot 2): wake up from deepsleep, reset link now
2023-07-14T04:00:04+09:00 NAS kernel: [1361374.998681] ata4: device plugged sstatus 0x1
2023-07-14T04:00:04+09:00 NAS kernel: [1361375.033206] ata3: device plugged sstatus 0x1
2023-07-14T04:00:10+09:00 NAS kernel: [1361383.465994] ata3 (slot 1): link is slow to respond, please be patient (ready=0)
2023-07-14T04:00:10+09:00 NAS kernel: [1361383.474963] ata4 (slot 2): link is slow to respond, please be patient (ready=0)
2023-07-14T04:00:10+09:00 NAS kernel: [1361383.843002] ata4 (slot 2): SATA link up 6.0 Gbps (SStatus 133 SControl 300)
2023-07-14T04:00:10+09:00 NAS kernel: [1361383.860837] ata4 (slot 2): wake up successful, the reset fail can be ignored
2023-07-14T04:00:10+09:00 NAS kernel: [1361384.087986] ata3 (slot 1): SATA link up 6.0 Gbps (SStatus 133 SControl 300)
2023-07-14T04:00:10+09:00 NAS kernel: [1361384.135622] ata3 (slot 1): wake up successful, the reset fail can be ignored

2023-07-14T08:46:11+09:00 NAS kernel: [1378542.992278] ata3 (slot 1): wake up from deepsleep, reset link now
2023-07-14T08:46:11+09:00 NAS kernel: [1378542.999376] ata4 (slot 2): wake up from deepsleep, reset link now
2023-07-14T08:46:11+09:00 NAS kernel: [1378543.331906] ata3: device plugged sstatus 0x1
2023-07-14T08:46:11+09:00 NAS kernel: [1378543.343796] ata4: device plugged sstatus 0x1
2023-07-14T08:46:17+09:00 NAS kernel: [1378551.745103] ata3 (slot 1): link is slow to respond, please be patient (ready=0)
2023-07-14T08:46:17+09:00 NAS kernel: [1378551.794103] ata4 (slot 2): link is slow to respond, please be patient (ready=0)
2023-07-14T08:46:18+09:00 NAS kernel: [1378552.164127] ata4 (slot 2): SATA link up 6.0 Gbps (SStatus 133 SControl 300)
2023-07-14T08:46:18+09:00 NAS kernel: [1378552.182157] ata4 (slot 2): wake up successful, the reset fail can be ignored
2023-07-14T08:46:18+09:00 NAS kernel: [1378552.214885] ata3 (slot 1): SATA link up 6.0 Gbps (SStatus 133 SControl 300)
2023-07-14T08:46:18+09:00 NAS kernel: [1378552.241280] ata3 (slot 1): wake up successful, the reset fail can be ignored

2023-07-14T13:33:22+09:00 NAS kernel: [1395774.249051] ata4 (slot 2): wake up from deepsleep, reset link now
2023-07-14T13:33:22+09:00 NAS kernel: [1395774.249057] ata3 (slot 1): wake up from deepsleep, reset link now
2023-07-14T13:33:22+09:00 NAS kernel: [1395774.596077] ata4: device plugged sstatus 0x1
2023-07-14T13:33:23+09:00 NAS kernel: [1395778.029130] ata3 (slot 1): SATA link down (SStatus 0 SControl 300)
2023-07-14T13:33:23+09:00 NAS kernel: [1395778.036271] ata3 (slot 1): Disk is present for SATA link down event
2023-07-14T13:33:25+09:00 NAS kernel: [1395780.348224] ata3 (slot 1): SATA link down (SStatus 0 SControl 300)
2023-07-14T13:33:25+09:00 NAS kernel: [1395780.355372] ata3 (slot 1): Disk is present for SATA link down event
2023-07-14T13:33:25+09:00 NAS kernel: [1395780.362604] ata3 (slot 1): limiting SATA link speed to 1.5 Gbps
2023-07-14T13:33:28+09:00 NAS kernel: [1395782.667287] ata3 (slot 1): SATA link down (SStatus 0 SControl 310)
2023-07-14T13:33:28+09:00 NAS kernel: [1395782.674425] ata3 (slot 1): Disk is present for SATA link down event
2023-07-14T13:33:30+09:00 NAS kernel: [1395784.837314] ata4 (slot 2): SATA link up 6.0 Gbps (SStatus 133 SControl 300)
2023-07-14T13:33:30+09:00 NAS kernel: [1395784.855321] ata4 (slot 2): wake up successful, the reset fail can be ignored
2023-07-14T13:33:30+09:00 NAS kernel: [1395785.001736] ata3.00 (slot 1): disabled
2023-07-14T13:33:30+09:00 NAS kernel: [1395785.006134] ata3.00 (slot 1): already disabled (class=0x2)
2023-07-14T13:33:30+09:00 NAS kernel: [1395785.012467] ata3.00 (slot 1): already disabled (class=0x2)

2023-07-14T13:33:30+09:00 NAS kernel: [1395785.015315] sd 2:0:0:0: rejecting I/O to offline device
2023-07-14T13:33:30+09:00 NAS kernel: [1395785.015329] sd 2:0:0:0: rejecting I/O to offline device
2023-07-14T13:33:30+09:00 NAS kernel: [1395785.015339] blk_update_request: I/O error, dev sata1, sector in range 16781312 + 0-2(12)
2023-07-14T13:33:30+09:00 NAS kernel: [1395785.015342] md: super_written gets error=-5
2023-07-14T13:33:30+09:00 NAS kernel: [1395785.015348] syno_md_error: sata1p1 has been removed
2023-07-14T13:33:30+09:00 NAS kernel: [1395785.015351] raid1: Disk failure on sata1p1, disabling device.
        Operation continuing on 1 devices
2023-07-14T13:33:30+09:00 NAS kernel: [1395785.015379] sd 2:0:0:0: rejecting I/O to offline device
2023-07-14T13:33:30+09:00 NAS kernel: [1395785.015384] blk_update_request: I/O error, dev sata1, sector in range 21241856 + 0-2(12)
2023-07-14T13:33:30+09:00 NAS kernel: [1395785.015386] md: super_written gets error=-5
2023-07-14T13:33:30+09:00 NAS kernel: [1395785.015388] syno_md_error: sata1p3 has been removed
2023-07-14T13:33:30+09:00 NAS kernel: [1395785.015391] raid1: Disk failure on sata1p3, disabling device.
        Operation continuing on 1 devices
2023-07-14T13:33:30+09:00 NAS kernel: [1395785.015412] sd 2:0:0:0: rejecting I/O to offline device
2023-07-14T13:33:30+09:00 NAS kernel: [1395785.015453] blk_update_request: I/O error, dev sata1, sector in range 225853440 + 0-2(12)
2023-07-14T13:33:30+09:00 NAS kernel: [1395785.015459] md/raid1:md2: sata1p3: rescheduling sector 204610272
2023-07-14T13:33:30+09:00 NAS kernel: [1395785.023313] sd 2:0:0:0: rejecting I/O to offline device
2023-07-14T13:33:30+09:00 NAS kernel: [1395785.023319] md/raid1:md0: sata1p1: rescheduling sector 2286848
2023-07-14T13:33:30+09:00 NAS kernel: [1395785.176652] ata3 (slot 1): wake up successful, the reset fail can 
2023-07-14T13:33:30+09:00 NAS kernel: [1395785.281963] SynoCheckRdevIsWorking (11597): remove active disk sata1p3 from md2 raid_disks 2 mddev->degraded 1 mddev->level 1
2023-07-14T13:33:30+09:00 NAS kernel: [1395785.294981] syno_hot_remove_disk (11497): successfully remove active disk sata1p3 from md2
2023-07-14T13:33:30+09:00 NAS kernel: [1395785.308238] SynoCheckRdevIsWorking (11597): remove active disk sata1p2 from md1 raid_disks 4 mddev->degraded 2 mddev->level 1
2023-07-14T13:33:30+09:00 NAS kernel: [1395785.321216] syno_md_error: sata1p2 has been removed
2023-07-14T13:33:30+09:00 NAS kernel: [1395785.326894] raid1: Disk failure on sata1p2, disabling device.
        Operation continuing on 1 devices
2023-07-14T13:33:30+09:00 NAS kernel: [1395785.338824] syno_hot_remove_disk (11492): cannot remove active disk sata1p2 from md1 ... rdev->raid_disk 0 pending 0
2023-07-14T13:33:30+09:00 NAS kernel: [1395785.360930] SynoCheckRdevIsWorking (11597): remove active disk sata1p1 from md0 raid_disks 4 mddev->degraded 3 mddev->level 1
2023-07-14T13:33:30+09:00 NAS kernel: [1395785.373904] syno_hot_remove_disk (11497): successfully remove active disk sata1p1 from md0
2023-07-14T13:33:31+09:00 NAS kernel: [1395786.351433] SynoCheckRdevIsWorking (11597): remove active disk sata1p2 from md1 raid_disks 4 mddev->degraded 3 mddev->level 1
2023-07-14T13:33:31+09:00 NAS kernel: [1395786.364402] syno_hot_remove_disk (11497): successfully remove active disk sata1p2 from md1

2023-07-14T13:33:33+09:00 NAS hotplugd[10771]: hotplugd.c:1253 ##### ACTION:remove
2023-07-14T13:33:33+09:00 NAS hotplugd[10771]: DEVNAME:sata1
2023-07-14T13:33:33+09:00 NAS hotplugd[10771]: DEVPATH:sata1
2023-07-14T13:33:33+09:00 NAS hotplugd[10771]: SUBSYSTEM:block
2023-07-14T13:33:33+09:00 NAS hotplugd[10771]: PHYSDEVPATH:/devices/pci0000:00/0000:00:13.0/0000:01:00.0/ata3/host2/target2:0:0/2:0:0:0
2023-07-14T13:33:33+09:00 NAS hotplugd[10771]: hotplugd.c:1415 ==== SATA disk [sata1] hotswap [remove] ====

2023-07-14T13:33:44+09:00 NAS kernel: [1395799.234839] ata3: device plugged sstatus 0x133
2023-07-14T13:33:44+09:00 NAS kernel: [1395799.240025] ata3 (slot 1): exception Emask 0x10 SAct 0x0 SErr 0x4050000 action 0xe frozen
2023-07-14T13:33:44+09:00 NAS kernel: [1395799.249362] ata3 (slot 1): irq_stat 0x00400040, connection status changed
2023-07-14T13:33:44+09:00 NAS kernel: [1395799.257148] ata3 (slot 1): SError: { PHYRdyChg CommWake DevExch }
2023-07-14T13:33:44+09:00 NAS kernel: [1395799.264169] ata3 (slot 1): hard resetting link
2023-07-14T13:33:50+09:00 NAS kernel: [1395805.042026] ata3 (slot 1): link is slow to respond, please be patient (ready=0)
2023-07-14T13:33:54+09:00 NAS kernel: [1395809.454475] ata3: device plugged sstatus 0x133
2023-07-14T13:33:54+09:00 NAS kernel: [1395809.459679] ata3 (slot 1): SATA link up 6.0 Gbps (SStatus 133 SControl 300)
2023-07-14T13:33:54+09:00 NAS kernel: [1395809.467669] ata3 (slot 1): link online but 1 devices misclassified, retrying
2023-07-14T13:33:54+09:00 NAS kernel: [1395809.475741] ata3 (slot 1): hard resetting link
2023-07-14T13:33:59+09:00 NAS kernel: [1395813.878590] ata3 (slot 1): SATA link up 6.0 Gbps (SStatus 133 SControl 300)
2023-07-14T13:33:59+09:00 NAS kernel: [1395813.938936] ata3.00 (slot 1): Write Cache is enabled
2023-07-14T13:33:59+09:00 NAS kernel: [1395813.961167] got SATA disk[0]

2023-07-14T13:34:00+09:00 NAS hotplugd[10771]: hotplugd.c:1253 ##### ACTION:add
2023-07-14T13:34:00+09:00 NAS hotplugd[10771]: DEVNAME:sata1
2023-07-14T13:34:00+09:00 NAS hotplugd[10771]: DEVGUID:WW60XXXX0
2023-07-14T13:34:00+09:00 NAS hotplugd[10771]: DEVPATH:sata1
2023-07-14T13:34:00+09:00 NAS hotplugd[10771]: SUBSYSTEM:block
2023-07-14T13:34:00+09:00 NAS hotplugd[10771]: PHYSDEVPATH:/devices/pci0000:00/0000:00:13.0/0000:01:00.0/ata3/host2/target2:0:0/2:0:0:0
2023-07-14T13:34:00+09:00 NAS hotplugd[10771]: hotplugd.c:1415 ==== SATA disk [sata1] hotswap [add] ====
2023-07-14T13:34:00+09:00 NAS synostgpool[10258]: missing_space_util.cpp:534 raid dev [md slot 0: WW60XXXX (/dev/sata1p3)] is set unused and failed, since raid is degraded
2023-07-14T13:34:00+09:00 NAS hotplugd[10771]: disk/disk_config_single.c:122 apply /usr/syno/bin/DiskApmSet.sh 255  /dev/sata1 1>/dev/null 2>&1
2023-07-14T13:34:00+09:00 NAS hotplugd[10771]: disk/disk_config_single.c:122 apply /usr/syno/bin/syno_disk_ctl --ncq-on  /dev/sata1 1>/dev/null 2>&1
2023-07-14T13:34:00+09:00 NAS hotplugd[10771]: disk/disk_config_single.c:194 /dev/sata1 apply EPC off
2023-07-14T13:34:00+09:00 NAS hotplugd[10771]: hotplugd.c:1457 ==== SATA disk [sata1] Model: [ST4000VN006-3CW104] ====
2023-07-14T13:34:00+09:00 NAS hotplugd[10771]: hotplugd.c:1458 ==== SATA disk [sata1] Serial number: [WW60XXXX] ====
2023-07-14T13:34:00+09:00 NAS hotplugd[10771]: hotplugd.c:1459 ==== SATA disk [sata1] Firmware version: [SC60] ====

답글 남기기