画像やリンクが無効になっている可能性もあるのでご了承下さい。
はじめに
NVMe 接続の M.2 SSD が GPU からの熱を受けてしまう事を嫌った事から、比較的安価な PCIe Gen.3 対応ライザーケーブルを使用して Sapphire Pulse Radeon RX 580 8G GDDR5 OC V2 を縦置きにしていた。
2021/12/21 より使用しているので、おおよそ 10 ヶ月ほど使用した所で今回のトラブルに見舞われた事になる。
発生した問題
デジイチで撮影した写真は Adobe Lightroom Classic で現像する前に DxO PureRAW でノイズ除去を行ってからとしている。
今回も同様にノイズ除去を―― と処理させていたらいきなり画面が暗転。ブラックアウトを喰らってしまった。
ディスプレイには何も映ってはいないが、Microsoft Mouse without Borders というソフトでマウスを共有しているサブマシン側へのカーソル移動は出来ていた。
つまり PC 自体は動いているけどグラフィックカードの画面出力だけが逝っている状態となった。
どうもにもならないので PC 本体のリセットスイッチをポチって強制的に再起動させた。
すると次はマザーボードにエラーが発生、Q-CODE が D6 というグラフィックカードの異常を示す物だった。
これはグラフィックカードが逝ったのかな…… なんて思いつつ、一旦 PC の電源を完全に切ってから再投入。
正常に起動したかに見えたが UEFI に対応しないので CSM を有効化したという BIOS のメッセージが表示されたりで尚焦る。
一旦 BIOS に入り、CSM を無効化する事で今まで通り起動してくれたので、取り敢えずはホッと一息。
尚、再度 PureRAW でノイズ除去を行おうとすると、数枚処理させたところで同様にブラックアウトするという再現性 100% な現象である事が分かった。
色々試す
PureRAW はノイズ除去に AI を用いているなんて事で、その演算を GPU に投げることで高速に処理している。
つまり GPGPU による高負荷状態で再現するという事に目を付け、PureRAW 以外でも負荷の掛かる処理を試す事にした。
先ずは動画エンコード時に使用する AviSynth のフィルターによる負荷テスト。
GPU を使用するフィルターは KNLMeansCL という OpenCL を用いたノイズ除去フィルターである。
これもぼちぼち負荷が掛かるので、どうなることかと眺めていたが GPU コアこそ 80 度近く行くものの、正常に終了してしまった。もう一度実行させてもエラーすら出ず。
次に Adobe Photoshop のニューラルフィルターや修復ツールなんかも試してみたけど難なくこなしてくれた。
続いて純粋にグラフィックの処理をさせてみようかなと Furmark や 3DMark を試すが、これらでは再現しない。
じゃぁ PureRAW をもう一度…… とやったら 3~4 枚処理した辺りでブラックアウト…… と。
Radeon Software のバージョンをいくつか変更して試してみても全く同じ雰囲気だったので、ドライバーがどうのというお話しでは無いようで。
情報収集
ライザーケーブルで縦置きしてるからというお話しは脳裏にありつつも、出来ればこのまま縦置きがいいし良い解決策がないかなと検索しまくることに。
PureRAW 限定で起きていたことから「PureRAW blackout」なんてするも良い情報は無し。似たような現象で困っていた人はいたようだが、その後の消息不明。
あとは Q-CODE が D6 と出たのが気になったのでこれをそのまま検索。
ちょろっと見た感じ PCIe のリンク関連だろうなというヒントが得られた。
ライザーケーブルは PCIe Gen.3 までの対応なので、Gen.4 まで対応する AMD X570 環境では BIOS からリンクモードを Gen.3 に固定しなければ稀に BIOS のメッセージが出て POST が止まることもあった。
ライザーケーブルが原因として濃厚になる。
PCIe スロットに直でグラフィックカードを
問題が起きた翌日、M.2 SSD の温度がまた高くなるのが嫌だなーとか思いつつ作業を開始。
掃除をしながらアレコレと時間をかけ、グラフィックカードホルダーも引っ張り出して来た物を装着しつつ、グラフィックカードの設置も完了した。
ついでにうるさくて使わないからと、ケーブルを抜いてある PCI スロット固定用シロッコファンを取り外せたのは良かったかな。
見た目としてはスタンダードな水平設置は久々だし、逆に新鮮でアリだなと。
再テスト
再現率 100% の PureRAW で取り敢えず 5~6 枚の写真を処理させたが正常終了。
偶然かもしれないので追加で 22 枚程突っ込んで実行。
ブラックアウトせず正常動作。
原因はライザーケーブルの劣化による物だろうと思われる。
おわりに
有名メーカー品は 1 万円前後からと良いお値段がするので比較的安価な中華ブランドの物に手を出したが、長期的に見ればやっぱダメなのかなと身をもって知った感じに。
PCIe Gen.3 でこれなら、よりシビアな Gen.4 だとしっかりお金を掛けないと不安は拭えないだろうなとも思う。
グラフィックカードの設置方法に関してはこれ以上お金をかけたいとは思わないので、安定性をとって今後もスタンダードに PCIe 直で使って行こうと強く思う。
コメント