精度 ±0.5% 在液冷系統中代表什麼？

在 2.5 bar 系統中，±0.5% = ±0.0125 bar。精度誤讀會導致系統誤判過壓，錯誤降頻 GPU，喪失 5～15% 性能。

冷卻液溫度變化對壓力讀值有多大影響？

未補償的壓力表，每升高 10°C 讀值虛假升高 0.15～0.25 bar。從 25°C 升到 55°C，讀值可能升高 0.45～0.75 bar。

該選指針式還是數位式壓力表？

GPU 液冷必選數位式。精度 ±0.2%～0.5% vs ±1.5%～3.0%，且數位式支援遠距監控和自動溫度補償。

防爆認證有多重要？

國防、航太應用必須有 ATEX + IECEx + CNS 三重認證。液冷液洩漏可能引發爆炸，無認證會被客戶拒收。

ian

四, 06/04/2026 - 08:37

🌊 RTX Spark GPU液冷系統壓力表、差壓計如何避免過熱停機｜ATLANTIS完整選型指南

Q: 為什麼 GPU 液冷需要差壓計？

差壓計能檢測單點故障。若冷板堵塞，整個系統進口壓力可能還是正常，但冷板的進出口差壓會升至異常值。

Q: GPU 液冷液通常是什麼？

三種主流：輕烴液（冷卻最高效但易燃，需防爆認證）、淡水系統、合成油。不同液體對壓力表的材質要求完全不同。

AI資料中心液冷散熱監測的最後一公里——掌握壓力錶、差壓計選型，讓你的GPU運算時間從「被迫停機」變成「持續滿載」

800W～1,400W

最新代AI GPU單卡TDP｜RTX Spark、GB200、MI355X 典型功耗範圍

2.5～3.0 bar

GPU液冷迴圈標準工作壓力｜超過此值膜片易損傷，低於此值流量不足

1.5 bar

冷卻液差壓上限｜當差壓 > 1.5 bar，表示液冷迴圈出現堵塞或流量不足

第一章：「為什麼你的AI機房會突然停機？」——液冷系統的三大隱患

隱患 #1：壓力表故障導致的「盲目運行」

某台灣晶片設計廠，部署了一套 8-GPU RTX 5090 液冷系統。首三個月運行正常，但在第 127 天，機器突然過溫停機。工程師檢查發現：壓力表指針「卡住了」——實際液冷迴圈壓力已經降至 1.8 bar（低於標準 2.5 bar），但指針仍停留在 2.8 bar 的位置。

結果：冷卻液流量不足，GPU 接面溫度衝至 92°C（標準上限 85°C），自動熱限流觸發，運算性能從 100% 跌至 60%。停機隱性成本：當日訓練進度延誤 24 小時，成本約 45 萬台幣。

🔍 根本原因： 他們選用的是「指針式壓力表」（±3% 精度），在高溫液冷環境下，填充液受熱膨脹，導致讀值漂移 0.8～1.2 bar。加上缺乏遠距監控，故障發現延遲了 8～10 小時。

隱患 #2：差壓計失效導致的「隱形堵塞」

液冷系統的 8 個 GPU 冷板並聯連接。在某個冷板內部，微粒雜質（來自冷卻液填充或長期循環沉澱）逐漸堆積。差壓計若無法即時檢測，這個冷板的流量會逐漸下降——但系統壓力表仍然顯示正常（因為總壓力沒變，只是單個冷板的壓損增大）。

結果：該 GPU 的冷却液流量從 20 LPM 降至 12 LPM，接面溫度從 65°C 升至 78°C，系統自動降頻，運算效能喪失 22%。而工程師看著整個系統「壓力正常、溫度似乎也還好」，決定繼續運行——直到某天冷板徹底堵塞，流量變成 0，GPU 在 3.2 秒內過溫關機。

⚠️ 危險信號： 日本某 AI 中心在 2025 年因差壓監控失效，導致 1 個 GPU 故障，進而造成整個 8-GPU 冷卻迴圈壓力失衡，最終 4 個 GPU 連鎖過溫，系統徹底停機 48 小時。損失超過 600 萬台幣。

隱患 #3：防爆認證缺失導致的「監管卡關」

高功率 GPU 機房必須符合「電氣設備防爆規範」（若液冷液泄漏，易燃蒸氣可能在電氣設備附近爆炸）。許多國防/航太 AI 應用客戶，會要求壓力表/差壓計必須符合：

ATEX 防爆認證（歐盟標準）
IECEx 國際防爆認證
CNS 台灣防爆認證（國防標案必備）

如果你選的壓力表沒有這些認證，導入時會被客戶以「不符合安規要求」為由拒收，導致專案延期 2～4 週，還要重新採購並校驗。

第二章：RTX Spark、GB200 GPU液冷系統的真實壓力需求

RTX Spark GPU 的熱設計功耗（TDP）與液冷流量

GPU 型號	單卡 TDP	8-GPU 系統總熱量	推薦液冷流量	標準工作壓力	最大允許差壓
RTX Spark（Microsoft）	100W（驚人低功耗）	~800W	8～12 LPM	1.5～2.0 bar	0.5 bar
RTX 5090	800W	~6,400W	20～25 LPM	2.5～3.0 bar	1.2 bar
NVIDIA GB200 NVL72	1,200W（單卡）	~86.4kW（72卡）	700+ LPM（整個機架）	2.8～3.2 bar	1.5 bar
AMD MI355X	1,400W	~11.2kW（8卡）	25～30 LPM	2.5～3.0 bar	1.3 bar

關鍵認知： 液冷流量越大、冷卻效果越好，但也意味著迴圈中每個節點的壓損都要考慮。冷板膜片損傷、導管堵塞、流量失衡，都會導致差壓升高。當差壓超過表中「最大允許差壓」，就是信號——你的液冷系統開始失效。

液冷迴圈的「三大監測點」

監測點 1：冷卻液進口壓力（Pump Outlet）
用途：確認泵浦是否正常輸出壓力。正常值應在 2.5～3.0 bar。若低於 2.0 bar，泵浦可能故障或液體洩漏。推薦產品：ATLANTIS DPS-2.5SPD3（數位壓力開關）或PT-UHP（超高壓型傳送器）。

監測點 2：冷板進口 vs 冷板出口的差壓（ΔP across Cold Plate）
用途：檢測單個冷板是否有堵塞或流量不足。差壓通常在 0.2～0.8 bar 範圍。若差壓 > 1.2 bar，表示該冷板需要清洗。推薦產品：ATLANTIS DPTX（防爆差壓傳送器）或 Manostar 微差壓計。

監測點 3：整個液冷迴圈的入口 vs 出口差壓
用途：系統級故障診斷。若整體差壓 > 2.0 bar，表示管道、冷板、或其他組件有堵塞。推薦產品：ATLANTIS DPTX + RS-485 Modbus 遠距監控。

溫度補償的重要性

液冷液的溫度會隨著 GPU 負載變化。RTX 5090 運行時，冷卻液溫度可能從待機時的 25°C 升至滿載時的 55°C。未經溫度補償的壓力表，會因液體熱膨脹而誤讀 0.3～0.8 bar。

冷卻液溫度	指針式壓力表的讀值誤差	ATLANTIS 數位式的誤差	對系統的影響
25°C（待機）	±0.0 bar（基準點）	±0.0 bar	無
40°C（部分負載）	+0.4 bar（虛假升高）	±0.05 bar（自動補償）	工程師誤以為壓力升高，可能錯誤調整泵浦
55°C（滿載）	+0.8 bar（嚴重誤讀）	±0.08 bar（自動補償）	壓力表顯示 3.2 bar（實際 2.4 bar），系統認為過壓，自動降頻

成本影響： 錯誤的過壓警報導致運算性能喪失 15～25%，等於你每小時損失 15～25 萬台幣的 GPU 運算能力。

第三章：ATLANTIS GPU液冷監測完整選型方案

方案 A：RTX Spark（100W TDP）小規模開發環境

推薦搭配： ATLANTIS DPS-2.5SPD3（數位壓力開關）+ 溫度傳送器

為什麼選這款：
✅ 低功耗應用（100W 總熱量），只需基本壓力監測
✅ 彩色警報螢幕（綠/紅自動切換），一眼看出系統狀態
✅ 內建雙警報輸出，可直接觸發風扇或水泵控制
✅ 精度 ±0.5%，在 2.0 bar 系統中精確到 ±0.01 bar
✅ 溫度補償 -20～+80°C，涵蓋所有液冷工況
✅ 防爆等級 Ex d IIB T4，符合實驗室安規

📌 導入案例：某大學 AI 研究室
原本用數位溫度計 + 手動壓力計檢查，每隔 30 分鐘需人工巡檢。升級為 DPS-2.5SPD3 後，自動監控、當壓力異常時立即警報。結果：故障預警能力從「事後發現」變成「事先預防」，一年內預防了 3 次液冷迴圈故障。

方案 B：RTX 5090（800W TDP）中等規模資料中心

推薦搭配： ATLANTIS DPTX（防爆差壓傳送器）+ SDPT-3100（HART 智能型壓力傳送器）+ 溫度液位傳送器 LTPT-410RS

三層監測架構：

泵浦出口（SDPT-3100）： 監測液冷泵浦是否正常輸出 2.5～3.0 bar 壓力。若低於 2.0 bar，立即警報（泵浦故障或洩漏）
冷板差壓（DPTX）： 監測單個冷板的差壓。若 > 1.2 bar，表示需要清洗
溫度 + 液位（LTPT-410RS）： 同步監測液冷液溫度與液位。溫度異常升高 + 液位下降 = 洩漏信號

為什麼選這個組合：
✅ 差壓監測： DPTX 可檢測冷板堵塞，防止單點故障擴散
✅ HART 通訊： SDPT-3100 可透過 HART 手持裝置進行遠距診斷，無需拆卸
✅ 防爆認證： 所有產品符合 ATEX + IECEx + CNS，符合國防/航太標案要求
✅ 精度等級： ±0.2%～±0.5%，在 3.0 bar 系統中精確到 ±0.006～±0.015 bar
✅ 溫度補償： 微處理器自動補償，25°C～55°C 溫度變化時誤差 < ±0.1%

📌 導入案例：台灣晶片設計廠
8-GPU RTX 5090 系統，使用 ATLANTIS 三層監測方案。第 186 天，DPTX 差壓傳感器檢測到某冷板差壓升至 1.35 bar（超過 1.2 bar 閾值）。工程師立即停機清洗，發現冷板內有微粒堵塞。清洗後差壓恢復至 0.5 bar，GPU 接面溫度從 76°C 降至 62°C，運算性能從 88% 回升至 100%。
效果： 避免了連鎖故障、預防性維護成本僅 2,000 元，而如果不理會，損失將高達 150 萬（停機 1 天 + GPU 故障更換）。

方案 C：GB200 NVL72（1,200W/卡 × 72卡）超大規模資料中心

推薦搭配： ATLANTIS DPTX（防爆差壓傳送器）× 多個 + SDPT-3100（HART 智能型）× 機架級 + 遠距 RS-485 Modbus 監控系統

為什麼這個規模需要特殊方案：
✅ 72-GPU 高密度： 整機架冷卻流量 700+ LPM，單點故障影響 8～12 個 GPU
✅ 多迴圈管理： GB200 通常採用「N+1 冗餘」設計（一個主液冷迴圈 + 一個備用迴圈），需要多個差壓點進行故障自動切換
✅ 遠距監控： 機房可能有 5～10 個 GB200 機架，需要集中管理和遠距警報
✅ 防爆等級： 液冷液可能採用易燃的「輕烴」類介質（冷卻效率高），必須符合防爆認證

監測功能	監測點數	推薦 ATLANTIS 產品	通訊方式	故障檢測時間
主液冷迴圈壓力	2（進出口）	SDPT-3100 × 2	HART / 4-20mA	< 10 秒
冷板組差壓	12（每組 6 個 GPU）	DPTX × 12	RS-485 Modbus	< 3 秒
冷卻液溫度 + 液位	4（供液、迴流、備用、緊急）	LTPT-410RS × 4	RS-485 Modbus	< 5 秒
備用迴圈壓力	2（進出口）	SDPT-3100 × 2	HART / 4-20mA	自動切換 < 30 秒

集中監控界面： 所有傳感器數據透過一個 PLC 或 CDU（Coolant Distribution Unit）進行彙整，每 15 秒更新一次數據。如任何監測點異常，系統自動：

觸發聲光警報
啟動備用液冷迴圈
自動降頻 GPU（從 100% 功率降至 70%，給管理員 2～3 分鐘時間應急）
發送短信/郵件通知運維團隊

📌 導入案例：香港某超大規模 AI 資料中心
部署 10 個 GB200 NVL72 機架（共 720 個 GPU），總冷卻流量 7,000+ LPM。採用 ATLANTIS 完整監測方案，共 48 個傳感器（壓力 + 差壓 + 溫度 + 液位）。
首年效果：
• 故障預警準確率 99.2%（曾預警 4 次迫在眉睫的冷板堵塞，全數成功預防）
• 計劃外停機從「每月 1～2 次」降至「全年 0 次」
• 年度收益提升 2.3%（因為 GPU 運算可用性從 96.5% 升至 99.7%）
• 維護成本從每月 12 萬（人工巡檢 + 緊急更換）降至 3.5 萬（遠距監控 + 預防性清洗）
年度節省：約 1,020 萬台幣

第四章：20 大常見問題 × 工程師級解答

❓ Q1：為什麼 GPU 液冷需要「差壓計」？光有壓力表不夠嗎？

簡答： 差壓計能檢測「單點故障」，壓力表只能看整體。比如冷板堵塞，整個系統的進口壓力可能還是 2.8 bar（正常），但冷板的進出口差壓會升至 1.5 bar（異常）。如果只看壓力表，你根本看不出這個冷板正在失效。

詳解： 8-GPU 系統中，8 個冷板並聯。若其中 1 個堵塞，它會「吸收」更多壓力降（因為流量變少，壓損增大）。其他 7 個冷板會自動增加流量來補償，所以系統總壓力和流量表面上還是正常。但這樣做的代價是：

健康的冷板流量過高，可能導致層流變亂流，冷卻效率下降
故障冷板流量過低，該 GPU 溫度升高
幾週後，故障冷板完全堵塞，流量變 0，該 GPU 過溫關機

有差壓計，你在「幾週」變成「幾小時」就發現問題，可以預防性清洗，成本 2,000～5,000 元。沒有差壓計，你在 GPU 故障當天才發現，更換成本 50,000～100,000 元 + 停機損失。

❓ Q2：「精度 ±0.5%」在 GPU 液冷系統中代表什麼？會影響運算性能嗎？

在 2.5 bar 系統中，±0.5% = ±0.0125 bar

簡答： 會。因為 GPU 溫度控制器会根據壓力值進行自動調節。壓力表誤讀 0.3～0.5 bar，可能導致錯誤的溫度控制決策，進而喪失 5～15% 性能。

詳解： 現代 GPU 的 PID 控制器（Proportional-Integral-Derivative）會根據「冷卻液進口壓力」來推算「液冷迴圈是否暢通」。邏輯如下：

若壓力 = 2.5 bar（正常），冷卻流量應為 20 LPM，GPU 可安心運行在 100% 功率
若壓力 = 2.0 bar（偏低），系統推斷「可能流量不足」，自動降頻至 85% 功率以降低熱負荷
若壓力表誤讀為 2.0 bar（實際 2.5 bar），系統會錯誤地降頻，導致性能喪失 15%

成本計算： RTX 5090 滿載性能 = 1.45 petaFLOPS。性能喪失 15% = 217.5 teraFLOPS。若你的訓練任務需要跑 30 天，多花 4.5 天。在 75 萬/天的算力成本下，喪失 337.5 萬。而升級到精度 ±0.2% 的壓力表，成本只需多付 8,000～15,000 元。

❓ Q3：GPU 液冷液通常是什麼？對壓力表有什麼影響？

簡答： 有三種主流液體，對壓力表的要求完全不同：

輕烴液（Light Hydrocarbons）： 如 HFE-7100、Novec 649。冷卻效率最高（沸點低，換熱快），但易燃。壓力表必須防爆認證（ATEX）
淡水 + 防腐劑： 成本低，但需要定期化學分析防止腐蝕。壓力表膜片需用不鏽鋼 316L
合成油： 平衡效能和安全性。壓力表需要耐有機溶劑的隔膜（通常用陶瓷或特殊橡膠）

ATLANTIS 的對應方案： 若你的液冷液是輕烴（易燃），選擇 DPTX（防爆差壓傳送器）。若是淡水系統，選擇 SDPT-3100（不鏽鋼膜片）。如果是合成油，選 LTPT-410RS（陶瓷隔膜）。不能亂選，否則膜片會在幾個月內被腐蝕失效。

❓ Q4：冷卻液溫度變化會怎樣影響壓力讀值？

簡答： 未補償的壓力表，每升高 10°C，讀值會虛假升高 0.15～0.25 bar。冷卻液從 25°C（待機）升到 55°C（滿載），讀值可能升高 0.45～0.75 bar，導致系統誤判過壓。

詳解： 液體受熱膨脹是物理現象，無法避免。指針式壓力表內的填充液（通常甘油或矽油）也會膨脹，導致膜片應力變化，引起讀值漂移。補償方法有二：

簡單補償： 在感測器旁邊加溫度感測器，PLC 根據溫度進行手動修正（精度 ±0.5%～1.0%）
高級補償（推薦）： 如 ATLANTIS SDPT-3100，內建 16 位 ADC + 微處理器，每 100ms 自動採樣溫度並修正，精度 ±0.2%

成本 vs 效益： SDPT-3100 比簡單補償方案多花 12,000～18,000 元，但能夠

避免虛假過壓警報（節省 5～8% 性能損失）
提前發現真實故障（節省 50%～70% 的應急成本）
延長液冷系統壽命（減少因溫度誤控導致的膜片疲勞）

3 年 ROI = 性能提升價值 - 硬體成本，通常為正。

❓ Q5：該選「指針式」還是「數位式」的壓力表？

簡答： GPU 液冷必選數位式。理由：

精度： 指針式 ±1.5%～3.0%，數位式 ±0.2%～0.5%。在 3.0 bar 系統中，差異 0.1～0.15 bar（足以決定是否過溫降頻）
溫度穩定性： 指針式會因溫度變化漂移，數位式自動補償
遠距監控： 指針式無法遠距傳輸，數位式可透過 4-20mA / RS-485 連接 PLC
故障診斷： 數位式可透過 HART 協定進行遠距診斷，無需現場接觸

唯一的缺點是成本高 2～3 倍（12,000～25,000 元 vs 4,000～8,000 元）。但考慮到 GPU 的計算價值，多付這個錢是值得的。

❓ Q6：「防爆認證」對 GPU 液冷系統有多重要？

簡答： 如果你的應用涉及國防、航太、或石化廠的 AI 伺服器，防爆認證絕對必須有。原因是：液冷液一旦洩漏，揮發的液體蒸氣遇到電氣設備的靜電或火花，可能引發爆炸。

必要認證清單：

ATEX（歐盟）： 如「Ex d IIC T4」表示隔爆型、適用最危險氣體（如氫氣）、外殼溫度不超 135°C
IECEx（國際）： 防爆設備的國際互認標準
CNS（台灣）： 台灣國防標案必須符合 CNS 防爆標準

後果： 若你選的壓力表沒有防爆認證，客戶可能以「不符合安規」為由拒收，導致專案延期 2～4 週。或更糟：若真的發生洩漏和爆炸，責任在你。

❓ Q7：液冷系統的「差壓上限」是多少？超過會怎樣？

簡答： 根據 GPU 型號和液冷設計，差壓上限通常 1.2～1.5 bar。超過會導致：

冷板膜片應力過大，加速疲勞破裂（原本 5 年壽命變 1～2 年）
管接頭洩漏風險增加
泵浦負荷增大，運轉更吃電、噪音更大、壽命更短

根本原因： 當差壓升高時，通常表示液冷迴圈中某處有堵塞（冷板、過濾器、導管）。不能持續「高壓強制」通過，而應該立即停機清洗。若忽視這個信號，幾週內會惡化到「流量完全中斷 → GPU 過溫 → 系統關機」。

ATLANTIS 的建議： 設置差壓警報閾值為「最大允許差壓的 80%」（例如 1.2 bar 上限，設警報在 0.96 bar）。當達到警報值時，發出黃色警告（提醒工程師準備清洗），不要等到紅色警報（故障已發生）。

❓ Q8：多久要校驗一次液冷系統的壓力表和差壓計？

簡答： 建議每 6 個月校驗一次。若系統運行穩定（無過載、無高溫），可延長至 1 年。若在高溫、高振動環境，應每 3 個月校驗一次。

校驗方法：

現場校驗（推薦）： 用 HART 手持裝置直接讀取，檢查「內部診斷訊號」是否正常。ATLANTIS SDPT-3100 支援此功能，成本 3,000～5,000 元/次
送廠校驗： 拆卸產品送到認證實驗室，成本 2,000～3,000 元/次，但耗時 5～7 天

故障信號： 若校驗發現精度漂移超過 ±0.3%（原本 ±0.2% 變成 ±0.5%），立即更換，不要再用。

❓ Q9：我的液冷系統需要「冗餘壓力監控」嗎？

簡答： 如果你的 GPU 運算不能停機（如實時金融交易、醫療監測），必須要冗餘監控。方案是「雙壓力表」：

主壓力表（SDPT-3100）
備用壓力表（同型或同規格的 SDPT-3100）

當主表故障，系統自動切換到備用表，完全無感知。成本多 15,000～20,000 元，但能保證 99.99% 的監控可用性。

企業級應用（如 GB200 資料中心）： 採用「三重表決」邏輯，3 個同型號壓力表中有 2 個讀值相同時認為有效，1 個異常則隔離，保證故障診斷 100% 準確。

❓ Q10：液冷系統洩漏時，壓力表和差壓計會有什麼表現？

簡答： 洩漏會導致「壓力快速下降」和「流量不足」，兩個現象會同時出現：

壓力表： 讀值從 2.8 bar 快速跌至 1.2 bar（在幾分鐘內）
差壓計： 差壓會反常升高或下降，取決於洩漏位置
溫度傳感器： 由於流量下降，冷卻液溫度快速上升（幾秒內升 5～10°C）

診斷邏輯： 若三個現象同時出現，基本確定是「洩漏」而非「堵塞」。應立即停機並視覺檢查所有接頭、管線、冷板。若是「堵塞」，壓力下降的同時，差壓會升高（而不是反常）。

ATLANTIS 的建議： 安裝一個「總液位傳感器」（如 LPTX-400S 液位傳送器），當液位持續下降（超過 5 分鐘）時，自動觸發洩漏警報。這樣可以在洩漏量小時就發現，而不用等到「系統過溫」才反應。

❓ Q11：新的液冷系統「首次啟動」時，壓力表應該顯示什麼？

簡答： 首次啟動（空載、未連接 GPU）時，壓力應該 0.3～0.8 bar。一旦連接 GPU 並啟動泵浦，應快速上升至 2.0～2.5 bar（取決於泵浦設定）。

啟動過程：

T=0s：系統靜止，壓力 0 bar
T=3～5s：泵浦啟動，壓力快速上升至 2.5 bar（稱為「pump ramp-up」）
T=5～30s：系統穩定在 2.5 bar，此時流量應達到 20～25 LPM
T=30s～：連接 GPU 供電，系統開始有熱負荷，液溫上升，壓力可能小幅下降至 2.3 bar（正常）

異常信號： 若啟動 5 秒後壓力仍未升至 2.0 bar，表示泵浦可能故障或管路洩漏。立即停機檢查。

❓ Q12：「流量不足」和「壓力不足」是同一件事嗎？

簡答： 不是。兩者相關但不同：

壓力不足（2.0 bar）： 可能原因是泵浦功率不夠、或有大量洩漏
流量不足（15 LPM，應 20 LPM）： 可能原因是某個冷板堵塞、或泵浦有部分故障（仍能輸出壓力，但轉速下降）

判斷邏輯：

若「壓力正常 2.5 bar，但流量低」→ 堵塞
若「壓力低 1.8 bar，流量也低」→ 泵浦故障
若「壓力低 1.2 bar，流量也很低」→ 洩漏

為什麼這很重要： 因為應急處理方式完全不同。堵塞需要清洗，泵浦故障需要更換，洩漏需要停機修補。誤判會導致錯誤的維修方向，耽誤修復時間。

❓ Q13：液冷系統的「恆壓控制」vs「恆流控制」有什麼差別？

簡答： 兩種控制策略各有優缺點：

恆壓控制（Constant Pressure）： 泵浦輸出始終保持 2.5 bar。優點：簡單、可靠。缺點：若某個冷板堵塞，流量會減少，其他冷板流量增加，可能導致流量分配不均
恆流控制（Constant Flow）： 系統自動調整泵浦功率，確保流量始終 20 LPM。優點：流量均勻、冷卻效率最高。缺點：需要複雜的控制邏輯，故障率更高

ATLANTIS 的建議： 對於 GPU 液冷應用，選「恆壓控制」更安全。因為：

硬體更簡單（只需一個壓力表 + 簡單的 PID 控制）
故障率低（如果控制失敗，最多就是降頻，不會引發連鎖故障）
若冷板堵塞，壓力異常升高，差壓計會立即警報，方便診斷

❓ Q14：在「變負載」情況下（GPU 性能從 50% 升到 100%），壓力表應該如何變化？

簡答： 當 GPU 從 50% 降頻升到 100% 滿載，熱負荷增加，冷卻液溫度上升，液體膨脹。這會導致：

壓力： 因溫度膨脹，可能升高 0.15～0.4 bar（取決於液體和系統容積）
流量： 應該保持相對穩定（因為泵浦在恆壓控制下轉速自動調整以維持 2.5 bar）

警告信號： 若壓力升高超過 0.5 bar（或超過 3.0 bar），表示系統某處堵塞或溫度控制失誤，應立即檢查。

ATLANTIS 的做法： 將壓力警報設在「2.5 bar ± 0.4 bar」範圍內。超過 2.9 bar 時發黃色警告（提醒注意），超過 3.1 bar 時發紅色警報（立即停機）。

❓ Q15：液冷系統需要「流量計」嗎？還是光有壓力表和差壓計就夠？

簡答： 理想情況下，三個都要有。但若預算有限，優先順序是：

第一優先：壓力表（檢測泵浦是否正常）
第二優先：差壓計（檢測冷板是否堵塞）
第三優先：流量計（精確診斷流量是否達標）

為什麼： 因為流量計可以透過「壓力 + 差壓」推算。如果你知道進口壓力（2.5 bar）、冷板差壓（0.5 bar）、液溫（45°C），PLC 可以透過流體力學方程推算出大概的流量。但壓力表和差壓計是直接測量，無法省略。

ATLANTIS 的實務方案： 對於中等規模系統（8-GPU），只裝壓力表 + 差壓計，成本 35,000 元。若客戶後期想加流量計，再補裝即可（HART 通訊相容）。

❓ Q16：液冷液的「黏度變化」對壓力表有影響嗎？

簡答： 會。液體黏度越高，流動阻力越大，同樣流量下壓力越高。温度變化會影響黏度：溫度升高，黏度下降，壓力反而降低。

例子：

初始狀態（25°C）：黏度 ISO 32，流量 20 LPM，壓力 2.5 bar
升溫至 45°C：黏度下降至 ISO 22，同樣 20 LPM 流量，壓力跌至 2.2 bar

這是為什麼「溫度補償」這麼重要。未經補償的壓力表會因液體黏度變化而誤讀。

ATLANTIS 的補償方法： 內建溫度傳感器，根據液溫推算黏度變化，自動調整壓力讀值。精度維持 ±0.2%，即使在 25°C～55°C 的寬溫度範圍。

❓ Q17：遠距監控用「4-20mA」還是「RS-485 Modbus」更好？

簡答： 取決於距離和數據量：

4-20mA（模擬輸出）： 傳輸距離最遠 500～1000 公尺，但每條線只能傳一個數據點。若要傳 48 個傳感器（壓力、差壓、溫度、液位），需要 48 條線
RS-485 Modbus（數位通訊）： 傳輸距離最遠 1200 公尺，一條線可連接 32～128 個設備。所有數據透過一條雙芯線傳輸

ATLANTIS 的建議： 對於單個小系統（2～3 個 GPU），用 4-20mA 就夠。對於大型系統（8-GPU 以上），強烈推薦 RS-485，理由：

佈線成本低 75%（用一條線代替 48 條線）
故障診斷更詳細（可讀取傳感器的內部狀態、歷史數據）
易於擴展（若未來要加監測點，只需軟體更新，硬體無需改動）

❓ Q18：液冷系統在「熱啟動」（已運行中重啟）和「冷啟動」（完全停機後啟動）時有什麼差別？

簡答： 差別很大，壓力曲線完全不同：

冷啟動： 液溫 25°C，黏度最高，泵浦啟動時壓力升高最快（1～2 秒衝到 2.8 bar）
熱啟動： 液溫 45～50°C（前一次運行剩餘的熱），黏度較低，泵浦啟動時壓力上升較慢（3～4 秒才達 2.5 bar）

為什麼重要： 因為熱啟動時，若泵浦轉速過高，壓力上升慢，系統可能一開始流量不足，冷卻效果差。所以設計上通常會在熱啟動時先降低 GPU 功率（如限制在 70%），等液溫穩定後再升至 100%。

ATLANTIS 的建議： 在壓力表旁邊加一個「啟動模式切換」，讓 PLC 能區分冷啟動和熱啟動，套用不同的控制策略。

❓ Q19：我想「預測式維護」，怎樣從壓力數據看出故障的早期信號？

簡答： 監測以下三個趨勢：

「漂移」（Drift）： 壓力值逐漸升高或下降，但沒有急劇變化。例如，原本恆定在 2.5 bar，逐漸升至 2.7 bar（超過 1 週），表示冷板逐漸堵塞。提前 2～3 週清洗可預防故障
「週期性波動」（Oscillation）： 壓力在 2.3～2.7 bar 之間反覆震盪（週期 10～30 秒）。表示控制迴路不穩定或系統有共振，應檢查泵浦、閥門、管線
「尖刺」（Spike）： 壓力突然跳升 0.5～1.0 bar，然後恢復。通常表示某個冷板瞬間受阻（可能是微粒卡住，然後被沖開）。尖刺越頻繁，故障越近

ATLANTIS 的做法： 所有傳感器的數據會被存檔，可透過 HART 手持裝置或遠距軟體查看「壓力曲線」。系統會自動計算「每日壓力變化率」，當變化率超過閾值時，發出「預警」而不是「報警」，給工程師 2～4 週的預防性維護窗口。

❓ Q20：液冷系統停機時，壓力表和差壓計要做什麼保護？

簡答： 停機時有兩個重要操作：

泵浦關閉前： 確保液溫已經冷卻至 30°C 以下。若在高溫時停泵，液體會被困在冷板內繼續加熱，可能導致沸騰和內壓上升，傷害膜片
泵浦關閉後： 壓力會逐漸降低至 0（這是正常的）。但要監測「降壓速率」。若壓力在 10 分鐘內降至 0（正常），但若降壓太慢（30 分鐘以上才降到 0），表示單向閥可能洩漏或被微粒卡住

定期維護檢查清單： 每月停機後，應檢查：

壓力表是否回到 0 bar（確認單向閥正常）
差壓計是否回到 0 bar（確認所有冷板暢通）
液位有無異常變化（檢測洩漏）
液體顏色是否改變（檢測液體劣化）

第五章：ROI 成本分析：為什麼選 ATLANTIS 的液冷監測方案能為你省錢

成本項目	無監測系統	基礎監測（只有壓力表）	完整監測（壓力+差壓+溫度+液位）
初期投資	0 元	15,000 元	45,000 元（ATLANTIS方案）
年度維保成本	180,000 元（人工巡檢）	45,000 元（減少巡檢頻率）	12,000 元（遠距監控）
平均故障停機次數/年	3～5 次	1～2 次	< 0.5 次（預防性維護）
每次停機損失	150,000 元（8-GPU RTX 5090）	150,000 元	150,000 元（但很少發生）
年度停機總損失	450,000～750,000 元	150,000～300,000 元	< 75,000 元
年度總成本	450,000～750,000 元	195,000～345,000 元	57,000 元
3 年總成本（包含初投）	1,350,000～2,250,000 元	630,000～1,035,000 元	216,000 元
相對節省（vs 無監測）	0%	-30% ～ -50%	-85% ～ -92%

💰 關鍵發現： ATLANTIS 完整監測方案的 3 年 ROI 遠超初投成本。即使只是「避免 1 次停機」，節省額度就足以回本。而且，每預防 1 次故障停機，等於你「白賺」 150 萬。這就是為什麼有遠見的資料中心都願意投資液冷監測。

第六章：三分鐘內決定：我該買哪個方案？

場景 A：我是高校研究室，RTX Spark 一台，預算有限
➜ 選 DPS-2.5SPD3 數位壓力開關
成本：18,000 元 | 預期效益：預防 1 年內 1～2 次過溫故障

場景 B：我是晶片設計公司，8-GPU RTX 5090，需要 24/7 運行
➜ 選 ATLANTIS 三層監測方案（DPS + DPTX + SDPT-3100 + LTPT-410RS）
成本：45,000 元 | 預期效益：3 年節省 1,200,000～1,800,000 元

場景 C：我是資料中心營運商，10 個 GB200 機架，關係國防級應用
➜ 選 ATLANTIS 企業級方案（48 個傳感器 + 中央監控 + 防爆認證）
成本：450,000 元 | 預期效益：3 年節省 1,020,000,000 元以上（年度 GPU 可用性 99.7% vs 96.5%）

結語：「液冷監測」不是成本，是投資

當 GPU 成為「會下金蛋的鵝」，你的責任就是「不讓它停下來」。而液冷監測系統，正是確保它持續產出的關鍵基礎設施。

ATLANTIS 31 年的承諾：

✅ 我們不只賣產品，我們提供「選型諮詢」（免費 30 分鐘）
✅ 我們用 31 年現場經驗為你承擔「選型風險」
✅ 我們提供「全台現貨」和「24 小時應急支援」
✅ 我們的產品符合「ATEX + IECEx + CNS」三重防爆認證
✅ 我們敢說：「若導入後 1 年內故障率超過 2%，我們負責賠償」

31年

台灣工業儀錶製造經驗｜從航太到晶片，ATLANTIS 見證產業升級的每一步

📞 立即開始免費選型諮詢

業務一部（Ian）： ext. 27 | ian@atlantis.com.tw

業務二部（Nori）： ext. 16 | nori@atlantis.com.tw

總機： 02-2820-3405

傳真： 02-2820-3406 / 02-2827-0646

📍 台北市北投區致遠一路二段109號