PUNCH4NFDI 聯邦異構計算與儲存基礎架構

1 簡介

PUNCH4NFDI 代表由德國粒子物理、天體物理、天體粒子物理、強子物理與核物理領域約 9,000 名科學家組成的聯盟。該聯盟由德國研究基金會（DFG）作為國家研究資料基礎設施（NFDI）計畫的一部分資助，旨在建立一個聯邦科學資料平台，為參與機構提供符合 FAIR（可搜尋、可存取、可互通、可重複使用）原則的資料與計算資源存取。

9,000+

代表科學家人數

5 年

初始資助期間

多重

研究社群

2 聯邦異構計算基礎架構

Compute4PUNCH 計畫旨在解決整合多樣化計算資源的挑戰，包括由參與機構以實物貢獻形式提供的高吞吐量計算（HTC）、高效能計算（HPC）與雲端資源。

2.1 資源整合架構

此架構採用 HTCondor 作為覆蓋式批次系統，透過 COBalD/TARDIS 資源元排程器動態整合異構資源。這種方法能在維持供應站點現有運作模式的前提下，實現透明的資源共享。

2.2 存取與認證框架

基於權杖的認證與授權基礎設施（AAI）為計算資源提供標準化存取。傳統登入節點與 JupyterHub 作為入口點，為使用者提供存取聯邦基礎架構的靈活介面。

2.3 軟體環境管理

容器技術與 CERN 虛擬機器檔案系統（CVMFS）確保在異構基礎架構上可擴展地佈建特定社群所需的軟體環境。

3 儲存聯邦基礎架構

Storage4PUNCH 專注於聯邦化由社群提供的儲存系統，這些系統主要基於 dCache 與 XRootD 技術，並採用高能物理（HEP）領域中已確立的方法。

3.1 儲存技術整合

此基礎架構透過標準化協定與介面整合多樣化的儲存系統，在維持地方自主權的同時，實現跨參與機構的統一資料存取。

3.2 元資料與快取解決方案

現有的快取與元資料處理技術正在接受評估，以期實現更深入的整合，目標是優化聯邦儲存環境中的資料探索與存取效能。

關鍵分析：聯邦基礎架構評估

核心洞察

PUNCH4NFDI 的聯邦方法代表了理想資源共享與現有基礎架構實際限制之間的務實妥協。該架構承認，在科學計算中，政治與組織障礙往往比技術挑戰更為關鍵。透過建立在 HTCondor 和 dCache 等成熟技術之上，他們採取的是穩健而非革命性的策略。

邏輯脈絡

技術進展遵循清晰的模式：從行之有效的工具（經過驗證的 HEP 工具）開始，增加聯邦層（COBalD/TARDIS），並最大限度地減少對現有運作的干擾。這種漸進式方法與歐洲網格基礎設施（EGI）等更雄心勃勃的網格計算計畫形成鮮明對比，後者常因複雜性而難以推廣。基於權杖的 AAI 顯示其從先前專案（如 EduGAIN）中遇到的聯邦身份管理挑戰中汲取了經驗。

優勢與缺陷

優勢： 對資源供應商的最低干擾要求具有戰略性的高明之處——它顯著降低了採用門檻。使用容器化與 CVMFS 進行軟體分發，解決了異構計算環境中最持久的問題之一。聚焦於成熟的 HEP 技術，在其目標社群中提供了即時的可信度。

缺陷： 對 HTCondor 的嚴重依賴造成了架構上的單點依賴。雖然在 HEP 情境中已獲驗證，但這種方法可能限制非 HEP 工作負載的靈活性。文件幾乎未提及服務品質保證或資源優先順序機制——這對於生產級科學工作流程是關鍵的缺失。相較於基於 Kubernetes 的聯邦等更現代的方法（如 Science Mesh 專案所見），他們的架構感覺有些過時。

可行建議

研究聯盟應效法 PUNCH4NFDI 的供應商優先方法，但應輔以更強的服務等級目標。聯邦層應朝著雲端原生技術演進，同時保持 HTCondor 相容性。最重要的是，他們必須解決元資料聯邦化的缺口——若沒有精密的跨系統元資料管理，跨聯邦的資料可發現性將持續受限。參考成功的實作案例（如 Materials Cloud 基礎架構）可為平衡聯邦化與功能性提供寶貴經驗。

4 技術分析框架

聯邦環境中的資源分配問題可以使用最佳化理論來建模。令 $R = \{r_1, r_2, ..., r_n\}$ 代表可用資源的集合，每個資源具有容量 $C_i$ 與當前使用率 $U_i$。工作負載分配的最佳化目標可表示為：

$$\min\sum_{i=1}^{n} \left( \frac{U_i + w_j}{C_i} \right)^2 + \lambda\sum_{i=1}^{n} \sum_{j=1}^{m} d_{ij}x_{ij}$$

其中 $w_j$ 代表輸入的工作負載 $j$，$d_{ij}$ 是資料傳輸成本，而 $x_{ij}$ 是分配決策變數。此二次成本函數有助於在異構資源間平衡負載，同時最小化資料移動的開銷。

分析框架範例

資源選擇決策矩陣：

對於一個需要 1000 CPU 小時與 5TB 暫存儲存空間的典型天文學資料分析工作流程，此框架評估：

HTC 資源： 最適合易平行化任務，高作業吞吐量
HPC 資源： 適合緊密耦合的模擬，較低延遲需求
雲端資源： 對突發容量具靈活性，每計算小時成本較高

決策演算法權衡包括資料區域性、佇列等待時間與架構相容性在內的因素，以自動將工作負載路由至適當的資源。

5 實驗結果與效能表現

初步原型實作證明了聯邦方法的可行性。使用參與社群的科學應用程式進行測試顯示：

使用統一憑證成功跨 5 個不同資源供應商提交作業
跨聯邦資源的平均作業啟動延遲為 45 秒
透過 CVMFS 部署軟體環境，將設定時間從數小時縮短至數分鐘
儲存聯邦實現跨站點資料存取，效能與本地存取相比差距在 15% 以內

這些效能特性符合對聯邦基礎架構的預期，其中資源匯聚的好處必須與跨管理域協調和資料移動的開銷取得平衡。

6 未來應用與發展

此聯邦基礎架構為未來發展開啟了數個有前景的方向：

機器學習工作負載： 擴展對富含 GPU 資源與 ML 框架容器的支援
互動式分析： 增強 JupyterHub 整合，以實現跨聯邦資料集的即時資料探索
國際聯邦： 參照 LHC 計算模式，與其他國家的類似基礎架構進行潛在整合
量子計算整合： 為隨著量子資源可用而出現的混合經典-量子工作流程做準備

該架構的模組化設計允許逐步採用新興技術，同時保持與現有工作流程的向後相容性。

7 參考文獻

Thain, D., Tannenbaum, T., & Livny, M. (2005). Distributed computing in practice: The Condor experience. Concurrency and Computation: Practice and Experience, 17(2-4), 323-356.
Blomer, J., et al. (2011). Scaling CVMFS to many millions of files. Journal of Physics: Conference Series, 331(4), 042003.
Frey, J., et al. (2002). Condor-G: A computation management agent for multi-institutional grids. Cluster Computing, 5(3), 237-246.
European Grid Infrastructure. (2023). EGI Federated Cloud. Retrieved from https://www.egi.eu/federated-cloud/
Science Mesh. (2023). Federated infrastructure for scientific collaboration. Retrieved from https://sciencemesh.io/
Materials Cloud. (2023). A platform for open science in materials research. Retrieved from https://www.materialscloud.org/

目錄