انتخاب زبان

Compute4PUNCH و Storage4PUNCH: زیرساخت فدرال برای فیزیک ذرات، اخترفیزیک و هسته‌ای

تحلیل مفاهیم محاسباتی و ذخیره‌سازی فدرال PUNCH4NFDI، یکپارچه‌سازی منابع ناهمگون HPC، HTC و ابری با ذخیره‌سازی dCache/XRootD برای تحلیل علمی یکپارچه داده‌ها.
computepoints.com | PDF Size: 0.5 MB
امتیاز: 4.5/5
امتیاز شما
شما قبلاً به این سند امتیاز داده اید
جلد سند PDF - Compute4PUNCH و Storage4PUNCH: زیرساخت فدرال برای فیزیک ذرات، اخترفیزیک و هسته‌ای

1. مقدمه و مرور کلی

PUNCH4NFDI (ذرات، کیهان، هسته‌ها و هادرون‌ها برای زیرساخت ملی داده‌های پژوهشی) یک کنسرسیوم بزرگ آلمانی است که تقریباً ۹۰۰۰ دانشمند از حوزه‌های فیزیک ذرات، اخترفیزیک، اخترذرات، هادرون و فیزیک هسته‌ای را نمایندگی می‌کند. این کنسرسیوم که توسط DFG (بنیاد پژوهشی آلمان) تأمین مالی می‌شود، هدف اصلی آن ایجاد یک پلتفرم علمی داده‌ای فدرال و FAIR (قابل یافتن، قابل دسترسی، قابل تعامل و قابل استفاده مجدد) است. این پلتفرم در پی فراهم‌آوردن دسترسی یکپارچه به منابع محاسباتی و ذخیره‌سازی متنوع و ناهمگون پراکنده در میان مؤسسات مشارکت‌کننده است تا چالش مشترک تحلیل حجم‌های داده‌ای با رشد نمایی با الگوریتم‌های پیچیده را برطرف کند.

مفاهیم Compute4PUNCH و Storage4PUNCH ستون‌های فنی طراحی شده برای فدرال کردن مشارکت‌های عینی منابع محاسباتی با توان عملیاتی بالا (HTC)، محاسبات با کارایی بالا (HPC) و منابع ابری، و همچنین سیستم‌های ذخیره‌سازی مبتنی بر فناوری‌هایی مانند dCache و XRootD هستند.

نگاهی اجمالی به کنسرسیوم

  • دانشمندان نمایندگی شده: حدود ۹۰۰۰ دکترا
  • مؤسسات کلیدی: انجمن ماکس پلانک، انجمن لایبنیتس، انجمن هلمهولتز
  • تأمین مالی اولیه: ۵ سال توسط DFG
  • چالش فنی هسته‌ای: فدرال کردن سیستم‌های عملیاتی ناهمگون و از پیش موجود با حداقل مداخله.

2. زیرساخت محاسباتی ناهمگون فدرال (Compute4PUNCH)

مفهوم Compute4PUNCH به چالش فراهم‌آوردن دسترسی یکپارچه به مجموعه‌ای از منابع محاسباتی تأمین‌شده توسط جامعه با معماری‌ها، سیستم‌های عامل، پشته‌های نرم‌افزاری و سیستم‌های احراز هویت متفاوت می‌پردازد.

2.1 معماری هسته‌ای و چالش یکپارچه‌سازی

اصل طراحی بنیادی، ایجاد یک سیستم دسته‌ای لایه‌ای است که بر روی استخرهای منابع موجود قرار می‌گیرد. این رویکرد تغییرات اجباری برای ارائه‌دهندگان منابع را به حداقل می‌رساند، که یک الزام حیاتی است زیرا این منابع از قبل به اشتراک گذاشته شده و عملیاتی هستند. ناهمگونی نه با همگن‌سازی زیرساخت پایه، بلکه با ساخت یک لایه انتزاعی هوشمند بر روی آن مدیریت می‌شود.

2.2 فناوری‌های کلیدی: HTCondor، COBalD/TARDIS، CVMFS

  • HTCondor: به عنوان سیستم دسته‌ای لایه‌ای فدرال عمل می‌کند و ارسال، زمان‌بندی و اجرای کارها را در منابع توزیع‌شده مدیریت می‌کند.
  • COBalD/TARDIS: به عنوان فرازمان‌بند منابع عمل می‌کند. این فناوری به صورت پویا منابع را کشف و در استخر HTCondor ادغام می‌کند و فدراسیون را تطبیق‌پذیر و شفاف می‌سازد. TARDIS با استفاده از "پایلوت‌ها" اسلات‌ها را در منابع راه‌دور تصاحب می‌کند و به کارهای HTCondor اجازه اجرا می‌دهد.
  • سیستم فایل ماشین مجازی سرن (CVMFS): مشکل محیط نرم‌افزاری را حل می‌کند. این سیستم یک مخزن نرم‌افزاری مقیاس‌پذیر، فقط خواندنی و کش‌شده را به تمام گره‌های کارگر تحویل می‌دهد و محیط‌های کاربردی یکنواخت را بدون نیاز به نصب محلی تضمین می‌کند.
  • فناوری‌های کانتینر: در کنار CVMFS برای کپسوله‌سازی وابستگی‌های پیچیده و فراهم‌آوردن محیط‌های زمان اجرای ایزوله و قابل تکرار استفاده می‌شوند.

2.3 دسترسی کاربر: JupyterHub و زیرساخت احراز هویت مبتنی بر توکن (AAI)

نقاط ورود کاربر برای سهولت استفاده طراحی شده‌اند:

  • JupyterHub: یک رابط محاسباتی تعاملی مبتنی بر وب فراهم می‌آورد که برای تحلیل اکتشافی و نمونه‌سازی اولیه ایده‌آل است.
  • گره‌های ورود سنتی: برای کاربرانی با گردش کارهای خط فرمانی تثبیت‌شده مناسب هستند.
  • زیرساخت احراز هویت و مجوز مبتنی بر توکن (AAI): یک روش استاندارد و ایمن برای دسترسی به منابع محاسباتی و ذخیره‌سازی در مرزهای مؤسساتی فراهم می‌آورد که سنگ بنای فدراسیون است.

3. زیرساخت ذخیره‌سازی فدرال (Storage4PUNCH)

به موازات محاسبات، منابع ذخیره‌سازی فدرال می‌شوند تا یک لایه دسترسی یکپارچه به داده فراهم آورند.

3.1 فدراسیون ذخیره‌سازی با dCache و XRootD

منظر ذخیره‌سازی عمدتاً از سیستم‌هایی تشکیل شده است که از فناوری‌های dCache یا XRootD استفاده می‌کنند، که هر دو در فیزیک انرژی بالا (HEP) به خوبی تثبیت شده‌اند. Storage4PUNCH از روش‌های فدراسیونی استفاده می‌کند که در جامعه گسترده‌تر HEP اثبات شده‌اند تا یک فضای نام مشترک و پروتکل دسترسی ایجاد کند و امکان مکان‌یابی و بازیابی شفاف داده از هر عنصر ذخیره‌سازی مشارکت‌کننده را فراهم آورد.

3.2 کش و یکپارچه‌سازی فراداده

این پروژه در حال ارزیابی فناوری‌های موجود برای موارد زیر است:

  • کش: برای کاهش تأخیر و ترافیک شبکه گسترده با نگه‌داری داده‌های پرتکرار نزدیک‌تر به منابع محاسباتی.
  • مدیریت فراداده: هدف، یکپارچه‌سازی عمیق‌تر برای فعال‌سازی کشف و مدیریت کارآمد داده بر اساس ویژگی‌های فایل، نه فقط مکان آن است.
این امر، فدراسیون را از دسترسی ساده به داده به سمت مدیریت هوشمند داده سوق می‌دهد.

4. پیاده‌سازی فنی و وضعیت نمونه اولیه

این مفاهیم در حال توسعه فعال هستند. نمونه‌های اولیه‌ای که مجموعه‌های اولیه منابع محاسباتی و ذخیره‌سازی را یکپارچه می‌کنند، ایجاد شده‌اند. در این سند به "اولین تجربیات با برنامه‌های علمی که روی نمونه‌های اولیه موجود اجرا شده‌اند" اشاره شده است که نشان می‌دهد گردش کارهای پذیرندگان اولیه در حال آزمایش هستند تا معماری تأیید و موانع عملی شناسایی شوند. محیط ترکیبی آماده است تا محققان را قادر سازد وظایف تحلیل پرمنبع را در سراسر زیرساخت فدرال اجرا کنند.

5. بینش هسته‌ای و دیدگاه تحلیلی

بینش هسته‌ای

PUNCH4NFDI در حال ساخت یک ابررایانه جدید نیست؛ بلکه در حال مهندسی یک لایه فدراسیون برای ناهمگونی اداری و سیاسی است. نوآوری واقعی، محدودیت عمل‌گرایانه "حداقل مداخله" در سیستم‌های موجود است. این یک طراحی از پایه تمیز مانند خوشه‌های Borg یا Omega گوگل نیست، بلکه یک لایه دیپلماتیک و فنی برای منابع مستقل و قدیمی است. موفقیت آن کمتر به نوآوری فنی خام و بیشتر به حکمرانی و پذیرش وابسته است - درسی که در مبارزات و موفقیت‌های ابر علم باز اروپا (EOSC) نیز تکرار شده است.

جریان منطقی

منطق به زیبایی بازگشتی است: ۱) ناهمگونی را به عنوان یک محدودیت درجه اول بپذیر، ۲) از چسب‌های بالغ و آزمایش‌شده جامعه (HTCondor، dCache) برای ساخت لایه استفاده کن، ۳) بر تحویل محیط اعلانی (CVMFS/کانتینرها) تکیه کن تا نرم‌افزار را از زیرساخت جدا کنی، و ۴) نقاط ورود ساده و مدرن (JupyterHub) را فراهم کن تا پیچیدگی زیرین پنهان شود. این جریان، امکان‌پذیری فدراسیون را بر عملکرد محلی بهینه اولویت می‌دهد، که یک مصالحه ضروری برای همکاری فرامؤسساتی است.

نقاط قوت و ضعف

نقاط قوت: استفاده از میان‌افزارهای آزموده‌شده HEP (HTCondor، XRootD) به شدت ریسک فنی را کاهش می‌دهد. مدل لایه‌ای از نظر سیاسی هوشمندانه است و موانع ورود برای ارائه‌دهندگان منابع را کاهش می‌دهد. CVMFS یک شاه‌کار برای قابلیت حمل نرم‌افزار است، که یک نقطه درد مزمن در محیط‌های ناهمگون است.

نقاط ضعف و ریسک‌ها: فرازمان‌بند (COBalD/TARDIS) یک لایه پیچیدگی و نقاط شکست بالقوه واحد اضافه می‌کند. پیش‌بینی‌پذیری عملکرد در مقایسه با سیستم‌های اختصاصی و همگن آسیب خواهد دید - تأخیر شبکه و رقابت بر سر منابع به عوامل غیرقابل پیش‌بینی تبدیل می‌شوند. این سند در مورد مدل‌های هزینه و پایداری فراتر از تأمین مالی ۵ ساله DFG سکوت کرده است، که یک پرچم قرمز بزرگ برای قابلیت حیات بلندمدت محسوب می‌شود، همان‌طور که در سایر پروژه‌های زیرساخت الکترونیکی که پس از مرحله نمونه اولیه متوقف شدند مشاهده شده است.

بینش‌های عملی

برای سایر کنسرسیوم‌ها: مدل حکمرانی را کپی کنید، نه فقط پشته فناوری. با یک AAI سبک‌وزن و یک مورد استفاده جذاب و واحد شروع کنید. برای خود PUNCH4NFDI: بلافاصله داده‌های معیار مقایسه توان عملیاتی کار فدرال در مقابل محلی و تأخیر دسترسی به داده را منتشر کنید. یک مدل عضویت و اشتراک هزینه طبقه‌بندی‌شده و واضح برای مرحله پس از اعطای کمک‌مالی توسعه دهید. با دنبال کردن مسیر پروژه‌هایی مانند آزمایش CMS روی AWS، یکپارچه‌سازی با ابرهای تجاری برای انفجار ابری (AWS، GCP) را از طریق همان لایه برای مدیریت تقاضای اوج بررسی کنید.

6. جزئیات فنی و چارچوب ریاضی

مسئله زمان‌بندی منابع در چنین فدراسیونی را می‌توان انتزاعی کرد. فرض کنید $R = \{r_1, r_2, ..., r_n\}$ مجموعه منابع ناهمگون باشد که هر کدام دارای ویژگی‌های پویایی مانند هسته‌های در دسترس $C_i(t)$، حافظه $M_i(t)$ و سخت‌افزار تخصصی (مانند GPUها) هستند. فرض کنید $J = \{j_1, j_2, ..., j_m\}$ مجموعه کارها با نیازمندی‌های $\text{req}(j_k)$ باشد.

هدف فرازمان‌بند، یک تابع نگاشت $\mathcal{M}: J \rightarrow R$ است که یک تابع مطلوبیت $U$، که اغلب یک مجموع وزندار از کارایی و انصاف است، را بیشینه می‌کند و در عین حال محدودیت‌ها را رعایت می‌کند:

$$ \text{بیشینه کردن } U = \alpha \cdot \text{Utilization} + \beta \cdot \text{Fairness} - \gamma \cdot \text{Cost}_{\text{data-movement}} $$ $$ \text{با شرط: } \forall r_i, \sum_{j_k \in \mathcal{M}^{-1}(r_i)} \text{req}_{\text{cores}}(j_k) \leq C_i(t) $$

عبارت Costdata-movement در یک محیط ذخیره‌سازی فدرال حیاتی است و زمان‌بندی‌هایی را که نیاز به جابجایی مجموعه داده‌های بزرگ در شبکه‌های گسترده دارند، جریمه می‌کند. این مسئله را از زمان‌بندی کلاسیک خوشه متمایز می‌سازد.

AAI مبتنی بر توکن را می‌توان به عنوان یک سیستم کنترل دسترسی مبتنی بر قابلیت مدل کرد. یک توکن $\tau$ که برای کاربر $u$ و منبع $r$ صادر می‌شود، یک عبارت امضاشده رمزنگاری است: $\tau = \text{Sign}_{\text{AAI}}(u, r, \text{scope}, \text{expiry})$. این امر تصمیمات مجوزدهی را به ارائه‌دهندگان منابع غیرمتمرکز می‌کند، که فقط نیاز به اعتبارسنجی امضای توکن دارند.

7. نتایج آزمایشی و عملکرد نمونه اولیه

اگرچه PDF شامل نتایج کمی خاصی نیست، اما "اولین تجربیات با برنامه‌های علمی" بیان شده، حاکی از آزمایش‌های یکپارچه‌سازی اولیه است. می‌توانیم شاخص‌های کلیدی عملکرد (KPI) که باید اندازه‌گیری شوند را به صورت مفهومی بیان کنیم:

نمودار عملکرد مفهومی: اجرای کار فدرال در مقابل محلی

نوع نمودار: نمودار خطی دو محوره.

محور X: زمان (خط زمانی پروژه یا دسته‌های کار متوالی).

محور Y چپ (میله‌ها): نرخ موفقیت کار (%). این نشان می‌دهد که چند درصد از کارهایی که به سیستم فدرال ارسال می‌شوند در مقایسه با یک خوشه محلی پایدار با موفقیت کامل می‌شوند. مراحل اولیه نمونه اولیه به احتمال زیاد نرخ موفقیت فدرال پایین‌تری را به دلیل مسائل یکپارچه‌سازی (شکست احراز هویت، عدم تطابق محیط نرم‌افزاری، مشکلات شبکه) نشان می‌دهند که با گذشت زمان همگرا می‌شوند.

محور Y راست (خطوط): میانگین زمان چرخش کار (ساعت). این معیار معمولاً برای سیستم فدرال به دلیل سربار زمان‌بندی اضافی، تأخیر مرحله‌بندی داده و صف‌بندی بالقوه در چندین بک‌اند مستقل، بالاتر خواهد بود. هدف به حداقل رساندن این شکاف است. نمودار مصالحه بین دسترسی افزایش‌یافته به منابع (اجرای موفق کارهای بیشتر/بزرگ‌تر) و جریمه زمانی پرداختی برای فدراسیون را به تصویر می‌کشد.

بینش کلیدی از نمودار: ارزش فدراسیون در شکست دادن عملکرد محلی نیست، بلکه در فعال‌سازی بارهای کاری است که در غیر این صورت به دلیل محدودیت منابع محلی غیرممکن بودند، حتی اگر زمان بیشتری ببرند. شیب خط زمان چرخش فدرال که با گذشت زمان کاهش می‌یابد، نشان‌دهنده بلوغ بهینه‌سازی در فرازمان‌بند است.

8. چارچوب تحلیل: مثال مفهومی گردش کار

از آنجایی که PDF شامل کد نیست، در اینجا یک توصیف مفهومی گردش کار مبتنی بر YAML ارائه شده است که یک محقق ممکن است برای تعریف یک کار تحلیل برای فدراسیون Compute4PUNCH/Storage4PUNCH استفاده کند. این امر ماهیت اعلانی سیستم هدف را برجسته می‌کند.

# punch_analysis_workflow.yaml
workflow:
  name: "punch4nfdi_federated_analysis"
  user: "researcher@uni-example.de"
  aai_token: "${PUNCH_AAI_TOKEN}"  # از محیط تزریق می‌شود

compute:
  requirements:
    cores: 8
    memory: "32GB"
    runtime: "48h"
    software_stack: "punchenv/analysis-suite:latest"  # از طریق CVMFS/کانتینر حل می‌شود
    priority: "medium"

storage:
  input_data:
    - protocol: "root"
      path: "root://storage-a.punch.de//experiment/run2023/data_*.root"
      cache_prefetch: true  # اشاره به لایه کش Storage4PUNCH
  output_data:
    - protocol: "s3"
      endpoint: "https://object-store.punch.de"
      path: "/results/${WORKFLOW_ID}/histograms.root"

execution:
  entry_point: "jupyterlab"  # اختیاری: شروع جلسه تعاملی
  # یا
  batch_command: "python /analysis/run_full_chain.py --input ${INPUT_PATH} --output ${OUTPUT_PATH}"

provenance:
  log_level: "detailed"
  export_metadata_to: "meta.punch.de/catalog"

این مشخصه تخیلی نشان می‌دهد که چگونه یک کاربر آنچه نیاز دارد (منابع، نرم‌افزار، داده) را اعلام می‌کند بدون اینکه مشخص کند کجا اجرا می‌شود. میان‌افزار فدراسیون (HTCondor، TARDIS، فدراسیون ذخیره‌سازی) این مشخصه را تفسیر می‌کند، منابع مناسب را پیدا می‌کند، داده را مرحله‌بندی می‌کند، محیط نرم‌افزاری را تزریق می‌کند و کار را اجرا می‌کند و گزارش‌ها و خروجی را به مکان‌های مشخص‌شده گزارش می‌دهد.

9. کاربردهای آینده و نقشه راه توسعه

زیرساخت PUNCH4NFDI پایه‌ای برای چندین کاربرد پیشرفته فراهم می‌کند:

  • تحلیل اخترفیزیک چندپیام‌رسان و چندآزمایشی: ترکیب یکپارچه داده از آشکارسازهای ذرات، تلسکوپ‌ها و رصدخانه‌های امواج گرانشی در یک گردش کار تحلیل واحد، با بهره‌گیری از منابع محاسباتی تخصصی متفاوت (مزرعه‌های GPU برای تحلیل تصویر، HTC برای پردازش رویدادهای ذرات).
  • آموزش مدل‌های هوش مصنوعی/یادگیری ماشین در مقیاس: استخر منابع فدرال می‌تواند به صورت پویا خوشه‌های بزرگ و موقتی برای آموزش مدل‌های پیچیده روی مجموعه داده‌های توزیع‌شده بدون متمرکز کردن داده، تأمین کند که با پارادایم‌های یادگیری فدرال همسو است.
  • اکتشاف و بصری‌سازی تعاملی داده: اتصال رابط JupyterHub با بک‌اندهای بصری‌سازی راه‌دور با کارایی بالا و شتاب‌یافته توسط GPU برای داده‌های شبیه‌سازی در مقیاس بزرگ.
  • یکپارچه‌سازی با زیرساخت‌های الکترونیکی خارجی: معماری لایه‌ای از نظر مفهومی با اتصال به منابع در مقیاس اروپایی مانند ابر علم باز اروپا (EOSC) یا سیستم‌های HPC PRACE سازگار است و می‌تواند به عنوان یک دروازه آلمانی عمل کند.

اولویت‌های نقشه راه توسعه:

  1. استحکام و تولیدی‌سازی: حرکت از نمونه اولیه به یک سرویس قابل اعتماد ۲۴/۷ با SLA.
  2. جای‌گذاری هوشمند داده: تقویت فرازمان‌بند با آگاهی از مکان داده برای به حداقل رساندن $\text{Cost}_{\text{data-movement}}$.
  3. کاتالوگ فراداده پیشرفته: پیاده‌سازی یک سیستم فراداده قدرتمند و قابل جستجو بر روی Storage4PUNCH برای فعال‌سازی کشف داده بر اساس ویژگی‌های فیزیکی.
  4. معیارهای محاسبات سبز: یکپارچه‌سازی ابزارها برای نظارت و بهینه‌سازی کارایی انرژی در سراسر منابع فدرال، که نگرانی رو به رشدی برای محاسبات در مقیاس بزرگ است.

10. منابع

  1. کنسرسیوم PUNCH4NFDI. (۲۰۲۴). "PUNCH4NFDI - ذرات، کیهان، هسته‌ها و هادرون‌ها برای NFDI." وب‌سایت رسمی. https://www.punch4nfdi.de/
  2. Thain, D., Tannenbaum, T., & Livny, M. (2005). "Distributed computing in practice: the Condor experience." Concurrency and Computation: Practice and Experience, 17(2-4), 323-356. (مقاله بنیادی HTCondor).
  3. Blomer, J., et al. (2011). "The CernVM File System: A scalable, read-only, software distribution service." Journal of Physics: Conference Series, 331(5), 052004. (جزئیات درباره CVMFS).
  4. کمیسیون اروپا. (۲۰۲۴). "ابر علم باز اروپا (EOSC)." https://eosc-portal.eu/ (برای مقایسه چالش‌های فدراسیون در مقیاس اتحادیه اروپا).
  5. Verma, A., et al. (2015). "Large-scale cluster management at Google with Borg." Proceedings of the European Conference on Computer Systems (EuroSys). (مدیریت خوشه از پایه تمیز را در مقابل لایه‌های فدراسیون مقایسه می‌کند).
  6. همکاری CMS. (2021). "CMS Computing Operations in the AWS Cloud." EPJ Web of Conferences, 251, 02006. (نمونه‌ای از مدل ترکیبی ابر/فدراسیون).
  7. اصول داده FAIR. (2016). FORCE11. https://www.go-fair.org/fair-principles/ (اصول راهنما برای پلتفرم داده PUNCH).