Dátové centrum

PoÚtStŠtPiSoNe
Loading backend data

AI infraštruktúra

UVT prevádzkuje v rámci svojho dátového centra aj systém Nvidia DGX, ktorý je primárne určený pre výskum a vývoj umelej intelicencie, strojového učenia a pokročilých technik analýzy dát. Systém je vybavený procesorom AMD EPYC 7742 s 64 jadrami a 128 vláknami, pracujúcim na frekvencii 2,25 GHz (boost do 3,4 GHz). Disponuje 1 TB DDR4 RAM s frekvenciou 3200 MHz a podporou ECC. Grafický výkon zabezpečuje osem kariet NVIDIA A100, každá s 40 GB HBM2e pamäte, 6 912 CUDA jadrami a 432 Tensor jadrami, s priepustnosťou 1,6 TB/s. Úložisko predstavuje NVMe disk s kapacitou 15 TB. Systém využíva Python notebooky, konfigurované pomocou Docker kontajnerov a Kubernetes, čo umožňuje efektívne nasadzovanie a správu aplikácií. Na orchestráciu strojového učenia je implementovaný Kubeflow, ktorý poskytuje nástroje na vývoj, tréning a nasadzovanie modelov v prostredí Kubernetes. Kubeflow je open-source platforma navrhnutá špeciálne pre Kubernetes, umožňujúca jednoduché, prenosné a škálovateľné nasadzovanie pracovných postupov strojového učenia. Kubeflow integruje rôzne nástroje a frameworky, čím poskytuje komplexné riešenie pre celý životný cyklus strojového učenia, od prípravy dát, cez tréning modelov až po ich nasadenie a monitorovanie. Konfigurácia pomocou Docker kontajnerov zabezpečuje prenositeľnosť aplikácií tým, že umožňuje ich balenie spolu so všetkými závislosťami do izolovaných prostredí. Tento prístup eliminuje problémy spojené s rozdielmi v prostrediach, v ktorých aplikácie bežia, a zaručuje konzistentné správanie na rôznych platformách. Vďaka tomu je možné aplikácie jednoducho nasadzovať a spúšťať na rôznych systémoch bez potreby dodatočných úprav alebo konfigurácií.

Disponibilita HW zdrojov systému
Systém NVIDIA DGX je vybavený ôsmimi A100 GPU kartami, ktoré sú nakonfigurované nasledovne:

  • 4 karty s 40 GB pamäťou
  • 2 karty s 20 GB pamäťou
  • 3 karty s 10 GB pamäťou
  • 10 kariet s 5 GB pamäťou

Každý z aktívnych používateľov má možnosť požiadať o pridelenie zdrojov cez preddefinované kvóty:

  • CPU: max. 40 jadier
  • Pamäť: max. 40 GiB
  • GPU zdroje:
    • max. 3x 5 GB (MIG-1g.5gb)
    • max. 1x 10 GB (MIG-2g.10gb)
    • max. 1x 20 GB (MIG-3g.20gb)
    • max. 1 fyzická GPU karta

Systém prezentuje všetky dostupné zdroje, avšak ak nie sú momentálne voľné, ste automaticky zaradený do čakacieho radu. Po uvoľnení zdrojov systém alokuje požadované zdroje automaticky.

Prístup a práca so systémom
Prístup k systému je možný iba cez Docker kontajnery. Každý používateľ si môže vytvoriť vlastný kontajner a pracovať v ňom. Priame pripojenie cez SSH alebo SCP momentálne nie je dostupné.

Odporúčame nasledujúce alternatívy:

  • Prenos súborov: Prenos dokumentov je možný iba cez webové rozhranie. Alternatívne môžete do kontajnera pripojiť požadovaný sieťový share alebo stiahnuť súbory priamo z webového servera pomocou príkazu wget.
  • Inštalácia balíčkov: Balíčky si môžete pripraviť vopred a zahrnúť ich do vlastného Docker image. Alternatívne môžete využiť preddefinovaný kontajner, ktorý umožňuje nahrávať a inštalovať akékoľvek potrebné balíčky. Používateľ má prístup ku konzole cez webové rozhranie, kde môže zadávať Linux príkazy na inštaláciu či konfiguráciu.
  • Nahrávanie viacerých súborov: Pre uľahčenie práce odporúčame nahrať súbory vo forme archívu (napr. ZIP) a následne ich rozbaliť priamo v kontajneri.

Vyššie uvedené limity sú nastavené s cieľom zabezpečiť spravodlivé využívanie zdrojov medzi všetkými používateľmi.

Bližšie informácie poskytne: Ing.Maroš Harahus, Phd. maros.harahus@tuke.sk, kl.7630