AI infraštruktúra
UVT prevádzkuje v rámci svojho dátového centra aj systém Nvidia DGX, ktorý je primárne určený pre výskum a vývoj umelej intelicencie, strojového učenia a pokročilých technik analýzy dát. Systém je vybavený procesorom AMD EPYC 7742 s 64 jadrami a 128 vláknami, pracujúcim na frekvencii 2,25 GHz (boost do 3,4 GHz). Disponuje 1 TB DDR4 RAM s frekvenciou 3200 MHz a podporou ECC. Grafický výkon zabezpečuje osem kariet NVIDIA A100, každá s 40 GB HBM2e pamäte, 6 912 CUDA jadrami a 432 Tensor jadrami, s priepustnosťou 1,6 TB/s. Úložisko predstavuje NVMe disk s kapacitou 15 TB. Systém využíva Python notebooky, konfigurované pomocou Docker kontajnerov a Kubernetes, čo umožňuje efektívne nasadzovanie a správu aplikácií. Na orchestráciu strojového učenia je implementovaný Kubeflow, ktorý poskytuje nástroje na vývoj, tréning a nasadzovanie modelov v prostredí Kubernetes. Kubeflow je open-source platforma navrhnutá špeciálne pre Kubernetes, umožňujúca jednoduché, prenosné a škálovateľné nasadzovanie pracovných postupov strojového učenia. Kubeflow integruje rôzne nástroje a frameworky, čím poskytuje komplexné riešenie pre celý životný cyklus strojového učenia, od prípravy dát, cez tréning modelov až po ich nasadenie a monitorovanie. Konfigurácia pomocou Docker kontajnerov zabezpečuje prenositeľnosť aplikácií tým, že umožňuje ich balenie spolu so všetkými závislosťami do izolovaných prostredí. Tento prístup eliminuje problémy spojené s rozdielmi v prostrediach, v ktorých aplikácie bežia, a zaručuje konzistentné správanie na rôznych platformách. Vďaka tomu je možné aplikácie jednoducho nasadzovať a spúšťať na rôznych systémoch bez potreby dodatočných úprav alebo konfigurácií.
Disponibilita HW zdrojov systému
Systém NVIDIA DGX je vybavený ôsmimi A100 GPU kartami, ktoré sú nakonfigurované nasledovne:
- 4 karty s 40 GB pamäťou
- 2 karty s 20 GB pamäťou
- 3 karty s 10 GB pamäťou
- 10 kariet s 5 GB pamäťou
Každý z aktívnych používateľov má možnosť požiadať o pridelenie zdrojov cez preddefinované kvóty:
- CPU: max. 40 jadier
- Pamäť: max. 40 GiB
- GPU zdroje:
- max. 3x 5 GB (MIG-1g.5gb)
- max. 1x 10 GB (MIG-2g.10gb)
- max. 1x 20 GB (MIG-3g.20gb)
- max. 1 fyzická GPU karta
Systém prezentuje všetky dostupné zdroje, avšak ak nie sú momentálne voľné, ste automaticky zaradený do čakacieho radu. Po uvoľnení zdrojov systém alokuje požadované zdroje automaticky.
Prístup a práca so systémom
Prístup k systému je možný iba cez Docker kontajnery. Každý používateľ si môže vytvoriť vlastný kontajner a pracovať v ňom. Priame pripojenie cez SSH alebo SCP momentálne nie je dostupné.
Odporúčame nasledujúce alternatívy:
- Prenos súborov: Prenos dokumentov je možný iba cez webové rozhranie. Alternatívne môžete do kontajnera pripojiť požadovaný sieťový share alebo stiahnuť súbory priamo z webového servera pomocou príkazu
wget
. - Inštalácia balíčkov: Balíčky si môžete pripraviť vopred a zahrnúť ich do vlastného Docker image. Alternatívne môžete využiť preddefinovaný kontajner, ktorý umožňuje nahrávať a inštalovať akékoľvek potrebné balíčky. Používateľ má prístup ku konzole cez webové rozhranie, kde môže zadávať Linux príkazy na inštaláciu či konfiguráciu.
- Manuál na zostavenie kontajnera: https://thenewstack.io/tutorial-build-custom-container-images-for-a-kubeflow-notebook-server/
- Príklad zostaveného kontajnera: https://hub.docker.com/r/matoh12/kubeflow-ubuntu20.04
- Nahrávanie viacerých súborov: Pre uľahčenie práce odporúčame nahrať súbory vo forme archívu (napr. ZIP) a následne ich rozbaliť priamo v kontajneri.
Vyššie uvedené limity sú nastavené s cieľom zabezpečiť spravodlivé využívanie zdrojov medzi všetkými používateľmi.
Bližšie informácie poskytne: Ing.Maroš Harahus, Phd. maros.harahus@tuke.sk, kl.7630