Zyphra, AMD మరియు IBM AMD యొక్క GPUలు మరియు ప్లాట్ఫారమ్ పెద్ద-స్థాయి AI మోడల్ శిక్షణకు మద్దతు ఇస్తుందో లేదో పరీక్షించడానికి ఒక సంవత్సరం గడిపింది మరియు ఫలితం ZAYA1.
భాగస్వామ్యంతో, మూడు కంపెనీలు ZAYA1కి శిక్షణ ఇచ్చాయి – ఇది పూర్తిగా AMD GPUలు మరియు నెట్వర్కింగ్పై నిర్మించిన మొదటి ప్రధాన మిక్స్చర్-ఆఫ్-ఎక్స్పర్ట్స్ ఫౌండేషన్ మోడల్గా వర్ణించబడింది – AIని స్కేల్ చేయడానికి మార్కెట్ NVIDIAపై ఆధారపడవలసిన అవసరం లేదని వారు రుజువుగా చూస్తారు.
మోడల్ AMD లపై శిక్షణ పొందింది ఇన్స్టింక్ట్ MI300X చిప్స్, పెన్సాండో నెట్వర్కింగ్ మరియు ROCm సాఫ్ట్వేర్, అన్నీ IBM క్లౌడ్ ఇన్ఫ్రాస్ట్రక్చర్లో అమలవుతాయి. సెటప్ ఎంత సాంప్రదాయకంగా కనిపిస్తుంది అనేది గమనించదగ్గ విషయం. ప్రయోగాత్మక హార్డ్వేర్ లేదా అస్పష్టమైన కాన్ఫిగరేషన్లకు బదులుగా, Zyphra ఏదైనా ఎంటర్ప్రైజ్ క్లస్టర్ లాగా సిస్టమ్ను నిర్మించింది—కేవలం NVIDIA యొక్క భాగాలు లేకుండా.
ZAYA1 తార్కికం, గణితం మరియు కోడ్లలో బాగా స్థిరపడిన ఓపెన్ మోడల్లతో సమానంగా మరియు కొన్ని రంగాలలో ముందుందని Zyphra చెప్పింది. సరఫరా పరిమితులు లేదా స్పైరలింగ్ GPU ధరల కారణంగా విసుగు చెందిన వ్యాపారాల కోసం, ఇది చాలా అరుదుగా ఉంటుంది: సామర్థ్యంపై రాజీ పడాల్సిన అవసరం లేని రెండవ ఎంపిక.
AI శిక్షణ పనితీరును తగ్గించకుండా ఖర్చులను తగ్గించుకోవడానికి Zyphra AMD GPUలను ఎలా ఉపయోగించింది
శిక్షణా బడ్జెట్లను ప్లాన్ చేస్తున్నప్పుడు చాలా సంస్థలు అదే తర్కాన్ని అనుసరిస్తాయి: మెమరీ సామర్థ్యం, కమ్యూనికేషన్ వేగం మరియు ఊహాజనిత పునరావృత సమయాలు ముడి సైద్ధాంతిక నిర్గమాంశ కంటే ముఖ్యమైనవి.
ప్రతి GPUకి MI300X యొక్క 192GB అధిక-బ్యాండ్విడ్త్ మెమరీ ఇంజనీర్లకు కొంత శ్వాస గదిని ఇస్తుంది, ఇది భారీ సమాంతరతను వెంటనే ఆశ్రయించకుండా ముందస్తు శిక్షణను అనుమతిస్తుంది. ఇది పెళుసుగా మరియు ట్యూన్ చేయడానికి సమయం తీసుకునే ప్రాజెక్ట్లను సులభతరం చేస్తుంది.
Zyphra InfinityFabric ద్వారా కనెక్ట్ చేయబడిన ఎనిమిది MI300X GPUలతో ప్రతి నోడ్ను నిర్మించింది మరియు ప్రతి ఒక్కటి దాని స్వంత పొల్లారా నెట్వర్క్ కార్డ్తో జత చేసింది. ప్రత్యేక నెట్వర్క్ డేటాసెట్ రీడ్లు మరియు చెక్పాయింటింగ్లను నిర్వహిస్తుంది. ఇది ఒక unfussy డిజైన్, కానీ అది పాయింట్ అనిపిస్తుంది; సరళమైన వైరింగ్ మరియు నెట్వర్క్ లేఅవుట్, స్విచ్ ఖర్చులు తక్కువగా ఉంటాయి మరియు పునరావృత సమయాలను స్థిరంగా ఉంచడం సులభం.
ZAYA1: దాని బరువు కంటే ఎక్కువ పంచ్ చేసే AI మోడల్
ZAYA1-బేస్ మొత్తం 8.3 బిలియన్లలో 760 మిలియన్ పారామితులను సక్రియం చేస్తుంది మరియు మూడు దశల్లో 12 ట్రిలియన్ టోకెన్లపై శిక్షణ పొందింది. ఆర్కిటెక్చర్ కంప్రెస్డ్ అటెన్షన్, టోకెన్లను సరైన నిపుణులకు అందించడానికి రిఫైన్డ్ రూటింగ్ సిస్టమ్ మరియు లోతైన లేయర్లను స్థిరంగా ఉంచడానికి లైటర్-టచ్ అవశేష స్కేలింగ్పై ఆధారపడి ఉంటుంది.
మోడల్ Muon మరియు AdamW మిశ్రమాన్ని ఉపయోగిస్తుంది. AMD హార్డ్వేర్పై Muonని సమర్థవంతంగా చేయడానికి, Zyphra కెర్నల్లను ఫ్యూజ్ చేసింది మరియు అనవసరమైన మెమరీ ట్రాఫిక్ను ట్రిమ్ చేసింది కాబట్టి ఆప్టిమైజర్ ప్రతి పునరావృతంపై ఆధిపత్యం వహించదు. బ్యాచ్ పరిమాణాలు కాలక్రమేణా పెంచబడ్డాయి, అయితే ఇది టోకెన్లను త్వరగా అందించగల నిల్వ పైప్లైన్లను కలిగి ఉండటంపై ఎక్కువగా ఆధారపడి ఉంటుంది.
ఇవన్నీ Qwen3-4B, Gemma3-12B, Llama-3-8B మరియు OLMoE వంటి పెద్ద పీర్లతో పోటీపడే AMD హార్డ్వేర్పై శిక్షణ పొందిన AI మోడల్కి దారి తీస్తుంది. MoE నిర్మాణం యొక్క ఒక ప్రయోజనం ఏమిటంటే, మోడల్ యొక్క స్లివర్ మాత్రమే ఒకేసారి నడుస్తుంది, ఇది అనుమితి మెమరీని నిర్వహించడంలో సహాయపడుతుంది మరియు సేవల ఖర్చును తగ్గిస్తుంది.
ఉదాహరణకు, ఒక బ్యాంక్, ప్రారంభంలో మెలికలు తిరిగిన సమాంతరత అవసరం లేకుండా పరిశోధనల కోసం డొమైన్-నిర్దిష్ట నమూనాకు శిక్షణ ఇవ్వగలదు. MI300X యొక్క మెమరీ హెడ్రూమ్ ఇంజనీర్లకు పునరావృతం చేయడానికి స్థలాన్ని ఇస్తుంది, అయితే ZAYA1 యొక్క కంప్రెస్డ్ అటెన్షన్ మూల్యాంకనం సమయంలో ప్రీఫిల్ సమయాన్ని తగ్గిస్తుంది.
AMD GPUలతో ROCm ప్రవర్తించేలా చేయడం
Zyphra పరిణతి చెందిన NVIDIA-ఆధారిత వర్క్ఫ్లోను ROCmకి తరలించడం పనికి దారితీసిందనే వాస్తవాన్ని దాచలేదు. కాంపోనెంట్లను గుడ్డిగా పోర్టింగ్ చేయడానికి బదులుగా, బృందం AMD హార్డ్వేర్ ఎలా ప్రవర్తిస్తుందో మరియు మోడల్ కొలతలు, GEMM నమూనాలు మరియు మైక్రోబ్యాచ్ పరిమాణాలను MI300X యొక్క ప్రాధాన్య గణన శ్రేణులకు అనుగుణంగా మార్చడం కోసం సమయాన్ని వెచ్చించింది.
ఒక నోడ్లోని మొత్తం ఎనిమిది GPUలు సమిష్టిగా పాల్గొన్నప్పుడు InfinityFabric ఉత్తమంగా పనిచేస్తుంది మరియు పొల్లారా పెద్ద సందేశాలతో గరిష్ట నిర్గమాంశను చేరుకుంటుంది, కాబట్టి Zyphra పరిమాణ ఫ్యూజన్ బఫర్లకు అనుగుణంగా ఉంటుంది. దీర్ఘ-సందర్భ శిక్షణ, 4k నుండి 32k టోకెన్ల వరకు, అడ్డంకులను నివారించడానికి రింగ్ అటెన్షన్పై రింగ్ అటెన్షన్ మరియు డీకోడింగ్ సమయంలో ట్రీ అటెన్షన్పై ఆధారపడింది.
నిల్వ పరిగణనలు సమానంగా ఆచరణాత్మకమైనవి. చిన్న నమూనాలు IOPS సుత్తి; పెద్ద వాటికి నిరంతర బ్యాండ్విడ్త్ అవసరం. Zyphra చెల్లాచెదురుగా ఉన్న రీడ్లను తగ్గించడానికి డేటాసెట్ షార్డ్లను బండిల్ చేసింది మరియు చెక్పాయింట్ రికవరీని వేగవంతం చేయడానికి పర్-నోడ్ పేజీ కాష్లను పెంచింది, ఇది రివైండ్లు అనివార్యమైన సుదీర్ఘ పరుగుల సమయంలో చాలా ముఖ్యమైనది.
వారి పాదాలపై సమూహాలను ఉంచడం
వారాలపాటు నడిచే శిక్షణ ఉద్యోగాలు చాలా అరుదుగా సంపూర్ణంగా ప్రవర్తిస్తాయి. Zyphra యొక్క Aegis సేవ లాగ్లు మరియు సిస్టమ్ మెట్రిక్లను పర్యవేక్షిస్తుంది, NIC గ్లిచ్లు లేదా ECC బ్లిప్స్ వంటి వైఫల్యాలను గుర్తిస్తుంది మరియు స్వయంచాలకంగా సూటిగా దిద్దుబాటు చర్యలను తీసుకుంటుంది. చిన్న నెట్వర్క్ అంతరాయాలు మొత్తం ఉద్యోగాలను నాశనం చేయకుండా ఉండటానికి బృందం RCCL గడువులను కూడా పెంచింది.
చెక్పాయింటింగ్ ఒకే చోక్పాయింట్ ద్వారా బలవంతంగా కాకుండా అన్ని GPUలలో పంపిణీ చేయబడుతుంది. Zyphra అమాయక విధానాలతో పోలిస్తే పది రెట్లు ఎక్కువ వేగవంతమైన ఆదాలను నివేదిస్తుంది, ఇది నేరుగా సమయ సమయాన్ని మెరుగుపరుస్తుంది మరియు ఆపరేటర్ పనిభారాన్ని తగ్గిస్తుంది.
AI సేకరణ కోసం ZAYA1 AMD శిక్షణ మైలురాయి అంటే ఏమిటి
నివేదిక NVIDIA యొక్క పర్యావరణ వ్యవస్థ మరియు AMD యొక్క సమానమైన వాటి మధ్య ఒక క్లీన్ లైన్ను గీస్తుంది: NVLINK vs ఇన్ఫినిటీ ఫాబ్రిక్, NCCL vs RCCL, cuBLASLt vs hipBLASLt మరియు మొదలైనవి. AMD స్టాక్ ఇప్పుడు తీవ్రమైన పెద్ద-స్థాయి మోడల్ అభివృద్ధికి తగినంత పరిపక్వం చెందిందని రచయితలు వాదించారు.
ఇప్పటికే ఉన్న NVIDIA క్లస్టర్లను ఎంటర్ప్రైజ్లు కూల్చివేయాలని ఇవేవీ సూచించవు. MI300X GPUల మెమరీ సామర్థ్యం మరియు ROCm యొక్క ఓపెన్నెస్ నుండి ప్రయోజనం పొందే దశల కోసం AMDని ఉపయోగిస్తున్నప్పుడు NVIDIAని ఉత్పత్తి కోసం ఉంచడం మరింత వాస్తవిక మార్గం. ఇది సరఫరాదారు ప్రమాదాన్ని వ్యాప్తి చేస్తుంది మరియు పెద్ద అంతరాయం లేకుండా మొత్తం శిక్షణ వాల్యూమ్ను పెంచుతుంది.
ఇది అన్ని సిఫార్సుల సమితికి దారి తీస్తుంది: మోడల్ ఆకారాన్ని సర్దుబాటు చేయదగినదిగా పరిగణించండి, స్థిరంగా లేదు; మీ శిక్షణ వాస్తవానికి ఉపయోగించే సామూహిక కార్యకలాపాల చుట్టూ డిజైన్ నెట్వర్క్లు; కేవలం లాగింగ్ వైఫల్యాల కంటే GPU గంటలను రక్షించే తప్పు సహనాన్ని రూపొందించండి; మరియు చెక్పాయింటింగ్ను ఆధునీకరించండి, తద్వారా ఇది ఇకపై శిక్షణ లయను పట్టాలు తప్పదు.
ఇది మానిఫెస్టో కాదు, AMD GPUలలో పెద్ద MoE AI మోడల్కు శిక్షణ ఇవ్వడం ద్వారా Zyphra, AMD మరియు IBM నేర్చుకున్న వాటి నుండి మా ప్రాక్టికల్ టేకావే మాత్రమే. కేవలం ఒక విక్రేతపై ఆధారపడకుండా AI సామర్థ్యాన్ని విస్తరించాలని చూస్తున్న సంస్థల కోసం, ఇది సమర్థవంతమైన ఉపయోగకరమైన బ్లూప్రింట్.
ఇవి కూడా చూడండి: Google తదుపరి 4-5 సంవత్సరాలలో 1000x మరిన్ని AI మౌలిక సదుపాయాలకు కట్టుబడి ఉంది

పరిశ్రమ ప్రముఖుల నుండి AI మరియు పెద్ద డేటా గురించి మరింత తెలుసుకోవాలనుకుంటున్నారా? తనిఖీ చేయండి AI & బిగ్ డేటా ఎక్స్పో ఆమ్స్టర్డామ్, కాలిఫోర్నియా మరియు లండన్లో జరుగుతున్నాయి. సమగ్ర కార్యక్రమం ఇందులో భాగమే టెక్ఎక్స్ మరియు సహా ఇతర ప్రముఖ సాంకేతిక ఈవెంట్లతో కలిసి ఉంది సైబర్ సెక్యూరిటీ ఎక్స్పో. క్లిక్ చేయండి ఇక్కడ మరింత సమాచారం కోసం.
AI వార్తలు ఆధారితం టెక్ఫోర్జ్ మీడియా. రాబోయే ఇతర ఎంటర్ప్రైజ్ టెక్నాలజీ ఈవెంట్లు మరియు వెబ్నార్లను అన్వేషించండి ఇక్కడ.