శిక్షణ కోసం AMD GPUలను ఉపయోగించే AI మోడల్ మైలురాయిని అధిగమించింది

Zyphra, AMD మరియు IBM AMD యొక్క GPUలు మరియు ప్లాట్‌ఫారమ్ పెద్ద-స్థాయి AI మోడల్ శిక్షణకు మద్దతు ఇస్తుందో లేదో పరీక్షించడానికి ఒక సంవత్సరం గడిపింది మరియు ఫలితం ZAYA1.

భాగస్వామ్యంతో, మూడు కంపెనీలు ZAYA1కి శిక్షణ ఇచ్చాయి – ఇది పూర్తిగా AMD GPUలు మరియు నెట్‌వర్కింగ్‌పై నిర్మించిన మొదటి ప్రధాన మిక్స్‌చర్-ఆఫ్-ఎక్స్‌పర్ట్స్ ఫౌండేషన్ మోడల్‌గా వర్ణించబడింది – AIని స్కేల్ చేయడానికి మార్కెట్ NVIDIAపై ఆధారపడవలసిన అవసరం లేదని వారు రుజువుగా చూస్తారు.

మోడల్ AMD లపై శిక్షణ పొందింది ఇన్స్టింక్ట్ MI300X చిప్స్, పెన్సాండో నెట్‌వర్కింగ్ మరియు ROCm సాఫ్ట్‌వేర్, అన్నీ IBM క్లౌడ్ ఇన్‌ఫ్రాస్ట్రక్చర్‌లో అమలవుతాయి. సెటప్ ఎంత సాంప్రదాయకంగా కనిపిస్తుంది అనేది గమనించదగ్గ విషయం. ప్రయోగాత్మక హార్డ్‌వేర్ లేదా అస్పష్టమైన కాన్ఫిగరేషన్‌లకు బదులుగా, Zyphra ఏదైనా ఎంటర్‌ప్రైజ్ క్లస్టర్ లాగా సిస్టమ్‌ను నిర్మించింది—కేవలం NVIDIA యొక్క భాగాలు లేకుండా.

ZAYA1 తార్కికం, గణితం మరియు కోడ్‌లలో బాగా స్థిరపడిన ఓపెన్ మోడల్‌లతో సమానంగా మరియు కొన్ని రంగాలలో ముందుందని Zyphra చెప్పింది. సరఫరా పరిమితులు లేదా స్పైరలింగ్ GPU ధరల కారణంగా విసుగు చెందిన వ్యాపారాల కోసం, ఇది చాలా అరుదుగా ఉంటుంది: సామర్థ్యంపై రాజీ పడాల్సిన అవసరం లేని రెండవ ఎంపిక.

AI శిక్షణ పనితీరును తగ్గించకుండా ఖర్చులను తగ్గించుకోవడానికి Zyphra AMD GPUలను ఎలా ఉపయోగించింది

శిక్షణా బడ్జెట్‌లను ప్లాన్ చేస్తున్నప్పుడు చాలా సంస్థలు అదే తర్కాన్ని అనుసరిస్తాయి: మెమరీ సామర్థ్యం, కమ్యూనికేషన్ వేగం మరియు ఊహాజనిత పునరావృత సమయాలు ముడి సైద్ధాంతిక నిర్గమాంశ కంటే ముఖ్యమైనవి.

ప్రతి GPUకి MI300X యొక్క 192GB అధిక-బ్యాండ్‌విడ్త్ మెమరీ ఇంజనీర్‌లకు కొంత శ్వాస గదిని ఇస్తుంది, ఇది భారీ సమాంతరతను వెంటనే ఆశ్రయించకుండా ముందస్తు శిక్షణను అనుమతిస్తుంది. ఇది పెళుసుగా మరియు ట్యూన్ చేయడానికి సమయం తీసుకునే ప్రాజెక్ట్‌లను సులభతరం చేస్తుంది.

Zyphra InfinityFabric ద్వారా కనెక్ట్ చేయబడిన ఎనిమిది MI300X GPUలతో ప్రతి నోడ్‌ను నిర్మించింది మరియు ప్రతి ఒక్కటి దాని స్వంత పొల్లారా నెట్‌వర్క్ కార్డ్‌తో జత చేసింది. ప్రత్యేక నెట్‌వర్క్ డేటాసెట్ రీడ్‌లు మరియు చెక్‌పాయింటింగ్‌లను నిర్వహిస్తుంది. ఇది ఒక unfussy డిజైన్, కానీ అది పాయింట్ అనిపిస్తుంది; సరళమైన వైరింగ్ మరియు నెట్‌వర్క్ లేఅవుట్, స్విచ్ ఖర్చులు తక్కువగా ఉంటాయి మరియు పునరావృత సమయాలను స్థిరంగా ఉంచడం సులభం.

ZAYA1: దాని బరువు కంటే ఎక్కువ పంచ్ చేసే AI మోడల్

ZAYA1-బేస్ మొత్తం 8.3 బిలియన్లలో 760 మిలియన్ పారామితులను సక్రియం చేస్తుంది మరియు మూడు దశల్లో 12 ట్రిలియన్ టోకెన్‌లపై శిక్షణ పొందింది. ఆర్కిటెక్చర్ కంప్రెస్డ్ అటెన్షన్, టోకెన్‌లను సరైన నిపుణులకు అందించడానికి రిఫైన్డ్ రూటింగ్ సిస్టమ్ మరియు లోతైన లేయర్‌లను స్థిరంగా ఉంచడానికి లైటర్-టచ్ అవశేష స్కేలింగ్‌పై ఆధారపడి ఉంటుంది.

మోడల్ Muon మరియు AdamW మిశ్రమాన్ని ఉపయోగిస్తుంది. AMD హార్డ్‌వేర్‌పై Muonని సమర్థవంతంగా చేయడానికి, Zyphra కెర్నల్‌లను ఫ్యూజ్ చేసింది మరియు అనవసరమైన మెమరీ ట్రాఫిక్‌ను ట్రిమ్ చేసింది కాబట్టి ఆప్టిమైజర్ ప్రతి పునరావృతంపై ఆధిపత్యం వహించదు. బ్యాచ్ పరిమాణాలు కాలక్రమేణా పెంచబడ్డాయి, అయితే ఇది టోకెన్‌లను త్వరగా అందించగల నిల్వ పైప్‌లైన్‌లను కలిగి ఉండటంపై ఎక్కువగా ఆధారపడి ఉంటుంది.

ఇవన్నీ Qwen3-4B, Gemma3-12B, Llama-3-8B మరియు OLMoE వంటి పెద్ద పీర్‌లతో పోటీపడే AMD హార్డ్‌వేర్‌పై శిక్షణ పొందిన AI మోడల్‌కి దారి తీస్తుంది. MoE నిర్మాణం యొక్క ఒక ప్రయోజనం ఏమిటంటే, మోడల్ యొక్క స్లివర్ మాత్రమే ఒకేసారి నడుస్తుంది, ఇది అనుమితి మెమరీని నిర్వహించడంలో సహాయపడుతుంది మరియు సేవల ఖర్చును తగ్గిస్తుంది.

ఉదాహరణకు, ఒక బ్యాంక్, ప్రారంభంలో మెలికలు తిరిగిన సమాంతరత అవసరం లేకుండా పరిశోధనల కోసం డొమైన్-నిర్దిష్ట నమూనాకు శిక్షణ ఇవ్వగలదు. MI300X యొక్క మెమరీ హెడ్‌రూమ్ ఇంజనీర్‌లకు పునరావృతం చేయడానికి స్థలాన్ని ఇస్తుంది, అయితే ZAYA1 యొక్క కంప్రెస్డ్ అటెన్షన్ మూల్యాంకనం సమయంలో ప్రీఫిల్ సమయాన్ని తగ్గిస్తుంది.

AMD GPUలతో ROCm ప్రవర్తించేలా చేయడం

Zyphra పరిణతి చెందిన NVIDIA-ఆధారిత వర్క్‌ఫ్లోను ROCmకి తరలించడం పనికి దారితీసిందనే వాస్తవాన్ని దాచలేదు. కాంపోనెంట్‌లను గుడ్డిగా పోర్టింగ్ చేయడానికి బదులుగా, బృందం AMD హార్డ్‌వేర్ ఎలా ప్రవర్తిస్తుందో మరియు మోడల్ కొలతలు, GEMM నమూనాలు మరియు మైక్రోబ్యాచ్ పరిమాణాలను MI300X యొక్క ప్రాధాన్య గణన శ్రేణులకు అనుగుణంగా మార్చడం కోసం సమయాన్ని వెచ్చించింది.

ఒక నోడ్‌లోని మొత్తం ఎనిమిది GPUలు సమిష్టిగా పాల్గొన్నప్పుడు InfinityFabric ఉత్తమంగా పనిచేస్తుంది మరియు పొల్లారా పెద్ద సందేశాలతో గరిష్ట నిర్గమాంశను చేరుకుంటుంది, కాబట్టి Zyphra పరిమాణ ఫ్యూజన్ బఫర్‌లకు అనుగుణంగా ఉంటుంది. దీర్ఘ-సందర్భ శిక్షణ, 4k నుండి 32k టోకెన్‌ల వరకు, అడ్డంకులను నివారించడానికి రింగ్ అటెన్షన్‌పై రింగ్ అటెన్షన్ మరియు డీకోడింగ్ సమయంలో ట్రీ అటెన్షన్‌పై ఆధారపడింది.

నిల్వ పరిగణనలు సమానంగా ఆచరణాత్మకమైనవి. చిన్న నమూనాలు IOPS సుత్తి; పెద్ద వాటికి నిరంతర బ్యాండ్‌విడ్త్ అవసరం. Zyphra చెల్లాచెదురుగా ఉన్న రీడ్‌లను తగ్గించడానికి డేటాసెట్ షార్డ్‌లను బండిల్ చేసింది మరియు చెక్‌పాయింట్ రికవరీని వేగవంతం చేయడానికి పర్-నోడ్ పేజీ కాష్‌లను పెంచింది, ఇది రివైండ్‌లు అనివార్యమైన సుదీర్ఘ పరుగుల సమయంలో చాలా ముఖ్యమైనది.

వారి పాదాలపై సమూహాలను ఉంచడం

వారాలపాటు నడిచే శిక్షణ ఉద్యోగాలు చాలా అరుదుగా సంపూర్ణంగా ప్రవర్తిస్తాయి. Zyphra యొక్క Aegis సేవ లాగ్‌లు మరియు సిస్టమ్ మెట్రిక్‌లను పర్యవేక్షిస్తుంది, NIC గ్లిచ్‌లు లేదా ECC బ్లిప్స్ వంటి వైఫల్యాలను గుర్తిస్తుంది మరియు స్వయంచాలకంగా సూటిగా దిద్దుబాటు చర్యలను తీసుకుంటుంది. చిన్న నెట్‌వర్క్ అంతరాయాలు మొత్తం ఉద్యోగాలను నాశనం చేయకుండా ఉండటానికి బృందం RCCL గడువులను కూడా పెంచింది.

చెక్‌పాయింటింగ్ ఒకే చోక్‌పాయింట్ ద్వారా బలవంతంగా కాకుండా అన్ని GPUలలో పంపిణీ చేయబడుతుంది. Zyphra అమాయక విధానాలతో పోలిస్తే పది రెట్లు ఎక్కువ వేగవంతమైన ఆదాలను నివేదిస్తుంది, ఇది నేరుగా సమయ సమయాన్ని మెరుగుపరుస్తుంది మరియు ఆపరేటర్ పనిభారాన్ని తగ్గిస్తుంది.

AI సేకరణ కోసం ZAYA1 AMD శిక్షణ మైలురాయి అంటే ఏమిటి

నివేదిక NVIDIA యొక్క పర్యావరణ వ్యవస్థ మరియు AMD యొక్క సమానమైన వాటి మధ్య ఒక క్లీన్ లైన్‌ను గీస్తుంది: NVLINK vs ఇన్ఫినిటీ ఫాబ్రిక్, NCCL vs RCCL, cuBLASLt vs hipBLASLt మరియు మొదలైనవి. AMD స్టాక్ ఇప్పుడు తీవ్రమైన పెద్ద-స్థాయి మోడల్ అభివృద్ధికి తగినంత పరిపక్వం చెందిందని రచయితలు వాదించారు.

ఇప్పటికే ఉన్న NVIDIA క్లస్టర్‌లను ఎంటర్‌ప్రైజ్‌లు కూల్చివేయాలని ఇవేవీ సూచించవు. MI300X GPUల మెమరీ సామర్థ్యం మరియు ROCm యొక్క ఓపెన్‌నెస్ నుండి ప్రయోజనం పొందే దశల కోసం AMDని ఉపయోగిస్తున్నప్పుడు NVIDIAని ఉత్పత్తి కోసం ఉంచడం మరింత వాస్తవిక మార్గం. ఇది సరఫరాదారు ప్రమాదాన్ని వ్యాప్తి చేస్తుంది మరియు పెద్ద అంతరాయం లేకుండా మొత్తం శిక్షణ వాల్యూమ్‌ను పెంచుతుంది.

ఇది అన్ని సిఫార్సుల సమితికి దారి తీస్తుంది: మోడల్ ఆకారాన్ని సర్దుబాటు చేయదగినదిగా పరిగణించండి, స్థిరంగా లేదు; మీ శిక్షణ వాస్తవానికి ఉపయోగించే సామూహిక కార్యకలాపాల చుట్టూ డిజైన్ నెట్‌వర్క్‌లు; కేవలం లాగింగ్ వైఫల్యాల కంటే GPU గంటలను రక్షించే తప్పు సహనాన్ని రూపొందించండి; మరియు చెక్‌పాయింటింగ్‌ను ఆధునీకరించండి, తద్వారా ఇది ఇకపై శిక్షణ లయను పట్టాలు తప్పదు.

ఇది మానిఫెస్టో కాదు, AMD GPUలలో పెద్ద MoE AI మోడల్‌కు శిక్షణ ఇవ్వడం ద్వారా Zyphra, AMD మరియు IBM నేర్చుకున్న వాటి నుండి మా ప్రాక్టికల్ టేకావే మాత్రమే. కేవలం ఒక విక్రేతపై ఆధారపడకుండా AI సామర్థ్యాన్ని విస్తరించాలని చూస్తున్న సంస్థల కోసం, ఇది సమర్థవంతమైన ఉపయోగకరమైన బ్లూప్రింట్.

ఇవి కూడా చూడండి: Google తదుపరి 4-5 సంవత్సరాలలో 1000x మరిన్ని AI మౌలిక సదుపాయాలకు కట్టుబడి ఉంది

TechEx ఈవెంట్‌ల ద్వారా AI & బిగ్ డేటా ఎక్స్‌పో కోసం బ్యానర్.

పరిశ్రమ ప్రముఖుల నుండి AI మరియు పెద్ద డేటా గురించి మరింత తెలుసుకోవాలనుకుంటున్నారా? తనిఖీ చేయండి AI & బిగ్ డేటా ఎక్స్‌పో ఆమ్‌స్టర్‌డామ్, కాలిఫోర్నియా మరియు లండన్‌లో జరుగుతున్నాయి. సమగ్ర కార్యక్రమం ఇందులో భాగమే టెక్ఎక్స్ మరియు సహా ఇతర ప్రముఖ సాంకేతిక ఈవెంట్‌లతో కలిసి ఉంది సైబర్ సెక్యూరిటీ ఎక్స్‌పో. క్లిక్ చేయండి ఇక్కడ మరింత సమాచారం కోసం.

AI వార్తలు ఆధారితం టెక్ఫోర్జ్ మీడియా. రాబోయే ఇతర ఎంటర్‌ప్రైజ్ టెక్నాలజీ ఈవెంట్‌లు మరియు వెబ్‌నార్‌లను అన్వేషించండి ఇక్కడ.

Source link

Useful _Links

LG మరియు NVIDIA యొక్క చర్చలు భౌతిక AI యొక్క భవిష్యత్తు గురించి ఏమి వెల్లడిస్తున్నాయి

రెగ్యులేటర్లు ఫ్లాగ్ కంట్రోల్ గ్యాప్‌ల కారణంగా AI ఏజెంట్ గవర్నెన్స్ దృష్టి పెడుతుంది

APIలు, MCPలు మరియు MCP గేట్‌వేలకు గైడ్

బిగ్ టెక్ యొక్క AI ఇన్‌ఫ్రాస్ట్రక్చర్ ఖర్చు చెల్లించబడింది – మరియు వేగవంతం చేయబడింది

EMEA CIOలు AI రోల్‌అవుట్‌లను ఎలా జంప్‌స్టార్ట్ చేయగలవు

GPT-5.5 అనేది OpenAI యొక్క అత్యంత సామర్థ్యం గల ఏజెంట్ AI మోడల్ – API ధర కంటే రెండింతలు

SDLC ఖర్చులను నియంత్రించడానికి IBM AI ప్లాట్‌ఫారమ్ బాబ్‌ను ప్రారంభించింది

ఎన్‌కోడర్‌ల పరిణామం: సాధారణ నమూనాల నుండి మల్టీమోడల్ AI వరకు

భౌతిక AI కోసం కకావో మొబిలిటీ వివరాలు లెవల్ 4 అటానమస్ డ్రైవింగ్ రోడ్‌మ్యాప్

ఆప్టికల్ ఇంటర్‌కనెక్ట్ అంటే ఏమిటి మరియు లైట్‌టెలిజెన్స్ యొక్క $10B అరంగేట్రం ఎందుకు AIకి ముఖ్యమని చెప్పింది

శిక్షణ కోసం AMD GPUలను ఉపయోగించే AI మోడల్ మైలురాయిని అధిగమించింది

AI శిక్షణ పనితీరును తగ్గించకుండా ఖర్చులను తగ్గించుకోవడానికి Zyphra AMD GPUలను ఎలా ఉపయోగించింది

ZAYA1: దాని బరువు కంటే ఎక్కువ పంచ్ చేసే AI మోడల్

AMD GPUలతో ROCm ప్రవర్తించేలా చేయడం

వారి పాదాలపై సమూహాలను ఉంచడం

AI సేకరణ కోసం ZAYA1 AMD శిక్షణ మైలురాయి అంటే ఏమిటి

Leave a Reply Cancel reply

Useful Links

AI శిక్షణ పనితీరును తగ్గించకుండా ఖర్చులను తగ్గించుకోవడానికి Zyphra AMD GPUలను ఎలా ఉపయోగించింది

ZAYA1: దాని బరువు కంటే ఎక్కువ పంచ్ చేసే AI మోడల్

AMD GPUలతో ROCm ప్రవర్తించేలా చేయడం

వారి పాదాలపై సమూహాలను ఉంచడం

AI సేకరణ కోసం ZAYA1 AMD శిక్షణ మైలురాయి అంటే ఏమిటి

Leave a Reply Cancel reply

Related News

Useful _Links