Hot News

శిక్షణ కోసం AMD GPUలను ఉపయోగించే AI మోడల్ మైలురాయిని అధిగమించింది

Zyphra, AMD మరియు IBM AMD యొక్క GPUలు మరియు ప్లాట్‌ఫారమ్ పెద్ద-స్థాయి AI మోడల్ శిక్షణకు మద్దతు ఇస్తుందో లేదో పరీక్షించడానికి ఒక సంవత్సరం గడిపింది మరియు ఫలితం ZAYA1.

భాగస్వామ్యంతో, మూడు కంపెనీలు ZAYA1కి శిక్షణ ఇచ్చాయి – ఇది పూర్తిగా AMD GPUలు మరియు నెట్‌వర్కింగ్‌పై నిర్మించిన మొదటి ప్రధాన మిక్స్‌చర్-ఆఫ్-ఎక్స్‌పర్ట్స్ ఫౌండేషన్ మోడల్‌గా వర్ణించబడింది – AIని స్కేల్ చేయడానికి మార్కెట్ NVIDIAపై ఆధారపడవలసిన అవసరం లేదని వారు రుజువుగా చూస్తారు.

మోడల్ AMD లపై శిక్షణ పొందింది ఇన్స్టింక్ట్ MI300X చిప్స్, పెన్సాండో నెట్‌వర్కింగ్ మరియు ROCm సాఫ్ట్‌వేర్, అన్నీ IBM క్లౌడ్ ఇన్‌ఫ్రాస్ట్రక్చర్‌లో అమలవుతాయి. సెటప్ ఎంత సాంప్రదాయకంగా కనిపిస్తుంది అనేది గమనించదగ్గ విషయం. ప్రయోగాత్మక హార్డ్‌వేర్ లేదా అస్పష్టమైన కాన్ఫిగరేషన్‌లకు బదులుగా, Zyphra ఏదైనా ఎంటర్‌ప్రైజ్ క్లస్టర్ లాగా సిస్టమ్‌ను నిర్మించింది—కేవలం NVIDIA యొక్క భాగాలు లేకుండా.

ZAYA1 తార్కికం, గణితం మరియు కోడ్‌లలో బాగా స్థిరపడిన ఓపెన్ మోడల్‌లతో సమానంగా మరియు కొన్ని రంగాలలో ముందుందని Zyphra చెప్పింది. సరఫరా పరిమితులు లేదా స్పైరలింగ్ GPU ధరల కారణంగా విసుగు చెందిన వ్యాపారాల కోసం, ఇది చాలా అరుదుగా ఉంటుంది: సామర్థ్యంపై రాజీ పడాల్సిన అవసరం లేని రెండవ ఎంపిక.

AI శిక్షణ పనితీరును తగ్గించకుండా ఖర్చులను తగ్గించుకోవడానికి Zyphra AMD GPUలను ఎలా ఉపయోగించింది

శిక్షణా బడ్జెట్‌లను ప్లాన్ చేస్తున్నప్పుడు చాలా సంస్థలు అదే తర్కాన్ని అనుసరిస్తాయి: మెమరీ సామర్థ్యం, ​​కమ్యూనికేషన్ వేగం మరియు ఊహాజనిత పునరావృత సమయాలు ముడి సైద్ధాంతిక నిర్గమాంశ కంటే ముఖ్యమైనవి.

ప్రతి GPUకి MI300X యొక్క 192GB అధిక-బ్యాండ్‌విడ్త్ మెమరీ ఇంజనీర్‌లకు కొంత శ్వాస గదిని ఇస్తుంది, ఇది భారీ సమాంతరతను వెంటనే ఆశ్రయించకుండా ముందస్తు శిక్షణను అనుమతిస్తుంది. ఇది పెళుసుగా మరియు ట్యూన్ చేయడానికి సమయం తీసుకునే ప్రాజెక్ట్‌లను సులభతరం చేస్తుంది.

Zyphra InfinityFabric ద్వారా కనెక్ట్ చేయబడిన ఎనిమిది MI300X GPUలతో ప్రతి నోడ్‌ను నిర్మించింది మరియు ప్రతి ఒక్కటి దాని స్వంత పొల్లారా నెట్‌వర్క్ కార్డ్‌తో జత చేసింది. ప్రత్యేక నెట్‌వర్క్ డేటాసెట్ రీడ్‌లు మరియు చెక్‌పాయింటింగ్‌లను నిర్వహిస్తుంది. ఇది ఒక unfussy డిజైన్, కానీ అది పాయింట్ అనిపిస్తుంది; సరళమైన వైరింగ్ మరియు నెట్‌వర్క్ లేఅవుట్, స్విచ్ ఖర్చులు తక్కువగా ఉంటాయి మరియు పునరావృత సమయాలను స్థిరంగా ఉంచడం సులభం.

ZAYA1: దాని బరువు కంటే ఎక్కువ పంచ్ చేసే AI మోడల్

ZAYA1-బేస్ మొత్తం 8.3 బిలియన్లలో 760 మిలియన్ పారామితులను సక్రియం చేస్తుంది మరియు మూడు దశల్లో 12 ట్రిలియన్ టోకెన్‌లపై శిక్షణ పొందింది. ఆర్కిటెక్చర్ కంప్రెస్డ్ అటెన్షన్, టోకెన్‌లను సరైన నిపుణులకు అందించడానికి రిఫైన్డ్ రూటింగ్ సిస్టమ్ మరియు లోతైన లేయర్‌లను స్థిరంగా ఉంచడానికి లైటర్-టచ్ అవశేష స్కేలింగ్‌పై ఆధారపడి ఉంటుంది.

మోడల్ Muon మరియు AdamW మిశ్రమాన్ని ఉపయోగిస్తుంది. AMD హార్డ్‌వేర్‌పై Muonని సమర్థవంతంగా చేయడానికి, Zyphra కెర్నల్‌లను ఫ్యూజ్ చేసింది మరియు అనవసరమైన మెమరీ ట్రాఫిక్‌ను ట్రిమ్ చేసింది కాబట్టి ఆప్టిమైజర్ ప్రతి పునరావృతంపై ఆధిపత్యం వహించదు. బ్యాచ్ పరిమాణాలు కాలక్రమేణా పెంచబడ్డాయి, అయితే ఇది టోకెన్‌లను త్వరగా అందించగల నిల్వ పైప్‌లైన్‌లను కలిగి ఉండటంపై ఎక్కువగా ఆధారపడి ఉంటుంది.

ఇవన్నీ Qwen3-4B, Gemma3-12B, Llama-3-8B మరియు OLMoE వంటి పెద్ద పీర్‌లతో పోటీపడే AMD హార్డ్‌వేర్‌పై శిక్షణ పొందిన AI మోడల్‌కి దారి తీస్తుంది. MoE నిర్మాణం యొక్క ఒక ప్రయోజనం ఏమిటంటే, మోడల్ యొక్క స్లివర్ మాత్రమే ఒకేసారి నడుస్తుంది, ఇది అనుమితి మెమరీని నిర్వహించడంలో సహాయపడుతుంది మరియు సేవల ఖర్చును తగ్గిస్తుంది.

ఉదాహరణకు, ఒక బ్యాంక్, ప్రారంభంలో మెలికలు తిరిగిన సమాంతరత అవసరం లేకుండా పరిశోధనల కోసం డొమైన్-నిర్దిష్ట నమూనాకు శిక్షణ ఇవ్వగలదు. MI300X యొక్క మెమరీ హెడ్‌రూమ్ ఇంజనీర్‌లకు పునరావృతం చేయడానికి స్థలాన్ని ఇస్తుంది, అయితే ZAYA1 యొక్క కంప్రెస్డ్ అటెన్షన్ మూల్యాంకనం సమయంలో ప్రీఫిల్ సమయాన్ని తగ్గిస్తుంది.

AMD GPUలతో ROCm ప్రవర్తించేలా చేయడం

Zyphra పరిణతి చెందిన NVIDIA-ఆధారిత వర్క్‌ఫ్లోను ROCmకి తరలించడం పనికి దారితీసిందనే వాస్తవాన్ని దాచలేదు. కాంపోనెంట్‌లను గుడ్డిగా పోర్టింగ్ చేయడానికి బదులుగా, బృందం AMD హార్డ్‌వేర్ ఎలా ప్రవర్తిస్తుందో మరియు మోడల్ కొలతలు, GEMM నమూనాలు మరియు మైక్రోబ్యాచ్ పరిమాణాలను MI300X యొక్క ప్రాధాన్య గణన శ్రేణులకు అనుగుణంగా మార్చడం కోసం సమయాన్ని వెచ్చించింది.

ఒక నోడ్‌లోని మొత్తం ఎనిమిది GPUలు సమిష్టిగా పాల్గొన్నప్పుడు InfinityFabric ఉత్తమంగా పనిచేస్తుంది మరియు పొల్లారా పెద్ద సందేశాలతో గరిష్ట నిర్గమాంశను చేరుకుంటుంది, కాబట్టి Zyphra పరిమాణ ఫ్యూజన్ బఫర్‌లకు అనుగుణంగా ఉంటుంది. దీర్ఘ-సందర్భ శిక్షణ, 4k నుండి 32k టోకెన్‌ల వరకు, అడ్డంకులను నివారించడానికి రింగ్ అటెన్షన్‌పై రింగ్ అటెన్షన్ మరియు డీకోడింగ్ సమయంలో ట్రీ అటెన్షన్‌పై ఆధారపడింది.

నిల్వ పరిగణనలు సమానంగా ఆచరణాత్మకమైనవి. చిన్న నమూనాలు IOPS సుత్తి; పెద్ద వాటికి నిరంతర బ్యాండ్‌విడ్త్ అవసరం. Zyphra చెల్లాచెదురుగా ఉన్న రీడ్‌లను తగ్గించడానికి డేటాసెట్ షార్డ్‌లను బండిల్ చేసింది మరియు చెక్‌పాయింట్ రికవరీని వేగవంతం చేయడానికి పర్-నోడ్ పేజీ కాష్‌లను పెంచింది, ఇది రివైండ్‌లు అనివార్యమైన సుదీర్ఘ పరుగుల సమయంలో చాలా ముఖ్యమైనది.

వారి పాదాలపై సమూహాలను ఉంచడం

వారాలపాటు నడిచే శిక్షణ ఉద్యోగాలు చాలా అరుదుగా సంపూర్ణంగా ప్రవర్తిస్తాయి. Zyphra యొక్క Aegis సేవ లాగ్‌లు మరియు సిస్టమ్ మెట్రిక్‌లను పర్యవేక్షిస్తుంది, NIC గ్లిచ్‌లు లేదా ECC బ్లిప్స్ వంటి వైఫల్యాలను గుర్తిస్తుంది మరియు స్వయంచాలకంగా సూటిగా దిద్దుబాటు చర్యలను తీసుకుంటుంది. చిన్న నెట్‌వర్క్ అంతరాయాలు మొత్తం ఉద్యోగాలను నాశనం చేయకుండా ఉండటానికి బృందం RCCL గడువులను కూడా పెంచింది.

చెక్‌పాయింటింగ్ ఒకే చోక్‌పాయింట్ ద్వారా బలవంతంగా కాకుండా అన్ని GPUలలో పంపిణీ చేయబడుతుంది. Zyphra అమాయక విధానాలతో పోలిస్తే పది రెట్లు ఎక్కువ వేగవంతమైన ఆదాలను నివేదిస్తుంది, ఇది నేరుగా సమయ సమయాన్ని మెరుగుపరుస్తుంది మరియు ఆపరేటర్ పనిభారాన్ని తగ్గిస్తుంది.

AI సేకరణ కోసం ZAYA1 AMD శిక్షణ మైలురాయి అంటే ఏమిటి

నివేదిక NVIDIA యొక్క పర్యావరణ వ్యవస్థ మరియు AMD యొక్క సమానమైన వాటి మధ్య ఒక క్లీన్ లైన్‌ను గీస్తుంది: NVLINK vs ఇన్ఫినిటీ ఫాబ్రిక్, NCCL vs RCCL, cuBLASLt vs hipBLASLt మరియు మొదలైనవి. AMD స్టాక్ ఇప్పుడు తీవ్రమైన పెద్ద-స్థాయి మోడల్ అభివృద్ధికి తగినంత పరిపక్వం చెందిందని రచయితలు వాదించారు.

ఇప్పటికే ఉన్న NVIDIA క్లస్టర్‌లను ఎంటర్‌ప్రైజ్‌లు కూల్చివేయాలని ఇవేవీ సూచించవు. MI300X GPUల మెమరీ సామర్థ్యం మరియు ROCm యొక్క ఓపెన్‌నెస్ నుండి ప్రయోజనం పొందే దశల కోసం AMDని ఉపయోగిస్తున్నప్పుడు NVIDIAని ఉత్పత్తి కోసం ఉంచడం మరింత వాస్తవిక మార్గం. ఇది సరఫరాదారు ప్రమాదాన్ని వ్యాప్తి చేస్తుంది మరియు పెద్ద అంతరాయం లేకుండా మొత్తం శిక్షణ వాల్యూమ్‌ను పెంచుతుంది.

ఇది అన్ని సిఫార్సుల సమితికి దారి తీస్తుంది: మోడల్ ఆకారాన్ని సర్దుబాటు చేయదగినదిగా పరిగణించండి, స్థిరంగా లేదు; మీ శిక్షణ వాస్తవానికి ఉపయోగించే సామూహిక కార్యకలాపాల చుట్టూ డిజైన్ నెట్‌వర్క్‌లు; కేవలం లాగింగ్ వైఫల్యాల కంటే GPU గంటలను రక్షించే తప్పు సహనాన్ని రూపొందించండి; మరియు చెక్‌పాయింటింగ్‌ను ఆధునీకరించండి, తద్వారా ఇది ఇకపై శిక్షణ లయను పట్టాలు తప్పదు.

ఇది మానిఫెస్టో కాదు, AMD GPUలలో పెద్ద MoE AI మోడల్‌కు శిక్షణ ఇవ్వడం ద్వారా Zyphra, AMD మరియు IBM నేర్చుకున్న వాటి నుండి మా ప్రాక్టికల్ టేకావే మాత్రమే. కేవలం ఒక విక్రేతపై ఆధారపడకుండా AI సామర్థ్యాన్ని విస్తరించాలని చూస్తున్న సంస్థల కోసం, ఇది సమర్థవంతమైన ఉపయోగకరమైన బ్లూప్రింట్.

ఇవి కూడా చూడండి: Google తదుపరి 4-5 సంవత్సరాలలో 1000x మరిన్ని AI మౌలిక సదుపాయాలకు కట్టుబడి ఉంది

TechEx ఈవెంట్‌ల ద్వారా AI & బిగ్ డేటా ఎక్స్‌పో కోసం బ్యానర్.

పరిశ్రమ ప్రముఖుల నుండి AI మరియు పెద్ద డేటా గురించి మరింత తెలుసుకోవాలనుకుంటున్నారా? తనిఖీ చేయండి AI & బిగ్ డేటా ఎక్స్‌పో ఆమ్‌స్టర్‌డామ్, కాలిఫోర్నియా మరియు లండన్‌లో జరుగుతున్నాయి. సమగ్ర కార్యక్రమం ఇందులో భాగమే టెక్ఎక్స్ మరియు సహా ఇతర ప్రముఖ సాంకేతిక ఈవెంట్‌లతో కలిసి ఉంది సైబర్ సెక్యూరిటీ ఎక్స్‌పో. క్లిక్ చేయండి ఇక్కడ మరింత సమాచారం కోసం.

AI వార్తలు ఆధారితం టెక్ఫోర్జ్ మీడియా. రాబోయే ఇతర ఎంటర్‌ప్రైజ్ టెక్నాలజీ ఈవెంట్‌లు మరియు వెబ్‌నార్‌లను అన్వేషించండి ఇక్కడ.

Source link

Leave a Reply

Your email address will not be published. Required fields are marked *

Top