Hot News

ఏజెంట్ AI స్కేలింగ్‌కి కొత్త మెమరీ ఆర్కిటెక్చర్ అవసరం

Agentic AI అనేది స్థితిలేని చాట్‌బాట్‌ల నుండి సంక్లిష్టమైన వర్క్‌ఫ్లోల వైపు ప్రత్యేక పరిణామాన్ని సూచిస్తుంది మరియు దానిని స్కేలింగ్ చేయడానికి కొత్త మెమరీ ఆర్కిటెక్చర్ అవసరం.

ఫౌండేషన్ మోడల్‌లు ట్రిలియన్ల కొద్దీ పారామీటర్‌ల వైపు స్కేల్ చేయడం మరియు కాంటెక్స్ట్ విండోలు మిలియన్ల కొద్దీ టోకెన్‌లను చేరుకోవడంతో, చరిత్రను గుర్తుంచుకోవడానికి గణన ఖర్చు దానిని ప్రాసెస్ చేసే సామర్థ్యం కంటే వేగంగా పెరుగుతోంది.

ఈ సిస్టమ్‌లను అమలు చేస్తున్న సంస్థలు ఇప్పుడు ఒక అడ్డంకిని ఎదుర్కొంటున్నాయి, ఇక్కడ “దీర్ఘకాల జ్ఞాపకశక్తి” (సాంకేతికంగా కీ-వాల్యూ (KV) కాష్ అని పిలుస్తారు) ఇప్పటికే ఉన్న హార్డ్‌వేర్ ఆర్కిటెక్చర్‌లను అధిగమించింది.

ప్రస్తుత ఇన్‌ఫ్రాస్ట్రక్చర్ బైనరీ ఎంపికను బలవంతం చేస్తుంది: అనుమితి సందర్భాన్ని కొరత, అధిక-బ్యాండ్‌విడ్త్ GPU మెమరీ (HBM)లో నిల్వ చేయండి లేదా నెమ్మదిగా, సాధారణ-ప్రయోజన నిల్వకు పంపండి. మునుపటిది పెద్ద సందర్భాలకు చాలా ఖరీదైనది; తరువాతి జాప్యాన్ని సృష్టిస్తుంది, ఇది నిజ-సమయ ఏజెంట్ పరస్పర చర్యలను ఆచరణీయమైనదిగా చేస్తుంది.

ఏజెంట్ AI యొక్క స్కేలింగ్‌ను అడ్డుకునే ఈ విస్తరిస్తున్న అసమానతను పరిష్కరించడానికి, NVIDIA AI మెమరీ యొక్క అశాశ్వత మరియు అధిక-వేగం స్వభావాన్ని నిర్వహించడానికి ప్రత్యేకంగా రూపొందించిన కొత్త స్టోరేజ్ టైర్‌ను ప్రతిపాదిస్తూ, దాని రూబిన్ ఆర్కిటెక్చర్‌లో ఇన్‌ఫరెన్స్ కాంటెక్స్ట్ మెమరీ స్టోరేజ్ (ICMS) ప్లాట్‌ఫారమ్‌ను ప్రవేశపెట్టింది.

“AI మొత్తం కంప్యూటింగ్ స్టాక్‌లో విప్లవాత్మక మార్పులు చేస్తోంది-మరియు ఇప్పుడు, నిల్వ” అని హువాంగ్ చెప్పారు. “AI అనేది ఇకపై వన్-షాట్ చాట్‌బాట్‌ల గురించి కాదు, భౌతిక ప్రపంచాన్ని అర్థం చేసుకునే తెలివైన సహకారులు, సుదీర్ఘ క్షితిజాలను గురించి ఆలోచించడం, వాస్తవాలపై ఆధారపడి ఉండటం, నిజమైన పని చేయడానికి సాధనాలను ఉపయోగించడం మరియు స్వల్ప మరియు దీర్ఘకాలిక జ్ఞాపకశక్తిని నిలుపుకోవడం.”

కార్యాచరణ సవాలు ట్రాన్స్‌ఫార్మర్-ఆధారిత నమూనాల నిర్దిష్ట ప్రవర్తనలో ఉంది. సృష్టించబడిన ప్రతి కొత్త పదం కోసం మొత్తం సంభాషణ చరిత్రను తిరిగి గణించడాన్ని నివారించడానికి, మోడల్‌లు మునుపటి స్థితులను KV కాష్‌లో నిల్వ చేస్తాయి. ఏజెంట్ వర్క్‌ఫ్లోస్‌లో, ఈ కాష్ టూల్స్ మరియు సెషన్‌లలో నిరంతర మెమరీగా పనిచేస్తుంది, సీక్వెన్స్ పొడవుతో సరళంగా పెరుగుతుంది.

ఇది ప్రత్యేకమైన డేటా తరగతిని సృష్టిస్తుంది. ఆర్థిక రికార్డులు లేదా కస్టమర్ లాగ్‌ల వలె కాకుండా, KV కాష్ అనేది డెరైవ్డ్ డేటా; తక్షణ పనితీరుకు ఇది చాలా అవసరం కానీ ఎంటర్‌ప్రైజ్ ఫైల్ సిస్టమ్‌ల భారీ మన్నిక హామీలు అవసరం లేదు. సాధారణ-ప్రయోజన నిల్వ స్టాక్‌లు, ప్రామాణిక CPUలపై అమలవుతాయి, మెటాడేటా నిర్వహణపై శక్తిని ఖర్చు చేస్తాయి మరియు ఏజెంట్ పనిభారం అవసరం లేని ప్రతిరూపణ.

GPU HBM (G1) నుండి షేర్డ్ స్టోరేజ్ (G4) వరకు విస్తరించి ఉన్న ప్రస్తుత సోపానక్రమం అసమర్థంగా మారుతోంది:

(క్రెడిట్: NVIDIA)

GPU (G1) నుండి సిస్టమ్ RAM (G2)కి మరియు చివరికి షేర్డ్ స్టోరేజీకి (G4) కాంటెక్స్ట్ స్పిల్ అవడంతో, సామర్థ్యం క్షీణిస్తుంది. సక్రియ సందర్భాన్ని G4 శ్రేణికి తరలించడం వలన మిల్లీసెకండ్-స్థాయి జాప్యాన్ని పరిచయం చేస్తుంది మరియు ప్రతి టోకెన్‌కు పవర్ ధర పెరుగుతుంది, ఖరీదైన GPUలు డేటా కోసం వేచి ఉన్నప్పుడు నిష్క్రియంగా ఉంటాయి.

ఎంటర్‌ప్రైజ్ కోసం, ఇది ఉబ్బిన టోటల్ కాస్ట్ ఆఫ్ ఓనర్‌షిప్ (TCO)గా వ్యక్తమవుతుంది, ఇక్కడ యాక్టివ్ రీజనింగ్ కంటే ఇన్‌ఫ్రాస్ట్రక్చర్ ఓవర్‌హెడ్‌పై శక్తి వృధా అవుతుంది.

AI ఫ్యాక్టరీ కోసం కొత్త మెమరీ టైర్

పరిశ్రమ ప్రతిస్పందన ఈ సోపానక్రమంలోకి ఉద్దేశించిన-నిర్మిత పొరను చొప్పించడాన్ని కలిగి ఉంటుంది. ICMS ప్లాట్‌ఫారమ్ “G3.5” శ్రేణిని ఏర్పాటు చేస్తుంది—ఈథర్‌నెట్-అటాచ్డ్ ఫ్లాష్ లేయర్ గిగాస్కేల్ అనుమితి కోసం ప్రత్యేకంగా రూపొందించబడింది.

ఈ విధానం స్టోరేజీని నేరుగా కంప్యూట్ పాడ్‌లోకి అనుసంధానిస్తుంది. NVIDIA BlueField-4 డేటా ప్రాసెసర్‌ని ఉపయోగించడం ద్వారా, ప్లాట్‌ఫారమ్ హోస్ట్ CPU నుండి ఈ సందర్భ డేటా నిర్వహణను ఆఫ్‌లోడ్ చేస్తుంది. సిస్టమ్ ప్రతి పాడ్‌కు పెటాబైట్‌ల షేర్డ్ కెపాసిటీని అందిస్తుంది, ఏజెంట్‌లు ఖరీదైన HBMని ఆక్రమించకుండా భారీ మొత్తంలో చరిత్రను నిలుపుకోవడానికి అనుమతించడం ద్వారా ఏజెంట్ AI యొక్క స్కేలింగ్‌ను పెంచుతుంది.

కార్యాచరణ ప్రయోజనం నిర్గమాంశ మరియు శక్తిలో లెక్కించదగినది. ఈ ఇంటర్మీడియట్ టైర్‌లో సంబంధిత సందర్భాన్ని ఉంచడం ద్వారా – ఇది ప్రామాణిక నిల్వ కంటే వేగవంతమైనది, కానీ HBM కంటే చౌకైనది – సిస్టమ్ అవసరం కావడానికి ముందే GPUకి మెమరీని “ప్రెస్టేజ్” చేయగలదు. ఇది GPU డీకోడర్ యొక్క నిష్క్రియ సమయాన్ని తగ్గిస్తుంది, దీర్ఘ-కాంటెక్స్ట్ వర్క్‌లోడ్‌ల కోసం సెకనుకు 5x అధిక టోకెన్‌లను (TPS) ఎనేబుల్ చేస్తుంది.

శక్తి కోణం నుండి, చిక్కులు సమానంగా కొలవబడతాయి. ఆర్కిటెక్చర్ సాధారణ-ప్రయోజన నిల్వ ప్రోటోకాల్‌ల ఓవర్‌హెడ్‌ను తొలగిస్తుంది కాబట్టి, ఇది సాంప్రదాయ పద్ధతుల కంటే 5x మెరుగైన శక్తి సామర్థ్యాన్ని అందిస్తుంది.

డేటా ప్లేన్‌ను సమగ్రపరచడం

ఈ నిర్మాణాన్ని అమలు చేయడానికి IT బృందాలు స్టోరేజ్ నెట్‌వర్కింగ్‌ను ఎలా చూస్తాయనే విషయంలో మార్పు అవసరం. ICMS ప్లాట్‌ఫారమ్ ఫ్లాష్ స్టోరేజ్‌ని దాదాపుగా లోకల్ మెమరీ లాగా ట్రీట్ చేయడానికి అవసరమైన హై-బ్యాండ్‌విడ్త్, తక్కువ-జిట్టర్ కనెక్టివిటీని అందించడానికి NVIDIA స్పెక్ట్రమ్-X ఈథర్‌నెట్‌పై ఆధారపడుతుంది.

ఎంటర్‌ప్రైజ్ ఇన్‌ఫ్రాస్ట్రక్చర్ టీమ్‌ల కోసం, ఇంటిగ్రేషన్ పాయింట్ ఆర్కెస్ట్రేషన్ లేయర్. NVIDIA Dynamo మరియు ఇన్ఫరెన్స్ ట్రాన్స్‌ఫర్ లైబ్రరీ (NIXL) వంటి ఫ్రేమ్‌వర్క్‌లు శ్రేణుల మధ్య KV బ్లాక్‌ల కదలికను నిర్వహిస్తాయి.

AI మోడల్‌కి అవసరమైనప్పుడు సరైన సందర్భం GPU మెమరీ (G1) లేదా హోస్ట్ మెమరీ (G2)లోకి లోడ్ చేయబడిందని నిర్ధారించడానికి ఈ సాధనాలు నిల్వ లేయర్‌తో సమన్వయం చేస్తాయి. NVIDIA DOCA ఫ్రేమ్‌వర్క్ KV కమ్యూనికేషన్ లేయర్‌ను అందించడం ద్వారా కాంటెక్స్ట్ కాష్‌ను ఫస్ట్-క్లాస్ రిసోర్స్‌గా పరిగణించడం ద్వారా దీనికి మరింత మద్దతు ఇస్తుంది.

మేజర్ స్టోరేజ్ వెండర్‌లు ఇప్పటికే ఈ ఆర్కిటెక్చర్‌తో సమలేఖనం చేస్తున్నారు. AIC, Cloudian, DDN, Dell Technologies, HPE, Hitachi Vantara, IBM, Nutanix, Pure Storage, Supermicro, VAST Data మరియు WEKAతో సహా కంపెనీలు బ్లూఫీల్డ్-4తో ప్లాట్‌ఫారమ్‌లను రూపొందిస్తున్నాయి. ఈ పరిష్కారాలు ఈ ఏడాది ద్వితీయార్థంలో అందుబాటులోకి వస్తాయని భావిస్తున్నారు.

స్కేలింగ్ ఏజెంట్ AI కోసం మౌలిక సదుపాయాలను పునర్నిర్వచించడం

అంకితమైన సందర్భ మెమరీ టైర్‌ను స్వీకరించడం సామర్థ్య ప్రణాళిక మరియు డేటాసెంటర్ రూపకల్పనపై ప్రభావం చూపుతుంది.

  • డేటాను తిరిగి వర్గీకరించడం: CIOలు తప్పనిసరిగా KV కాష్‌ని ఒక ప్రత్యేక డేటా రకంగా గుర్తించాలి. ఇది “అశాశ్వతమైనది కానీ జాప్యం-సెన్సిటివ్”, “మన్నికైన మరియు చల్లని” సమ్మతి డేటా నుండి భిన్నంగా ఉంటుంది. G3.5 టైర్ మునుపటిని నిర్వహిస్తుంది, మన్నికైన G4 నిల్వను దీర్ఘకాలిక లాగ్‌లు మరియు కళాఖండాలపై దృష్టి పెట్టడానికి అనుమతిస్తుంది.
  • ఆర్కెస్ట్రేషన్ పరిపక్వత: పనిభారాన్ని తెలివిగా ఉంచగల సాఫ్ట్‌వేర్‌పై విజయం ఆధారపడి ఉంటుంది. సిస్టమ్ టోపోలాజీ-అవేర్ ఆర్కెస్ట్రేషన్ (NVIDIA గ్రోవ్ ద్వారా) వారి కాష్ చేసిన సందర్భానికి సమీపంలో ఉద్యోగాలను ఉంచడానికి ఉపయోగిస్తుంది, ఫాబ్రిక్ అంతటా డేటా కదలికను తగ్గిస్తుంది.
  • శక్తి సాంద్రత: అదే ర్యాక్ ఫుట్‌ప్రింట్‌లో మరింత ఉపయోగించగల సామర్థ్యాన్ని అమర్చడం ద్వారా, సంస్థలు ఇప్పటికే ఉన్న సౌకర్యాల జీవితాన్ని పొడిగించవచ్చు. అయినప్పటికీ, ఇది చదరపు మీటరుకు గణన సాంద్రతను పెంచుతుంది, తగినంత శీతలీకరణ మరియు విద్యుత్ పంపిణీ ప్రణాళిక అవసరం.

ఏజెంట్ AIకి మారడం వలన డేటాసెంటర్ యొక్క భౌతిక పునర్నిర్మాణం జరుగుతుంది. నెమ్మదైన, నిరంతర నిల్వ నుండి కంప్యూట్‌ను పూర్తిగా వేరుచేసే ప్రబలంగా ఉన్న మోడల్ ఫోటోగ్రాఫిక్ జ్ఞాపకాలతో ఏజెంట్‌ల నిజ-సమయ పునరుద్ధరణ అవసరాలకు అనుకూలంగా లేదు.

ప్రత్యేక సందర్భ శ్రేణిని పరిచయం చేయడం ద్వారా, సంస్థలు GPU HBM ధర నుండి మోడల్ మెమరీ పెరుగుదలను వేరు చేయగలవు. ఏజెంట్ AI కోసం ఈ ఆర్కిటెక్చర్ సంక్లిష్టమైన ప్రశ్నలను అందించే ఖర్చును తగ్గించడానికి మరియు అధిక-నిర్గమాంశ తార్కికాన్ని ప్రారంభించడం ద్వారా స్కేలింగ్‌ను పెంచడానికి భారీ తక్కువ-పవర్ మెమరీ పూల్‌ను పంచుకోవడానికి బహుళ ఏజెంట్లను అనుమతిస్తుంది.

సంస్థలు తమ తదుపరి ఇన్‌ఫ్రాస్ట్రక్చర్ పెట్టుబడిని ప్లాన్ చేస్తున్నందున, మెమరీ సోపానక్రమం యొక్క సామర్థ్యాన్ని మూల్యాంకనం చేయడం GPUని ఎంచుకున్నంత ముఖ్యమైనది.

ఇవి కూడా చూడండి: 2025 యొక్క AI చిప్ వార్స్: సప్లై చైన్ రియాలిటీ గురించి ఎంటర్‌ప్రైజ్ లీడర్‌లు ఏమి తెలుసుకున్నారు

TechEx ఈవెంట్‌ల ద్వారా AI & బిగ్ డేటా ఎక్స్‌పో కోసం బ్యానర్.

పరిశ్రమ ప్రముఖుల నుండి AI మరియు పెద్ద డేటా గురించి మరింత తెలుసుకోవాలనుకుంటున్నారా? తనిఖీ చేయండి AI & బిగ్ డేటా ఎక్స్‌పో ఆమ్‌స్టర్‌డామ్, కాలిఫోర్నియా మరియు లండన్‌లో జరుగుతున్నాయి. సమగ్ర కార్యక్రమం ఇందులో భాగమే టెక్ఎక్స్ మరియు ఇతర ప్రముఖ సాంకేతిక ఈవెంట్‌లతో కలిసి ఉంది. క్లిక్ చేయండి ఇక్కడ మరింత సమాచారం కోసం.

AI వార్తలు ఆధారితం టెక్ఫోర్జ్ మీడియా. రాబోయే ఇతర ఎంటర్‌ప్రైజ్ టెక్నాలజీ ఈవెంట్‌లు మరియు వెబ్‌నార్‌లను అన్వేషించండి ఇక్కడ.

Source link

Leave a Reply

Your email address will not be published. Required fields are marked *

Top