Agentic AI అనేది స్థితిలేని చాట్బాట్ల నుండి సంక్లిష్టమైన వర్క్ఫ్లోల వైపు ప్రత్యేక పరిణామాన్ని సూచిస్తుంది మరియు దానిని స్కేలింగ్ చేయడానికి కొత్త మెమరీ ఆర్కిటెక్చర్ అవసరం.
ఫౌండేషన్ మోడల్లు ట్రిలియన్ల కొద్దీ పారామీటర్ల వైపు స్కేల్ చేయడం మరియు కాంటెక్స్ట్ విండోలు మిలియన్ల కొద్దీ టోకెన్లను చేరుకోవడంతో, చరిత్రను గుర్తుంచుకోవడానికి గణన ఖర్చు దానిని ప్రాసెస్ చేసే సామర్థ్యం కంటే వేగంగా పెరుగుతోంది.
ఈ సిస్టమ్లను అమలు చేస్తున్న సంస్థలు ఇప్పుడు ఒక అడ్డంకిని ఎదుర్కొంటున్నాయి, ఇక్కడ “దీర్ఘకాల జ్ఞాపకశక్తి” (సాంకేతికంగా కీ-వాల్యూ (KV) కాష్ అని పిలుస్తారు) ఇప్పటికే ఉన్న హార్డ్వేర్ ఆర్కిటెక్చర్లను అధిగమించింది.
ప్రస్తుత ఇన్ఫ్రాస్ట్రక్చర్ బైనరీ ఎంపికను బలవంతం చేస్తుంది: అనుమితి సందర్భాన్ని కొరత, అధిక-బ్యాండ్విడ్త్ GPU మెమరీ (HBM)లో నిల్వ చేయండి లేదా నెమ్మదిగా, సాధారణ-ప్రయోజన నిల్వకు పంపండి. మునుపటిది పెద్ద సందర్భాలకు చాలా ఖరీదైనది; తరువాతి జాప్యాన్ని సృష్టిస్తుంది, ఇది నిజ-సమయ ఏజెంట్ పరస్పర చర్యలను ఆచరణీయమైనదిగా చేస్తుంది.
ఏజెంట్ AI యొక్క స్కేలింగ్ను అడ్డుకునే ఈ విస్తరిస్తున్న అసమానతను పరిష్కరించడానికి, NVIDIA AI మెమరీ యొక్క అశాశ్వత మరియు అధిక-వేగం స్వభావాన్ని నిర్వహించడానికి ప్రత్యేకంగా రూపొందించిన కొత్త స్టోరేజ్ టైర్ను ప్రతిపాదిస్తూ, దాని రూబిన్ ఆర్కిటెక్చర్లో ఇన్ఫరెన్స్ కాంటెక్స్ట్ మెమరీ స్టోరేజ్ (ICMS) ప్లాట్ఫారమ్ను ప్రవేశపెట్టింది.
“AI మొత్తం కంప్యూటింగ్ స్టాక్లో విప్లవాత్మక మార్పులు చేస్తోంది-మరియు ఇప్పుడు, నిల్వ” అని హువాంగ్ చెప్పారు. “AI అనేది ఇకపై వన్-షాట్ చాట్బాట్ల గురించి కాదు, భౌతిక ప్రపంచాన్ని అర్థం చేసుకునే తెలివైన సహకారులు, సుదీర్ఘ క్షితిజాలను గురించి ఆలోచించడం, వాస్తవాలపై ఆధారపడి ఉండటం, నిజమైన పని చేయడానికి సాధనాలను ఉపయోగించడం మరియు స్వల్ప మరియు దీర్ఘకాలిక జ్ఞాపకశక్తిని నిలుపుకోవడం.”
కార్యాచరణ సవాలు ట్రాన్స్ఫార్మర్-ఆధారిత నమూనాల నిర్దిష్ట ప్రవర్తనలో ఉంది. సృష్టించబడిన ప్రతి కొత్త పదం కోసం మొత్తం సంభాషణ చరిత్రను తిరిగి గణించడాన్ని నివారించడానికి, మోడల్లు మునుపటి స్థితులను KV కాష్లో నిల్వ చేస్తాయి. ఏజెంట్ వర్క్ఫ్లోస్లో, ఈ కాష్ టూల్స్ మరియు సెషన్లలో నిరంతర మెమరీగా పనిచేస్తుంది, సీక్వెన్స్ పొడవుతో సరళంగా పెరుగుతుంది.
ఇది ప్రత్యేకమైన డేటా తరగతిని సృష్టిస్తుంది. ఆర్థిక రికార్డులు లేదా కస్టమర్ లాగ్ల వలె కాకుండా, KV కాష్ అనేది డెరైవ్డ్ డేటా; తక్షణ పనితీరుకు ఇది చాలా అవసరం కానీ ఎంటర్ప్రైజ్ ఫైల్ సిస్టమ్ల భారీ మన్నిక హామీలు అవసరం లేదు. సాధారణ-ప్రయోజన నిల్వ స్టాక్లు, ప్రామాణిక CPUలపై అమలవుతాయి, మెటాడేటా నిర్వహణపై శక్తిని ఖర్చు చేస్తాయి మరియు ఏజెంట్ పనిభారం అవసరం లేని ప్రతిరూపణ.
GPU HBM (G1) నుండి షేర్డ్ స్టోరేజ్ (G4) వరకు విస్తరించి ఉన్న ప్రస్తుత సోపానక్రమం అసమర్థంగా మారుతోంది:

GPU (G1) నుండి సిస్టమ్ RAM (G2)కి మరియు చివరికి షేర్డ్ స్టోరేజీకి (G4) కాంటెక్స్ట్ స్పిల్ అవడంతో, సామర్థ్యం క్షీణిస్తుంది. సక్రియ సందర్భాన్ని G4 శ్రేణికి తరలించడం వలన మిల్లీసెకండ్-స్థాయి జాప్యాన్ని పరిచయం చేస్తుంది మరియు ప్రతి టోకెన్కు పవర్ ధర పెరుగుతుంది, ఖరీదైన GPUలు డేటా కోసం వేచి ఉన్నప్పుడు నిష్క్రియంగా ఉంటాయి.
ఎంటర్ప్రైజ్ కోసం, ఇది ఉబ్బిన టోటల్ కాస్ట్ ఆఫ్ ఓనర్షిప్ (TCO)గా వ్యక్తమవుతుంది, ఇక్కడ యాక్టివ్ రీజనింగ్ కంటే ఇన్ఫ్రాస్ట్రక్చర్ ఓవర్హెడ్పై శక్తి వృధా అవుతుంది.
AI ఫ్యాక్టరీ కోసం కొత్త మెమరీ టైర్
పరిశ్రమ ప్రతిస్పందన ఈ సోపానక్రమంలోకి ఉద్దేశించిన-నిర్మిత పొరను చొప్పించడాన్ని కలిగి ఉంటుంది. ICMS ప్లాట్ఫారమ్ “G3.5” శ్రేణిని ఏర్పాటు చేస్తుంది—ఈథర్నెట్-అటాచ్డ్ ఫ్లాష్ లేయర్ గిగాస్కేల్ అనుమితి కోసం ప్రత్యేకంగా రూపొందించబడింది.
ఈ విధానం స్టోరేజీని నేరుగా కంప్యూట్ పాడ్లోకి అనుసంధానిస్తుంది. NVIDIA BlueField-4 డేటా ప్రాసెసర్ని ఉపయోగించడం ద్వారా, ప్లాట్ఫారమ్ హోస్ట్ CPU నుండి ఈ సందర్భ డేటా నిర్వహణను ఆఫ్లోడ్ చేస్తుంది. సిస్టమ్ ప్రతి పాడ్కు పెటాబైట్ల షేర్డ్ కెపాసిటీని అందిస్తుంది, ఏజెంట్లు ఖరీదైన HBMని ఆక్రమించకుండా భారీ మొత్తంలో చరిత్రను నిలుపుకోవడానికి అనుమతించడం ద్వారా ఏజెంట్ AI యొక్క స్కేలింగ్ను పెంచుతుంది.
కార్యాచరణ ప్రయోజనం నిర్గమాంశ మరియు శక్తిలో లెక్కించదగినది. ఈ ఇంటర్మీడియట్ టైర్లో సంబంధిత సందర్భాన్ని ఉంచడం ద్వారా – ఇది ప్రామాణిక నిల్వ కంటే వేగవంతమైనది, కానీ HBM కంటే చౌకైనది – సిస్టమ్ అవసరం కావడానికి ముందే GPUకి మెమరీని “ప్రెస్టేజ్” చేయగలదు. ఇది GPU డీకోడర్ యొక్క నిష్క్రియ సమయాన్ని తగ్గిస్తుంది, దీర్ఘ-కాంటెక్స్ట్ వర్క్లోడ్ల కోసం సెకనుకు 5x అధిక టోకెన్లను (TPS) ఎనేబుల్ చేస్తుంది.
శక్తి కోణం నుండి, చిక్కులు సమానంగా కొలవబడతాయి. ఆర్కిటెక్చర్ సాధారణ-ప్రయోజన నిల్వ ప్రోటోకాల్ల ఓవర్హెడ్ను తొలగిస్తుంది కాబట్టి, ఇది సాంప్రదాయ పద్ధతుల కంటే 5x మెరుగైన శక్తి సామర్థ్యాన్ని అందిస్తుంది.
డేటా ప్లేన్ను సమగ్రపరచడం
ఈ నిర్మాణాన్ని అమలు చేయడానికి IT బృందాలు స్టోరేజ్ నెట్వర్కింగ్ను ఎలా చూస్తాయనే విషయంలో మార్పు అవసరం. ICMS ప్లాట్ఫారమ్ ఫ్లాష్ స్టోరేజ్ని దాదాపుగా లోకల్ మెమరీ లాగా ట్రీట్ చేయడానికి అవసరమైన హై-బ్యాండ్విడ్త్, తక్కువ-జిట్టర్ కనెక్టివిటీని అందించడానికి NVIDIA స్పెక్ట్రమ్-X ఈథర్నెట్పై ఆధారపడుతుంది.
ఎంటర్ప్రైజ్ ఇన్ఫ్రాస్ట్రక్చర్ టీమ్ల కోసం, ఇంటిగ్రేషన్ పాయింట్ ఆర్కెస్ట్రేషన్ లేయర్. NVIDIA Dynamo మరియు ఇన్ఫరెన్స్ ట్రాన్స్ఫర్ లైబ్రరీ (NIXL) వంటి ఫ్రేమ్వర్క్లు శ్రేణుల మధ్య KV బ్లాక్ల కదలికను నిర్వహిస్తాయి.
AI మోడల్కి అవసరమైనప్పుడు సరైన సందర్భం GPU మెమరీ (G1) లేదా హోస్ట్ మెమరీ (G2)లోకి లోడ్ చేయబడిందని నిర్ధారించడానికి ఈ సాధనాలు నిల్వ లేయర్తో సమన్వయం చేస్తాయి. NVIDIA DOCA ఫ్రేమ్వర్క్ KV కమ్యూనికేషన్ లేయర్ను అందించడం ద్వారా కాంటెక్స్ట్ కాష్ను ఫస్ట్-క్లాస్ రిసోర్స్గా పరిగణించడం ద్వారా దీనికి మరింత మద్దతు ఇస్తుంది.
మేజర్ స్టోరేజ్ వెండర్లు ఇప్పటికే ఈ ఆర్కిటెక్చర్తో సమలేఖనం చేస్తున్నారు. AIC, Cloudian, DDN, Dell Technologies, HPE, Hitachi Vantara, IBM, Nutanix, Pure Storage, Supermicro, VAST Data మరియు WEKAతో సహా కంపెనీలు బ్లూఫీల్డ్-4తో ప్లాట్ఫారమ్లను రూపొందిస్తున్నాయి. ఈ పరిష్కారాలు ఈ ఏడాది ద్వితీయార్థంలో అందుబాటులోకి వస్తాయని భావిస్తున్నారు.
స్కేలింగ్ ఏజెంట్ AI కోసం మౌలిక సదుపాయాలను పునర్నిర్వచించడం
అంకితమైన సందర్భ మెమరీ టైర్ను స్వీకరించడం సామర్థ్య ప్రణాళిక మరియు డేటాసెంటర్ రూపకల్పనపై ప్రభావం చూపుతుంది.
- డేటాను తిరిగి వర్గీకరించడం: CIOలు తప్పనిసరిగా KV కాష్ని ఒక ప్రత్యేక డేటా రకంగా గుర్తించాలి. ఇది “అశాశ్వతమైనది కానీ జాప్యం-సెన్సిటివ్”, “మన్నికైన మరియు చల్లని” సమ్మతి డేటా నుండి భిన్నంగా ఉంటుంది. G3.5 టైర్ మునుపటిని నిర్వహిస్తుంది, మన్నికైన G4 నిల్వను దీర్ఘకాలిక లాగ్లు మరియు కళాఖండాలపై దృష్టి పెట్టడానికి అనుమతిస్తుంది.
- ఆర్కెస్ట్రేషన్ పరిపక్వత: పనిభారాన్ని తెలివిగా ఉంచగల సాఫ్ట్వేర్పై విజయం ఆధారపడి ఉంటుంది. సిస్టమ్ టోపోలాజీ-అవేర్ ఆర్కెస్ట్రేషన్ (NVIDIA గ్రోవ్ ద్వారా) వారి కాష్ చేసిన సందర్భానికి సమీపంలో ఉద్యోగాలను ఉంచడానికి ఉపయోగిస్తుంది, ఫాబ్రిక్ అంతటా డేటా కదలికను తగ్గిస్తుంది.
- శక్తి సాంద్రత: అదే ర్యాక్ ఫుట్ప్రింట్లో మరింత ఉపయోగించగల సామర్థ్యాన్ని అమర్చడం ద్వారా, సంస్థలు ఇప్పటికే ఉన్న సౌకర్యాల జీవితాన్ని పొడిగించవచ్చు. అయినప్పటికీ, ఇది చదరపు మీటరుకు గణన సాంద్రతను పెంచుతుంది, తగినంత శీతలీకరణ మరియు విద్యుత్ పంపిణీ ప్రణాళిక అవసరం.
ఏజెంట్ AIకి మారడం వలన డేటాసెంటర్ యొక్క భౌతిక పునర్నిర్మాణం జరుగుతుంది. నెమ్మదైన, నిరంతర నిల్వ నుండి కంప్యూట్ను పూర్తిగా వేరుచేసే ప్రబలంగా ఉన్న మోడల్ ఫోటోగ్రాఫిక్ జ్ఞాపకాలతో ఏజెంట్ల నిజ-సమయ పునరుద్ధరణ అవసరాలకు అనుకూలంగా లేదు.
ప్రత్యేక సందర్భ శ్రేణిని పరిచయం చేయడం ద్వారా, సంస్థలు GPU HBM ధర నుండి మోడల్ మెమరీ పెరుగుదలను వేరు చేయగలవు. ఏజెంట్ AI కోసం ఈ ఆర్కిటెక్చర్ సంక్లిష్టమైన ప్రశ్నలను అందించే ఖర్చును తగ్గించడానికి మరియు అధిక-నిర్గమాంశ తార్కికాన్ని ప్రారంభించడం ద్వారా స్కేలింగ్ను పెంచడానికి భారీ తక్కువ-పవర్ మెమరీ పూల్ను పంచుకోవడానికి బహుళ ఏజెంట్లను అనుమతిస్తుంది.
సంస్థలు తమ తదుపరి ఇన్ఫ్రాస్ట్రక్చర్ పెట్టుబడిని ప్లాన్ చేస్తున్నందున, మెమరీ సోపానక్రమం యొక్క సామర్థ్యాన్ని మూల్యాంకనం చేయడం GPUని ఎంచుకున్నంత ముఖ్యమైనది.
ఇవి కూడా చూడండి: 2025 యొక్క AI చిప్ వార్స్: సప్లై చైన్ రియాలిటీ గురించి ఎంటర్ప్రైజ్ లీడర్లు ఏమి తెలుసుకున్నారు

పరిశ్రమ ప్రముఖుల నుండి AI మరియు పెద్ద డేటా గురించి మరింత తెలుసుకోవాలనుకుంటున్నారా? తనిఖీ చేయండి AI & బిగ్ డేటా ఎక్స్పో ఆమ్స్టర్డామ్, కాలిఫోర్నియా మరియు లండన్లో జరుగుతున్నాయి. సమగ్ర కార్యక్రమం ఇందులో భాగమే టెక్ఎక్స్ మరియు ఇతర ప్రముఖ సాంకేతిక ఈవెంట్లతో కలిసి ఉంది. క్లిక్ చేయండి ఇక్కడ మరింత సమాచారం కోసం.
AI వార్తలు ఆధారితం టెక్ఫోర్జ్ మీడియా. రాబోయే ఇతర ఎంటర్ప్రైజ్ టెక్నాలజీ ఈవెంట్లు మరియు వెబ్నార్లను అన్వేషించండి ఇక్కడ.