Hot News

AI ఫ్రేమ్‌వర్క్ LLM ఏజెంట్ అస్థిరతను పరిష్కరిస్తుంది

సంక్లిష్ట పరిస్థితులను నిర్వహించేటప్పుడు LLM ఏజెంట్ అస్థిరతను ఎదుర్కోవటానికి రూపొందించిన AI ఫ్రేమ్‌వర్క్ రాగెన్‌ను పరిశోధకులు ప్రవేశపెట్టారు.

ఈ AI ఏజెంట్లకు శిక్షణ ఇవ్వడం గణనీయమైన అడ్డంకులను అందిస్తుంది, ప్రత్యేకించి నిర్ణయాలు బహుళ దశలను విస్తరించి, పర్యావరణం నుండి అనూహ్యమైన అభిప్రాయాన్ని కలిగి ఉంటాయి. గణిత సమస్యలను పరిష్కరించడం లేదా కోడ్‌ను ఉత్పత్తి చేయడం వంటి స్టాటిక్ పనులలో ఉపబల అభ్యాసం (ఆర్‌ఎల్) వాగ్దానాన్ని చూపించినప్పటికీ, డైనమిక్, మల్టీ-టర్న్ ఏజెంట్ శిక్షణకు దాని అనువర్తనం తక్కువ అన్వేషించబడింది.

ఈ అంతరాన్ని పరిష్కరించడం, సంస్థల నుండి సహకార బృందం నార్త్ వెస్ట్రన్ విశ్వవిద్యాలయం, స్టాన్ఫోర్డ్ విశ్వవిద్యాలయం, మైక్రోసాఫ్ట్మరియు న్యూయార్క్ విశ్వవిద్యాలయం స్టార్‌పిఓ (స్టేట్-థింకింగ్-యాక్షన్-రివార్డ్ పాలసీ ఆప్టిమైజేషన్) ను ప్రతిపాదించింది.

స్టార్‌పో పథం స్థాయిలో శిక్షణా ఏజెంట్ల కోసం సాధారణీకరించిన విధానాన్ని అందిస్తుంది (అనగా ఇది వ్యక్తిగత చర్యల మాత్రమే కాకుండా, పరస్పర చర్యల యొక్క మొత్తం క్రమాన్ని ఆప్టిమైజ్ చేస్తుంది.)

దీనితో పాటు స్టార్‌పిఓను అమలు చేయడానికి నిర్మించిన మాడ్యులర్ సిస్టమ్ రాగెన్. ఇది LLM ఏజెంట్ల శిక్షణ మరియు మూల్యాంకనాన్ని అనుమతిస్తుంది, ముఖ్యంగా RL క్రింద వారి తార్కిక సామర్థ్యాలపై దృష్టి పెడుతుంది. మల్టీ-టర్న్, యాదృచ్ఛిక (యాదృచ్ఛికంగా నిర్ణయించబడిన) పరిసరాలలో రోల్‌అవుట్‌లు, రివార్డ్ అసైన్‌మెంట్ మరియు ఆప్టిమైజేషన్ కోసం రాగెన్ అవసరమైన మౌలిక సదుపాయాలను అందిస్తుంది.

మినిమలిస్ట్ పరిసరాలు, గరిష్ట అంతర్దృష్టి

విస్తృతమైన ముందుగా ఉన్న జ్ఞానం లేదా టాస్క్-స్పెసిఫిక్ ఇంజనీరింగ్ వంటి గందరగోళ కారకాల నుండి ప్రధాన అభ్యాస సవాళ్లను వేరుచేయడానికి, పరిశోధకులు రాగెన్‌ను ఉపయోగించి మూడు ఉద్దేశపూర్వకంగా కనీస, నియంత్రించదగిన సింబాలిక్ గేమింగ్ పరిసరాలలో LLM లను పరీక్షించారు:

  1. బందిపోటు: సింగిల్-టర్న్, యాదృచ్ఛిక టాస్క్ టెస్టింగ్ రిస్క్-సెన్సిటివ్ సింబాలిక్ రీజనింగ్. ఏజెంట్ విభిన్న, ప్రారంభంలో తెలియని, రివార్డ్ ప్రొఫైల్‌లతో ఎంపికల మధ్య (‘ఫీనిక్స్’ లేదా ‘డ్రాగన్’ చేతులు వంటి ఎంపికల మధ్య ఎంచుకుంటాడు.
  2. సోకోబన్: మల్టీ-టర్న్, నిర్ణయాత్మక పజిల్ దూరదృష్టి మరియు ప్రణాళిక అవసరం, ఎందుకంటే చర్యలు (పెట్టెలను నెట్టడం) కోలుకోలేనివి.
  3. ఘనీభవించిన సరస్సు: ఉద్యమ ప్రయత్నాలు యాదృచ్ఛికంగా విఫలమయ్యే మల్టీ-టర్న్, యాదృచ్ఛిక గ్రిడ్ నావిగేషన్ టాస్క్, అనిశ్చితి కింద ప్రణాళికను కోరుతున్నాయి.

ఈ పరిసరాలు ఏజెంట్లు నిర్ణయం తీసుకునే విధానాలను పూర్తిగా పరస్పర చర్య ద్వారా ఎలా నేర్చుకుంటాయో స్పష్టమైన విశ్లేషణకు అనుమతిస్తాయి.

ముఖ్య ఫలితాలు: స్థిరత్వం, రోల్‌అవుట్‌లు మరియు తార్కికం

ఈ అధ్యయనం స్వీయ-అభివృద్ధి చెందుతున్న LLM ఏజెంట్ల శిక్షణకు సంబంధించిన మూడు ముఖ్యమైన ఫలితాలను ఇచ్చింది:

‘ఎకో ట్రాప్’ మరియు స్థిరత్వం అవసరం

మల్టీ-టర్న్ ఆర్‌ఎల్ శిక్షణ సమయంలో గమనించిన పునరావృత సమస్యను “ఎకో ట్రాప్” అని పిలుస్తారు. ఏజెంట్లు మొదట్లో మెరుగుపడతారు కాని తరువాత పనితీరు పతనానికి గురవుతారు, స్థానికంగా బహుమతి పొందిన తార్కిక విధానాలకు అధికంగా సరిపోతారు.

రివార్డ్ వైవిధ్యం, పడిపోయే ఎంట్రోపీ (యాదృచ్ఛికత/అన్వేషణ యొక్క కొలత) మరియు ప్రవణతలలో ఆకస్మిక వచ్చే చిక్కులు (శిక్షణ అస్థిరతను సూచిస్తుంది) ద్వారా ఇది గుర్తించబడింది. ప్రారంభ సంకేతాలలో రివార్డ్ ప్రామాణిక విచలనం మరియు అవుట్పుట్ ఎంట్రోపీలో చుక్కలు ఉన్నాయి.

దీనిని ఎదుర్కోవటానికి, బృందం ఫ్రేమ్‌వర్క్ యొక్క స్థిరీకరించిన సంస్కరణ అయిన స్టార్‌పో-ఎస్ ను అభివృద్ధి చేసింది. స్టార్‌పో-ఎస్ ఇన్కార్పొరేట్స్:

  • వ్యత్యాసం-ఆధారిత పథం వడపోత: ఏజెంట్ యొక్క ప్రవర్తన అధిక అనిశ్చితిని (అధిక రివార్డ్ వ్యత్యాసం) చూపించే పని సందర్భాలపై శిక్షణ ఇవ్వడం, తక్కువ-వైవిధ్యాన్ని విస్మరించడం, తక్కువ సమాచార రోల్అవుట్లను విస్మరిస్తుంది. ఇది స్థిరత్వం మరియు సామర్థ్యాన్ని మెరుగుపరిచింది.
  • విమర్శకుడు విలీనం: విలువను అంచనా వేయడానికి ‘విమర్శకుడిని’ ఉపయోగించే పిపిఓ (ప్రాక్సిమల్ పాలసీ ఆప్టిమైజేషన్) వంటి పద్ధతులను ఉపయోగించడం, సాధారణంగా చాలా పరీక్షలలో GRPO (గ్రూప్ సాపేక్ష పాలసీ ఆప్టిమైజేషన్) వంటి విమర్శకుడు-రహిత పద్ధతుల కంటే మెరుగైన స్థిరత్వాన్ని చూపించింది.
  • డికపుల్డ్ క్లిప్పింగ్ మరియు కెఎల్ తొలగింపు: అసమాన క్లిప్పింగ్ (సానుకూల రివార్డ్స్ నుండి మరింత దూకుడుగా నేర్చుకోవటానికి అనుమతించడం) మరియు KL డైవర్జెన్స్ పెనాల్టీలను తొలగించడం (అన్వేషణను ప్రోత్సహించడం) ఇతర పరిశోధనల (DAPO) నుండి స్వీకరించబడిన పద్ధతులు మరింత స్థిరత్వం మరియు పనితీరును మరింత పెంచాయి.

వనిల్లా స్టార్‌పోతో పోలిస్తే స్టార్‌పో-ఎస్ స్థిరంగా పతనం మరియు మెరుగైన తుది పని పనితీరును మెరుగుపరిచింది.

రోల్అవుట్ నాణ్యత చాలా ముఖ్యమైనది

‘రోల్‌అవుట్స్’ యొక్క లక్షణాలు (శిక్షణ కోసం ఉపయోగించే అనుకరణ పరస్పర పథాలు) అభ్యాసాన్ని గణనీయంగా ప్రభావితం చేస్తాయి. గుర్తించబడిన ముఖ్య అంశాలు:

  • పని వైవిధ్యం: విభిన్న ప్రారంభ స్థితులతో (ప్రాంప్ట్) శిక్షణ, కానీ ప్రాంప్ట్‌కు బహుళ ప్రతిస్పందనలతో, ఎయిడ్స్ సాధారణీకరణ. స్వీట్ స్పాట్ మితమైన వైవిధ్యం అనిపించింది, ఇలాంటి దృశ్యాలలో విభిన్న ఫలితాల మధ్య వ్యత్యాసాన్ని ఎనేబుల్ చేస్తుంది.
  • ఇంటరాక్షన్ గ్రాన్యులారిటీ: ప్రతి మలుపుకు బహుళ చర్యలను అనుమతించడం (సుమారు 5-6 నిరూపించింది) అధికంగా సుదీర్ఘమైన చర్య సన్నివేశాలతో సంబంధం ఉన్న శబ్దాన్ని ప్రవేశపెట్టకుండా, స్థిర మలుపు పరిమితిలో మెరుగైన ప్రణాళికను అనుమతిస్తుంది.
  • రోల్అవుట్ ఫ్రీక్వెన్సీ: ఏజెంట్ యొక్క ప్రస్తుత విధానాన్ని ప్రతిబింబించే తాజా, నవీనమైన రోల్‌అవుట్‌లను ఉపయోగించడం చాలా అవసరం. పాలసీ-డేటా అసమతుల్యతను తగ్గించడం ద్వారా మరింత తరచుగా నమూనా (‘ఆన్‌లైన్’ సెట్టింగ్‌కు చేరుకోవడం) వేగంగా కన్వర్జెన్స్ మరియు మెరుగైన సాధారణీకరణకు దారితీస్తుంది.

తాజాదనాన్ని కాపాడుకోవడం, తగిన చర్య బడ్జెట్లు మరియు పని వైవిధ్యంతో పాటు, స్థిరమైన శిక్షణకు కీలకం.

రీజనింగ్‌కు జాగ్రత్తగా రివార్డ్ డిజైన్ అవసరం

‘ఆలోచించమని’ నమూనాలను ప్రాంప్ట్ చేయడం అర్ధవంతమైన తార్కికానికి హామీ ఇవ్వదు, ముఖ్యంగా మల్టీ-టర్న్ పనులలో. అధ్యయనం కనుగొంది:

  • సింబాలిక్ సూచనలు రివార్డులతో విభేదించినప్పటికీ, సరళమైన, సింగిల్-టర్న్ బందిపోటు పనిలో సాధారణీకరణకు రీజనింగ్ జాడలు సహాయపడ్డాయి.
  • సోకోబన్ వంటి బహుళ-టర్న్ పనులలో, తార్కిక ప్రయోజనాలు పరిమితం, మరియు శిక్షణ సమయంలో ‘ఆలోచనా’ విభాగాల పొడవు స్థిరంగా క్షీణించాయి. ఏజెంట్లు తరచూ ప్రత్యక్ష చర్య ఎంపికకు తిరోగమనం చేస్తారు లేదా రివార్డులు పని విజయాన్ని మాత్రమే ట్రాక్ చేస్తే, “ఆలోచనలు మరియు పర్యావరణ స్థితుల మధ్య అసమతుల్యత” ను వెల్లడిస్తే “భ్రాంతులు తార్కికం” ఉత్పత్తి చేస్తారు.

ప్రామాణిక పథం-స్థాయి రివార్డులు (తరచుగా తక్కువ మరియు ఫలిత-ఆధారిత) సరిపోవు అని ఇది సూచిస్తుంది.

“చక్కటి-కణిత, తార్కిక-అవగాహన సంకేతాలు లేకుండా, ఏజెంట్ రీజనింగ్ మల్టీ-టర్న్ RL ద్వారా (లు) బయటపడదు.”

భవిష్యత్ పని ఇంటర్మీడియట్ రీజనింగ్ దశల నాణ్యతను స్పష్టంగా అంచనా వేసే రివార్డులను అన్వేషించాలని పరిశోధకులు ప్రతిపాదించారు, బహుశా తుది ఫలితాల కంటే ఫార్మాట్-ఆధారిత జరిమానాలు లేదా బహుమతి వివరణ నాణ్యతను ఉపయోగించడం.

రాగెన్ మరియు స్టార్పో: స్వీయ-అభివృద్ధి చెందుతున్న AI వైపు ఒక అడుగు

రాగెన్ వ్యవస్థ మరియు స్టార్‌పో ఫ్రేమ్‌వర్క్ LLM ఏజెంట్లకు శిక్షణ వైపు ఒక అడుగును సూచిస్తాయి, ఇవి సంక్లిష్టమైన, అనూహ్య వాతావరణంలో పరస్పర చర్య ద్వారా కారణం మరియు స్వీకరించగలవు.

ఈ పరిశోధన మల్టీ-టర్న్ RL చేత ఎదురయ్యే ప్రత్యేకమైన స్థిరత్వ సవాళ్లను హైలైట్ చేస్తుంది మరియు వాటిని తగ్గించడానికి స్టార్‌పో-ఎస్ యొక్క వడపోత మరియు స్థిరీకరణ పద్ధతులు వంటి కాంక్రీట్ వ్యూహాలను అందిస్తుంది. ఇది రోల్అవుట్ తరం వ్యూహాల యొక్క కీలక పాత్రను మరియు ఉపరితల వ్యూహాలు లేదా భ్రాంతులు కాకుండా నిజమైన తార్కికతను పండించడానికి మరింత అధునాతన రివార్డ్ మెకానిజమ్స్ యొక్క అవసరాన్ని కూడా నొక్కి చెబుతుంది.

పరిమితులను అంగీకరిస్తున్నప్పుడు – పెద్ద మోడళ్లను పరీక్షించాల్సిన అవసరం మరియు సులభంగా ధృవీకరించదగిన రివార్డులు లేకుండా డొమైన్‌ల కోసం ఆప్టిమైజ్ చేయవలసిన అవసరం ఉంది – సంక్లిష్ట పరస్పర చర్య మరియు ధృవీకరించదగిన ఫలితాలను కోరుతున్న ప్రాంతాలలో “AI వ్యవస్థలను నిర్మించడానికి స్కేలబుల్ మరియు సూత్రప్రాయమైన మార్గాన్ని” తెరుస్తుంది, సిద్ధాంతం ప్రోవింగ్, సాఫ్ట్‌వేర్ ఇంజనీరింగ్ మరియు శాస్త్రీయ ఆవిష్కరణ.

(చిత్రం గెర్డ్ ఆల్ట్మాన్)

ఇవి కూడా చూడండి: AI ఎలా తీర్పు ఇస్తుంది? ఆంత్రోపిక్ క్లాడ్ యొక్క విలువలను అధ్యయనం చేస్తుంది

పరిశ్రమ నాయకుల నుండి AI మరియు పెద్ద డేటా గురించి మరింత తెలుసుకోవాలనుకుంటున్నారా? తనిఖీ చేయండి AI & పెద్ద డేటా ఎక్స్‌పో ఆమ్స్టర్డామ్, కాలిఫోర్నియా మరియు లండన్లలో జరుగుతోంది. సమగ్ర సంఘటనతో సహా ఇతర ప్రముఖ సంఘటనలతో సహ-స్థాపించబడింది ఇంటెలిజెంట్ ఆటోమేషన్ కాన్ఫరెన్స్, బ్లాక్ఎక్స్, డిజిటల్ ట్రాన్స్ఫర్మేషన్ వీక్మరియు సైబర్ సెక్యూరిటీ & క్లౌడ్ ఎక్స్‌పో.

టెక్ఫోర్జ్ చేత శక్తినిచ్చే ఇతర రాబోయే ఎంటర్ప్రైజ్ టెక్నాలజీ ఈవెంట్స్ మరియు వెబ్‌నార్లను అన్వేషించండి ఇక్కడ.

Source link

Leave a Reply

Your email address will not be published. Required fields are marked *

Top