అలీబాబా మార్కో-ఓ1, లార్జ్ లాంగ్వేజ్ మోడల్ (ఎల్ఎల్ఎమ్)ను సంప్రదాయ మరియు ఓపెన్-ఎండ్ సమస్య-పరిష్కార పనులను పరిష్కరించడానికి రూపొందించబడింది.
అలీబాబా యొక్క మార్కోపోలో బృందం నుండి వచ్చిన Marco-o1, సంక్లిష్టమైన తార్కిక సవాళ్లను-ముఖ్యంగా గణితం, భౌతిక శాస్త్రం, కోడింగ్ మరియు స్పష్టమైన ప్రమాణాలు లేని ప్రాంతాలలో AI యొక్క సామర్థ్యంలో మరో ముందడుగు వేస్తుంది.
OpenAI యొక్క తార్కిక పురోగతులపై నిర్మించడం దాని o1 మోడల్చైన్-ఆఫ్-థాట్ (CoT) ఫైన్-ట్యూనింగ్, మోంటే కార్లో ట్రీ సెర్చ్ (MCTS) మరియు నావెల్ రిఫ్లెక్షన్ మెకానిజమ్స్తో సహా అనేక అధునాతన సాంకేతికతలను చేర్చడం ద్వారా Marco-o1 విభిన్నంగా ఉంటుంది. వివిధ డొమైన్లలో మోడల్ యొక్క సమస్య-పరిష్కార సామర్థ్యాలను మెరుగుపరచడానికి ఈ భాగాలు కచేరీలో పని చేస్తాయి.
ఓపెన్-O1 CoT డేటాసెట్ యొక్క ఫిల్టర్ వెర్షన్, సింథటిక్ Marco-o1 CoT డేటాసెట్ మరియు ప్రత్యేకమైన మార్కో ఇన్స్ట్రక్షన్ డేటాసెట్తో సహా బహుళ డేటాసెట్లను ఉపయోగించి డెవలప్మెంట్ టీమ్ సమగ్ర ఫైన్-ట్యూనింగ్ వ్యూహాన్ని అమలు చేసింది. మొత్తంగా, శిక్షణ కార్పస్ 60,000 కంటే ఎక్కువ జాగ్రత్తగా క్యూరేటెడ్ నమూనాలను కలిగి ఉంటుంది.
మోడల్ బహుభాషా అనువర్తనాల్లో ప్రత్యేకంగా ఆకట్టుకునే ఫలితాలను ప్రదర్శించింది. పరీక్షలో, Marco-o1 ఇంగ్లీష్ MGSM డేటాసెట్లో 6.17% మరియు దాని చైనీస్ కౌంటర్పార్ట్లో 5.60% గణనీయమైన ఖచ్చితత్వ మెరుగుదలలను సాధించింది. మోడల్ అనువాద పనులలో ప్రత్యేక బలాన్ని చూపింది, ప్రత్యేకించి వ్యవహారిక వ్యక్తీకరణలు మరియు సాంస్కృతిక సూక్ష్మ నైపుణ్యాలను నిర్వహించేటప్పుడు.
మోడల్ యొక్క అత్యంత వినూత్న లక్షణాలలో ఒకటి MCTS ఫ్రేమ్వర్క్లో వివిధ యాక్షన్ గ్రాన్యులారిటీలను అమలు చేయడం. ఈ విధానం విస్తృత దశల నుండి 32 లేదా 64 టోకెన్ల మరింత ఖచ్చితమైన “మినీ-స్టెప్స్” వరకు వివిధ స్థాయిల వివరాలలో తార్కిక మార్గాలను అన్వేషించడానికి మోడల్ను అనుమతిస్తుంది. బృందం ప్రతిబింబించే యంత్రాంగాన్ని కూడా ప్రవేశపెట్టింది, ఇది మోడల్ను స్వీయ-మూల్యాంకనం చేయడానికి మరియు దాని తార్కికతను పునఃపరిశీలించమని ప్రేరేపిస్తుంది, ఇది సంక్లిష్ట సమస్య-పరిష్కార దృశ్యాలలో మెరుగైన ఖచ్చితత్వానికి దారి తీస్తుంది.
MCTS ఇంటిగ్రేషన్ ముఖ్యంగా ప్రభావవంతంగా నిరూపించబడింది, మోడల్ యొక్క అన్ని MCTS-మెరుగైన సంస్కరణలు బేస్ Marco-o1-CoT వెర్షన్ కంటే గణనీయమైన మెరుగుదలలను చూపుతున్నాయి. విభిన్న యాక్షన్ గ్రాన్యులారిటీలతో బృందం చేసిన ప్రయోగాలు ఆసక్తికరమైన నమూనాలను వెల్లడించాయి, అయినప్పటికీ సరైన వ్యూహాన్ని నిర్ణయించడానికి మరింత పరిశోధన మరియు మరింత ఖచ్చితమైన రివార్డ్ నమూనాలు అవసరమని వారు గమనించారు.

డెవలప్మెంట్ బృందం మోడల్ యొక్క ప్రస్తుత పరిమితుల గురించి పారదర్శకంగా ఉంది, మార్కో-o1 బలమైన తార్కిక లక్షణాలను ప్రదర్శిస్తున్నప్పటికీ, ఇది పూర్తిగా గ్రహించబడిన “o1” మోడల్ కంటే తక్కువగానే ఉందని అంగీకరిస్తుంది. ఈ విడుదల తుది ఉత్పత్తి కంటే మెరుగుదల కోసం కొనసాగుతున్న నిబద్ధతను సూచిస్తుందని వారు నొక్కి చెప్పారు.
ముందుచూపుతో, అలీబాబా బృందం నిర్ణయాత్మక సామర్థ్యాలను మరియు మార్కో-o1ని మెరుగుపరచడానికి అవుట్కమ్ రివార్డ్ మోడలింగ్ (ORM) మరియు ప్రాసెస్ రివార్డ్ మోడలింగ్ (PRM)తో సహా రివార్డ్ మోడల్లను చేర్చడానికి ప్రణాళికలను ప్రకటించింది. మోడల్ యొక్క సమస్య-పరిష్కార సామర్థ్యాలను మరింత మెరుగుపరచడానికి వారు ఉపబల అభ్యాస పద్ధతులను కూడా అన్వేషిస్తున్నారు.
Marco-o1 మోడల్ మరియు అనుబంధిత డేటాసెట్లు సమగ్ర డాక్యుమెంటేషన్ మరియు ఇంప్లిమెంటేషన్ గైడ్లతో పూర్తి అలీబాబా యొక్క GitHub రిపోజిటరీ ద్వారా పరిశోధనా సంఘానికి అందుబాటులో ఉంచబడ్డాయి. విడుదలలో ఇన్స్టాలేషన్ సూచనలు మరియు ఫాస్ట్ఏపీఐ ద్వారా డైరెక్ట్ మోడల్ వినియోగం మరియు విస్తరణ రెండింటికీ ఉదాహరణ స్క్రిప్ట్లు ఉన్నాయి.
(ఫోటో అలీనా గ్రుబ్న్యాక్)
ఇవి కూడా చూడండి: కొత్త AI శిక్షణా పద్ధతులు ప్రస్తుత సవాళ్లను అధిగమించే లక్ష్యంతో ఉన్నాయి

పరిశ్రమ ప్రముఖుల నుండి AI మరియు పెద్ద డేటా గురించి మరింత తెలుసుకోవాలనుకుంటున్నారా? తనిఖీ చేయండి AI & బిగ్ డేటా ఎక్స్పో ఆమ్స్టర్డామ్, కాలిఫోర్నియా మరియు లండన్లో జరుగుతున్నాయి. సమగ్ర ఈవెంట్ సహా ఇతర ప్రముఖ ఈవెంట్లతో సహ-స్థానంలో ఉంది ఇంటెలిజెంట్ ఆటోమేషన్ కాన్ఫరెన్స్, బ్లాక్ ఎక్స్, డిజిటల్ ట్రాన్స్ఫర్మేషన్ వీక్మరియు సైబర్ సెక్యూరిటీ & క్లౌడ్ ఎక్స్పో.
TechForge ద్వారా అందించబడే ఇతర రాబోయే ఎంటర్ప్రైజ్ టెక్నాలజీ ఈవెంట్లు మరియు వెబ్నార్లను అన్వేషించండి ఇక్కడ.