అలీబాబాలోని QWEN బృందం QWQ-32B ను ఆవిష్కరించింది, ఇది 32 బిలియన్ పారామితి AI మోడల్, ఇది పనితీరును చాలా పెద్ద డీప్సీక్-R1 కు ప్రత్యర్థిగా ప్రదర్శిస్తుంది. ఈ పురోగతి బలమైన ఫౌండేషన్ మోడళ్లపై స్కేలింగ్ ఉపబల అభ్యాసం (RL) యొక్క సామర్థ్యాన్ని హైలైట్ చేస్తుంది.
QWEN బృందం ఏజెంట్ సామర్థ్యాలను రీజనింగ్ మోడల్లో విజయవంతంగా విలీనం చేసింది, ఇది విమర్శనాత్మకంగా ఆలోచించడానికి, సాధనాలను ఉపయోగించుకోవటానికి మరియు పర్యావరణ అభిప్రాయాల ఆధారంగా దాని వాదనను స్వీకరించడానికి వీలు కల్పించింది.
“స్కేలింగ్ RL సాంప్రదాయిక ప్రీట్రైనింగ్ మరియు పోస్ట్-ట్రైనింగ్ పద్ధతులకు మించి మోడల్ పనితీరును పెంచే అవకాశం ఉంది” అని బృందం పేర్కొంది. “ఇటీవలి అధ్యయనాలు మోడళ్ల యొక్క తార్కిక సామర్థ్యాలను RL గణనీయంగా మెరుగుపరుస్తుందని నిరూపించాయి.”
QWQ-32B డీప్సీక్-R1 తో పోల్చదగిన పనితీరును సాధిస్తుంది, ఇది 671 బిలియన్ పారామితులను కలిగి ఉంది (37 బిలియన్ల సక్రియం), ఇది విస్తృతమైన ప్రపంచ పరిజ్ఞానంపై ముందస్తు ఫౌండేషన్ మోడళ్లకు వర్తించినప్పుడు RL యొక్క ప్రభావానికి నిదర్శనం. ఈ గొప్ప ఫలితం మోడల్ పరిమాణం మరియు పనితీరు మధ్య అంతరాన్ని తగ్గించే RL యొక్క సామర్థ్యాన్ని నొక్కి చెబుతుంది.
ఈ మోడల్ దాని గణిత తార్కికం, కోడింగ్ ప్రావీణ్యం మరియు సాధారణ సమస్య పరిష్కార సామర్థ్యాలను అంచనా వేయడానికి రూపొందించిన AIME24, లైవ్కోడ్బెంచ్, లైవ్బెంచ్, IFEVAL మరియు BFCL లతో సహా అనేక రకాల బెంచ్మార్క్లలో అంచనా వేయబడింది.
ఫలితాలు ఇతర ప్రముఖ మోడళ్లతో పోల్చితే QWQ-32B యొక్క పనితీరును హైలైట్ చేస్తాయి, వీటిలో డీప్సీక్-R1- డిస్టిల్డ్-క్వెన్ -32 బి, డీప్సీక్-ఆర్ 1-డిస్టిల్డ్-లామా -70 బి, ఓ 1-మిని మరియు అసలు డీప్సీక్-ఆర్ 1 ఉన్నాయి.
బెంచ్ మార్క్ ఫలితాలు:
- AIME24: QWQ-32B 79.5 ను సాధించింది, ఇది డీప్సెక్-R1-6718 యొక్క 79.8 కంటే కొంచెం వెనుకబడి ఉంది, కానీ ఓపెనల్-O1-MINI యొక్క 63.6 మరియు స్వేదన నమూనాల కంటే గణనీయంగా ముందుంది.
- Livecodebench: QWQ-32B 63.4 పరుగులు చేసింది, మళ్ళీ డీప్సీక్-R1-6718 యొక్క 65.9 తో దగ్గరగా సరిపోలింది మరియు స్వేదన నమూనాలను అధిగమించింది మరియు ఓపెనల్-O1-MINI యొక్క 53.8.
- లైవ్బెంచ్: QWQ-32B 73.1 సాధించింది, డీప్సెక్-R1-6718 స్కోరింగ్ 71.6, మరియు స్వేదన నమూనాలను అధిగమించింది మరియు ఓపెనల్-O1-MINI యొక్క 57.5.
- Ifeval: QWQ-32B 83.9, డీప్సీక్-R1-6718 యొక్క 83.3 కు చాలా దగ్గరగా ఉంది మరియు స్వేదన మోడళ్లకు మరియు ఓపెనల్-O1-MINI యొక్క 59.1 కు నాయకత్వం వహించింది.
- Bfcl: QWQ-32B 66.4 సాధించింది, డీప్సీక్-R1-6718 స్కోరింగ్ 62.8, స్వేదన మోడళ్లపై మరియు ఓపెనల్-O1-MINI యొక్క 49.3 పై ఆధిక్యాన్ని ప్రదర్శించింది.
Qwen జట్టు యొక్క విధానంలో కోల్డ్-స్టార్ట్ చెక్పాయింట్ మరియు ఫలిత-ఆధారిత రివార్డుల ద్వారా నడిచే బహుళ-దశల RL ప్రక్రియ ఉంది. ప్రారంభ దశ గణిత మరియు కోడింగ్ పనుల కోసం RL ను స్కేలింగ్ చేయడంపై దృష్టి పెట్టింది, ఖచ్చితత్వ ధృవీకరణదారులు మరియు కోడ్ ఎగ్జిక్యూషన్ సర్వర్లను ఉపయోగిస్తుంది. రెండవ దశ సాధారణ సామర్థ్యాలకు విస్తరించింది, సాధారణ రివార్డ్ మోడల్స్ మరియు రూల్-బేస్డ్ వెరిఫైయర్ల నుండి రివార్డులను కలుపుతుంది.
“తక్కువ మొత్తంలో దశలతో ఆర్ఎల్ శిక్షణ యొక్క ఈ దశ ఇతర సాధారణ సామర్ధ్యాల పనితీరును పెంచుతుందని మేము కనుగొన్నాము, బోధన అనుసరించడం, మానవ ప్రాధాన్యతతో అమరిక మరియు ఏజెంట్ పనితీరు, గణిత మరియు కోడింగ్లో గణనీయమైన పనితీరు తగ్గకుండా,” అని బృందం వివరించారు.
QWQ-32B ఓపెన్-వెయిట్ మరియు అందుబాటులో ఉంది ముఖాన్ని కౌగిలించుకోవడం మరియు మోడల్స్కోప్ అపాచీ 2.0 లైసెన్స్ క్రింద, మరియు Qwen చాట్ ద్వారా కూడా అందుబాటులో ఉంటుంది. రీజనింగ్ సామర్థ్యాలను పెంచడానికి Qwen బృందం దీనిని RL స్కేలింగ్ చేయడంలో ప్రారంభ దశగా చూస్తుంది మరియు దీర్ఘ-హోరిజోన్ తార్కికం కోసం RL తో ఏజెంట్ల ఏజెంట్ల ఏజెంట్లను మరింత అన్వేషించడం లక్ష్యంగా పెట్టుకుంది.
“మేము తరువాతి తరం QWEN ను అభివృద్ధి చేయడానికి కృషి చేస్తున్నప్పుడు, బలమైన ఫౌండేషన్ మోడళ్లను RL తో కలపడం స్కేల్డ్ గణన వనరులతో శక్తినిచ్చే RL తో కలపడం మాకు కృత్రిమ జనరల్ ఇంటెలిజెన్స్ (AGI) సాధించడానికి దగ్గరగా ఉంటుంది” అని బృందం పేర్కొంది.
ఇవి కూడా చూడండి: డీప్గ్రామ్ నోవా -3 మెడికల్: AI స్పీచ్ మోడల్ హెల్త్కేర్ ట్రాన్స్క్రిప్షన్ లోపాలను తగ్గిస్తుంది

పరిశ్రమ నాయకుల నుండి AI మరియు పెద్ద డేటా గురించి మరింత తెలుసుకోవాలనుకుంటున్నారా? తనిఖీ చేయండి AI & పెద్ద డేటా ఎక్స్పో ఆమ్స్టర్డామ్, కాలిఫోర్నియా మరియు లండన్లలో జరుగుతోంది. సమగ్ర సంఘటనతో సహా ఇతర ప్రముఖ సంఘటనలతో సహ-స్థాపించబడింది ఇంటెలిజెంట్ ఆటోమేషన్ కాన్ఫరెన్స్, బ్లాక్ఎక్స్, డిజిటల్ ట్రాన్స్ఫర్మేషన్ వీక్మరియు సైబర్ సెక్యూరిటీ & క్లౌడ్ ఎక్స్పో.
టెక్ఫోర్జ్ చేత శక్తినిచ్చే ఇతర రాబోయే ఎంటర్ప్రైజ్ టెక్నాలజీ ఈవెంట్స్ మరియు వెబ్నార్లను అన్వేషించండి ఇక్కడ.