అలీబాబా QWEN QWQ-32B: స్కేల్డ్ రీన్ఫోర్స్‌మెంట్ లెర్నింగ్ షోకేస్

అలీబాబాలోని QWEN బృందం QWQ-32B ను ఆవిష్కరించింది, ఇది 32 బిలియన్ పారామితి AI మోడల్, ఇది పనితీరును చాలా పెద్ద డీప్సీక్-R1 కు ప్రత్యర్థిగా ప్రదర్శిస్తుంది. ఈ పురోగతి బలమైన ఫౌండేషన్ మోడళ్లపై స్కేలింగ్ ఉపబల అభ్యాసం (RL) యొక్క సామర్థ్యాన్ని హైలైట్ చేస్తుంది.

QWEN బృందం ఏజెంట్ సామర్థ్యాలను రీజనింగ్ మోడల్‌లో విజయవంతంగా విలీనం చేసింది, ఇది విమర్శనాత్మకంగా ఆలోచించడానికి, సాధనాలను ఉపయోగించుకోవటానికి మరియు పర్యావరణ అభిప్రాయాల ఆధారంగా దాని వాదనను స్వీకరించడానికి వీలు కల్పించింది.

“స్కేలింగ్ RL సాంప్రదాయిక ప్రీట్రైనింగ్ మరియు పోస్ట్-ట్రైనింగ్ పద్ధతులకు మించి మోడల్ పనితీరును పెంచే అవకాశం ఉంది” అని బృందం పేర్కొంది. “ఇటీవలి అధ్యయనాలు మోడళ్ల యొక్క తార్కిక సామర్థ్యాలను RL గణనీయంగా మెరుగుపరుస్తుందని నిరూపించాయి.”

QWQ-32B డీప్సీక్-R1 తో పోల్చదగిన పనితీరును సాధిస్తుంది, ఇది 671 బిలియన్ పారామితులను కలిగి ఉంది (37 బిలియన్ల సక్రియం), ఇది విస్తృతమైన ప్రపంచ పరిజ్ఞానంపై ముందస్తు ఫౌండేషన్ మోడళ్లకు వర్తించినప్పుడు RL యొక్క ప్రభావానికి నిదర్శనం. ఈ గొప్ప ఫలితం మోడల్ పరిమాణం మరియు పనితీరు మధ్య అంతరాన్ని తగ్గించే RL యొక్క సామర్థ్యాన్ని నొక్కి చెబుతుంది.

ఈ మోడల్ దాని గణిత తార్కికం, కోడింగ్ ప్రావీణ్యం మరియు సాధారణ సమస్య పరిష్కార సామర్థ్యాలను అంచనా వేయడానికి రూపొందించిన AIME24, లైవ్‌కోడ్‌బెంచ్, లైవ్‌బెంచ్, IFEVAL మరియు BFCL లతో సహా అనేక రకాల బెంచ్‌మార్క్‌లలో అంచనా వేయబడింది.

ఫలితాలు ఇతర ప్రముఖ మోడళ్లతో పోల్చితే QWQ-32B యొక్క పనితీరును హైలైట్ చేస్తాయి, వీటిలో డీప్సీక్-R1- డిస్టిల్డ్-క్వెన్ -32 బి, డీప్సీక్-ఆర్ 1-డిస్టిల్డ్-లామా -70 బి, ఓ 1-మిని మరియు అసలు డీప్సీక్-ఆర్ 1 ఉన్నాయి.

బెంచ్ మార్క్ ఫలితాలు:

AIME24: QWQ-32B 79.5 ను సాధించింది, ఇది డీప్సెక్-R1-6718 యొక్క 79.8 కంటే కొంచెం వెనుకబడి ఉంది, కానీ ఓపెనల్-O1-MINI యొక్క 63.6 మరియు స్వేదన నమూనాల కంటే గణనీయంగా ముందుంది.
Livecodebench: QWQ-32B 63.4 పరుగులు చేసింది, మళ్ళీ డీప్సీక్-R1-6718 యొక్క 65.9 తో దగ్గరగా సరిపోలింది మరియు స్వేదన నమూనాలను అధిగమించింది మరియు ఓపెనల్-O1-MINI యొక్క 53.8.
లైవ్‌బెంచ్: QWQ-32B 73.1 సాధించింది, డీప్సెక్-R1-6718 స్కోరింగ్ 71.6, మరియు స్వేదన నమూనాలను అధిగమించింది మరియు ఓపెనల్-O1-MINI యొక్క 57.5.
Ifeval: QWQ-32B 83.9, డీప్సీక్-R1-6718 యొక్క 83.3 కు చాలా దగ్గరగా ఉంది మరియు స్వేదన మోడళ్లకు మరియు ఓపెనల్-O1-MINI యొక్క 59.1 కు నాయకత్వం వహించింది.
Bfcl: QWQ-32B 66.4 సాధించింది, డీప్‌సీక్-R1-6718 స్కోరింగ్ 62.8, స్వేదన మోడళ్లపై మరియు ఓపెనల్-O1-MINI యొక్క 49.3 పై ఆధిక్యాన్ని ప్రదర్శించింది.

Qwen జట్టు యొక్క విధానంలో కోల్డ్-స్టార్ట్ చెక్‌పాయింట్ మరియు ఫలిత-ఆధారిత రివార్డుల ద్వారా నడిచే బహుళ-దశల RL ప్రక్రియ ఉంది. ప్రారంభ దశ గణిత మరియు కోడింగ్ పనుల కోసం RL ను స్కేలింగ్ చేయడంపై దృష్టి పెట్టింది, ఖచ్చితత్వ ధృవీకరణదారులు మరియు కోడ్ ఎగ్జిక్యూషన్ సర్వర్‌లను ఉపయోగిస్తుంది. రెండవ దశ సాధారణ సామర్థ్యాలకు విస్తరించింది, సాధారణ రివార్డ్ మోడల్స్ మరియు రూల్-బేస్డ్ వెరిఫైయర్ల నుండి రివార్డులను కలుపుతుంది.

“తక్కువ మొత్తంలో దశలతో ఆర్‌ఎల్ శిక్షణ యొక్క ఈ దశ ఇతర సాధారణ సామర్ధ్యాల పనితీరును పెంచుతుందని మేము కనుగొన్నాము, బోధన అనుసరించడం, మానవ ప్రాధాన్యతతో అమరిక మరియు ఏజెంట్ పనితీరు, గణిత మరియు కోడింగ్‌లో గణనీయమైన పనితీరు తగ్గకుండా,” అని బృందం వివరించారు.

QWQ-32B ఓపెన్-వెయిట్ మరియు అందుబాటులో ఉంది ముఖాన్ని కౌగిలించుకోవడం మరియు మోడల్‌స్కోప్ అపాచీ 2.0 లైసెన్స్ క్రింద, మరియు Qwen చాట్ ద్వారా కూడా అందుబాటులో ఉంటుంది. రీజనింగ్ సామర్థ్యాలను పెంచడానికి Qwen బృందం దీనిని RL స్కేలింగ్ చేయడంలో ప్రారంభ దశగా చూస్తుంది మరియు దీర్ఘ-హోరిజోన్ తార్కికం కోసం RL తో ఏజెంట్ల ఏజెంట్ల ఏజెంట్లను మరింత అన్వేషించడం లక్ష్యంగా పెట్టుకుంది.

“మేము తరువాతి తరం QWEN ను అభివృద్ధి చేయడానికి కృషి చేస్తున్నప్పుడు, బలమైన ఫౌండేషన్ మోడళ్లను RL తో కలపడం స్కేల్డ్ గణన వనరులతో శక్తినిచ్చే RL తో కలపడం మాకు కృత్రిమ జనరల్ ఇంటెలిజెన్స్ (AGI) సాధించడానికి దగ్గరగా ఉంటుంది” అని బృందం పేర్కొంది.

ఇవి కూడా చూడండి: డీప్‌గ్రామ్ నోవా -3 మెడికల్: AI స్పీచ్ మోడల్ హెల్త్‌కేర్ ట్రాన్స్క్రిప్షన్ లోపాలను తగ్గిస్తుంది

పరిశ్రమ నాయకుల నుండి AI మరియు పెద్ద డేటా గురించి మరింత తెలుసుకోవాలనుకుంటున్నారా? తనిఖీ చేయండి AI & పెద్ద డేటా ఎక్స్‌పో ఆమ్స్టర్డామ్, కాలిఫోర్నియా మరియు లండన్లలో జరుగుతోంది. సమగ్ర సంఘటనతో సహా ఇతర ప్రముఖ సంఘటనలతో సహ-స్థాపించబడింది ఇంటెలిజెంట్ ఆటోమేషన్ కాన్ఫరెన్స్, బ్లాక్ఎక్స్, డిజిటల్ ట్రాన్స్ఫర్మేషన్ వీక్మరియు సైబర్ సెక్యూరిటీ & క్లౌడ్ ఎక్స్‌పో.

టెక్ఫోర్జ్ చేత శక్తినిచ్చే ఇతర రాబోయే ఎంటర్ప్రైజ్ టెక్నాలజీ ఈవెంట్స్ మరియు వెబ్‌నార్లను అన్వేషించండి ఇక్కడ.

Source link

Useful _Links

ఎంటర్‌ప్రైజ్ AI గవర్నెన్స్ లాభాల మార్జిన్‌లను ఎలా సురక్షితం చేస్తుంది

ప్రతి-టోకెన్ AI ఛార్జీలు GitHub Copilotకి వస్తాయి

LG మరియు NVIDIA యొక్క చర్చలు భౌతిక AI యొక్క భవిష్యత్తు గురించి ఏమి వెల్లడిస్తున్నాయి

రెగ్యులేటర్లు ఫ్లాగ్ కంట్రోల్ గ్యాప్‌ల కారణంగా AI ఏజెంట్ గవర్నెన్స్ దృష్టి పెడుతుంది

APIలు, MCPలు మరియు MCP గేట్‌వేలకు గైడ్

బిగ్ టెక్ యొక్క AI ఇన్‌ఫ్రాస్ట్రక్చర్ ఖర్చు చెల్లించబడింది – మరియు వేగవంతం చేయబడింది

EMEA CIOలు AI రోల్‌అవుట్‌లను ఎలా జంప్‌స్టార్ట్ చేయగలవు

GPT-5.5 అనేది OpenAI యొక్క అత్యంత సామర్థ్యం గల ఏజెంట్ AI మోడల్ – API ధర కంటే రెండింతలు

SDLC ఖర్చులను నియంత్రించడానికి IBM AI ప్లాట్‌ఫారమ్ బాబ్‌ను ప్రారంభించింది

ఎన్‌కోడర్‌ల పరిణామం: సాధారణ నమూనాల నుండి మల్టీమోడల్ AI వరకు

అలీబాబా QWEN QWQ-32B: స్కేల్డ్ రీన్ఫోర్స్‌మెంట్ లెర్నింగ్ షోకేస్

Leave a Reply Cancel reply

Useful Links

Leave a Reply Cancel reply

Related News

Useful _Links