అలీబాబా QWEN QWQ-32B: స్కేల్డ్ రీన్ఫోర్స్మెంట్ లెర్నింగ్ షోకేస్
అలీబాబాలోని QWEN బృందం QWQ-32B ను ఆవిష్కరించింది, ఇది 32 బిలియన్ పారామితి AI మోడల్, ఇది పనితీరును చాలా పెద్ద డీప్సీక్-R1 కు ప్రత్యర్థిగా ప్రదర్శిస్తుంది. ఈ పురోగతి బలమైన ఫౌండేషన్ మోడళ్లపై స్కేలింగ్ ఉపబల అభ్యాసం (RL) యొక్క సామర్థ్యాన్ని హైలైట్ చేస్తుంది. QWEN బృందం ఏజెంట్ సామర్థ్యాలను రీజనింగ్ మోడల్లో విజయవంతంగా విలీనం చేసింది, ఇది విమర్శనాత్మకంగా ఆలోచించడానికి, సాధనాలను ఉపయోగించుకోవటానికి మరియు పర్యావరణ అభిప్రాయాల ఆధారంగా దాని వాదనను స్వీకరించడానికి వీలు…