డీప్సీక్-R1 రీజనింగ్ మోడల్లు పనితీరులో OpenAIకి ప్రత్యర్థి
డీప్సీక్ సంక్లిష్టమైన తార్కిక పనులను పరిష్కరించడానికి రూపొందించబడిన దాని మొదటి తరం DeepSeek-R1 మరియు DeepSeek-R1-జీరో మోడల్లను ఆవిష్కరించింది. డీప్సీక్-ఆర్1-జీరో ప్రాథమిక దశగా పర్యవేక్షించబడిన ఫైన్-ట్యూనింగ్ (SFT)పై ఆధారపడకుండా పెద్ద-స్థాయి ఉపబల అభ్యాసం (RL) ద్వారా మాత్రమే శిక్షణ పొందుతుంది. డీప్సీక్ ప్రకారం, ఈ విధానం స్వీయ-ధృవీకరణ, ప్రతిబింబం మరియు విస్తృతమైన ఆలోచనల శ్రేణి (CoT) సహా “అనేక శక్తివంతమైన మరియు ఆసక్తికరమైన తార్కిక ప్రవర్తనల” సహజ ఆవిర్భావానికి దారితీసింది. “ముఖ్యంగా, (DeepSeek-R1-Zero) అనేది SFT అవసరం…