డీప్సీక్ సంక్లిష్టమైన తార్కిక పనులను పరిష్కరించడానికి రూపొందించబడిన దాని మొదటి తరం DeepSeek-R1 మరియు DeepSeek-R1-జీరో మోడల్లను ఆవిష్కరించింది.
డీప్సీక్-ఆర్1-జీరో ప్రాథమిక దశగా పర్యవేక్షించబడిన ఫైన్-ట్యూనింగ్ (SFT)పై ఆధారపడకుండా పెద్ద-స్థాయి ఉపబల అభ్యాసం (RL) ద్వారా మాత్రమే శిక్షణ పొందుతుంది. డీప్సీక్ ప్రకారం, ఈ విధానం స్వీయ-ధృవీకరణ, ప్రతిబింబం మరియు విస్తృతమైన ఆలోచనల శ్రేణి (CoT) సహా “అనేక శక్తివంతమైన మరియు ఆసక్తికరమైన తార్కిక ప్రవర్తనల” సహజ ఆవిర్భావానికి దారితీసింది.
“ముఖ్యంగా, (DeepSeek-R1-Zero) అనేది SFT అవసరం లేకుండా, LLMల తార్కిక సామర్థ్యాలను పూర్తిగా RL ద్వారా ప్రోత్సహించవచ్చని ధృవీకరించే మొదటి బహిరంగ పరిశోధన,” అని డీప్సీక్ పరిశోధకులు వివరించారు. ఈ మైలురాయి మోడల్ యొక్క వినూత్న పునాదులను నొక్కిచెప్పడమే కాకుండా AIని తార్కికం చేయడంలో RL-కేంద్రీకృత పురోగతికి మార్గం సుగమం చేస్తుంది.
అయితే, DeepSeek-R1-Zero యొక్క సామర్థ్యాలు కొన్ని పరిమితులతో వస్తాయి. ప్రధాన సవాళ్లలో “అంతులేని పునరావృతం, పేలవమైన చదవడం మరియు భాషా కలయిక” ఉన్నాయి, ఇవి వాస్తవ-ప్రపంచ అనువర్తనాల్లో ముఖ్యమైన అడ్డంకులను కలిగిస్తాయి. ఈ లోపాలను పరిష్కరించడానికి, DeepSeek దాని ఫ్లాగ్షిప్ మోడల్ను అభివృద్ధి చేసింది: DeepSeek-R1.
DeepSeek-R1ని పరిచయం చేస్తున్నాము
డీప్సీక్-ఆర్1 RL శిక్షణకు ముందు కోల్డ్-స్టార్ట్ డేటాను పొందుపరచడం ద్వారా దాని పూర్వీకుల ఆధారంగా రూపొందించబడింది. ఈ అదనపు ముందస్తు శిక్షణ దశ మోడల్ యొక్క తార్కిక సామర్థ్యాలను మెరుగుపరుస్తుంది మరియు DeepSeek-R1-Zeroలో గుర్తించబడిన అనేక పరిమితులను పరిష్కరిస్తుంది.
ముఖ్యంగా, DeepSeek-R1 గణితం, కోడింగ్ మరియు సాధారణ రీజనింగ్ టాస్క్లలో OpenAI యొక్క చాలా ప్రశంసలు పొందిన o1 సిస్టమ్తో పోల్చదగిన పనితీరును సాధిస్తుంది, ఇది ఒక ప్రముఖ పోటీదారుగా దాని స్థానాన్ని సుస్థిరం చేస్తుంది.
DeepSeek ఆరు చిన్న డిస్టిల్డ్ మోడల్లతో పాటు DeepSeek-R1-Zero మరియు DeepSeek-R1 రెండింటినీ ఓపెన్ సోర్స్గా ఎంచుకుంది. వీటిలో, DeepSeek-R1-Distill-Qwen-32B అసాధారణమైన ఫలితాలను ప్రదర్శించింది-బహుళ బెంచ్మార్క్లలో OpenAI యొక్క o1-మినీని మించిపోయింది.
- MATH-500 (Pass@1): DeepSeek-R1 97.3% సాధించింది, OpenAI (96.4%) మరియు ఇతర ముఖ్య పోటీదారులను అధిగమించింది.
- LiveCodeBench (Pass@1-COT): డిస్టిల్డ్ వెర్షన్ DeepSeek-R1-Distill-Qwen-32B 57.2% స్కోర్ చేసింది, ఇది చిన్న మోడళ్లలో అత్యుత్తమ పనితీరు.
- AIME 2024 (Pass@1): DeepSeek-R1 79.8% సాధించింది, గణిత సమస్య పరిష్కారంలో అద్భుతమైన ప్రమాణాన్ని నెలకొల్పింది.
విస్తృత పరిశ్రమకు ప్రయోజనం చేకూర్చే పైప్లైన్
రీజనింగ్ మోడల్ డెవలప్మెంట్ కోసం డీప్సీక్ దాని కఠినమైన పైప్లైన్లో అంతర్దృష్టులను పంచుకుంది, ఇది పర్యవేక్షించబడే ఫైన్-ట్యూనింగ్ మరియు రీన్ఫోర్స్మెంట్ లెర్నింగ్ కలయికను ఏకీకృతం చేస్తుంది.
కంపెనీ ప్రకారం, ఈ ప్రక్రియలో పునాది తార్కికం మరియు నాన్-రీజనింగ్ సామర్థ్యాలను స్థాపించడానికి రెండు SFT దశలు ఉంటాయి, అలాగే అధునాతన తార్కిక నమూనాలను కనుగొనడానికి మరియు ఈ సామర్థ్యాలను మానవ ప్రాధాన్యతలతో సమలేఖనం చేయడానికి రెండు RL దశలు రూపొందించబడ్డాయి.
“మెరుగైన మోడళ్లను రూపొందించడం ద్వారా పైప్లైన్ పరిశ్రమకు ప్రయోజనం చేకూరుస్తుందని మేము నమ్ముతున్నాము” అని డీప్సీక్ వ్యాఖ్యానించింది, AI సెక్టార్లో భవిష్యత్ పురోగతిని ప్రేరేపించడానికి వారి పద్దతి యొక్క సామర్థ్యాన్ని సూచిస్తుంది.
వారి RL-కేంద్రీకృత విధానం యొక్క ఒక అద్భుతమైన సాధన ఏమిటంటే, ముందస్తు మానవ సూచన లేకుండా క్లిష్టమైన తార్కిక నమూనాలను అమలు చేయగల డీప్సీక్-R1-జీరో యొక్క సామర్థ్యం-ఓపెన్-సోర్స్ AI పరిశోధనా సంఘానికి ఇది మొదటిది.
స్వేదనం యొక్క ప్రాముఖ్యత
డీప్సీక్ పరిశోధకులు స్వేదనం యొక్క ప్రాముఖ్యతను కూడా హైలైట్ చేసారు – పెద్ద మోడళ్ల నుండి చిన్న, మరింత సమర్థవంతమైన వాటికి తార్కిక సామర్థ్యాలను బదిలీ చేసే ప్రక్రియ, చిన్న కాన్ఫిగరేషన్ల కోసం కూడా పనితీరు లాభాలను అన్లాక్ చేసే వ్యూహం.
1.5B, 7B మరియు 14B సంస్కరణలు వంటి – డీప్సీక్-R1 యొక్క చిన్న స్వేదనాత్మక పునరావృత్తులు సముచితమైన అప్లికేషన్లలో తమ స్వంతదానిని కలిగి ఉండగలిగాయి. స్వేదన నమూనాలు పోల్చదగిన పరిమాణాల నమూనాలపై RL శిక్షణ ద్వారా సాధించిన ఫలితాలను అధిగమించగలవు.
🔥 బోనస్: ఓపెన్ సోర్స్ డిస్టిల్డ్ మోడల్స్!
🔬 DeepSeek-R1 నుండి స్వేదనం చేయబడింది, 6 చిన్న మోడల్లు పూర్తిగా ఓపెన్ సోర్స్ చేయబడ్డాయి
📏 OpenAI-o1-miniతో సమానంగా 32B & 70B మోడల్లు
🤝 ఓపెన్ సోర్స్ కమ్యూనిటీని శక్తివంతం చేయడం🌍 **ఓపెన్ AI** సరిహద్దులను నెట్టడం!
🐋 2/n pic.twitter.com/tfXLM2xtZZ
— DeepSeek (@deepseek_ai) జనవరి 20, 2025
పరిశోధకుల కోసం, ఈ స్వేదన నమూనాలు 1.5 బిలియన్ నుండి 70 బిలియన్ పారామితుల వరకు విస్తరించి ఉన్న కాన్ఫిగరేషన్లలో అందుబాటులో ఉన్నాయి, ఇవి Qwen2.5 మరియు Llama3 ఆర్కిటెక్చర్లకు మద్దతు ఇస్తాయి. ఈ సౌలభ్యం కోడింగ్ నుండి సహజ భాషా అవగాహన వరకు అనేక రకాల పనులలో బహుముఖ వినియోగాన్ని అనుమతిస్తుంది.
డీప్సీక్ దాని రిపోజిటరీ మరియు బరువుల కోసం MIT లైసెన్స్ను స్వీకరించింది, వాణిజ్య ఉపయోగం మరియు దిగువ సవరణల కోసం అనుమతులను పొడిగించింది. ఇతర పెద్ద భాషా నమూనాలకు (LLMలు) శిక్షణ ఇవ్వడానికి DeepSeek-R1ని ఉపయోగించడం వంటి ఉత్పన్న పనులు అనుమతించబడతాయి. అయితే, నిర్దిష్ట డిస్టిల్డ్ మోడల్ల వినియోగదారులు అపాచీ 2.0 మరియు లామా3 లైసెన్స్ల వంటి ఒరిజినల్ బేస్ మోడల్ల లైసెన్స్లకు అనుగుణంగా ఉండేలా చూసుకోవాలి.
(ఫోటో ప్రతీక్ కత్యాల్)
ఇవి కూడా చూడండి: మైక్రోసాఫ్ట్ మెటీరియల్ డిస్కవరీని మ్యాటర్జెన్తో అభివృద్ధి చేస్తుంది

పరిశ్రమ ప్రముఖుల నుండి AI మరియు పెద్ద డేటా గురించి మరింత తెలుసుకోవాలనుకుంటున్నారా? తనిఖీ చేయండి AI & బిగ్ డేటా ఎక్స్పో ఆమ్స్టర్డామ్, కాలిఫోర్నియా మరియు లండన్లో జరుగుతున్నాయి. సమగ్ర ఈవెంట్తో సహా ఇతర ప్రముఖ ఈవెంట్లతో కలిసి ఉంది ఇంటెలిజెంట్ ఆటోమేషన్ కాన్ఫరెన్స్, బ్లాక్ ఎక్స్, డిజిటల్ ట్రాన్స్ఫర్మేషన్ వీక్మరియు సైబర్ సెక్యూరిటీ & క్లౌడ్ ఎక్స్పో.
TechForge ద్వారా అందించబడే ఇతర రాబోయే ఎంటర్ప్రైజ్ టెక్నాలజీ ఈవెంట్లు మరియు వెబ్నార్లను అన్వేషించండి ఇక్కడ.