Hot News

డీప్‌సీక్-R1 రీజనింగ్ మోడల్‌లు పనితీరులో OpenAIకి ప్రత్యర్థి

డీప్‌సీక్ సంక్లిష్టమైన తార్కిక పనులను పరిష్కరించడానికి రూపొందించబడిన దాని మొదటి తరం DeepSeek-R1 మరియు DeepSeek-R1-జీరో మోడల్‌లను ఆవిష్కరించింది.

డీప్‌సీక్-ఆర్1-జీరో ప్రాథమిక దశగా పర్యవేక్షించబడిన ఫైన్-ట్యూనింగ్ (SFT)పై ఆధారపడకుండా పెద్ద-స్థాయి ఉపబల అభ్యాసం (RL) ద్వారా మాత్రమే శిక్షణ పొందుతుంది. డీప్‌సీక్ ప్రకారం, ఈ విధానం స్వీయ-ధృవీకరణ, ప్రతిబింబం మరియు విస్తృతమైన ఆలోచనల శ్రేణి (CoT) సహా “అనేక శక్తివంతమైన మరియు ఆసక్తికరమైన తార్కిక ప్రవర్తనల” సహజ ఆవిర్భావానికి దారితీసింది.

“ముఖ్యంగా, (DeepSeek-R1-Zero) అనేది SFT అవసరం లేకుండా, LLMల తార్కిక సామర్థ్యాలను పూర్తిగా RL ద్వారా ప్రోత్సహించవచ్చని ధృవీకరించే మొదటి బహిరంగ పరిశోధన,” అని డీప్‌సీక్ పరిశోధకులు వివరించారు. ఈ మైలురాయి మోడల్ యొక్క వినూత్న పునాదులను నొక్కిచెప్పడమే కాకుండా AIని తార్కికం చేయడంలో RL-కేంద్రీకృత పురోగతికి మార్గం సుగమం చేస్తుంది.

అయితే, DeepSeek-R1-Zero యొక్క సామర్థ్యాలు కొన్ని పరిమితులతో వస్తాయి. ప్రధాన సవాళ్లలో “అంతులేని పునరావృతం, పేలవమైన చదవడం మరియు భాషా కలయిక” ఉన్నాయి, ఇవి వాస్తవ-ప్రపంచ అనువర్తనాల్లో ముఖ్యమైన అడ్డంకులను కలిగిస్తాయి. ఈ లోపాలను పరిష్కరించడానికి, DeepSeek దాని ఫ్లాగ్‌షిప్ మోడల్‌ను అభివృద్ధి చేసింది: DeepSeek-R1.

DeepSeek-R1ని పరిచయం చేస్తున్నాము

డీప్‌సీక్-ఆర్1 RL శిక్షణకు ముందు కోల్డ్-స్టార్ట్ డేటాను పొందుపరచడం ద్వారా దాని పూర్వీకుల ఆధారంగా రూపొందించబడింది. ఈ అదనపు ముందస్తు శిక్షణ దశ మోడల్ యొక్క తార్కిక సామర్థ్యాలను మెరుగుపరుస్తుంది మరియు DeepSeek-R1-Zeroలో గుర్తించబడిన అనేక పరిమితులను పరిష్కరిస్తుంది.

ముఖ్యంగా, DeepSeek-R1 గణితం, కోడింగ్ మరియు సాధారణ రీజనింగ్ టాస్క్‌లలో OpenAI యొక్క చాలా ప్రశంసలు పొందిన o1 సిస్టమ్‌తో పోల్చదగిన పనితీరును సాధిస్తుంది, ఇది ఒక ప్రముఖ పోటీదారుగా దాని స్థానాన్ని సుస్థిరం చేస్తుంది.

DeepSeek ఆరు చిన్న డిస్టిల్డ్ మోడల్‌లతో పాటు DeepSeek-R1-Zero మరియు DeepSeek-R1 రెండింటినీ ఓపెన్ సోర్స్‌గా ఎంచుకుంది. వీటిలో, DeepSeek-R1-Distill-Qwen-32B అసాధారణమైన ఫలితాలను ప్రదర్శించింది-బహుళ బెంచ్‌మార్క్‌లలో OpenAI యొక్క o1-మినీని మించిపోయింది.

  • MATH-500 (Pass@1): DeepSeek-R1 97.3% సాధించింది, OpenAI (96.4%) మరియు ఇతర ముఖ్య పోటీదారులను అధిగమించింది.
  • LiveCodeBench (Pass@1-COT): డిస్టిల్డ్ వెర్షన్ DeepSeek-R1-Distill-Qwen-32B 57.2% స్కోర్ చేసింది, ఇది చిన్న మోడళ్లలో అత్యుత్తమ పనితీరు.
  • AIME 2024 (Pass@1): DeepSeek-R1 79.8% సాధించింది, గణిత సమస్య పరిష్కారంలో అద్భుతమైన ప్రమాణాన్ని నెలకొల్పింది.

విస్తృత పరిశ్రమకు ప్రయోజనం చేకూర్చే పైప్‌లైన్

రీజనింగ్ మోడల్ డెవలప్‌మెంట్ కోసం డీప్‌సీక్ దాని కఠినమైన పైప్‌లైన్‌లో అంతర్దృష్టులను పంచుకుంది, ఇది పర్యవేక్షించబడే ఫైన్-ట్యూనింగ్ మరియు రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్ కలయికను ఏకీకృతం చేస్తుంది.

కంపెనీ ప్రకారం, ఈ ప్రక్రియలో పునాది తార్కికం మరియు నాన్-రీజనింగ్ సామర్థ్యాలను స్థాపించడానికి రెండు SFT దశలు ఉంటాయి, అలాగే అధునాతన తార్కిక నమూనాలను కనుగొనడానికి మరియు ఈ సామర్థ్యాలను మానవ ప్రాధాన్యతలతో సమలేఖనం చేయడానికి రెండు RL దశలు రూపొందించబడ్డాయి.

“మెరుగైన మోడళ్లను రూపొందించడం ద్వారా పైప్‌లైన్ పరిశ్రమకు ప్రయోజనం చేకూరుస్తుందని మేము నమ్ముతున్నాము” అని డీప్‌సీక్ వ్యాఖ్యానించింది, AI సెక్టార్‌లో భవిష్యత్ పురోగతిని ప్రేరేపించడానికి వారి పద్దతి యొక్క సామర్థ్యాన్ని సూచిస్తుంది.

వారి RL-కేంద్రీకృత విధానం యొక్క ఒక అద్భుతమైన సాధన ఏమిటంటే, ముందస్తు మానవ సూచన లేకుండా క్లిష్టమైన తార్కిక నమూనాలను అమలు చేయగల డీప్‌సీక్-R1-జీరో యొక్క సామర్థ్యం-ఓపెన్-సోర్స్ AI పరిశోధనా సంఘానికి ఇది మొదటిది.

స్వేదనం యొక్క ప్రాముఖ్యత

డీప్‌సీక్ పరిశోధకులు స్వేదనం యొక్క ప్రాముఖ్యతను కూడా హైలైట్ చేసారు – పెద్ద మోడళ్ల నుండి చిన్న, మరింత సమర్థవంతమైన వాటికి తార్కిక సామర్థ్యాలను బదిలీ చేసే ప్రక్రియ, చిన్న కాన్ఫిగరేషన్‌ల కోసం కూడా పనితీరు లాభాలను అన్‌లాక్ చేసే వ్యూహం.

1.5B, 7B మరియు 14B సంస్కరణలు వంటి – డీప్‌సీక్-R1 యొక్క చిన్న స్వేదనాత్మక పునరావృత్తులు సముచితమైన అప్లికేషన్‌లలో తమ స్వంతదానిని కలిగి ఉండగలిగాయి. స్వేదన నమూనాలు పోల్చదగిన పరిమాణాల నమూనాలపై RL శిక్షణ ద్వారా సాధించిన ఫలితాలను అధిగమించగలవు.

పరిశోధకుల కోసం, ఈ స్వేదన నమూనాలు 1.5 బిలియన్ నుండి 70 బిలియన్ పారామితుల వరకు విస్తరించి ఉన్న కాన్ఫిగరేషన్‌లలో అందుబాటులో ఉన్నాయి, ఇవి Qwen2.5 మరియు Llama3 ఆర్కిటెక్చర్‌లకు మద్దతు ఇస్తాయి. ఈ సౌలభ్యం కోడింగ్ నుండి సహజ భాషా అవగాహన వరకు అనేక రకాల పనులలో బహుముఖ వినియోగాన్ని అనుమతిస్తుంది.

డీప్‌సీక్ దాని రిపోజిటరీ మరియు బరువుల కోసం MIT లైసెన్స్‌ను స్వీకరించింది, వాణిజ్య ఉపయోగం మరియు దిగువ సవరణల కోసం అనుమతులను పొడిగించింది. ఇతర పెద్ద భాషా నమూనాలకు (LLMలు) శిక్షణ ఇవ్వడానికి DeepSeek-R1ని ఉపయోగించడం వంటి ఉత్పన్న పనులు అనుమతించబడతాయి. అయితే, నిర్దిష్ట డిస్టిల్డ్ మోడల్‌ల వినియోగదారులు అపాచీ 2.0 మరియు లామా3 లైసెన్స్‌ల వంటి ఒరిజినల్ బేస్ మోడల్‌ల లైసెన్స్‌లకు అనుగుణంగా ఉండేలా చూసుకోవాలి.

(ఫోటో ప్రతీక్ కత్యాల్)

ఇవి కూడా చూడండి: మైక్రోసాఫ్ట్ మెటీరియల్ డిస్కవరీని మ్యాటర్‌జెన్‌తో అభివృద్ధి చేస్తుంది

పరిశ్రమ ప్రముఖుల నుండి AI మరియు పెద్ద డేటా గురించి మరింత తెలుసుకోవాలనుకుంటున్నారా? తనిఖీ చేయండి AI & బిగ్ డేటా ఎక్స్‌పో ఆమ్‌స్టర్‌డామ్, కాలిఫోర్నియా మరియు లండన్‌లో జరుగుతున్నాయి. సమగ్ర ఈవెంట్‌తో సహా ఇతర ప్రముఖ ఈవెంట్‌లతో కలిసి ఉంది ఇంటెలిజెంట్ ఆటోమేషన్ కాన్ఫరెన్స్, బ్లాక్ ఎక్స్, డిజిటల్ ట్రాన్స్ఫర్మేషన్ వీక్మరియు సైబర్ సెక్యూరిటీ & క్లౌడ్ ఎక్స్‌పో.

TechForge ద్వారా అందించబడే ఇతర రాబోయే ఎంటర్‌ప్రైజ్ టెక్నాలజీ ఈవెంట్‌లు మరియు వెబ్‌నార్‌లను అన్వేషించండి ఇక్కడ.

టాగ్లు: AI, కృత్రిమ మేధస్సు, బెంచ్‌మార్క్, పోలిక, డీప్‌సీక్, డీప్‌సీక్-r1, పెద్ద భాషా నమూనాలు, llm, నమూనాలు, తార్కికం, తార్కిక నమూనాలు, ఉపబల అభ్యాసం, పరీక్ష

Source link

Leave a Reply

Your email address will not be published. Required fields are marked *

Top