డీప్ కోగిటో అనేక ఓపెన్ పెద్ద భాషా నమూనాలను (ఎల్ఎల్ఎంలు) విడుదల చేసింది, ఇవి పోటీదారులను మించిపోతాయి మరియు సాధారణ సూపరింటెలిజెన్స్ సాధించడానికి ఒక అడుగు ప్రాతినిధ్యం వహిస్తాయని పేర్కొంది.
శాన్ఫ్రాన్సిస్కోకు చెందిన సంస్థ, దాని లక్ష్యం “బిల్డింగ్ జనరల్ సూపరింటెలిజెన్స్” అని పేర్కొంది, 3 బి, 8 బి, 14 బి, 32 బి మరియు 70 బి పారామితి పరిమాణాలలో ఎల్ఎల్ఎంఎస్ యొక్క ప్రివ్యూ వెర్షన్లను ప్రారంభించింది. డీప్ కోగిటో “ప్రతి మోడల్ ఒకే పరిమాణంలో లభించే ఉత్తమమైన ఓపెన్ మోడళ్లను అధిగమిస్తుంది, వీటిలో లామా, డీప్సీక్ మరియు క్వెన్ నుండి వచ్చిన ప్రతిరూపాలు, చాలా ప్రామాణిక బెంచ్మార్క్లలో ఉన్నాయి”.
డీప్ కోగిటో నుండి 70 బి మోడల్ ఇటీవల విడుదల చేసిన లామా 4 109 బి మిశ్రమం-ఆఫ్-ఎక్స్పెర్ట్స్ (MOE) మోడల్ యొక్క పనితీరును కూడా అధిగమిస్తుంది.
ఇట్రేటెడ్ డిస్టిలేషన్ అండ్ యాంప్లిఫికేషన్ (IDA)
ఈ విడుదలకు కేంద్రంగా ఉంది, ఇటరేటెడ్ డిస్టిలేషన్ అండ్ యాంప్లిఫికేషన్ (IDA) అని పిలువబడే ఒక నవల శిక్షణా పద్దతి.
డీప్ కోగిటో IDA ని “పునరుక్తి స్వీయ-అభివృద్ధిని ఉపయోగించి సాధారణ సూపరింటెలిజెన్స్ కోసం స్కేలబుల్ మరియు సమర్థవంతమైన అమరిక వ్యూహం” గా అభివర్ణించింది. ఈ సాంకేతికత ప్రస్తుత LLM శిక్షణా నమూనాల యొక్క స్వాభావిక పరిమితులను అధిగమించడం లక్ష్యంగా పెట్టుకుంది, ఇక్కడ మోడల్ ఇంటెలిజెన్స్ తరచుగా పెద్ద “పర్యవేక్షకుడు” నమూనాలు లేదా మానవ క్యూరేటర్ల సామర్థ్యాల ద్వారా కప్పబడి ఉంటుంది.
IDA ప్రక్రియలో పదేపదే రెండు కీలక దశలు ఉంటాయి:
- విస్తరణ: అధునాతన తార్కిక పద్ధతులకు సమానమైన మెరుగైన పరిష్కారాలు లేదా సామర్థ్యాలను పొందటానికి మోడల్ను ప్రారంభించడానికి మరింత గణనను ఉపయోగించడం.
- స్వేదనం: ఈ విస్తరించిన సామర్థ్యాలను మోడల్ యొక్క పారామితులలో తిరిగి అంతర్గతీకరించడం.
డీప్ కోగిటో మాట్లాడుతూ, ఇది “సానుకూల స్పందన లూప్” ను సృష్టిస్తుంది, ఇక్కడ మోడల్ ఇంటెలిజెన్స్ గణన వనరులతో మరియు ఐడిఎ ప్రక్రియ యొక్క సామర్థ్యంతో, పర్యవేక్షకుల మేధస్సు ద్వారా ఖచ్చితంగా సరిహద్దులుగా ఉండకుండా.
“మేము సూపర్ ఇంటెలిజెంట్ సిస్టమ్స్ అధ్యయనం చేసినప్పుడు,” పరిశోధన పేర్కొంది, వంటి విజయాలను సూచిస్తుంది ఆల్ఫాగో. IDA రెండింటినీ LLM శిక్షణతో అనుసంధానించే మార్గంగా ప్రదర్శించబడింది.
డీప్ కోగిటో వాదనలు IDA సమర్థవంతంగా పనిచేసింది, కొత్త మోడళ్లను సుమారు 75 రోజుల్లో ఒక చిన్న బృందం అభివృద్ధి చేసింది. మానవ అభిప్రాయం (RLHF) నుండి ఉపబల అభ్యాసం లేదా పెద్ద నమూనాల నుండి ప్రామాణిక స్వేదనం వంటి పద్ధతులతో పోలిస్తే అవి IDA యొక్క సంభావ్య స్కేలబిలిటీని కూడా హైలైట్ చేస్తాయి.
సాక్ష్యంగా, కంపెనీ వారి 70 బి మోడల్ లామా 3.3 70 బి (405 బి మోడల్ నుండి స్వేదనం) మరియు లామా 4 స్కౌట్ 109 బి (2 టి పారామితి మోడల్ నుండి స్వేదనం) ను అధిగమించింది.
లోతైన కోగిటో మోడళ్ల సామర్థ్యాలు మరియు పనితీరు
కొత్తగా విడుదల చేసిన కోగిటో మోడల్స్ – లామా మరియు క్వెన్ చెక్పాయింట్ల ఆధారంగా – కోడింగ్, ఫంక్షన్ కాలింగ్ మరియు ఏజెంట్ వినియోగ కేసుల కోసం ఆప్టిమైజ్ చేయబడ్డాయి.
ఒక ముఖ్య లక్షణం వారి ద్వంద్వ కార్యాచరణ: “ప్రతి మోడల్ నేరుగా సమాధానం ఇవ్వగలదు (ప్రామాణిక LLM) లేదా సమాధానం చెప్పే ముందు (రీజనింగ్ మోడల్స్ వంటివి),” క్లాడ్ 3.5 వంటి మోడళ్లలో కనిపించే సామర్థ్యాల మాదిరిగానే. అయినప్పటికీ, డీప్ కోగిటో వారు “చాలా కాలం తార్కిక గొలుసుల కోసం ఆప్టిమైజ్ చేయలేదు” అని పేర్కొంది, వేగవంతమైన సమాధానాల కోసం వినియోగదారు ప్రాధాన్యత మరియు తక్కువ గొలుసులను స్వేదనం చేసే సామర్థ్యాన్ని పేర్కొంది.
విస్తృతమైన బెంచ్ మార్క్ ఫలితాలు అందించబడతాయి, కోగిటో మోడళ్లను డైరెక్ట్ (ప్రామాణిక) మరియు రీజనింగ్ మోడ్లలో పరిమాణం-సమానమైన స్టేట్ ఆఫ్ ది ఆర్ట్ ఓపెన్ మోడళ్లకు వ్యతిరేకంగా పోల్చారు.
వివిధ బెంచ్మార్క్లలో (MMLU, MMLU-PRO, ARC, GSM8K, MATH, మొదలైనవి) మరియు మోడల్ పరిమాణాలు (3B, 8B, 14B, 32B, 32B, 70B,) కోగిటో మోడల్స్ సాధారణంగా లామా 3.1/3.2/3.3 మరియు క్వెన్ 2.5 వంటి కౌంటర్పార్ట్లపై గణనీయమైన పనితీరును చూపుతాయి.
ఉదాహరణకు, కోగిటో 70 బి మోడల్ ప్రామాణిక మోడ్లో MMLU లో 91.73% (+6.40% vs LLAMA 3.3 70B) మరియు థింకింగ్ మోడ్లో 91.00% (+4.40% vs డీప్సీక్ R1 డిస్టిల్ 70 బి) సాధిస్తుంది. లైవ్బెంచ్ స్కోర్లు కూడా మెరుగుదలలను చూపుతాయి.
మధ్య తరహా పోలిక కోసం 14B మోడళ్ల బెంచ్మార్క్లు ఇక్కడ ఉన్నాయి:

బెంచ్మార్క్లను అంగీకరించడం వాస్తవ ప్రపంచ ప్రయోజనాన్ని పూర్తిగా సంగ్రహించదు, డీప్ కోగిటో ఆచరణాత్మక పనితీరుపై విశ్వాసం వ్యక్తం చేస్తుంది.
ఈ విడుదల ప్రివ్యూ అని లేబుల్ చేయబడింది, డీప్ కోగిటో వారు “ఇప్పటికీ ఈ స్కేలింగ్ వక్రరేఖ యొక్క ప్రారంభ దశలో ఉన్నారు” అని పేర్కొన్నారు. వారు ప్రస్తుత పరిమాణాల కోసం మెరుగైన చెక్పోస్టులను విడుదల చేయాలని మరియు పెద్ద MOE మోడళ్లను (109B, 400B, 671B) “రాబోయే వారాలలో / నెలల్లో” పరిచయం చేయాలని యోచిస్తున్నారు. భవిష్యత్ నమూనాలన్నీ కూడా ఓపెన్ సోర్స్ గా ఉంటాయి.
(ఫోటో పియట్రో మాటియా)
ఇవి కూడా చూడండి: అలీబాబా క్లౌడ్ కొత్త నమూనాలు మరియు సాధనాలతో గ్లోబల్ AI వృద్ధిని లక్ష్యంగా చేసుకుంటుంది

పరిశ్రమ నాయకుల నుండి AI మరియు పెద్ద డేటా గురించి మరింత తెలుసుకోవాలనుకుంటున్నారా? తనిఖీ చేయండి AI & పెద్ద డేటా ఎక్స్పో ఆమ్స్టర్డామ్, కాలిఫోర్నియా మరియు లండన్లలో జరుగుతోంది. సమగ్ర సంఘటనతో సహా ఇతర ప్రముఖ సంఘటనలతో సహ-స్థాపించబడింది ఇంటెలిజెంట్ ఆటోమేషన్ కాన్ఫరెన్స్, బ్లాక్ఎక్స్, డిజిటల్ ట్రాన్స్ఫర్మేషన్ వీక్మరియు సైబర్ సెక్యూరిటీ & క్లౌడ్ ఎక్స్పో.
టెక్ఫోర్జ్ చేత శక్తినిచ్చే ఇతర రాబోయే ఎంటర్ప్రైజ్ టెక్నాలజీ ఈవెంట్స్ మరియు వెబ్నార్లను అన్వేషించండి ఇక్కడ.