Hot News

ఓపెన్ లాంగ్వేజ్ మోడల్స్ కోసం బార్‌ను పెంచడం

Ai2 OLMo 2ని విడుదల చేస్తోంది, ఇది AI యొక్క ప్రజాస్వామ్యీకరణను అభివృద్ధి చేసే మరియు బహిరంగ మరియు యాజమాన్య పరిష్కారాల మధ్య అంతరాన్ని తగ్గించే ఓపెన్-సోర్స్ భాషా నమూనాల కుటుంబం.

7B మరియు 13B పారామీటర్ వెర్షన్‌లలో అందుబాటులో ఉన్న కొత్త మోడల్‌లు 5 ట్రిలియన్ టోకెన్‌ల వరకు శిక్షణ పొందాయి మరియు ఇంగ్లీష్ అకడమిక్ బెంచ్‌మార్క్‌లలో లామా 3.1 వంటి ఓపెన్-వెయిట్ మోడల్‌లతో పోటీగా ఉండగా, పోల్చదగిన పూర్తి ఓపెన్ మోడల్‌లతో సరిపోలే లేదా మించిన పనితీరు స్థాయిలను ప్రదర్శిస్తాయి.

“ఫిబ్రవరి 2024లో మొదటి OLMo విడుదలైనప్పటి నుండి, మేము ఓపెన్ లాంగ్వేజ్ మోడల్ ఎకోసిస్టమ్‌లో వేగవంతమైన వృద్ధిని మరియు ఓపెన్ మరియు ప్రొప్రైటరీ మోడల్‌ల మధ్య పనితీరు అంతరాన్ని తగ్గించడాన్ని చూశాము” అని Ai2 వివరించింది.

అభివృద్ధి బృందం అనేక ఆవిష్కరణల ద్వారా ఈ మెరుగుదలలను సాధించింది, వీటిలో మెరుగైన శిక్షణ స్థిరత్వ చర్యలు, దశలవారీ శిక్షణా విధానాలు మరియు వారి నుండి ఉద్భవించిన అత్యాధునిక శిక్షణా అనంతర పద్ధతులు ఉన్నాయి. తులూ 3 ఫ్రేమ్వర్క్. నాన్‌పారామెట్రిక్ లేయర్ నార్మ్ నుండి RMSNormకి మారడం మరియు రోటరీ పొజిషనల్ ఎంబెడ్డింగ్ అమలు చేయడం వంటి ముఖ్యమైన సాంకేతిక మెరుగుదలలు ఉన్నాయి.

OLMo 2 మోడల్ శిక్షణ పురోగతి

శిక్షణ ప్రక్రియ అధునాతన రెండు-దశల విధానాన్ని ఉపయోగించింది. ప్రారంభ దశలో DCLM, డోల్మా, స్టార్‌కోడర్ మరియు ప్రూఫ్ పైల్ II నుండి పొందిన సుమారు 3.9 ట్రిలియన్ టోకెన్‌ల OLMo-Mix-1124 డేటాసెట్‌ను ఉపయోగించారు. రెండవ దశ డాల్మినో-మిక్స్-1124 డేటాసెట్ ద్వారా అధిక-నాణ్యత వెబ్ డేటా మరియు డొమైన్-నిర్దిష్ట కంటెంట్ యొక్క జాగ్రత్తగా క్యూరేటెడ్ మిశ్రమాన్ని పొందుపరిచింది.

ముఖ్యంగా చెప్పుకోదగినది OLMo 2-Instruct-13B వేరియంట్, ఇది సిరీస్‌లో అత్యంత సామర్థ్యం గల మోడల్. Qwen 2.5 14B ఇన్‌స్ట్రక్షన్, Tülu 3 8B, మరియు లామా 3.1 8B ఇన్‌స్ట్రస్ట్ మోడల్‌లతో పోలిస్తే మోడల్ వివిధ బెంచ్‌మార్క్‌లలో అత్యుత్తమ పనితీరును ప్రదర్శిస్తుంది.

OLMo 2ని పోల్చిన బెంచ్‌మార్క్‌లు మిస్ట్రల్, క్యూన్, లామా, గెమ్మ మరియు మరిన్ని వంటి ఇతర మోడళ్లకు పెద్ద భాష మోడల్‌ను తెరుస్తాయి.
(క్రెడిట్: Ai2)

ఓపెన్ సైన్స్‌కు కట్టుబడి ఉంది

ఓపెన్ సైన్స్ పట్ల తన నిబద్ధతను బలోపేతం చేస్తూ, Ai2 బరువులు, డేటా, కోడ్, వంటకాలు, ఇంటర్మీడియట్ చెక్‌పాయింట్లు మరియు సూచనలతో కూడిన నమూనాలతో సహా సమగ్ర డాక్యుమెంటేషన్‌ను విడుదల చేసింది. ఈ పారదర్శకత విస్తృత AI సంఘం ద్వారా పూర్తి తనిఖీ మరియు ఫలితాల పునరుత్పత్తికి అనుమతిస్తుంది.

నాలెడ్జ్ రీకాల్, కామన్‌సెన్స్ రీజనింగ్ మరియు మ్యాథమెటికల్ రీజనింగ్ వంటి ప్రధాన సామర్థ్యాలను అంచనా వేయడానికి రూపొందించబడిన 20 బెంచ్‌మార్క్‌లతో కూడిన OLMES (ఓపెన్ లాంగ్వేజ్ మోడలింగ్ ఎవాల్యుయేషన్ సిస్టమ్) అనే మూల్యాంకన ఫ్రేమ్‌వర్క్‌ను విడుదల కూడా పరిచయం చేసింది.

OLMo 2 ఓపెన్ సోర్స్ AI డెవలప్‌మెంట్‌లో బార్‌ను పెంచుతుంది, పారదర్శకత మరియు యాక్సెసిబిలిటీని కొనసాగిస్తూ రంగంలో ఆవిష్కరణల వేగాన్ని సంభావ్యంగా వేగవంతం చేస్తుంది.

(ఫోటో రిక్ బారెట్)

ఇవి కూడా చూడండి: OpenAI కొత్త రెడ్ టీమింగ్ పద్ధతులతో AI భద్రతను పెంచుతుంది

పరిశ్రమ ప్రముఖుల నుండి AI మరియు పెద్ద డేటా గురించి మరింత తెలుసుకోవాలనుకుంటున్నారా? తనిఖీ చేయండి AI & బిగ్ డేటా ఎక్స్‌పో ఆమ్‌స్టర్‌డామ్, కాలిఫోర్నియా మరియు లండన్‌లో జరుగుతున్నాయి. సమగ్ర ఈవెంట్ సహా ఇతర ప్రముఖ ఈవెంట్‌లతో సహ-స్థానంలో ఉంది ఇంటెలిజెంట్ ఆటోమేషన్ కాన్ఫరెన్స్, బ్లాక్ ఎక్స్, డిజిటల్ ట్రాన్స్ఫర్మేషన్ వీక్మరియు సైబర్ సెక్యూరిటీ & క్లౌడ్ ఎక్స్‌పో.

TechForge ద్వారా అందించబడే ఇతర రాబోయే ఎంటర్‌ప్రైజ్ టెక్నాలజీ ఈవెంట్‌లు మరియు వెబ్‌నార్‌లను అన్వేషించండి ఇక్కడ.

టాగ్లు: ai2, బెంచ్‌మార్క్, పోలిక, పెద్ద భాషా నమూనాలు, llm, నమూనాలు, olmo, ఓపెన్ సోర్స్, ఓపెన్-సోర్స్, శిక్షణ

Source link

Leave a Reply

Your email address will not be published. Required fields are marked *

Top