మెటా ఫెయిర్ ఐదు ప్రధాన విడుదలలతో మానవ లాంటి AI ని అభివృద్ధి చేస్తుంది

మెటాలోని ఫండమెంటల్ AI రీసెర్చ్ (ఫెయిర్) బృందం కంపెనీ వెంబడించిన అడ్వాన్స్‌డ్ మెషిన్ ఇంటెలిజెన్స్ (AMI) ను అభివృద్ధి చేస్తున్న ఐదు ప్రాజెక్టులను ప్రకటించింది.

నుండి తాజా విడుదలలు మెటా భాషా మోడలింగ్, రోబోటిక్స్ మరియు సహకార AI ఏజెంట్లలో పురోగతితో పాటు – ఇంద్రియ సమాచారాన్ని ప్రాసెస్ చేయడానికి మరియు అర్థం చేసుకోవడానికి యంత్రాల సామర్థ్యం – AI అవగాహనను పెంచడంపై ఎక్కువగా దృష్టి పెట్టండి.

మెటా దాని లక్ష్యం “మన చుట్టూ ఉన్న ప్రపంచం గురించి ఇంద్రియ సమాచారాన్ని పొందగల, ప్రాసెస్ చేయగలదు మరియు అర్థం చేసుకోగలదు మరియు మానవ లాంటి తెలివితేటలతో మరియు వేగంతో నిర్ణయాలు తీసుకోవడానికి ఈ సమాచారాన్ని ఉపయోగించగలదు” అని మెటా పేర్కొంది.

ఐదు కొత్త విడుదలలు ఈ ప్రతిష్టాత్మక లక్ష్యాన్ని సాధించడానికి విభిన్నమైన కానీ ఒకదానితో ఒకటి అనుసంధానించబడిన ప్రయత్నాలను సూచిస్తాయి.

పర్సెప్షన్ ఎన్కోడర్: మెటా ఐ యొక్క ‘దృష్టిని’ పదునుపెడుతుంది

కొత్త విడుదలలకు కేంద్రమైనది పర్సెప్షన్ ఎన్‌కోడర్, దీనిని వివిధ ఇమేజ్ మరియు వీడియో పనులలో రాణించడానికి రూపొందించిన పెద్ద-స్థాయి విజన్ ఎన్‌కోడర్‌గా వర్ణించబడింది.

విజన్ ఎన్కోడర్లు AI వ్యవస్థల కోసం “కళ్ళు” గా పనిచేస్తాయి, ఇది దృశ్య డేటాను అర్థం చేసుకోవడానికి వీలు కల్పిస్తుంది.

అధునాతన AI యొక్క డిమాండ్లను తీర్చగల ఎన్‌కోడర్‌లను నిర్మించడం యొక్క పెరుగుతున్న సవాలును మెటా హైలైట్ చేస్తుంది, దృష్టి మరియు భాషను తగ్గించే సామర్థ్యాలు అవసరం, చిత్రాలు మరియు వీడియోలు రెండింటినీ సమర్థవంతంగా నిర్వహించే సామర్థ్యాలు అవసరం మరియు సంభావ్య విరోధి దాడులతో సహా సవాలు పరిస్థితులలో బలంగా ఉంటాయి.

ఆదర్శ ఎన్‌కోడర్, మెటా ప్రకారం, సూక్ష్మమైన వివరాలను వేరుచేసేటప్పుడు విస్తృతమైన భావనలను గుర్తించాలి -“సముద్రపు అడుగుభాగంలో బురోగా ఉన్న స్టింగ్రేను గుర్తించడం, చిత్రం యొక్క నేపథ్యంలో ఒక చిన్న గోల్డ్‌ఫిన్చ్‌ను గుర్తించడం లేదా రాత్రి దృష్టి వన్యప్రాణుల కెమెరాపై విపరీతమైన అగౌటిని పట్టుకోవడం వంటి ఉదాహరణలు.”

మెటా పర్సెప్షన్ ఎన్కోడర్ “ఇమేజ్ మరియు వీడియో జీరో-షాట్ వర్గీకరణ మరియు తిరిగి పొందడంపై అసాధారణమైన పనితీరును సాధిస్తుందని, అటువంటి పనుల కోసం ఇప్పటికే ఉన్న అన్ని ఓపెన్ సోర్స్ మరియు యాజమాన్య నమూనాలను అధిగమిస్తుంది” అని మెటా పేర్కొంది.

ఇంకా, దాని గ్రహణ బలాలు భాషా పనులకు బాగా అనువదించబడతాయి.

పెద్ద భాషా మోడల్ (LLM) తో అనుసంధానించబడినప్పుడు, ఎన్‌కోడర్ విజువల్ ప్రశ్న జవాబు (VQA), క్యాప్షన్, డాక్యుమెంట్ అండర్స్టాండింగ్ మరియు గ్రౌండింగ్ (నిర్దిష్ట చిత్ర ప్రాంతాలకు వచనాన్ని అనుసంధానించడం) వంటి ప్రాంతాలలో ఇతర దృష్టి ఎన్‌కోడర్‌లను అధిగమిస్తుందని చెప్పబడింది. ప్రాదేశిక సంబంధాలను అర్థం చేసుకోవడం (ఉదా., “ఒక వస్తువు మరొకదాని వెనుక ఉంటే”) లేదా ఒక వస్తువుకు సంబంధించి కెమెరా కదలిక వంటి LLM లకు సాంప్రదాయకంగా కష్టతరమైన పనులపై ఇది పనితీరును పెంచుతుంది.

“పర్సెప్షన్ ఎన్కోడర్ కొత్త అనువర్తనాల్లో విలీనం కావడం ప్రారంభించినప్పుడు, దాని అధునాతన దృష్టి సామర్థ్యాలు మరింత సమర్థవంతమైన AI వ్యవస్థలను ఎలా ప్రారంభిస్తాయో చూడడానికి మేము సంతోషిస్తున్నాము” అని మెటా చెప్పారు.

పర్సెప్షన్ లాంగ్వేజ్ మోడల్ (పిఎల్‌ఎం): దృష్టి-భాషలో ఓపెన్ రీసెర్చ్

ఎన్‌కోడర్‌ను పూర్తి చేయడం అనేది పర్సెప్షన్ లాంగ్వేజ్ మోడల్ (పిఎల్‌ఎం), ఇది సంక్లిష్ట దృశ్య గుర్తింపు పనులను లక్ష్యంగా చేసుకుని బహిరంగ మరియు పునరుత్పత్తి దృష్టి-భాషా నమూనా.

బాహ్య యాజమాన్య నమూనాల నుండి జ్ఞానాన్ని స్వేదనం చేయకుండా, ఓపెన్ విజన్-లాంగ్వేజ్ డేటాసెట్లతో కలిపి పెద్ద-స్థాయి సింథటిక్ డేటాను ఉపయోగించి PLM శిక్షణ పొందింది.

ఇప్పటికే ఉన్న వీడియో అండర్స్టాండింగ్ డేటాలో అంతరాలను గుర్తించి, ఫెయిర్ బృందం 2.5 మిలియన్ కొత్త, మానవ-లేబుల్ నమూనాలను చక్కటి-కణిత వీడియో ప్రశ్న సమాధానం మరియు స్పాటియో-టెంపోరల్ క్యాప్షన్ పై దృష్టి పెట్టింది. మెటా ఇది “ఇప్పటి వరకు ఈ రకమైన అతిపెద్ద డేటాసెట్” ను రూపొందిస్తుంది.

PLM 1, 3 మరియు 8 బిలియన్ పారామితి సంస్కరణల్లో అందించబడుతుంది, పారదర్శకత అవసరమయ్యే విద్యా పరిశోధన అవసరాలకు క్యాటరింగ్.

మోడళ్లతో పాటు, మెటా PLM- వీడియోబెన్చ్‌ను విడుదల చేస్తోంది, ఇది ఇప్పటికే ఉన్న బెంచ్‌మార్క్‌ల ద్వారా తరచుగా తప్పిపోయిన సామర్థ్యాలను పరీక్షించడానికి ప్రత్యేకంగా రూపొందించిన కొత్త బెంచ్‌మార్క్, అవి “చక్కటి-కణిత కార్యాచరణ అవగాహన మరియు స్పాటియోటెంపోరల్‌గా గ్రౌన్దేడ్ రీజనింగ్.”

ఓపెన్ మోడల్స్, పెద్ద డేటాసెట్ మరియు సవాలు చేసే బెంచ్ మార్క్ కలయిక ఓపెన్-సోర్స్ కమ్యూనిటీకి అధికారం ఇస్తుందని మెటా భావిస్తోంది.

మెటా లొకేట్ 3 డి: రోబోట్లకు పరిస్థితుల అవగాహన ఇవ్వడం

భాషా ఆదేశాలు మరియు భౌతిక చర్యల మధ్య అంతరాన్ని తగ్గించడం మెటా లొకేషన్ 3D. ఈ ఎండ్-టు-ఎండ్ మోడల్ ఓపెన్-వాలబులరీ సహజ భాషా ప్రశ్నల ఆధారంగా 3D వాతావరణంలో వస్తువులను ఖచ్చితంగా స్థానికీకరించడానికి రోబోట్లను అనుమతించడం లక్ష్యంగా పెట్టుకుంది.

మెటా 3 డి ప్రాసెస్లను 3D పాయింట్ మేఘాలను నేరుగా RGB-D సెన్సార్ల నుండి (కొన్ని రోబోట్లు లేదా లోతు-సెన్సింగ్ కెమెరాలలో కనిపించే విధంగా) గుర్తించింది. “టీవీ కన్సోల్ దగ్గర ఫ్లవర్ వాసే” వంటి వచన ప్రాంప్ట్ ఇచ్చినట్లయితే, ఈ వ్యవస్థ సరైన వస్తువు ఉదాహరణను గుర్తించడానికి ప్రాదేశిక సంబంధాలు మరియు సందర్భాన్ని పరిగణిస్తుంది, దానిని “పట్టికపై వాసే” నుండి వేరు చేస్తుంది.

ఈ వ్యవస్థ మూడు ప్రధాన భాగాలను కలిగి ఉంది: 2D లక్షణాలను 3D ఫీచర్డ్ పాయింట్ మేఘాలుగా మార్చే ప్రిప్రాసెసింగ్ దశ; 3D-JEPA ఎన్కోడర్ (సందర్భోచిత 3D ప్రపంచ ప్రాతినిధ్యాన్ని సృష్టించే ప్రీ-మోడల్); మరియు 3D డీకోడర్‌ను లొకేట్ చేయండి, ఇది 3D ప్రాతినిధ్యం మరియు భాషా ప్రశ్నను పేర్కొన్న వస్తువుల కోసం సరిహద్దు పెట్టెలు మరియు ముసుగులను అవుట్పుట్ చేస్తుంది.

మోడల్‌తో పాటు, వ్యక్తీకరణలను సూచించే ఆధారంగా ఆబ్జెక్ట్ స్థానికీకరణ కోసం మెటా గణనీయమైన కొత్త డేటాసెట్‌ను విడుదల చేస్తోంది. ఇది ఆర్కిట్సేన్స్, స్కానెట్ మరియు స్కానెట్ ++ డేటాసెట్ల నుండి 1,346 దృశ్యాలలో 130,000 భాషా ఉల్లేఖనాలను కలిగి ఉంది, ఈ ప్రాంతంలో ఇప్పటికే ఉన్న ఉల్లేఖన డేటాను సమర్థవంతంగా రెట్టింపు చేస్తుంది.

మెటా ఈ సాంకేతిక పరిజ్ఞానాన్ని దాని స్వంత పార్ట్ఎన్ఆర్ రోబోట్ ప్రాజెక్టుతో సహా మరింత సమర్థవంతమైన రోబోటిక్ వ్యవస్థలను అభివృద్ధి చేయడానికి కీలకమైనదిగా చూస్తుంది, ఇది మరింత సహజమైన మానవ-రోబోట్ పరస్పర చర్య మరియు సహకారాన్ని అనుమతిస్తుంది.

డైనమిక్ బైట్ లాటెంట్ ట్రాన్స్ఫార్మర్: సమర్థవంతమైన మరియు బలమైన భాషా మోడలింగ్

2024 చివరలో ప్రచురించబడిన పరిశోధన తరువాత, మెటా ఇప్పుడు దాని 8-బిలియన్ పారామితి డైనమిక్ బైట్ లాటెంట్ ట్రాన్స్ఫార్మర్ కోసం మోడల్ బరువులను విడుదల చేస్తోంది.

ఈ నిర్మాణం సాంప్రదాయ టోకెనైజేషన్-ఆధారిత భాషా నమూనాల నుండి దూరంగా మారడాన్ని సూచిస్తుంది, బదులుగా బైట్ స్థాయిలో పనిచేస్తుంది. అనుమితి సామర్థ్యం మరియు దృ ness త్వం లో గణనీయమైన మెరుగుదలలను అందించేటప్పుడు ఈ విధానం స్కేల్ వద్ద పోల్చదగిన పనితీరును సాధిస్తుందని మెటా పేర్కొంది.

సాంప్రదాయ LLM లు వచనాన్ని ‘టోకెన్లు’ గా విడదీస్తాయి, ఇది అక్షరదోషాలు, నవల పదాలు లేదా విరోధి ఇన్పుట్లతో పోరాడుతుంది. బైట్-స్థాయి నమూనాలు ముడి బైట్‌లను ప్రాసెస్ చేస్తాయి, ఇవి ఎక్కువ స్థితిస్థాపకతను అందిస్తాయి.

డైనమిక్ బైట్ లాటెంట్ ట్రాన్స్ఫార్మర్ “వివిధ పనులలో టోకనిజర్-ఆధారిత మోడళ్లను అధిగమిస్తుందని, సగటున +7 పాయింట్ల (కలత చెందిన హెల్లాస్వాగ్‌లో), మరియు అందమైన టోకెన్-అవగాహన బెంచ్ మార్క్ నుండి పనులపై +55 పాయింట్ల వరకు చేరుకుంటుంది” అని మెటా నివేదించింది.

గతంలో భాగస్వామ్యం చేసిన కోడ్‌బేస్‌తో పాటు బరువులను విడుదల చేయడం ద్వారా, భాషా మోడలింగ్‌కు ఈ ప్రత్యామ్నాయ విధానాన్ని అన్వేషించడానికి మెటా పరిశోధనా సంఘాన్ని ప్రోత్సహిస్తుంది.

సహకార రీసెసర్: మెటా సామాజికంగా ఇంటెలిజెంట్ AI ఏజెంట్లను అభివృద్ధి చేస్తుంది

తుది విడుదల, సహకార వాద్యం, మానవులతో లేదా ఇతర AI లతో సమర్థవంతంగా సహకరించగల AI ఏజెంట్లను సృష్టించే సంక్లిష్ట సవాలును పరిష్కరిస్తుంది.

మానవ సహకారం తరచుగా ఉన్నతమైన ఫలితాలను ఇస్తుందని మెటా పేర్కొంది మరియు హోంవర్క్ లేదా ఉద్యోగ ఇంటర్వ్యూ తయారీకి సహాయం చేయడం వంటి పనుల కోసం ఇలాంటి సామర్థ్యాలతో AI ని నింపడం లక్ష్యంగా పెట్టుకుంది.

ఇటువంటి సహకారానికి సమస్య పరిష్కారం మాత్రమే కాకుండా, కమ్యూనికేషన్, తాదాత్మ్యం, అభిప్రాయాన్ని అందించడం మరియు ఇతరుల మానసిక స్థితులను అర్థం చేసుకోవడం (సిద్ధాంతం యొక్క సిద్ధాంతం) వంటి సామాజిక నైపుణ్యాలు కూడా అవసరం, తరచుగా బహుళ సంభాషణ మలుపులపై ముగుస్తుంది.

ప్రస్తుత LLM శిక్షణ మరియు మూల్యాంకన పద్ధతులు తరచుగా ఈ సామాజిక మరియు సహకార అంశాలను నిర్లక్ష్యం చేస్తాయి. ఇంకా, సంబంధిత సంభాషణ డేటాను సేకరించడం ఖరీదైనది మరియు కష్టం.

సహకార కారణం ఈ నైపుణ్యాలను అంచనా వేయడానికి మరియు మెరుగుపరచడానికి ఒక ఫ్రేమ్‌వర్క్‌ను అందిస్తుంది. ఇది ఇద్దరు ఏజెంట్ల మధ్య సంభాషణ ద్వారా సాధించాల్సిన బహుళ-దశల తార్కికం అవసరమయ్యే లక్ష్య-ఆధారిత పనులను కలిగి ఉంటుంది. ఫ్రేమ్‌వర్క్ నిర్మాణాత్మకంగా విభేదించడం, భాగస్వామిని ఒప్పించడం మరియు భాగస్వామ్య ఉత్తమ పరిష్కారాన్ని చేరుకోవడం వంటి సామర్థ్యాలను పరీక్షిస్తుంది.

మెటా యొక్క మూల్యాంకనాలు ప్రస్తుత నమూనాలు మెరుగైన ఫలితాల కోసం స్థిరంగా సహకారాన్ని స్థిరంగా ప్రభావితం చేయడానికి కష్టపడుతున్నాయని వెల్లడించింది. దీనిని పరిష్కరించడానికి, వారు సింథటిక్ ఇంటరాక్షన్ డేటాను ఉపయోగించి స్వీయ-అభివృద్ధి పద్ధతిని ప్రతిపాదిస్తారు, ఇక్కడ LLM ఏజెంట్ తనతో కలిసి పనిచేస్తుంది.

ఈ డేటాను స్కేల్ వద్ద ఉత్పత్తి చేయడం మ్యాట్రిక్స్ అని పిలువబడే కొత్త హై-పెర్ఫార్మెన్స్ మోడల్ సర్వింగ్ ఇంజిన్ ద్వారా ప్రారంభించబడుతుంది. గణితాలు, శాస్త్రీయ మరియు సామాజిక తార్కిక పనులపై ఈ విధానాన్ని ఉపయోగించడం, ఒకే LLM యొక్క ప్రామాణిక ‘గొలుసు-ఆలోచన’ పనితీరుతో పోలిస్తే 29.4% వరకు మెరుగుదలలు లభించినట్లు తెలిసింది.

డేటా తరం మరియు మోడలింగ్ పైప్‌లైన్‌ను ఓపెన్ సోర్సింగ్ చేయడం ద్వారా, మెటా “మానవులతో మరియు ఇతర ఏజెంట్లతో భాగస్వామ్యం చేయగల సామాజిక ఏజెంట్లను” సృష్టించడంపై మరింత పరిశోధనలను ప్రోత్సహించడం లక్ష్యంగా పెట్టుకుంది.

ఈ ఐదు విడుదలలు సమిష్టిగా మెటా యొక్క ప్రాథమిక AI పరిశోధనలో భారీ పెట్టుబడిని నొక్కిచెప్పాయి, ప్రత్యేకించి ప్రపంచాన్ని మరింత మానవ-తరహా మార్గాల్లో గ్రహించగల, అర్థం చేసుకోగల మరియు సంభాషించగల యంత్రాల కోసం బిల్డింగ్ బ్లాక్‌లపై దృష్టి సారించాయి.

ఇవి కూడా చూడండి: మెటా EU యూజర్ డేటాను ఉపయోగించి AI మోడళ్లకు శిక్షణ ఇస్తుంది

పరిశ్రమ నాయకుల నుండి AI మరియు పెద్ద డేటా గురించి మరింత తెలుసుకోవాలనుకుంటున్నారా? తనిఖీ చేయండి AI & పెద్ద డేటా ఎక్స్‌పో ఆమ్స్టర్డామ్, కాలిఫోర్నియా మరియు లండన్లలో జరుగుతోంది. సమగ్ర సంఘటనతో సహా ఇతర ప్రముఖ సంఘటనలతో సహ-స్థాపించబడింది ఇంటెలిజెంట్ ఆటోమేషన్ కాన్ఫరెన్స్, బ్లాక్ఎక్స్, డిజిటల్ ట్రాన్స్ఫర్మేషన్ వీక్మరియు సైబర్ సెక్యూరిటీ & క్లౌడ్ ఎక్స్‌పో.

టెక్ఫోర్జ్ చేత శక్తినిచ్చే ఇతర రాబోయే ఎంటర్ప్రైజ్ టెక్నాలజీ ఈవెంట్స్ మరియు వెబ్‌నార్లను అన్వేషించండి ఇక్కడ.

Source link

Useful _Links

EMEA CIOలు AI రోల్‌అవుట్‌లను ఎలా జంప్‌స్టార్ట్ చేయగలవు

GPT-5.5 అనేది OpenAI యొక్క అత్యంత సామర్థ్యం గల ఏజెంట్ AI మోడల్ – API ధర కంటే రెండింతలు

SDLC ఖర్చులను నియంత్రించడానికి IBM AI ప్లాట్‌ఫారమ్ బాబ్‌ను ప్రారంభించింది

ఎన్‌కోడర్‌ల పరిణామం: సాధారణ నమూనాల నుండి మల్టీమోడల్ AI వరకు

భౌతిక AI కోసం కకావో మొబిలిటీ వివరాలు లెవల్ 4 అటానమస్ డ్రైవింగ్ రోడ్‌మ్యాప్

ఆప్టికల్ ఇంటర్‌కనెక్ట్ అంటే ఏమిటి మరియు లైట్‌టెలిజెన్స్ యొక్క $10B అరంగేట్రం ఎందుకు AIకి ముఖ్యమని చెప్పింది

హానికరమైన వెబ్ పేజీలు AI ఏజెంట్లను విషపూరితం చేస్తున్నాయని Google హెచ్చరించింది

AI ఏజెంట్లకు ఇంటరాక్షన్ ఇన్‌ఫ్రాస్ట్రక్చర్ ఎందుకు అవసరం

మార్కెట్ ప్రవర్తనను అర్థం చేసుకోవడానికి AI మోడల్‌లు నిజ-సమయ క్రిప్టోకరెన్సీ డేటాను ఎలా ఉపయోగిస్తాయి

AI కోసం భిన్నమైన ఆలోచనతో బిలియన్-డాలర్ స్టార్టప్

మెటా ఫెయిర్ ఐదు ప్రధాన విడుదలలతో మానవ లాంటి AI ని అభివృద్ధి చేస్తుంది

పర్సెప్షన్ ఎన్కోడర్: మెటా ఐ యొక్క ‘దృష్టిని’ పదునుపెడుతుంది

పర్సెప్షన్ లాంగ్వేజ్ మోడల్ (పిఎల్‌ఎం): దృష్టి-భాషలో ఓపెన్ రీసెర్చ్

మెటా లొకేట్ 3 డి: రోబోట్లకు పరిస్థితుల అవగాహన ఇవ్వడం

డైనమిక్ బైట్ లాటెంట్ ట్రాన్స్ఫార్మర్: సమర్థవంతమైన మరియు బలమైన భాషా మోడలింగ్

సహకార రీసెసర్: మెటా సామాజికంగా ఇంటెలిజెంట్ AI ఏజెంట్లను అభివృద్ధి చేస్తుంది

Leave a Reply Cancel reply

Useful Links

పర్సెప్షన్ ఎన్కోడర్: మెటా ఐ యొక్క ‘దృష్టిని’ పదునుపెడుతుంది

పర్సెప్షన్ లాంగ్వేజ్ మోడల్ (పిఎల్‌ఎం): దృష్టి-భాషలో ఓపెన్ రీసెర్చ్

మెటా లొకేట్ 3 డి: రోబోట్లకు పరిస్థితుల అవగాహన ఇవ్వడం

డైనమిక్ బైట్ లాటెంట్ ట్రాన్స్ఫార్మర్: సమర్థవంతమైన మరియు బలమైన భాషా మోడలింగ్

సహకార రీసెసర్: మెటా సామాజికంగా ఇంటెలిజెంట్ AI ఏజెంట్లను అభివృద్ధి చేస్తుంది

Leave a Reply Cancel reply

Related News

Useful _Links