మెటాలోని ఫండమెంటల్ AI రీసెర్చ్ (ఫెయిర్) బృందం కంపెనీ వెంబడించిన అడ్వాన్స్డ్ మెషిన్ ఇంటెలిజెన్స్ (AMI) ను అభివృద్ధి చేస్తున్న ఐదు ప్రాజెక్టులను ప్రకటించింది.
నుండి తాజా విడుదలలు మెటా భాషా మోడలింగ్, రోబోటిక్స్ మరియు సహకార AI ఏజెంట్లలో పురోగతితో పాటు – ఇంద్రియ సమాచారాన్ని ప్రాసెస్ చేయడానికి మరియు అర్థం చేసుకోవడానికి యంత్రాల సామర్థ్యం – AI అవగాహనను పెంచడంపై ఎక్కువగా దృష్టి పెట్టండి.
మెటా దాని లక్ష్యం “మన చుట్టూ ఉన్న ప్రపంచం గురించి ఇంద్రియ సమాచారాన్ని పొందగల, ప్రాసెస్ చేయగలదు మరియు అర్థం చేసుకోగలదు మరియు మానవ లాంటి తెలివితేటలతో మరియు వేగంతో నిర్ణయాలు తీసుకోవడానికి ఈ సమాచారాన్ని ఉపయోగించగలదు” అని మెటా పేర్కొంది.
ఐదు కొత్త విడుదలలు ఈ ప్రతిష్టాత్మక లక్ష్యాన్ని సాధించడానికి విభిన్నమైన కానీ ఒకదానితో ఒకటి అనుసంధానించబడిన ప్రయత్నాలను సూచిస్తాయి.
పర్సెప్షన్ ఎన్కోడర్: మెటా ఐ యొక్క ‘దృష్టిని’ పదునుపెడుతుంది
కొత్త విడుదలలకు కేంద్రమైనది పర్సెప్షన్ ఎన్కోడర్, దీనిని వివిధ ఇమేజ్ మరియు వీడియో పనులలో రాణించడానికి రూపొందించిన పెద్ద-స్థాయి విజన్ ఎన్కోడర్గా వర్ణించబడింది.
విజన్ ఎన్కోడర్లు AI వ్యవస్థల కోసం “కళ్ళు” గా పనిచేస్తాయి, ఇది దృశ్య డేటాను అర్థం చేసుకోవడానికి వీలు కల్పిస్తుంది.
అధునాతన AI యొక్క డిమాండ్లను తీర్చగల ఎన్కోడర్లను నిర్మించడం యొక్క పెరుగుతున్న సవాలును మెటా హైలైట్ చేస్తుంది, దృష్టి మరియు భాషను తగ్గించే సామర్థ్యాలు అవసరం, చిత్రాలు మరియు వీడియోలు రెండింటినీ సమర్థవంతంగా నిర్వహించే సామర్థ్యాలు అవసరం మరియు సంభావ్య విరోధి దాడులతో సహా సవాలు పరిస్థితులలో బలంగా ఉంటాయి.
ఆదర్శ ఎన్కోడర్, మెటా ప్రకారం, సూక్ష్మమైన వివరాలను వేరుచేసేటప్పుడు విస్తృతమైన భావనలను గుర్తించాలి -“సముద్రపు అడుగుభాగంలో బురోగా ఉన్న స్టింగ్రేను గుర్తించడం, చిత్రం యొక్క నేపథ్యంలో ఒక చిన్న గోల్డ్ఫిన్చ్ను గుర్తించడం లేదా రాత్రి దృష్టి వన్యప్రాణుల కెమెరాపై విపరీతమైన అగౌటిని పట్టుకోవడం వంటి ఉదాహరణలు.”
మెటా పర్సెప్షన్ ఎన్కోడర్ “ఇమేజ్ మరియు వీడియో జీరో-షాట్ వర్గీకరణ మరియు తిరిగి పొందడంపై అసాధారణమైన పనితీరును సాధిస్తుందని, అటువంటి పనుల కోసం ఇప్పటికే ఉన్న అన్ని ఓపెన్ సోర్స్ మరియు యాజమాన్య నమూనాలను అధిగమిస్తుంది” అని మెటా పేర్కొంది.
ఇంకా, దాని గ్రహణ బలాలు భాషా పనులకు బాగా అనువదించబడతాయి.
పెద్ద భాషా మోడల్ (LLM) తో అనుసంధానించబడినప్పుడు, ఎన్కోడర్ విజువల్ ప్రశ్న జవాబు (VQA), క్యాప్షన్, డాక్యుమెంట్ అండర్స్టాండింగ్ మరియు గ్రౌండింగ్ (నిర్దిష్ట చిత్ర ప్రాంతాలకు వచనాన్ని అనుసంధానించడం) వంటి ప్రాంతాలలో ఇతర దృష్టి ఎన్కోడర్లను అధిగమిస్తుందని చెప్పబడింది. ప్రాదేశిక సంబంధాలను అర్థం చేసుకోవడం (ఉదా., “ఒక వస్తువు మరొకదాని వెనుక ఉంటే”) లేదా ఒక వస్తువుకు సంబంధించి కెమెరా కదలిక వంటి LLM లకు సాంప్రదాయకంగా కష్టతరమైన పనులపై ఇది పనితీరును పెంచుతుంది.
“పర్సెప్షన్ ఎన్కోడర్ కొత్త అనువర్తనాల్లో విలీనం కావడం ప్రారంభించినప్పుడు, దాని అధునాతన దృష్టి సామర్థ్యాలు మరింత సమర్థవంతమైన AI వ్యవస్థలను ఎలా ప్రారంభిస్తాయో చూడడానికి మేము సంతోషిస్తున్నాము” అని మెటా చెప్పారు.
పర్సెప్షన్ లాంగ్వేజ్ మోడల్ (పిఎల్ఎం): దృష్టి-భాషలో ఓపెన్ రీసెర్చ్
ఎన్కోడర్ను పూర్తి చేయడం అనేది పర్సెప్షన్ లాంగ్వేజ్ మోడల్ (పిఎల్ఎం), ఇది సంక్లిష్ట దృశ్య గుర్తింపు పనులను లక్ష్యంగా చేసుకుని బహిరంగ మరియు పునరుత్పత్తి దృష్టి-భాషా నమూనా.
బాహ్య యాజమాన్య నమూనాల నుండి జ్ఞానాన్ని స్వేదనం చేయకుండా, ఓపెన్ విజన్-లాంగ్వేజ్ డేటాసెట్లతో కలిపి పెద్ద-స్థాయి సింథటిక్ డేటాను ఉపయోగించి PLM శిక్షణ పొందింది.
ఇప్పటికే ఉన్న వీడియో అండర్స్టాండింగ్ డేటాలో అంతరాలను గుర్తించి, ఫెయిర్ బృందం 2.5 మిలియన్ కొత్త, మానవ-లేబుల్ నమూనాలను చక్కటి-కణిత వీడియో ప్రశ్న సమాధానం మరియు స్పాటియో-టెంపోరల్ క్యాప్షన్ పై దృష్టి పెట్టింది. మెటా ఇది “ఇప్పటి వరకు ఈ రకమైన అతిపెద్ద డేటాసెట్” ను రూపొందిస్తుంది.
PLM 1, 3 మరియు 8 బిలియన్ పారామితి సంస్కరణల్లో అందించబడుతుంది, పారదర్శకత అవసరమయ్యే విద్యా పరిశోధన అవసరాలకు క్యాటరింగ్.
మోడళ్లతో పాటు, మెటా PLM- వీడియోబెన్చ్ను విడుదల చేస్తోంది, ఇది ఇప్పటికే ఉన్న బెంచ్మార్క్ల ద్వారా తరచుగా తప్పిపోయిన సామర్థ్యాలను పరీక్షించడానికి ప్రత్యేకంగా రూపొందించిన కొత్త బెంచ్మార్క్, అవి “చక్కటి-కణిత కార్యాచరణ అవగాహన మరియు స్పాటియోటెంపోరల్గా గ్రౌన్దేడ్ రీజనింగ్.”
ఓపెన్ మోడల్స్, పెద్ద డేటాసెట్ మరియు సవాలు చేసే బెంచ్ మార్క్ కలయిక ఓపెన్-సోర్స్ కమ్యూనిటీకి అధికారం ఇస్తుందని మెటా భావిస్తోంది.
మెటా లొకేట్ 3 డి: రోబోట్లకు పరిస్థితుల అవగాహన ఇవ్వడం
భాషా ఆదేశాలు మరియు భౌతిక చర్యల మధ్య అంతరాన్ని తగ్గించడం మెటా లొకేషన్ 3D. ఈ ఎండ్-టు-ఎండ్ మోడల్ ఓపెన్-వాలబులరీ సహజ భాషా ప్రశ్నల ఆధారంగా 3D వాతావరణంలో వస్తువులను ఖచ్చితంగా స్థానికీకరించడానికి రోబోట్లను అనుమతించడం లక్ష్యంగా పెట్టుకుంది.
మెటా 3 డి ప్రాసెస్లను 3D పాయింట్ మేఘాలను నేరుగా RGB-D సెన్సార్ల నుండి (కొన్ని రోబోట్లు లేదా లోతు-సెన్సింగ్ కెమెరాలలో కనిపించే విధంగా) గుర్తించింది. “టీవీ కన్సోల్ దగ్గర ఫ్లవర్ వాసే” వంటి వచన ప్రాంప్ట్ ఇచ్చినట్లయితే, ఈ వ్యవస్థ సరైన వస్తువు ఉదాహరణను గుర్తించడానికి ప్రాదేశిక సంబంధాలు మరియు సందర్భాన్ని పరిగణిస్తుంది, దానిని “పట్టికపై వాసే” నుండి వేరు చేస్తుంది.
ఈ వ్యవస్థ మూడు ప్రధాన భాగాలను కలిగి ఉంది: 2D లక్షణాలను 3D ఫీచర్డ్ పాయింట్ మేఘాలుగా మార్చే ప్రిప్రాసెసింగ్ దశ; 3D-JEPA ఎన్కోడర్ (సందర్భోచిత 3D ప్రపంచ ప్రాతినిధ్యాన్ని సృష్టించే ప్రీ-మోడల్); మరియు 3D డీకోడర్ను లొకేట్ చేయండి, ఇది 3D ప్రాతినిధ్యం మరియు భాషా ప్రశ్నను పేర్కొన్న వస్తువుల కోసం సరిహద్దు పెట్టెలు మరియు ముసుగులను అవుట్పుట్ చేస్తుంది.
మోడల్తో పాటు, వ్యక్తీకరణలను సూచించే ఆధారంగా ఆబ్జెక్ట్ స్థానికీకరణ కోసం మెటా గణనీయమైన కొత్త డేటాసెట్ను విడుదల చేస్తోంది. ఇది ఆర్కిట్సేన్స్, స్కానెట్ మరియు స్కానెట్ ++ డేటాసెట్ల నుండి 1,346 దృశ్యాలలో 130,000 భాషా ఉల్లేఖనాలను కలిగి ఉంది, ఈ ప్రాంతంలో ఇప్పటికే ఉన్న ఉల్లేఖన డేటాను సమర్థవంతంగా రెట్టింపు చేస్తుంది.
మెటా ఈ సాంకేతిక పరిజ్ఞానాన్ని దాని స్వంత పార్ట్ఎన్ఆర్ రోబోట్ ప్రాజెక్టుతో సహా మరింత సమర్థవంతమైన రోబోటిక్ వ్యవస్థలను అభివృద్ధి చేయడానికి కీలకమైనదిగా చూస్తుంది, ఇది మరింత సహజమైన మానవ-రోబోట్ పరస్పర చర్య మరియు సహకారాన్ని అనుమతిస్తుంది.
డైనమిక్ బైట్ లాటెంట్ ట్రాన్స్ఫార్మర్: సమర్థవంతమైన మరియు బలమైన భాషా మోడలింగ్
2024 చివరలో ప్రచురించబడిన పరిశోధన తరువాత, మెటా ఇప్పుడు దాని 8-బిలియన్ పారామితి డైనమిక్ బైట్ లాటెంట్ ట్రాన్స్ఫార్మర్ కోసం మోడల్ బరువులను విడుదల చేస్తోంది.
ఈ నిర్మాణం సాంప్రదాయ టోకెనైజేషన్-ఆధారిత భాషా నమూనాల నుండి దూరంగా మారడాన్ని సూచిస్తుంది, బదులుగా బైట్ స్థాయిలో పనిచేస్తుంది. అనుమితి సామర్థ్యం మరియు దృ ness త్వం లో గణనీయమైన మెరుగుదలలను అందించేటప్పుడు ఈ విధానం స్కేల్ వద్ద పోల్చదగిన పనితీరును సాధిస్తుందని మెటా పేర్కొంది.
సాంప్రదాయ LLM లు వచనాన్ని ‘టోకెన్లు’ గా విడదీస్తాయి, ఇది అక్షరదోషాలు, నవల పదాలు లేదా విరోధి ఇన్పుట్లతో పోరాడుతుంది. బైట్-స్థాయి నమూనాలు ముడి బైట్లను ప్రాసెస్ చేస్తాయి, ఇవి ఎక్కువ స్థితిస్థాపకతను అందిస్తాయి.
డైనమిక్ బైట్ లాటెంట్ ట్రాన్స్ఫార్మర్ “వివిధ పనులలో టోకనిజర్-ఆధారిత మోడళ్లను అధిగమిస్తుందని, సగటున +7 పాయింట్ల (కలత చెందిన హెల్లాస్వాగ్లో), మరియు అందమైన టోకెన్-అవగాహన బెంచ్ మార్క్ నుండి పనులపై +55 పాయింట్ల వరకు చేరుకుంటుంది” అని మెటా నివేదించింది.
గతంలో భాగస్వామ్యం చేసిన కోడ్బేస్తో పాటు బరువులను విడుదల చేయడం ద్వారా, భాషా మోడలింగ్కు ఈ ప్రత్యామ్నాయ విధానాన్ని అన్వేషించడానికి మెటా పరిశోధనా సంఘాన్ని ప్రోత్సహిస్తుంది.
సహకార రీసెసర్: మెటా సామాజికంగా ఇంటెలిజెంట్ AI ఏజెంట్లను అభివృద్ధి చేస్తుంది
తుది విడుదల, సహకార వాద్యం, మానవులతో లేదా ఇతర AI లతో సమర్థవంతంగా సహకరించగల AI ఏజెంట్లను సృష్టించే సంక్లిష్ట సవాలును పరిష్కరిస్తుంది.
మానవ సహకారం తరచుగా ఉన్నతమైన ఫలితాలను ఇస్తుందని మెటా పేర్కొంది మరియు హోంవర్క్ లేదా ఉద్యోగ ఇంటర్వ్యూ తయారీకి సహాయం చేయడం వంటి పనుల కోసం ఇలాంటి సామర్థ్యాలతో AI ని నింపడం లక్ష్యంగా పెట్టుకుంది.
ఇటువంటి సహకారానికి సమస్య పరిష్కారం మాత్రమే కాకుండా, కమ్యూనికేషన్, తాదాత్మ్యం, అభిప్రాయాన్ని అందించడం మరియు ఇతరుల మానసిక స్థితులను అర్థం చేసుకోవడం (సిద్ధాంతం యొక్క సిద్ధాంతం) వంటి సామాజిక నైపుణ్యాలు కూడా అవసరం, తరచుగా బహుళ సంభాషణ మలుపులపై ముగుస్తుంది.
ప్రస్తుత LLM శిక్షణ మరియు మూల్యాంకన పద్ధతులు తరచుగా ఈ సామాజిక మరియు సహకార అంశాలను నిర్లక్ష్యం చేస్తాయి. ఇంకా, సంబంధిత సంభాషణ డేటాను సేకరించడం ఖరీదైనది మరియు కష్టం.
సహకార కారణం ఈ నైపుణ్యాలను అంచనా వేయడానికి మరియు మెరుగుపరచడానికి ఒక ఫ్రేమ్వర్క్ను అందిస్తుంది. ఇది ఇద్దరు ఏజెంట్ల మధ్య సంభాషణ ద్వారా సాధించాల్సిన బహుళ-దశల తార్కికం అవసరమయ్యే లక్ష్య-ఆధారిత పనులను కలిగి ఉంటుంది. ఫ్రేమ్వర్క్ నిర్మాణాత్మకంగా విభేదించడం, భాగస్వామిని ఒప్పించడం మరియు భాగస్వామ్య ఉత్తమ పరిష్కారాన్ని చేరుకోవడం వంటి సామర్థ్యాలను పరీక్షిస్తుంది.
మెటా యొక్క మూల్యాంకనాలు ప్రస్తుత నమూనాలు మెరుగైన ఫలితాల కోసం స్థిరంగా సహకారాన్ని స్థిరంగా ప్రభావితం చేయడానికి కష్టపడుతున్నాయని వెల్లడించింది. దీనిని పరిష్కరించడానికి, వారు సింథటిక్ ఇంటరాక్షన్ డేటాను ఉపయోగించి స్వీయ-అభివృద్ధి పద్ధతిని ప్రతిపాదిస్తారు, ఇక్కడ LLM ఏజెంట్ తనతో కలిసి పనిచేస్తుంది.
ఈ డేటాను స్కేల్ వద్ద ఉత్పత్తి చేయడం మ్యాట్రిక్స్ అని పిలువబడే కొత్త హై-పెర్ఫార్మెన్స్ మోడల్ సర్వింగ్ ఇంజిన్ ద్వారా ప్రారంభించబడుతుంది. గణితాలు, శాస్త్రీయ మరియు సామాజిక తార్కిక పనులపై ఈ విధానాన్ని ఉపయోగించడం, ఒకే LLM యొక్క ప్రామాణిక ‘గొలుసు-ఆలోచన’ పనితీరుతో పోలిస్తే 29.4% వరకు మెరుగుదలలు లభించినట్లు తెలిసింది.
డేటా తరం మరియు మోడలింగ్ పైప్లైన్ను ఓపెన్ సోర్సింగ్ చేయడం ద్వారా, మెటా “మానవులతో మరియు ఇతర ఏజెంట్లతో భాగస్వామ్యం చేయగల సామాజిక ఏజెంట్లను” సృష్టించడంపై మరింత పరిశోధనలను ప్రోత్సహించడం లక్ష్యంగా పెట్టుకుంది.
ఈ ఐదు విడుదలలు సమిష్టిగా మెటా యొక్క ప్రాథమిక AI పరిశోధనలో భారీ పెట్టుబడిని నొక్కిచెప్పాయి, ప్రత్యేకించి ప్రపంచాన్ని మరింత మానవ-తరహా మార్గాల్లో గ్రహించగల, అర్థం చేసుకోగల మరియు సంభాషించగల యంత్రాల కోసం బిల్డింగ్ బ్లాక్లపై దృష్టి సారించాయి.
ఇవి కూడా చూడండి: మెటా EU యూజర్ డేటాను ఉపయోగించి AI మోడళ్లకు శిక్షణ ఇస్తుంది

పరిశ్రమ నాయకుల నుండి AI మరియు పెద్ద డేటా గురించి మరింత తెలుసుకోవాలనుకుంటున్నారా? తనిఖీ చేయండి AI & పెద్ద డేటా ఎక్స్పో ఆమ్స్టర్డామ్, కాలిఫోర్నియా మరియు లండన్లలో జరుగుతోంది. సమగ్ర సంఘటనతో సహా ఇతర ప్రముఖ సంఘటనలతో సహ-స్థాపించబడింది ఇంటెలిజెంట్ ఆటోమేషన్ కాన్ఫరెన్స్, బ్లాక్ఎక్స్, డిజిటల్ ట్రాన్స్ఫర్మేషన్ వీక్మరియు సైబర్ సెక్యూరిటీ & క్లౌడ్ ఎక్స్పో.
టెక్ఫోర్జ్ చేత శక్తినిచ్చే ఇతర రాబోయే ఎంటర్ప్రైజ్ టెక్నాలజీ ఈవెంట్స్ మరియు వెబ్నార్లను అన్వేషించండి ఇక్కడ.