ఆర్క్ బహుమతి ఇంకా దాని కష్టతరమైన AI బెంచ్‌మార్క్‌ను ప్రారంభించింది: ARC-AGI-2

ఆర్క్ బహుమతి హార్డ్కోర్ ఆర్క్-ఎజిఐ -2 బెంచ్‌మార్క్‌ను ప్రారంభించింది, వారి 2025 పోటీని $ 1 మిలియన్ బహుమతులతో ప్రకటించారు.

AI ఇరుకైన పనుల నుండి సాధారణ, అనుకూల మేధస్సును ప్రదర్శించడం వరకు అభివృద్ధి చెందుతున్నప్పుడు, ARC-AGI-2 సవాళ్లు సామర్ధ్య అంతరాలను వెలికితీసేందుకు మరియు ఆవిష్కరణలను చురుకుగా మార్గనిర్దేశం చేయడమే లక్ష్యంగా పెట్టుకుంటాయి.

“మంచి AGI బెంచ్‌మార్క్‌లు ఉపయోగకరమైన పురోగతి సూచికలుగా పనిచేస్తాయి. మెరుగైన AGI బెంచ్‌మార్క్‌లు సామర్థ్యాలను స్పష్టంగా గుర్తించాయి. ఉత్తమ AGI బెంచ్‌మార్క్‌లు ఇవన్నీ చేస్తాయి మరియు పరిశోధన మరియు గైడ్ ఆవిష్కరణలను చురుకుగా ప్రేరేపిస్తాయి” అని ARC బహుమతి బృందం పేర్కొంది.

ARC-AGI-2 “ఉత్తమ” వర్గాన్ని సాధించడానికి బయలుదేరింది.

జ్ఞాపకానికి మించి

2019 లో ప్రారంభమైనప్పటి నుండి, ఆర్క్ బహుమతి శాశ్వత బెంచ్‌మార్క్‌లను సృష్టించడం ద్వారా AGI వైపు ప్రయత్నిస్తున్న పరిశోధకులకు “నార్త్ స్టార్” గా పనిచేసింది.

ARC-AGI-1 వంటి బెంచ్‌మార్క్‌లు ద్రవ మేధస్సును కొలవడానికి మొగ్గు చూపాయి (అనగా, కొత్తగా కనిపించని పనులకు అభ్యాసాన్ని స్వీకరించే సామర్థ్యం.) ఇది జ్ఞాపకశక్తికి మాత్రమే బహుమతి ఇచ్చే డేటాసెట్ల నుండి స్పష్టమైన నిష్క్రమణను సూచిస్తుంది.

ఆర్క్ ప్రైజ్ యొక్క మిషన్ కూడా ఫార్వర్డ్-థింకింగ్, శాస్త్రీయ పురోగతి కోసం సమయపాలనను వేగవంతం చేయడమే లక్ష్యంగా ఉంది. దీని బెంచ్‌మార్క్‌లు పురోగతిని కొలవడానికి మాత్రమే కాకుండా కొత్త ఆలోచనలను ప్రేరేపించడానికి రూపొందించబడ్డాయి.

2024 చివరలో ఓపెనై యొక్క O3 యొక్క తొలి ప్రదర్శనతో పరిశోధకులు క్లిష్టమైన మార్పును గమనించారు, ఆర్క్-AGI-1 ను ఉపయోగించి మూల్యాంకనం చేశారు. లోతైన అభ్యాస-ఆధారిత పెద్ద భాషా నమూనాలను (LLM లు) రీజనింగ్ సింథసిస్ ఇంజిన్లతో కలిపి, O3 ఒక పురోగతిని గుర్తించింది, ఇక్కడ AI రోట్ మెమోరైజేషన్‌కు మించి పరివర్తన చెందింది.

అయినప్పటికీ, పురోగతి ఉన్నప్పటికీ, O3 వంటి వ్యవస్థలు అసమర్థంగా ఉన్నాయి మరియు శిక్షణా ప్రక్రియల సమయంలో గణనీయమైన మానవ పర్యవేక్షణ అవసరం. నిజమైన అనుకూలత మరియు సామర్థ్యం కోసం ఈ వ్యవస్థలను సవాలు చేయడానికి, ఆర్క్ బహుమతి ఆర్క్-ఎజిఐ -2 ను ప్రవేశపెట్టింది.

ఆర్క్-ఎజి -2: మానవ-యంత్ర గ్యాప్‌ను మూసివేయడం

ARC-AGI-2 బెంచ్ మార్క్ AI కి కఠినమైనది, ఇంకా మానవులకు దాని ప్రాప్యతను కలిగి ఉంది. ఫ్రాంటియర్ AI రీజనింగ్ సిస్టమ్స్ ఆర్క్-AGI-2 లో సింగిల్-డిజిట్ శాతాలలో స్కోరు చేస్తూనే ఉన్నప్పటికీ, మానవులు రెండు ప్రయత్నాలలో ప్రతి పనిని పరిష్కరించగలరు.

కాబట్టి, ఆర్క్-అజీని వేరుగా ఉంచుతుంది? దీని రూపకల్పన తత్వశాస్త్రం “మానవులకు సాపేక్షంగా సులభం, ఇంకా కఠినమైనది లేదా అసాధ్యం, AI కి” పనులను ఎంచుకుంటుంది.

బెంచ్ మార్క్ వివిధ దృశ్యమానత మరియు క్రింది లక్షణాలతో డేటాసెట్లను కలిగి ఉంది:

సింబాలిక్ వ్యాఖ్యానం: చిహ్నాలకు అర్థ ప్రాముఖ్యతను కేటాయించడానికి AI కష్టపడుతోంది, బదులుగా సమరూప తనిఖీలు వంటి నిస్సార పోలికలపై దృష్టి పెడుతుంది.
కూర్పు తార్కికం: ఒకేసారి బహుళ సంకర్షణ నియమాలను వర్తింపజేయవలసి వచ్చినప్పుడు AI క్షీణిస్తుంది.
సందర్భోచిత నియమం అనువర్తనం: సంక్లిష్ట సందర్భాల ఆధారంగా వ్యవస్థలను భిన్నంగా వర్తింపజేయడంలో వ్యవస్థలు విఫలమవుతాయి, తరచూ ఉపరితల-స్థాయి నమూనాలపై ఫిక్సింగ్ చేస్తాయి.

ఇప్పటికే ఉన్న చాలా బెంచ్‌మార్క్‌లు మానవాతీత సామర్థ్యాలపై దృష్టి పెడతాయి, చాలా మంది వ్యక్తులకు సాధించలేని ప్రమాణాల వద్ద అధునాతన, ప్రత్యేకమైన నైపుణ్యాలను పరీక్షిస్తాయి.

ఆర్క్-ఎజి స్క్రిప్ట్‌ను ఎగరవేసి, ఇంకా చేయలేనిదాన్ని హైలైట్ చేస్తుంది; ప్రత్యేకంగా మానవ మేధస్సును నిర్వచించే అనుకూలత. మానవులకు సులభమైన కానీ AI కి కష్టమైన పనుల మధ్య అంతరం చివరికి సున్నాకి చేరుకున్నప్పుడు, AGI ని సాధించినట్లు ప్రకటించవచ్చు.

అయినప్పటికీ, AGI ని సాధించడం పనులను పరిష్కరించే సామర్థ్యానికి పరిమితం కాదు; సామర్థ్యం – పరిష్కారాలను కనుగొనడానికి అవసరమైన ఖర్చు మరియు వనరులు – కీలకమైన నిర్వచించే కారకంగా అభివృద్ధి చెందుతున్నాయి.

సామర్థ్యం యొక్క పాత్ర

ఇంటెలిజెన్స్‌ను అంచనా వేయడానికి ప్రతి పనికి ఖర్చుతో పనితీరును కొలవడం చాలా అవసరం, సమస్య పరిష్కార సామర్ధ్యం మాత్రమే కాకుండా, సమర్థవంతంగా చేయగల సామర్థ్యం.

వాస్తవ-ప్రపంచ ఉదాహరణలు ఇప్పటికే మానవులు మరియు సరిహద్దు AI వ్యవస్థల మధ్య సమర్థత అంతరాలను చూపుతున్నాయి:

మానవ ప్యానెల్ సామర్థ్యం: 100% ఖచ్చితత్వంతో $ 17/టాస్క్ వద్ద ఆర్క్-ఎజిఐ -2 పనులను పాస్ చేస్తుంది.
ఓపెనై O3: ప్రారంభ అంచనాలు ఒక పనికి కంటి-నీరు త్రాగుట వద్ద 4% విజయవంతం రేటును సూచిస్తున్నాయి.

ఈ కొలమానాలు మానవులు మరియు AI ల మధ్య అనుకూలత మరియు వనరుల వినియోగంలో అసమానతలను నొక్కిచెప్పాయి. భవిష్యత్ లీడర్‌బోర్డులలో స్కోర్‌లతో పాటు సామర్థ్యాన్ని నివేదించడానికి ARC బహుమతి కట్టుబడి ఉంది.

సామర్థ్యంపై దృష్టి బ్రూట్-ఫోర్స్ పరిష్కారాలను “నిజమైన మేధస్సు” గా పరిగణించకుండా నిరోధిస్తుంది.

ఇంటెలిజెన్స్, ఆర్క్ బహుమతి ప్రకారం, కనీస వనరులతో పరిష్కారాలను కనుగొనడం -నాణ్యత స్పష్టంగా మానవుడు కాని ఇంకా AI కి అస్పష్టంగా ఉంటుంది.

ఆర్క్ బహుమతి 2025

ఆర్క్ ప్రైజ్ 2025 లాంచ్ కాగ్లే ఈ వారం, మొత్తం బహుమతులలో million 1 మిలియన్ వాగ్దానం చేసింది మరియు ఓపెన్ సోర్స్ పురోగతి కోసం లైవ్ లీడర్‌బోర్డ్‌ను ప్రదర్శిస్తుంది. ఆర్క్-ఎజిఐ -2 సవాళ్లను సమర్థవంతంగా పరిష్కరించగల వ్యవస్థల వైపు పురోగతిని పెంచడం ఈ పోటీ లక్ష్యం.

2024 మొత్తాల నుండి పెరిగిన బహుమతి వర్గాలలో:

గ్రాండ్ ప్రైజ్: కాగ్లే సామర్థ్య పరిమితుల్లో 85% విజయానికి చేరుకోవడానికి, 000 700,000.
టాప్ స్కోరు బహుమతి: అత్యధిక స్కోరింగ్ సమర్పణకు, 000 75,000.
కాగితపు బహుమతి: ఆర్క్-ఎజిఐ పనులను పరిష్కరించడానికి దోహదపడే రూపాంతర ఆలోచనల కోసం $ 50,000.
అదనపు బహుమతులు: 5,000 175,000, పోటీ సమయంలో వివరాలు పెండింగ్‌లో ఉన్నాయి.

ఈ ప్రోత్సాహకాలు పరిశోధకులు, ప్రయోగశాలలు మరియు స్వతంత్ర జట్లలో సహకారాన్ని పెంపొందించేటప్పుడు న్యాయమైన మరియు అర్ధవంతమైన పురోగతిని నిర్ధారిస్తాయి.

https://www.youtube.com/watch?v=z6cttkvqayg

గత సంవత్సరం, ఆర్క్ ప్రైజ్ 2024 లో 1,500 పోటీదారుల జట్లు వచ్చాయి, ఫలితంగా 40 ప్రశంసలు పొందిన పరిశ్రమ ప్రభావం ఉంది. ఈ సంవత్సరం పెరిగిన వాటా మరింత ఎక్కువ విజయాన్ని సాధించడమే లక్ష్యంగా పెట్టుకుంది.

ఆర్క్ ప్రైజ్ పురోగతి ఇప్పటికే ఉన్న వ్యవస్థలను స్కేలింగ్ చేయకుండా నవల ఆలోచనలపై అతుక్కుంటుందని నమ్ముతుంది. సమర్థవంతమైన సాధారణ వ్యవస్థలలో తదుపరి పురోగతి ప్రస్తుత టెక్ దిగ్గజాల నుండి ఉద్భవించకపోవచ్చు, కానీ ధైర్యమైన, సృజనాత్మక పరిశోధకుల నుండి సంక్లిష్టత మరియు ఆసక్తికరమైన ప్రయోగాలను స్వీకరించారు.

(చిత్ర క్రెడిట్: ఆర్క్ బహుమతి)

ఇవి కూడా చూడండి: డీప్సీక్ V3-0324 మొదట ఓపెన్-సోర్స్‌లో నాన్-రీజినింగ్ AI మోడళ్లను అగ్రస్థానంలో నిలిపింది

పరిశ్రమ నాయకుల నుండి AI మరియు పెద్ద డేటా గురించి మరింత తెలుసుకోవాలనుకుంటున్నారా? తనిఖీ చేయండి AI & పెద్ద డేటా ఎక్స్‌పో ఆమ్స్టర్డామ్, కాలిఫోర్నియా మరియు లండన్లలో జరుగుతోంది. సమగ్ర సంఘటనతో సహా ఇతర ప్రముఖ సంఘటనలతో సహ-స్థాపించబడింది ఇంటెలిజెంట్ ఆటోమేషన్ కాన్ఫరెన్స్, బ్లాక్ఎక్స్, డిజిటల్ ట్రాన్స్ఫర్మేషన్ వీక్మరియు సైబర్ సెక్యూరిటీ & క్లౌడ్ ఎక్స్‌పో.

టెక్ఫోర్జ్ చేత శక్తినిచ్చే ఇతర రాబోయే ఎంటర్ప్రైజ్ టెక్నాలజీ ఈవెంట్స్ మరియు వెబ్‌నార్లను అన్వేషించండి ఇక్కడ.

Source link

Useful _Links

లైవ్ వర్క్‌ఫ్లోలను విచ్ఛిన్నం చేయకుండా ఇంటెలిజెంట్ ఆటోమేషన్ స్కేలింగ్

బ్యాక్ ఆఫీస్ నుండి ప్రైవేట్ ఈక్విటీ కోసం AIని తీసుకురావడానికి Rowspace $50Mని సమీకరించింది

సాంకేతిక వ్యయం $20Bకి చేరుకోవడంతో JP మోర్గాన్ AI పెట్టుబడిని విస్తరించింది

ఫైనాన్స్ యొక్క అతిపెద్ద AI సమస్యను పరిష్కరించడానికి Dyna.Ai కేవలం ఎనిమిది గణాంకాలను పెంచింది

AI ఏజెంట్లు కొత్త ఫైనాన్స్ ఆర్కిటెక్చర్‌ను రూపొందించే బిట్‌కాయిన్‌ను ఇష్టపడతారు

భౌతిక AI దాని క్షణాన్ని కలిగి ఉంది మరియు ప్రతి ఒక్కరూ దాని భాగాన్ని కోరుకుంటారు

Google యొక్క ఇండస్ట్రియల్ రోబోటిక్స్ AI ప్లే ఇప్పుడు భౌతిక AI ప్రాధాన్యత

ఆధునిక ఫారెక్స్ ఆటోమేషన్‌లో AI యొక్క ఏకీకరణ

ఉత్తమ AI భద్రతా పరిష్కారాలు 2026: టాప్ ఎంటర్‌ప్రైజ్ ప్లాట్‌ఫారమ్‌లు పోల్చబడ్డాయి

భౌతిక AI స్వీకరణ కస్టమర్ సర్వీస్ ROIని పెంచుతుంది