లోపభూయిష్ట AI బెంచ్‌మార్క్‌లు ఎంటర్‌ప్రైజ్ బడ్జెట్‌లను ప్రమాదంలో పడేస్తాయి

AI బెంచ్‌మార్క్‌లు లోపభూయిష్టంగా ఉన్నాయని, “తప్పుదోవ పట్టించే” డేటాపై అధిక-స్టేక్స్ నిర్ణయాలు తీసుకునేలా ఒక సంస్థను సమర్ధవంతంగా నడిపించవచ్చని కొత్త విద్యాసంబంధ సమీక్ష సూచిస్తుంది.

ఎంటర్‌ప్రైజ్ లీడర్‌లు జనరేటివ్ AI ప్రోగ్రామ్‌లకు ఎనిమిది లేదా తొమ్మిది అంకెల బడ్జెట్‌లను కేటాయించారు. ఈ సేకరణ మరియు అభివృద్ధి నిర్ణయాలు తరచుగా మోడల్ సామర్థ్యాలను పోల్చడానికి పబ్లిక్ లీడర్‌బోర్డ్‌లు మరియు బెంచ్‌మార్క్‌లపై ఆధారపడతాయి.

పెద్ద-స్థాయి అధ్యయనం, ‘మేజర్ వాట్ మేటర్స్: కన్స్ట్రక్ట్ వాలిడిటీ ఇన్ లార్జ్ లాంగ్వేజ్ మోడల్ బెంచ్‌మార్క్‌లు,’ ప్రముఖ AI సమావేశాల నుండి 445 వేర్వేరు LLM బెంచ్‌మార్క్‌లను విశ్లేషించింది. 29 మంది నిపుణులైన సమీక్షకుల బృందం “దాదాపు అన్ని కథనాలు కనీసం ఒక ప్రాంతంలో బలహీనతలను కలిగి ఉన్నాయని” కనుగొంది, మోడల్ పనితీరు గురించి వారు చేసే వాదనలను బలహీనపరిచింది.

CTOలు మరియు చీఫ్ డేటా ఆఫీసర్‌ల కోసం, ఇది AI పాలన మరియు పెట్టుబడి వ్యూహం యొక్క గుండెపై దాడి చేస్తుంది. ‘భద్రత’ లేదా ‘బలత్వం’ని కొలిచేందుకు క్లెయిమ్ చేసే బెంచ్‌మార్క్ నిజానికి ఆ లక్షణాలను క్యాప్చర్ చేయకపోతే, ఒక సంస్థ దానిని తీవ్రమైన ఆర్థిక మరియు పలుకుబడి ప్రమాదానికి గురిచేసే మోడల్‌ను అమలు చేయవచ్చు.

‘నిర్మిత చెల్లుబాటు’ సమస్య

నిర్మాణ వ్యాలిడిటీ అని పిలువబడే ప్రధాన శాస్త్రీయ సూత్రంపై పరిశోధకులు దృష్టి సారించారు. సరళంగా చెప్పాలంటే, ఇది ఒక పరీక్ష కొలిచే నైరూప్య భావనను కొలిచే స్థాయి.

ఉదాహరణకు, ‘మేధస్సు’ను నేరుగా కొలవలేనప్పటికీ, కొలవగల ప్రాక్సీలుగా పనిచేయడానికి పరీక్షలు సృష్టించబడతాయి. ఒక బెంచ్‌మార్క్ తక్కువ నిర్మాణ వ్యాలిడిటీని కలిగి ఉంటే, “అప్పుడు అధిక స్కోర్ అసంబద్ధం కావచ్చు లేదా తప్పుదారి పట్టించేది కావచ్చు” అని పేపర్ పేర్కొంది.

AI మూల్యాంకనంలో ఈ సమస్య విస్తృతంగా ఉంది. కీలకమైన భావనలు తరచుగా “పేలవంగా నిర్వచించబడినవి లేదా కార్యాచరణలో” ఉన్నాయని అధ్యయనం కనుగొంది. ఇది “పేలవంగా మద్దతు ఇవ్వని శాస్త్రీయ వాదనలు, తప్పుదారి పట్టించిన పరిశోధన మరియు బలమైన సాక్ష్యాల ఆధారంగా లేని విధానపరమైన చిక్కులకు” దారి తీస్తుంది.

వ్యాపారులు తమ టాప్ స్కోర్‌లను బెంచ్‌మార్క్‌లపై హైలైట్ చేయడం ద్వారా ఎంటర్‌ప్రైజ్ కాంట్రాక్ట్‌ల కోసం పోటీ పడినప్పుడు, ఈ స్కోర్‌లు వాస్తవ ప్రపంచ వ్యాపార పనితీరుకు నమ్మదగిన ప్రాక్సీ అని నాయకులు సమర్థవంతంగా విశ్వసిస్తున్నారు. ఈ కొత్త పరిశోధన నమ్మకాన్ని తప్పుదారి పట్టించవచ్చని సూచిస్తుంది.

ఎంటర్‌ప్రైజ్ AI బెంచ్‌మార్క్‌లు ఎక్కడ విఫలమవుతున్నాయి

బెంచ్‌మార్క్‌లు ఎలా రూపొందించబడ్డాయి నుండి వాటి ఫలితాలు ఎలా నివేదించబడతాయి అనే వరకు బోర్డు అంతటా వ్యవస్థాగత వైఫల్యాలను సమీక్ష గుర్తించింది.

అస్పష్టమైన లేదా వివాదాస్పద నిర్వచనాలు: మీరు నిర్వచించలేని దానిని మీరు కొలవలేరు. ఒక దృగ్విషయానికి నిర్వచనాలు అందించబడినప్పటికీ, 47.8 శాతం మంది “పోటీకి” ఉన్నారని అధ్యయనం కనుగొంది, “అనేక సాధ్యమైన నిర్వచనాలు లేదా స్పష్టమైన నిర్వచనం లేదు”.

పేపర్ ‘హానిరహితం’ని ఉపయోగిస్తుంది – ఎంటర్‌ప్రైజ్ భద్రతా అమరికలో కీలక లక్ష్యం – తరచుగా స్పష్టమైన, అంగీకరించబడిన నిర్వచనం లేని దృగ్విషయానికి ఉదాహరణగా. ఇద్దరు విక్రేతలు ‘హానిరహితం’ బెంచ్‌మార్క్‌పై విభిన్నంగా స్కోర్ చేస్తే, అది కేవలం రెండు వేర్వేరు, ఏకపక్ష నిర్వచనాలను మాత్రమే ప్రతిబింబిస్తుంది, మోడల్ భద్రతలో నిజమైన తేడా కాదు.

గణాంక కఠినత లేకపోవడం: డేటాతో నడిచే సంస్థలకు బహుశా చాలా భయంకరంగా ఉండవచ్చు, 445 బెంచ్‌మార్క్‌లలో 16 శాతం మాత్రమే మోడల్ ఫలితాలను పోల్చడానికి అనిశ్చితి అంచనాలు లేదా గణాంక పరీక్షలను ఉపయోగించినట్లు సమీక్ష కనుగొంది.

గణాంక విశ్లేషణ లేకుండా, మోడల్ B కంటే మోడల్ A కోసం 2 శాతం ఆధిక్యం నిజమైన సామర్థ్య వ్యత్యాసా లేదా సాధారణ యాదృచ్ఛిక అవకాశం అని తెలుసుకోవడం అసాధ్యం. ప్రాథమిక శాస్త్రీయ లేదా వ్యాపార మేధస్సు సమీక్షలో ఉత్తీర్ణత సాధించని సంఖ్యల ద్వారా ఎంటర్‌ప్రైజ్ నిర్ణయాలు మార్గనిర్దేశం చేయబడుతున్నాయి.

డేటా కాలుష్యం మరియు జ్ఞాపకం: అనేక బెంచ్‌మార్క్‌లు, ముఖ్యంగా తార్కికం (విస్తృతంగా ఉపయోగించే GSM8K వంటివి) మోడల్ యొక్క ప్రీ-ట్రైనింగ్ డేటాలో వాటి ప్రశ్నలు మరియు సమాధానాలు కనిపించినప్పుడు బలహీనపడతాయి.

ఇది జరిగినప్పుడు, మోడల్ సమాధానాన్ని కనుగొనడానికి కారణం కాదు; ఇది కేవలం అది గుర్తుంచుకోవడం. అధిక స్కోరు మంచి జ్ఞాపకశక్తిని సూచిస్తుంది, సంక్లిష్టమైన పనికి వాస్తవానికి అవసరమైన అధునాతన తార్కిక సామర్ధ్యం కాదు. పేపర్ దీనిని “ఫలితాల ప్రామాణికతను అణగదొక్కండి” అని హెచ్చరిస్తుంది మరియు కాలుష్య తనిఖీలను నేరుగా బెంచ్‌మార్క్‌లో నిర్మించాలని సిఫార్సు చేస్తుంది.

ప్రాతినిధ్యం లేని డేటాసెట్‌లు: ఇప్పటికే ఉన్న బెంచ్‌మార్క్‌లు లేదా మానవ పరీక్షల నుండి డేటాను మళ్లీ ఉపయోగించడం వంటి 27 శాతం బెంచ్‌మార్క్‌లు “సౌకర్య నమూనా” ఉపయోగించినట్లు అధ్యయనం కనుగొంది. ఈ డేటా తరచుగా వాస్తవ ప్రపంచ దృగ్విషయానికి ప్రతినిధి కాదు.

ఉదాహరణకు, రచయితలు “కాలిక్యులేటర్-రహిత పరీక్ష” నుండి ప్రశ్నలను మళ్లీ ఉపయోగించడం అంటే ప్రాథమిక అంకగణితానికి సులభంగా ఉండేలా ఎంచుకున్న సంఖ్యలను ఉపయోగించడం సమస్యలు అని అర్థం. ఒక మోడల్ ఈ పరీక్షలో బాగా స్కోర్ చేయగలదు, కానీ ఈ స్కోర్ “LLMలు కష్టపడే పెద్ద సంఖ్యలో పనితీరును అంచనా వేయదు”. ఇది ఒక క్లిష్టమైన బ్లైండ్ స్పాట్‌ను సృష్టిస్తుంది, తెలిసిన మోడల్ బలహీనతను దాచిపెడుతుంది.

పబ్లిక్ మెట్రిక్‌ల నుండి అంతర్గత ధ్రువీకరణ వరకు

ఎంటర్‌ప్రైజ్ లీడర్‌లకు, ఈ అధ్యయనం బలమైన హెచ్చరికగా పనిచేస్తుంది: పబ్లిక్ AI బెంచ్‌మార్క్‌లు అంతర్గత మరియు డొమైన్-నిర్దిష్ట మూల్యాంకనానికి ప్రత్యామ్నాయం కాదు. పబ్లిక్ లీడర్‌బోర్డ్‌లో అధిక స్కోర్ అనేది నిర్దిష్ట వ్యాపార ప్రయోజనం కోసం ఫిట్‌నెస్‌కు హామీ కాదు.

ఇసాబెల్లా గ్రాండి, డేటా స్ట్రాటజీ & గవర్నెన్స్ డైరెక్టర్, వద్ద NTT డేటా UK&Iఇలా వ్యాఖ్యానించారు: “AI సిస్టమ్‌ల సంక్లిష్టతను సంగ్రహించడానికి ఒకే బెంచ్‌మార్క్ సరైన మార్గం కాకపోవచ్చు మరియు అలా ఆశించడం వలన వాస్తవ ప్రపంచ బాధ్యత యొక్క కొలమానం కంటే సంఖ్యల గేమ్‌కు పురోగతిని తగ్గించే ప్రమాదం ఉంది. సాంకేతికత ప్రజలకు మరియు పురోగతికి ఉపయోగపడుతుందని నిర్ధారించే స్పష్టమైన సూత్రాలకు వ్యతిరేకంగా స్థిరమైన మూల్యాంకనం అత్యంత ముఖ్యమైనది.

“మంచి పద్దతి – నిర్దేశించినట్లు ISO/IEC 42001:2023 – ఈ బ్యాలెన్స్‌ని ఐదు ప్రధాన సూత్రాల ద్వారా ప్రతిబింబిస్తుంది: జవాబుదారీతనం, సరసత, పారదర్శకత, భద్రత మరియు పరిహారం. జవాబుదారీతనం అమలు చేయబడిన ఏదైనా AI సిస్టమ్‌కు యాజమాన్యం మరియు బాధ్యతను ఏర్పాటు చేస్తుంది. పారదర్శకత మరియు సరసత నిర్ణయాలను నైతికంగా మరియు వివరించదగిన ఫలితాల వైపు నడిపిస్తుంది. భద్రత మరియు గోప్యత అనేది చర్చించబడదు, దుర్వినియోగాన్ని నిరోధించడం మరియు ప్రజల విశ్వాసాన్ని బలోపేతం చేయడం. పరిహారం మరియు పోటీతత్వం పర్యవేక్షణ కోసం ఒక కీలకమైన యంత్రాంగాన్ని అందిస్తాయి, అవసరమైనప్పుడు ప్రజలు సవాలు చేయగలరని మరియు ఫలితాలను సరిచేయగలరని నిర్ధారిస్తుంది.

“AIలో నిజమైన పురోగతి అనేది ప్రభుత్వ దృక్పథం, విద్యారంగం యొక్క ఉత్సుకత మరియు పరిశ్రమ యొక్క ఆచరణాత్మక డ్రైవ్‌ను ఒకచోట చేర్చే సహకారంపై ఆధారపడి ఉంటుంది. బహిరంగ సంభాషణలు మరియు భాగస్వామ్య ప్రమాణాల ద్వారా భాగస్వామ్యాలు బలపడినప్పుడు, ఇది AI వ్యవస్థలపై నమ్మకం కలిగించడానికి ప్రజలకు అవసరమైన పారదర్శకతను పెంపొందిస్తుంది. బాధ్యతాయుతమైన ఆవిష్కరణలు ఎల్లప్పుడూ సహకారంపై ఆధారపడతాయి.”

పేపర్ యొక్క ఎనిమిది సిఫార్సులు దాని స్వంత అంతర్గత AI బెంచ్‌మార్క్‌లు మరియు మూల్యాంకనాలను రూపొందించాలని చూస్తున్న ఏదైనా సంస్థ కోసం ప్రాక్టికల్ చెక్‌లిస్ట్‌ను అందిస్తాయి, సూత్రాల ఆధారిత విధానంతో సమలేఖనం అవుతాయి.

మీ దృగ్విషయాన్ని నిర్వచించండి: నమూనాలను పరీక్షించే ముందు, సంస్థలు ముందుగా “కొలవబడే దృగ్విషయానికి ఖచ్చితమైన మరియు కార్యాచరణ నిర్వచనాన్ని” రూపొందించాలి. మీ కస్టమర్ సేవ సందర్భంలో ‘సహాయకరమైన’ ప్రతిస్పందన అంటే ఏమిటి? మీ ఆర్థిక నివేదికల కోసం ‘ఖచ్చితమైన’ అంటే ఏమిటి?

ప్రతినిధి డేటాసెట్‌ను రూపొందించండి: మీ స్వంత డేటా నుండి రూపొందించబడినది అత్యంత విలువైన బెంచ్‌మార్క్. పేపర్ డెవలపర్‌లను “పని కోసం ప్రతినిధి డేటాసెట్‌ను నిర్మించమని” కోరింది. దీనర్థం వాస్తవ ప్రపంచ దృశ్యాలు, ఫార్మాట్‌లు మరియు మీ ఉద్యోగులు మరియు కస్టమర్‌లు ఎదుర్కొనే సవాళ్లను ప్రతిబింబించే టాస్క్ ఐటెమ్‌లను ఉపయోగించడం.

లోపం విశ్లేషణ నిర్వహించండి: చివరి స్కోర్‌ను దాటి వెళ్లండి. “సాధారణ వైఫల్య మోడ్‌ల యొక్క గుణాత్మక మరియు పరిమాణాత్మక విశ్లేషణను నిర్వహించాలని” నివేదిక బృందాలను సిఫార్సు చేస్తుంది. మోడల్ ఎందుకు విఫలమవుతుందో విశ్లేషించడం దాని స్కోర్‌ను తెలుసుకోవడం కంటే మరింత బోధనాత్మకమైనది. దాని వైఫల్యాలన్నీ తక్కువ-ప్రాధాన్యత, అస్పష్టమైన అంశాలపై ఉంటే, అది ఆమోదయోగ్యమైనది కావచ్చు; మీ అత్యంత సాధారణ మరియు అధిక-విలువ వినియోగ సందర్భాలలో అది విఫలమైతే, ఆ ఒక్క స్కోర్ అసంబద్ధం అవుతుంది.

చెల్లుబాటును సమర్థించండి: చివరగా, బృందాలు తప్పనిసరిగా “వాస్తవ-ప్రపంచ అనువర్తనాలతో దృగ్విషయం కోసం బెంచ్‌మార్క్ యొక్క ఔచిత్యాన్ని సమర్థించాలి”. ప్రతి మూల్యాంకనం వ్యాపార విలువకు ఈ నిర్దిష్ట పరీక్ష ఎందుకు చెల్లుబాటు అయ్యే ప్రాక్సీ అని వివరించే స్పష్టమైన హేతుబద్ధతతో రావాలి.

ఉత్పాదక AIని అమలు చేసే రేసు సంస్థలను వారి గవర్నెన్స్ ఫ్రేమ్‌వర్క్‌లు కొనసాగించగలిగే దానికంటే వేగంగా ముందుకు సాగేలా చేస్తుంది. పురోగతిని కొలవడానికి ఉపయోగించే సాధనాలు తరచుగా లోపభూయిష్టంగా ఉన్నాయని ఈ నివేదిక చూపిస్తుంది. సాధారణ AI బెంచ్‌మార్క్‌లను విశ్వసించడాన్ని ఆపివేసి, మీ స్వంత సంస్థ కోసం “ముఖ్యమైన వాటిని కొలవడం” ప్రారంభించడం మాత్రమే నమ్మదగిన మార్గం.

ఇవి కూడా చూడండి: OpenAI AWS, Oracle, Microsoft అంతటా $600B క్లౌడ్ AI పందెం విస్తరించింది

TechEx ఈవెంట్‌ల ద్వారా AI & బిగ్ డేటా ఎక్స్‌పో కోసం బ్యానర్.

పరిశ్రమ ప్రముఖుల నుండి AI మరియు పెద్ద డేటా గురించి మరింత తెలుసుకోవాలనుకుంటున్నారా? తనిఖీ చేయండి AI & బిగ్ డేటా ఎక్స్‌పో ఆమ్‌స్టర్‌డామ్, కాలిఫోర్నియా మరియు లండన్‌లో జరుగుతున్నాయి. సమగ్ర కార్యక్రమం ఇందులో భాగమే టెక్ఎక్స్ మరియు సహా ఇతర ప్రముఖ సాంకేతిక ఈవెంట్‌లతో కలిసి ఉంది సైబర్ సెక్యూరిటీ ఎక్స్‌పోక్లిక్ చేయండి ఇక్కడ మరింత సమాచారం కోసం.

AI వార్తలు ఆధారితం టెక్ఫోర్జ్ మీడియా. రాబోయే ఇతర ఎంటర్‌ప్రైజ్ టెక్నాలజీ ఈవెంట్‌లు మరియు వెబ్‌నార్‌లను అన్వేషించండి ఇక్కడ.

Source link

Useful _Links

AI యొక్క పేలవమైన అమలు శ్రామిక శక్తి తగ్గింపు వెనుక ఉండవచ్చు

ఫైనాన్స్ వర్క్‌ఫ్లోల కోసం ఏజెంట్ AIని అప్‌గ్రేడ్ చేస్తోంది

గోల్డ్‌మన్ సాచ్స్ మరియు డ్యుయిష్ బ్యాంక్ ట్రేడింగ్‌లో ఏజెంట్ AIని పరీక్షించాయి

ASML యొక్క అధిక-NA EUV సాధనాలు తదుపరి తరం AI చిప్‌ల కోసం రన్‌వేని క్లియర్ చేస్తాయి

రియల్ టైమ్ 5G నెట్‌వర్క్ స్లైసింగ్ కోసం Nokia మరియు AWS పైలట్ AI ఆటోమేషన్

క్లాడ్ ‘పారిశ్రామిక స్థాయి’ AI మోడల్ స్వేదనం ఎదుర్కొంటుంది

డిస్‌కనెక్ట్ చేయబడిన క్లౌడ్‌లు AI డేటా గవర్నెన్స్‌ని ఎలా మెరుగుపరుస్తాయి

తక్షణ వ్యాపారం ROI కోసం ఏజెంట్ ఫైనాన్స్ AIని అమలు చేస్తోంది

Basware నుండి Agentic AI ప్రారంభం మాత్రమే

మీ బ్యాంక్‌ను నడుపుతున్న 60 ఏళ్ల నాటి కోడ్ దాని AI సరిపోలికను అందుకుంది

లోపభూయిష్ట AI బెంచ్‌మార్క్‌లు ఎంటర్‌ప్రైజ్ బడ్జెట్‌లను ప్రమాదంలో పడేస్తాయి

‘నిర్మిత చెల్లుబాటు’ సమస్య

ఎంటర్‌ప్రైజ్ AI బెంచ్‌మార్క్‌లు ఎక్కడ విఫలమవుతున్నాయి

పబ్లిక్ మెట్రిక్‌ల నుండి అంతర్గత ధ్రువీకరణ వరకు

Leave a Reply Cancel reply

Useful Links

‘నిర్మిత చెల్లుబాటు’ సమస్య

ఎంటర్‌ప్రైజ్ AI బెంచ్‌మార్క్‌లు ఎక్కడ విఫలమవుతున్నాయి

పబ్లిక్ మెట్రిక్‌ల నుండి అంతర్గత ధ్రువీకరణ వరకు

Leave a Reply Cancel reply

Related News

Useful _Links