AI బెంచ్మార్క్లు లోపభూయిష్టంగా ఉన్నాయని, “తప్పుదోవ పట్టించే” డేటాపై అధిక-స్టేక్స్ నిర్ణయాలు తీసుకునేలా ఒక సంస్థను సమర్ధవంతంగా నడిపించవచ్చని కొత్త విద్యాసంబంధ సమీక్ష సూచిస్తుంది.
ఎంటర్ప్రైజ్ లీడర్లు జనరేటివ్ AI ప్రోగ్రామ్లకు ఎనిమిది లేదా తొమ్మిది అంకెల బడ్జెట్లను కేటాయించారు. ఈ సేకరణ మరియు అభివృద్ధి నిర్ణయాలు తరచుగా మోడల్ సామర్థ్యాలను పోల్చడానికి పబ్లిక్ లీడర్బోర్డ్లు మరియు బెంచ్మార్క్లపై ఆధారపడతాయి.
పెద్ద-స్థాయి అధ్యయనం, ‘మేజర్ వాట్ మేటర్స్: కన్స్ట్రక్ట్ వాలిడిటీ ఇన్ లార్జ్ లాంగ్వేజ్ మోడల్ బెంచ్మార్క్లు,’ ప్రముఖ AI సమావేశాల నుండి 445 వేర్వేరు LLM బెంచ్మార్క్లను విశ్లేషించింది. 29 మంది నిపుణులైన సమీక్షకుల బృందం “దాదాపు అన్ని కథనాలు కనీసం ఒక ప్రాంతంలో బలహీనతలను కలిగి ఉన్నాయని” కనుగొంది, మోడల్ పనితీరు గురించి వారు చేసే వాదనలను బలహీనపరిచింది.
CTOలు మరియు చీఫ్ డేటా ఆఫీసర్ల కోసం, ఇది AI పాలన మరియు పెట్టుబడి వ్యూహం యొక్క గుండెపై దాడి చేస్తుంది. ‘భద్రత’ లేదా ‘బలత్వం’ని కొలిచేందుకు క్లెయిమ్ చేసే బెంచ్మార్క్ నిజానికి ఆ లక్షణాలను క్యాప్చర్ చేయకపోతే, ఒక సంస్థ దానిని తీవ్రమైన ఆర్థిక మరియు పలుకుబడి ప్రమాదానికి గురిచేసే మోడల్ను అమలు చేయవచ్చు.
‘నిర్మిత చెల్లుబాటు’ సమస్య
నిర్మాణ వ్యాలిడిటీ అని పిలువబడే ప్రధాన శాస్త్రీయ సూత్రంపై పరిశోధకులు దృష్టి సారించారు. సరళంగా చెప్పాలంటే, ఇది ఒక పరీక్ష కొలిచే నైరూప్య భావనను కొలిచే స్థాయి.
ఉదాహరణకు, ‘మేధస్సు’ను నేరుగా కొలవలేనప్పటికీ, కొలవగల ప్రాక్సీలుగా పనిచేయడానికి పరీక్షలు సృష్టించబడతాయి. ఒక బెంచ్మార్క్ తక్కువ నిర్మాణ వ్యాలిడిటీని కలిగి ఉంటే, “అప్పుడు అధిక స్కోర్ అసంబద్ధం కావచ్చు లేదా తప్పుదారి పట్టించేది కావచ్చు” అని పేపర్ పేర్కొంది.
AI మూల్యాంకనంలో ఈ సమస్య విస్తృతంగా ఉంది. కీలకమైన భావనలు తరచుగా “పేలవంగా నిర్వచించబడినవి లేదా కార్యాచరణలో” ఉన్నాయని అధ్యయనం కనుగొంది. ఇది “పేలవంగా మద్దతు ఇవ్వని శాస్త్రీయ వాదనలు, తప్పుదారి పట్టించిన పరిశోధన మరియు బలమైన సాక్ష్యాల ఆధారంగా లేని విధానపరమైన చిక్కులకు” దారి తీస్తుంది.
వ్యాపారులు తమ టాప్ స్కోర్లను బెంచ్మార్క్లపై హైలైట్ చేయడం ద్వారా ఎంటర్ప్రైజ్ కాంట్రాక్ట్ల కోసం పోటీ పడినప్పుడు, ఈ స్కోర్లు వాస్తవ ప్రపంచ వ్యాపార పనితీరుకు నమ్మదగిన ప్రాక్సీ అని నాయకులు సమర్థవంతంగా విశ్వసిస్తున్నారు. ఈ కొత్త పరిశోధన నమ్మకాన్ని తప్పుదారి పట్టించవచ్చని సూచిస్తుంది.
ఎంటర్ప్రైజ్ AI బెంచ్మార్క్లు ఎక్కడ విఫలమవుతున్నాయి
బెంచ్మార్క్లు ఎలా రూపొందించబడ్డాయి నుండి వాటి ఫలితాలు ఎలా నివేదించబడతాయి అనే వరకు బోర్డు అంతటా వ్యవస్థాగత వైఫల్యాలను సమీక్ష గుర్తించింది.
అస్పష్టమైన లేదా వివాదాస్పద నిర్వచనాలు: మీరు నిర్వచించలేని దానిని మీరు కొలవలేరు. ఒక దృగ్విషయానికి నిర్వచనాలు అందించబడినప్పటికీ, 47.8 శాతం మంది “పోటీకి” ఉన్నారని అధ్యయనం కనుగొంది, “అనేక సాధ్యమైన నిర్వచనాలు లేదా స్పష్టమైన నిర్వచనం లేదు”.
పేపర్ ‘హానిరహితం’ని ఉపయోగిస్తుంది – ఎంటర్ప్రైజ్ భద్రతా అమరికలో కీలక లక్ష్యం – తరచుగా స్పష్టమైన, అంగీకరించబడిన నిర్వచనం లేని దృగ్విషయానికి ఉదాహరణగా. ఇద్దరు విక్రేతలు ‘హానిరహితం’ బెంచ్మార్క్పై విభిన్నంగా స్కోర్ చేస్తే, అది కేవలం రెండు వేర్వేరు, ఏకపక్ష నిర్వచనాలను మాత్రమే ప్రతిబింబిస్తుంది, మోడల్ భద్రతలో నిజమైన తేడా కాదు.
గణాంక కఠినత లేకపోవడం: డేటాతో నడిచే సంస్థలకు బహుశా చాలా భయంకరంగా ఉండవచ్చు, 445 బెంచ్మార్క్లలో 16 శాతం మాత్రమే మోడల్ ఫలితాలను పోల్చడానికి అనిశ్చితి అంచనాలు లేదా గణాంక పరీక్షలను ఉపయోగించినట్లు సమీక్ష కనుగొంది.
గణాంక విశ్లేషణ లేకుండా, మోడల్ B కంటే మోడల్ A కోసం 2 శాతం ఆధిక్యం నిజమైన సామర్థ్య వ్యత్యాసా లేదా సాధారణ యాదృచ్ఛిక అవకాశం అని తెలుసుకోవడం అసాధ్యం. ప్రాథమిక శాస్త్రీయ లేదా వ్యాపార మేధస్సు సమీక్షలో ఉత్తీర్ణత సాధించని సంఖ్యల ద్వారా ఎంటర్ప్రైజ్ నిర్ణయాలు మార్గనిర్దేశం చేయబడుతున్నాయి.
డేటా కాలుష్యం మరియు జ్ఞాపకం: అనేక బెంచ్మార్క్లు, ముఖ్యంగా తార్కికం (విస్తృతంగా ఉపయోగించే GSM8K వంటివి) మోడల్ యొక్క ప్రీ-ట్రైనింగ్ డేటాలో వాటి ప్రశ్నలు మరియు సమాధానాలు కనిపించినప్పుడు బలహీనపడతాయి.
ఇది జరిగినప్పుడు, మోడల్ సమాధానాన్ని కనుగొనడానికి కారణం కాదు; ఇది కేవలం అది గుర్తుంచుకోవడం. అధిక స్కోరు మంచి జ్ఞాపకశక్తిని సూచిస్తుంది, సంక్లిష్టమైన పనికి వాస్తవానికి అవసరమైన అధునాతన తార్కిక సామర్ధ్యం కాదు. పేపర్ దీనిని “ఫలితాల ప్రామాణికతను అణగదొక్కండి” అని హెచ్చరిస్తుంది మరియు కాలుష్య తనిఖీలను నేరుగా బెంచ్మార్క్లో నిర్మించాలని సిఫార్సు చేస్తుంది.
ప్రాతినిధ్యం లేని డేటాసెట్లు: ఇప్పటికే ఉన్న బెంచ్మార్క్లు లేదా మానవ పరీక్షల నుండి డేటాను మళ్లీ ఉపయోగించడం వంటి 27 శాతం బెంచ్మార్క్లు “సౌకర్య నమూనా” ఉపయోగించినట్లు అధ్యయనం కనుగొంది. ఈ డేటా తరచుగా వాస్తవ ప్రపంచ దృగ్విషయానికి ప్రతినిధి కాదు.
ఉదాహరణకు, రచయితలు “కాలిక్యులేటర్-రహిత పరీక్ష” నుండి ప్రశ్నలను మళ్లీ ఉపయోగించడం అంటే ప్రాథమిక అంకగణితానికి సులభంగా ఉండేలా ఎంచుకున్న సంఖ్యలను ఉపయోగించడం సమస్యలు అని అర్థం. ఒక మోడల్ ఈ పరీక్షలో బాగా స్కోర్ చేయగలదు, కానీ ఈ స్కోర్ “LLMలు కష్టపడే పెద్ద సంఖ్యలో పనితీరును అంచనా వేయదు”. ఇది ఒక క్లిష్టమైన బ్లైండ్ స్పాట్ను సృష్టిస్తుంది, తెలిసిన మోడల్ బలహీనతను దాచిపెడుతుంది.
పబ్లిక్ మెట్రిక్ల నుండి అంతర్గత ధ్రువీకరణ వరకు
ఎంటర్ప్రైజ్ లీడర్లకు, ఈ అధ్యయనం బలమైన హెచ్చరికగా పనిచేస్తుంది: పబ్లిక్ AI బెంచ్మార్క్లు అంతర్గత మరియు డొమైన్-నిర్దిష్ట మూల్యాంకనానికి ప్రత్యామ్నాయం కాదు. పబ్లిక్ లీడర్బోర్డ్లో అధిక స్కోర్ అనేది నిర్దిష్ట వ్యాపార ప్రయోజనం కోసం ఫిట్నెస్కు హామీ కాదు.
ఇసాబెల్లా గ్రాండి, డేటా స్ట్రాటజీ & గవర్నెన్స్ డైరెక్టర్, వద్ద NTT డేటా UK&Iఇలా వ్యాఖ్యానించారు: “AI సిస్టమ్ల సంక్లిష్టతను సంగ్రహించడానికి ఒకే బెంచ్మార్క్ సరైన మార్గం కాకపోవచ్చు మరియు అలా ఆశించడం వలన వాస్తవ ప్రపంచ బాధ్యత యొక్క కొలమానం కంటే సంఖ్యల గేమ్కు పురోగతిని తగ్గించే ప్రమాదం ఉంది. సాంకేతికత ప్రజలకు మరియు పురోగతికి ఉపయోగపడుతుందని నిర్ధారించే స్పష్టమైన సూత్రాలకు వ్యతిరేకంగా స్థిరమైన మూల్యాంకనం అత్యంత ముఖ్యమైనది.
“మంచి పద్దతి – నిర్దేశించినట్లు ISO/IEC 42001:2023 – ఈ బ్యాలెన్స్ని ఐదు ప్రధాన సూత్రాల ద్వారా ప్రతిబింబిస్తుంది: జవాబుదారీతనం, సరసత, పారదర్శకత, భద్రత మరియు పరిహారం. జవాబుదారీతనం అమలు చేయబడిన ఏదైనా AI సిస్టమ్కు యాజమాన్యం మరియు బాధ్యతను ఏర్పాటు చేస్తుంది. పారదర్శకత మరియు సరసత నిర్ణయాలను నైతికంగా మరియు వివరించదగిన ఫలితాల వైపు నడిపిస్తుంది. భద్రత మరియు గోప్యత అనేది చర్చించబడదు, దుర్వినియోగాన్ని నిరోధించడం మరియు ప్రజల విశ్వాసాన్ని బలోపేతం చేయడం. పరిహారం మరియు పోటీతత్వం పర్యవేక్షణ కోసం ఒక కీలకమైన యంత్రాంగాన్ని అందిస్తాయి, అవసరమైనప్పుడు ప్రజలు సవాలు చేయగలరని మరియు ఫలితాలను సరిచేయగలరని నిర్ధారిస్తుంది.
“AIలో నిజమైన పురోగతి అనేది ప్రభుత్వ దృక్పథం, విద్యారంగం యొక్క ఉత్సుకత మరియు పరిశ్రమ యొక్క ఆచరణాత్మక డ్రైవ్ను ఒకచోట చేర్చే సహకారంపై ఆధారపడి ఉంటుంది. బహిరంగ సంభాషణలు మరియు భాగస్వామ్య ప్రమాణాల ద్వారా భాగస్వామ్యాలు బలపడినప్పుడు, ఇది AI వ్యవస్థలపై నమ్మకం కలిగించడానికి ప్రజలకు అవసరమైన పారదర్శకతను పెంపొందిస్తుంది. బాధ్యతాయుతమైన ఆవిష్కరణలు ఎల్లప్పుడూ సహకారంపై ఆధారపడతాయి.”
పేపర్ యొక్క ఎనిమిది సిఫార్సులు దాని స్వంత అంతర్గత AI బెంచ్మార్క్లు మరియు మూల్యాంకనాలను రూపొందించాలని చూస్తున్న ఏదైనా సంస్థ కోసం ప్రాక్టికల్ చెక్లిస్ట్ను అందిస్తాయి, సూత్రాల ఆధారిత విధానంతో సమలేఖనం అవుతాయి.
- మీ దృగ్విషయాన్ని నిర్వచించండి: నమూనాలను పరీక్షించే ముందు, సంస్థలు ముందుగా “కొలవబడే దృగ్విషయానికి ఖచ్చితమైన మరియు కార్యాచరణ నిర్వచనాన్ని” రూపొందించాలి. మీ కస్టమర్ సేవ సందర్భంలో ‘సహాయకరమైన’ ప్రతిస్పందన అంటే ఏమిటి? మీ ఆర్థిక నివేదికల కోసం ‘ఖచ్చితమైన’ అంటే ఏమిటి?
- ప్రతినిధి డేటాసెట్ను రూపొందించండి: మీ స్వంత డేటా నుండి రూపొందించబడినది అత్యంత విలువైన బెంచ్మార్క్. పేపర్ డెవలపర్లను “పని కోసం ప్రతినిధి డేటాసెట్ను నిర్మించమని” కోరింది. దీనర్థం వాస్తవ ప్రపంచ దృశ్యాలు, ఫార్మాట్లు మరియు మీ ఉద్యోగులు మరియు కస్టమర్లు ఎదుర్కొనే సవాళ్లను ప్రతిబింబించే టాస్క్ ఐటెమ్లను ఉపయోగించడం.
- లోపం విశ్లేషణ నిర్వహించండి: చివరి స్కోర్ను దాటి వెళ్లండి. “సాధారణ వైఫల్య మోడ్ల యొక్క గుణాత్మక మరియు పరిమాణాత్మక విశ్లేషణను నిర్వహించాలని” నివేదిక బృందాలను సిఫార్సు చేస్తుంది. మోడల్ ఎందుకు విఫలమవుతుందో విశ్లేషించడం దాని స్కోర్ను తెలుసుకోవడం కంటే మరింత బోధనాత్మకమైనది. దాని వైఫల్యాలన్నీ తక్కువ-ప్రాధాన్యత, అస్పష్టమైన అంశాలపై ఉంటే, అది ఆమోదయోగ్యమైనది కావచ్చు; మీ అత్యంత సాధారణ మరియు అధిక-విలువ వినియోగ సందర్భాలలో అది విఫలమైతే, ఆ ఒక్క స్కోర్ అసంబద్ధం అవుతుంది.
- చెల్లుబాటును సమర్థించండి: చివరగా, బృందాలు తప్పనిసరిగా “వాస్తవ-ప్రపంచ అనువర్తనాలతో దృగ్విషయం కోసం బెంచ్మార్క్ యొక్క ఔచిత్యాన్ని సమర్థించాలి”. ప్రతి మూల్యాంకనం వ్యాపార విలువకు ఈ నిర్దిష్ట పరీక్ష ఎందుకు చెల్లుబాటు అయ్యే ప్రాక్సీ అని వివరించే స్పష్టమైన హేతుబద్ధతతో రావాలి.
ఉత్పాదక AIని అమలు చేసే రేసు సంస్థలను వారి గవర్నెన్స్ ఫ్రేమ్వర్క్లు కొనసాగించగలిగే దానికంటే వేగంగా ముందుకు సాగేలా చేస్తుంది. పురోగతిని కొలవడానికి ఉపయోగించే సాధనాలు తరచుగా లోపభూయిష్టంగా ఉన్నాయని ఈ నివేదిక చూపిస్తుంది. సాధారణ AI బెంచ్మార్క్లను విశ్వసించడాన్ని ఆపివేసి, మీ స్వంత సంస్థ కోసం “ముఖ్యమైన వాటిని కొలవడం” ప్రారంభించడం మాత్రమే నమ్మదగిన మార్గం.
ఇవి కూడా చూడండి: OpenAI AWS, Oracle, Microsoft అంతటా $600B క్లౌడ్ AI పందెం విస్తరించింది

పరిశ్రమ ప్రముఖుల నుండి AI మరియు పెద్ద డేటా గురించి మరింత తెలుసుకోవాలనుకుంటున్నారా? తనిఖీ చేయండి AI & బిగ్ డేటా ఎక్స్పో ఆమ్స్టర్డామ్, కాలిఫోర్నియా మరియు లండన్లో జరుగుతున్నాయి. సమగ్ర కార్యక్రమం ఇందులో భాగమే టెక్ఎక్స్ మరియు సహా ఇతర ప్రముఖ సాంకేతిక ఈవెంట్లతో కలిసి ఉంది సైబర్ సెక్యూరిటీ ఎక్స్పోక్లిక్ చేయండి ఇక్కడ మరింత సమాచారం కోసం.
AI వార్తలు ఆధారితం టెక్ఫోర్జ్ మీడియా. రాబోయే ఇతర ఎంటర్ప్రైజ్ టెక్నాలజీ ఈవెంట్లు మరియు వెబ్నార్లను అన్వేషించండి ఇక్కడ.