సృజనాత్మక AI మోడళ్లను పరీక్షించడంలో ప్రస్తుత సమస్యలను పరిష్కరించడం లక్ష్యంగా ఉన్న ఆర్టిఫ్యాక్ట్స్బెంచ్ అనే కొత్త బెంచ్ మార్క్ ను టెన్సెంట్ ప్రవేశపెట్టింది.
సరళమైన వెబ్పేజీ లేదా చార్ట్ వంటి వాటిని నిర్మించమని AI ని ఎప్పుడైనా అడిగారు మరియు పని చేసేదాన్ని స్వీకరించారు కాని పేలవమైన వినియోగదారు అనుభవం ఉందా? బటన్లు తప్పు స్థానంలో ఉండవచ్చు, రంగులు ఘర్షణ పడవచ్చు లేదా యానిమేషన్లు చిలిపిగా అనిపిస్తాయి. ఇది ఒక సాధారణ సమస్య, మరియు ఇది AI అభివృద్ధి ప్రపంచంలో భారీ సవాలును హైలైట్ చేస్తుంది: మంచి రుచిని కలిగి ఉండటానికి మీరు యంత్రాన్ని ఎలా బోధిస్తారు?
చాలా కాలంగా, మేము వారి సామర్థ్యంపై AI మోడళ్లను పరీక్షిస్తున్నాము కోడ్ రాయడానికి అది క్రియాత్మకంగా సరైనది. ఈ పరీక్షలు కోడ్ నడుస్తాయని నిర్ధారించగలవు, కాని అవి “ఆధునిక వినియోగదారు అనుభవాలను నిర్వచించే దృశ్యమాన విశ్వసనీయత మరియు ఇంటరాక్టివ్ సమగ్రతకు పూర్తిగా అంధులు.”
ఇది ఆర్టిఫ్యాక్ట్స్బెంచ్ పరిష్కరించడానికి రూపొందించబడిన ఖచ్చితమైన సమస్య. ఇది పరీక్ష తక్కువ మరియు AI- ఉత్పత్తి చేసిన కోడ్ కోసం ఆటోమేటెడ్ ఆర్ట్ విమర్శకుడు
మానవుడిలా సరైనది చేస్తుంది తప్పక
కాబట్టి, టెన్సెంట్ యొక్క AI బెంచ్ మార్క్ ఎలా పనిచేస్తుంది? మొదట, డేటా విజువలైజేషన్స్ మరియు వెబ్ అనువర్తనాలను నిర్మించడం నుండి ఇంటరాక్టివ్ మినీ-గేమ్లను తయారు చేయడం వరకు 1,800 సవాళ్ళ జాబితా నుండి AI కి సృజనాత్మక పని ఇవ్వబడుతుంది.
AI కోడ్ను రూపొందించిన తర్వాత, ఆర్టిఫ్యాక్ట్స్బెంచ్ పనికి వస్తుంది. ఇది స్వయంచాలకంగా సురక్షితమైన మరియు శాండ్బాక్స్డ్ వాతావరణంలో కోడ్ను నిర్మిస్తుంది మరియు నడుపుతుంది.
అనువర్తనం ఎలా ప్రవర్తిస్తుందో చూడటానికి, ఇది కాలక్రమేణా స్క్రీన్షాట్ల శ్రేణిని సంగ్రహిస్తుంది. ఇది యానిమేషన్లు, బటన్ క్లిక్ చేసిన తర్వాత రాష్ట్ర మార్పులు మరియు ఇతర డైనమిక్ యూజర్ ఫీడ్బ్యాక్ వంటి వాటిని తనిఖీ చేయడానికి అనుమతిస్తుంది.
చివరగా, ఇది న్యాయమూర్తిగా పనిచేయడానికి, ఈ సాక్ష్యాలను – అసలు అభ్యర్థన, AI యొక్క కోడ్ మరియు స్క్రీన్షాట్లను మల్టీమోడల్ LLM (MLLM) కు అందజేస్తుంది.
ఈ MLLM న్యాయమూర్తి కేవలం అస్పష్టమైన అభిప్రాయాన్ని ఇవ్వడం లేదు మరియు బదులుగా పది వేర్వేరు కొలమానాల్లో ఫలితాన్ని స్కోర్ చేయడానికి వివరణాత్మక, ప్రతి పని చెక్లిస్ట్ను ఉపయోగిస్తుంది. స్కోరింగ్లో కార్యాచరణ, వినియోగదారు అనుభవం మరియు సౌందర్య నాణ్యత కూడా ఉంటుంది. ఇది స్కోరింగ్ సరసమైన, స్థిరమైన మరియు సమగ్రమైనదని నిర్ధారిస్తుంది.
పెద్ద ప్రశ్న ఏమిటంటే, ఈ ఆటోమేటెడ్ న్యాయమూర్తికి వాస్తవానికి మంచి రుచి ఉందా? ఫలితాలు సూచిస్తున్నాయి.
ఆర్టిఫ్యాక్ట్స్బెంచ్ నుండి ర్యాంకింగ్స్ వెబ్దేవ్ అరేనాతో పోల్చినప్పుడు, నిజమైన మానవులు ఉత్తమ AI సృష్టిపై ఓటు వేసిన బంగారు-ప్రామాణిక వేదిక, వారు 94.4% స్థిరత్వంతో సరిపోలారు. ఇది పాత ఆటోమేటెడ్ బెంచ్మార్క్ల నుండి భారీ ఎత్తులో ఉంది, ఇది 69.4% స్థిరత్వాన్ని మాత్రమే నిర్వహించింది.
దీని పైన, ఫ్రేమ్వర్క్ యొక్క తీర్పులు ప్రొఫెషనల్ హ్యూమన్ డెవలపర్లతో 90% పైగా ఒప్పందాన్ని చూపించాయి.
టెన్సెంట్ దాని కొత్త బెంచ్మార్క్తో టాప్ AI మోడళ్ల యొక్క సృజనాత్మకతను అంచనా వేస్తుంది
టెన్సెంట్ ప్రపంచంలోని అగ్రశ్రేణి AI మోడళ్లలో 30 కి పైగా వారి పేస్ల ద్వారా ఉంచినప్పుడు, లీడర్బోర్డ్ వెల్లడించింది. గూగుల్ (జెమిని -2.5-ప్రో) మరియు ఆంత్రోపిక్ (క్లాడ్ 4.0-సోనెట్) నుండి అగ్ర వాణిజ్య నమూనాలు ఆధిక్యంలోకి వచ్చాయి, పరీక్షలు మనోహరమైన అంతర్దృష్టిని కనుగొన్నాయి.
ఈ పనులలో కోడ్ రాయడంలో ప్రత్యేకత కలిగిన AI ఉత్తమమైనది అని మీరు అనుకోవచ్చు. కానీ దీనికి విరుద్ధంగా నిజం. “సాధారణ నమూనాల సమగ్ర సామర్థ్యాలు తరచుగా ప్రత్యేకమైన వాటిని అధిగమిస్తాయి” అని పరిశోధన కనుగొంది.
సాధారణ-ప్రయోజన నమూనా, Qwen-2.5-instruct, వాస్తవానికి దాని ప్రత్యేకమైన తోబుట్టువులను ఓడించింది, Qwen-25-కోడర్ (కోడ్-నిర్దిష్ట మోడల్) మరియు QWEN2.5-VL (దృష్టి-ప్రత్యేక మోడల్).
పరిశోధకులు దీనిని నమ్ముతారు ఎందుకంటే గొప్ప దృశ్యమాన అనువర్తనాన్ని సృష్టించడం కేవలం కోడింగ్ లేదా దృశ్య అవగాహన గురించి కాదు మరియు నైపుణ్యాల సమ్మేళనం అవసరం.
“బలమైన తార్కికం, సూక్ష్మమైన బోధన మరియు డిజైన్ సౌందర్యం యొక్క అవ్యక్త భావం” అని పరిశోధకులు ఉదాహరణ కీలకమైన నైపుణ్యాలుగా హైలైట్ చేస్తారు. ఇవి ఉత్తమమైన జనరలిస్ట్ నమూనాలు అభివృద్ధి చెందడం ప్రారంభించిన చక్కటి గుండ్రని, దాదాపు మానవ లాంటి సామర్ధ్యాలు.
టెన్సెంట్ దాని కళాఖండాల బెంచ్ మార్క్ ఈ లక్షణాలను విశ్వసనీయంగా అంచనా వేయగలదని మరియు తద్వారా AI యొక్క సామర్థ్యంలో భవిష్యత్తులో పురోగతిని కొలవగలదని భావిస్తోంది, కానీ వినియోగదారులు వాస్తవానికి ఏమి ఉపయోగించాలనుకుంటున్నారు.
ఇవి కూడా చూడండి: టెన్సెంట్ హునివాన్ 3 డి-పాలిజెన్: ‘ఆర్ట్-గ్రేడ్’ 3 డి ఆస్తుల కోసం ఒక మోడల్

పరిశ్రమ నాయకుల నుండి AI మరియు పెద్ద డేటా గురించి మరింత తెలుసుకోవాలనుకుంటున్నారా? తనిఖీ చేయండి AI & పెద్ద డేటా ఎక్స్పో ఆమ్స్టర్డామ్, కాలిఫోర్నియా మరియు లండన్లలో జరుగుతోంది. సమగ్ర సంఘటనతో సహా ఇతర ప్రముఖ సంఘటనలతో సహ-స్థాపించబడింది ఇంటెలిజెంట్ ఆటోమేషన్ కాన్ఫరెన్స్, బ్లాక్ఎక్స్, డిజిటల్ ట్రాన్స్ఫర్మేషన్ వీక్మరియు సైబర్ సెక్యూరిటీ & క్లౌడ్ ఎక్స్పో.
టెక్ఫోర్జ్ చేత శక్తినిచ్చే ఇతర రాబోయే ఎంటర్ప్రైజ్ టెక్నాలజీ ఈవెంట్స్ మరియు వెబ్నార్లను అన్వేషించండి ఇక్కడ.