టెన్సెంట్ కొత్త బెంచ్‌మార్క్‌తో సృజనాత్మక AI మోడళ్లను పరీక్షించడం మెరుగుపరుస్తుంది

సృజనాత్మక AI మోడళ్లను పరీక్షించడంలో ప్రస్తుత సమస్యలను పరిష్కరించడం లక్ష్యంగా ఉన్న ఆర్టిఫ్యాక్ట్స్బెంచ్ అనే కొత్త బెంచ్ మార్క్ ను టెన్సెంట్ ప్రవేశపెట్టింది.

సరళమైన వెబ్‌పేజీ లేదా చార్ట్ వంటి వాటిని నిర్మించమని AI ని ఎప్పుడైనా అడిగారు మరియు పని చేసేదాన్ని స్వీకరించారు కాని పేలవమైన వినియోగదారు అనుభవం ఉందా? బటన్లు తప్పు స్థానంలో ఉండవచ్చు, రంగులు ఘర్షణ పడవచ్చు లేదా యానిమేషన్లు చిలిపిగా అనిపిస్తాయి. ఇది ఒక సాధారణ సమస్య, మరియు ఇది AI అభివృద్ధి ప్రపంచంలో భారీ సవాలును హైలైట్ చేస్తుంది: మంచి రుచిని కలిగి ఉండటానికి మీరు యంత్రాన్ని ఎలా బోధిస్తారు?

చాలా కాలంగా, మేము వారి సామర్థ్యంపై AI మోడళ్లను పరీక్షిస్తున్నాము కోడ్ రాయడానికి అది క్రియాత్మకంగా సరైనది. ఈ పరీక్షలు కోడ్ నడుస్తాయని నిర్ధారించగలవు, కాని అవి “ఆధునిక వినియోగదారు అనుభవాలను నిర్వచించే దృశ్యమాన విశ్వసనీయత మరియు ఇంటరాక్టివ్ సమగ్రతకు పూర్తిగా అంధులు.”

ఇది ఆర్టిఫ్యాక్ట్స్బెంచ్ పరిష్కరించడానికి రూపొందించబడిన ఖచ్చితమైన సమస్య. ఇది పరీక్ష తక్కువ మరియు AI- ఉత్పత్తి చేసిన కోడ్ కోసం ఆటోమేటెడ్ ఆర్ట్ విమర్శకుడు

పరిచయం చేయడానికి థ్రిల్డ్ #Artifactsbench! మేము కోడ్ జనరేషన్ మూల్యాంకనంలో విజువల్-ఇంటరాక్టివ్ గ్యాప్‌ను వంతెన చేస్తాము.

మా బెంచ్ మార్క్ 1,825 విభిన్న పనులపై LLM లను అంచనా వేయడానికి ఒక నవల ఆటోమేటెడ్, మల్టీమోడల్ పైప్‌లైన్‌ను ఉపయోగిస్తుంది. ఒక MLLM-AS- న్యాయం దృశ్య కళాఖండాలను అంచనా వేస్తుంది, 94.4% ర్యాంకింగ్ సాధిస్తుంది… pic.twitter.com/84xclcnnys

– హునివాన్ (intencenthunyuan) జూలై 9, 2025

మానవుడిలా సరైనది చేస్తుంది తప్పక

కాబట్టి, టెన్సెంట్ యొక్క AI బెంచ్ మార్క్ ఎలా పనిచేస్తుంది? మొదట, డేటా విజువలైజేషన్స్ మరియు వెబ్ అనువర్తనాలను నిర్మించడం నుండి ఇంటరాక్టివ్ మినీ-గేమ్‌లను తయారు చేయడం వరకు 1,800 సవాళ్ళ జాబితా నుండి AI కి సృజనాత్మక పని ఇవ్వబడుతుంది.

AI కోడ్‌ను రూపొందించిన తర్వాత, ఆర్టిఫ్యాక్ట్స్బెంచ్ పనికి వస్తుంది. ఇది స్వయంచాలకంగా సురక్షితమైన మరియు శాండ్‌బాక్స్‌డ్ వాతావరణంలో కోడ్‌ను నిర్మిస్తుంది మరియు నడుపుతుంది.

అనువర్తనం ఎలా ప్రవర్తిస్తుందో చూడటానికి, ఇది కాలక్రమేణా స్క్రీన్‌షాట్‌ల శ్రేణిని సంగ్రహిస్తుంది. ఇది యానిమేషన్లు, బటన్ క్లిక్ చేసిన తర్వాత రాష్ట్ర మార్పులు మరియు ఇతర డైనమిక్ యూజర్ ఫీడ్‌బ్యాక్ వంటి వాటిని తనిఖీ చేయడానికి అనుమతిస్తుంది.

చివరగా, ఇది న్యాయమూర్తిగా పనిచేయడానికి, ఈ సాక్ష్యాలను – అసలు అభ్యర్థన, AI యొక్క కోడ్ మరియు స్క్రీన్‌షాట్‌లను మల్టీమోడల్ LLM (MLLM) కు అందజేస్తుంది.

ఈ MLLM న్యాయమూర్తి కేవలం అస్పష్టమైన అభిప్రాయాన్ని ఇవ్వడం లేదు మరియు బదులుగా పది వేర్వేరు కొలమానాల్లో ఫలితాన్ని స్కోర్ చేయడానికి వివరణాత్మక, ప్రతి పని చెక్‌లిస్ట్‌ను ఉపయోగిస్తుంది. స్కోరింగ్‌లో కార్యాచరణ, వినియోగదారు అనుభవం మరియు సౌందర్య నాణ్యత కూడా ఉంటుంది. ఇది స్కోరింగ్ సరసమైన, స్థిరమైన మరియు సమగ్రమైనదని నిర్ధారిస్తుంది.

పెద్ద ప్రశ్న ఏమిటంటే, ఈ ఆటోమేటెడ్ న్యాయమూర్తికి వాస్తవానికి మంచి రుచి ఉందా? ఫలితాలు సూచిస్తున్నాయి.

ఆర్టిఫ్యాక్ట్స్బెంచ్ నుండి ర్యాంకింగ్స్ వెబ్దేవ్ అరేనాతో పోల్చినప్పుడు, నిజమైన మానవులు ఉత్తమ AI సృష్టిపై ఓటు వేసిన బంగారు-ప్రామాణిక వేదిక, వారు 94.4% స్థిరత్వంతో సరిపోలారు. ఇది పాత ఆటోమేటెడ్ బెంచ్‌మార్క్‌ల నుండి భారీ ఎత్తులో ఉంది, ఇది 69.4% స్థిరత్వాన్ని మాత్రమే నిర్వహించింది.

దీని పైన, ఫ్రేమ్‌వర్క్ యొక్క తీర్పులు ప్రొఫెషనల్ హ్యూమన్ డెవలపర్‌లతో 90% పైగా ఒప్పందాన్ని చూపించాయి.

టెన్సెంట్ దాని కొత్త బెంచ్‌మార్క్‌తో టాప్ AI మోడళ్ల యొక్క సృజనాత్మకతను అంచనా వేస్తుంది

టెన్సెంట్ ప్రపంచంలోని అగ్రశ్రేణి AI మోడళ్లలో 30 కి పైగా వారి పేస్‌ల ద్వారా ఉంచినప్పుడు, లీడర్‌బోర్డ్ వెల్లడించింది. గూగుల్ (జెమిని -2.5-ప్రో) మరియు ఆంత్రోపిక్ (క్లాడ్ 4.0-సోనెట్) నుండి అగ్ర వాణిజ్య నమూనాలు ఆధిక్యంలోకి వచ్చాయి, పరీక్షలు మనోహరమైన అంతర్దృష్టిని కనుగొన్నాయి.

ఈ పనులలో కోడ్ రాయడంలో ప్రత్యేకత కలిగిన AI ఉత్తమమైనది అని మీరు అనుకోవచ్చు. కానీ దీనికి విరుద్ధంగా నిజం. “సాధారణ నమూనాల సమగ్ర సామర్థ్యాలు తరచుగా ప్రత్యేకమైన వాటిని అధిగమిస్తాయి” అని పరిశోధన కనుగొంది.

సాధారణ-ప్రయోజన నమూనా, Qwen-2.5-instruct, వాస్తవానికి దాని ప్రత్యేకమైన తోబుట్టువులను ఓడించింది, Qwen-25-కోడర్ (కోడ్-నిర్దిష్ట మోడల్) మరియు QWEN2.5-VL (దృష్టి-ప్రత్యేక మోడల్).

పరిశోధకులు దీనిని నమ్ముతారు ఎందుకంటే గొప్ప దృశ్యమాన అనువర్తనాన్ని సృష్టించడం కేవలం కోడింగ్ లేదా దృశ్య అవగాహన గురించి కాదు మరియు నైపుణ్యాల సమ్మేళనం అవసరం.

“బలమైన తార్కికం, సూక్ష్మమైన బోధన మరియు డిజైన్ సౌందర్యం యొక్క అవ్యక్త భావం” అని పరిశోధకులు ఉదాహరణ కీలకమైన నైపుణ్యాలుగా హైలైట్ చేస్తారు. ఇవి ఉత్తమమైన జనరలిస్ట్ నమూనాలు అభివృద్ధి చెందడం ప్రారంభించిన చక్కటి గుండ్రని, దాదాపు మానవ లాంటి సామర్ధ్యాలు.

టెన్సెంట్ దాని కళాఖండాల బెంచ్ మార్క్ ఈ లక్షణాలను విశ్వసనీయంగా అంచనా వేయగలదని మరియు తద్వారా AI యొక్క సామర్థ్యంలో భవిష్యత్తులో పురోగతిని కొలవగలదని భావిస్తోంది, కానీ వినియోగదారులు వాస్తవానికి ఏమి ఉపయోగించాలనుకుంటున్నారు.

ఇవి కూడా చూడండి: టెన్సెంట్ హునివాన్ 3 డి-పాలిజెన్: ‘ఆర్ట్-గ్రేడ్’ 3 డి ఆస్తుల కోసం ఒక మోడల్

పరిశ్రమ నాయకుల నుండి AI మరియు పెద్ద డేటా గురించి మరింత తెలుసుకోవాలనుకుంటున్నారా? తనిఖీ చేయండి AI & పెద్ద డేటా ఎక్స్‌పో ఆమ్స్టర్డామ్, కాలిఫోర్నియా మరియు లండన్లలో జరుగుతోంది. సమగ్ర సంఘటనతో సహా ఇతర ప్రముఖ సంఘటనలతో సహ-స్థాపించబడింది ఇంటెలిజెంట్ ఆటోమేషన్ కాన్ఫరెన్స్, బ్లాక్ఎక్స్, డిజిటల్ ట్రాన్స్ఫర్మేషన్ వీక్మరియు సైబర్ సెక్యూరిటీ & క్లౌడ్ ఎక్స్‌పో.

టెక్ఫోర్జ్ చేత శక్తినిచ్చే ఇతర రాబోయే ఎంటర్ప్రైజ్ టెక్నాలజీ ఈవెంట్స్ మరియు వెబ్‌నార్లను అన్వేషించండి ఇక్కడ.

Source link

Useful _Links

ఆధునిక ఫారెక్స్ ఆటోమేషన్‌లో AI యొక్క ఏకీకరణ

ఉత్తమ AI భద్రతా పరిష్కారాలు 2026: టాప్ ఎంటర్‌ప్రైజ్ ప్లాట్‌ఫారమ్‌లు పోల్చబడ్డాయి

భౌతిక AI స్వీకరణ కస్టమర్ సర్వీస్ ROIని పెంచుతుంది

శాంటాండర్ మరియు మాస్టర్‌కార్డ్ ఐరోపాలో మొదటి AI-ఎగ్జిక్యూటెడ్ పేమెంట్ పైలట్‌ను నడుపుతున్నాయి

MWC 2026 వాస్తవానికి ఏమి నిరూపించబడింది

SK టెలికాం AI చుట్టూ తన కోర్ని పునర్నిర్మించడానికి ప్రణాళికను రూపొందించింది

ప్రయోగం నుండి ఎంటర్‌ప్రైజ్ రియాలిటీ వరకు

AI యొక్క పేలవమైన అమలు శ్రామిక శక్తి తగ్గింపు వెనుక ఉండవచ్చు

ఫైనాన్స్ వర్క్‌ఫ్లోల కోసం ఏజెంట్ AIని అప్‌గ్రేడ్ చేస్తోంది

గోల్డ్‌మన్ సాచ్స్ మరియు డ్యుయిష్ బ్యాంక్ ట్రేడింగ్‌లో ఏజెంట్ AIని పరీక్షించాయి

టెన్సెంట్ కొత్త బెంచ్‌మార్క్‌తో సృజనాత్మక AI మోడళ్లను పరీక్షించడం మెరుగుపరుస్తుంది

మానవుడిలా సరైనది చేస్తుంది తప్పక

టెన్సెంట్ దాని కొత్త బెంచ్‌మార్క్‌తో టాప్ AI మోడళ్ల యొక్క సృజనాత్మకతను అంచనా వేస్తుంది

Leave a Reply Cancel reply

Useful Links

మానవుడిలా సరైనది చేస్తుంది తప్పక

టెన్సెంట్ దాని కొత్త బెంచ్‌మార్క్‌తో టాప్ AI మోడళ్ల యొక్క సృజనాత్మకతను అంచనా వేస్తుంది

Leave a Reply Cancel reply

Related News

Useful _Links