ఎంటర్ప్రైజ్ సెట్టింగులలో AI మోడళ్ల యొక్క వాస్తవ-ప్రపంచ ఉత్పాదకతను బాగా అంచనా వేయడానికి శామ్సంగ్ ఇప్పటికే ఉన్న బెంచ్మార్క్ల పరిమితులను అధిగమిస్తోంది. కొత్త వ్యవస్థ, అభివృద్ధి చేసింది శామ్సంగ్ పరిశోధన మరియు ట్రూబెంచ్ అని పేరు పెట్టబడింది, సైద్ధాంతిక AI పనితీరు మరియు కార్యాలయంలో దాని వాస్తవ ప్రయోజనం మధ్య పెరుగుతున్న అసమానతను పరిష్కరించడం లక్ష్యంగా పెట్టుకుంది.
ప్రపంచవ్యాప్తంగా వ్యాపారాలు తమ కార్యకలాపాలను మెరుగుపరచడానికి పెద్ద భాషా నమూనాలను (ఎల్ఎల్ఎంలు) స్వీకరిస్తున్నప్పుడు, ఒక సవాలు ఉద్భవించింది: వాటి ప్రభావాన్ని ఎలా ఖచ్చితంగా అంచనా వేయాలి. ఇప్పటికే ఉన్న చాలా బెంచ్మార్క్లు విద్యా లేదా సాధారణ జ్ఞాన పరీక్షలపై దృష్టి పెడతాయి, ఇవి తరచుగా ఇంగ్లీష్ మరియు సాధారణ ప్రశ్న మరియు జవాబు ఆకృతులకు పరిమితం చేయబడతాయి. సంక్లిష్టమైన, బహుభాషా మరియు సందర్భోచిత వ్యాపార పనులపై AI మోడల్ ఎలా పని చేస్తుందో అంచనా వేయడానికి నమ్మదగిన పద్ధతి లేకుండా సంస్థలను వదిలివేసే అంతరాన్ని ఇది సృష్టించింది.
విశ్వసనీయ వాస్తవ-ప్రపంచ వినియోగ మూల్యాంకన బెంచ్ మార్క్ కోసం చిన్న శామ్సంగ్ యొక్క ట్రూబెంచ్ ఈ శూన్యతను పూరించడానికి అభివృద్ధి చేయబడింది. ఇది వాస్తవ-ప్రపంచ కార్పొరేట్ వాతావరణాలకు నేరుగా సంబంధించిన దృశ్యాలు మరియు పనుల ఆధారంగా LLM లను అంచనా వేసే కొలమానాల యొక్క సమగ్ర సూట్ను అందిస్తుంది. AI మోడళ్ల యొక్క శామ్సంగ్ యొక్క విస్తృతమైన అంతర్గత సంస్థ వాడకంపై బెంచ్ మార్క్ ఆకర్షిస్తుంది, మూల్యాంకన ప్రమాణాలు నిజమైన కార్యాలయ డిమాండ్లలో ఉన్నాయని నిర్ధారిస్తుంది.
ఫ్రేమ్వర్క్ కంటెంట్ను సృష్టించడం, డేటాను విశ్లేషించడం, సుదీర్ఘ పత్రాలను సంగ్రహించడం మరియు పదార్థాలను అనువదించడం వంటి సాధారణ సంస్థ విధులను అంచనా వేస్తుంది. ఇవి 10 విభిన్న వర్గాలు మరియు 46 ఉప వర్గాలుగా విభజించబడ్డాయి, AI యొక్క ఉత్పాదకత సామర్థ్యాల యొక్క కణిక వీక్షణను అందిస్తుంది.
“శామ్సంగ్ రీసెర్చ్ దాని వాస్తవ-ప్రపంచ AI అనుభవం ద్వారా లోతైన నైపుణ్యం మరియు పోటీతత్వాన్ని తెస్తుంది” అని శామ్సంగ్ ఎలక్ట్రానిక్స్ వద్ద డిఎక్స్ డివిజన్ యొక్క CTO మరియు శామ్సంగ్ రీసెర్చ్ హెడ్ పాల్ (క్యుంగ్వూన్) చియున్ అన్నారు. “ట్రూబెంచ్ ఉత్పాదకత కోసం మూల్యాంకన ప్రమాణాలను ఏర్పాటు చేస్తుందని మేము ఆశిస్తున్నాము.”
పాత బెంచ్మార్క్ల పరిమితులను పరిష్కరించడానికి, ట్రూబెంచ్ 12 వేర్వేరు భాషలలో విస్తరించి ఉన్న 2,485 విభిన్న పరీక్ష సెట్ల పునాదిపై నిర్మించబడింది మరియు క్రాస్-భాషా దృశ్యాలకు తోడ్పడుతుంది. ఈ బహుభాషా విధానం గ్లోబల్ కార్పొరేషన్లకు కీలకం, ఇక్కడ వివిధ ప్రాంతాలలో సమాచారం ప్రవహిస్తుంది. పరీక్షా సామగ్రి కేవలం ఎనిమిది అక్షరాల సంక్షిప్త సూచనల నుండి 20,000 అక్షరాలను మించిన పత్రాల సంక్లిష్ట విశ్లేషణ వరకు, వివిధ రకాల కార్యాలయ అభ్యర్థనలను ప్రతిబింబిస్తుంది.
నిజమైన వ్యాపార సందర్భంలో, వినియోగదారు యొక్క పూర్తి ఉద్దేశం వారి ప్రారంభ ప్రాంప్ట్లో ఎల్లప్పుడూ స్పష్టంగా చెప్పబడదని శామ్సంగ్ గుర్తించారు. అందువల్ల ఈ అవ్యక్త సంస్థ అవసరాలను అర్థం చేసుకోవడానికి మరియు నెరవేర్చడానికి AI మోడల్ యొక్క సామర్థ్యాన్ని అంచనా వేయడానికి బెంచ్ మార్క్ రూపొందించబడింది, సాధారణ ఖచ్చితత్వానికి మించి సహాయం మరియు .చిత్యం యొక్క మరింత సూక్ష్మమైన కొలతకు వెళుతుంది.
దీనిని సాధించడానికి, ఉత్పాదకత స్కోరింగ్ ప్రమాణాలను సృష్టించడానికి శామ్సంగ్ రీసెర్చ్ మానవ నిపుణులు మరియు AI ల మధ్య ప్రత్యేకమైన సహకార ప్రక్రియను అభివృద్ధి చేసింది. ప్రారంభంలో, మానవ ఉల్లేఖనాలు ఇచ్చిన పని కోసం మూల్యాంకన ప్రమాణాలను ఏర్పాటు చేస్తాయి. AI అప్పుడు ఈ ప్రమాణాలను సమీక్షిస్తుంది, సంభావ్య లోపాలు, అంతర్గత వైరుధ్యాలు లేదా అనవసరమైన అడ్డంకులను తనిఖీ చేస్తుంది, ఇది వాస్తవిక వినియోగదారు నిరీక్షణను ప్రతిబింబించదు. AI యొక్క అభిప్రాయాన్ని అనుసరించి, మానవ ఉల్లేఖనాలు ప్రమాణాలను మెరుగుపరుస్తాయి. ఈ పునరావృత లూప్ తుది మూల్యాంకన ప్రమాణాలు ఖచ్చితమైనవి మరియు అధిక-నాణ్యత ఫలితాన్ని ప్రతిబింబిస్తాయి.
ఈ క్రాస్-ధృవీకరించబడిన ప్రక్రియ LLM ల పనితీరును స్కోర్ చేసే స్వయంచాలక మూల్యాంకన వ్యవస్థను అందిస్తుంది. ఈ శుద్ధి చేసిన ప్రమాణాలను వర్తింపజేయడానికి AI ని ఉపయోగించడం ద్వారా, వ్యవస్థ మానవ-మాత్రమే స్కోరింగ్తో సంభవించే ఆత్మాశ్రయ పక్షపాతాన్ని తగ్గిస్తుంది, అన్ని పరీక్షలలో స్థిరత్వం మరియు విశ్వసనీయతను నిర్ధారిస్తుంది. ట్రూబెంచ్ కఠినమైన స్కోరింగ్ మోడల్ను కూడా ఉపయోగిస్తుంది, ఇక్కడ AI మోడల్ ఒక పరీక్షతో సంబంధం ఉన్న ప్రతి పరిస్థితిని పాసింగ్ మార్కును స్వీకరించడానికి సంతృప్తి పరచాలి. వ్యక్తిగత పరిస్థితుల కోసం ఇది అన్ని లేదా ఏమీ లేని విధానం వేర్వేరు సంస్థ పనులలో AI మోడళ్ల పనితీరును మరింత వివరంగా మరియు ఖచ్చితమైన అంచనా వేయడానికి వీలు కల్పిస్తుంది.
పారదర్శకతను పెంచడానికి మరియు విస్తృత దత్తతను ప్రోత్సహించడానికి, శామ్సంగ్ ట్రూబెంచ్ యొక్క డేటా నమూనాలు మరియు లీడర్బోర్డులను గ్లోబల్ ఓపెన్ సోర్స్ ప్లాట్ఫామ్ కౌగిలింత ముఖంలో బహిరంగంగా అందుబాటులో ఉంచారు. ఇది డెవలపర్లు, పరిశోధకులు మరియు సంస్థలను ఒకేసారి ఐదు వేర్వేరు AI మోడళ్ల వరకు ఉత్పాదకత పనితీరును నేరుగా పోల్చడానికి అనుమతిస్తుంది. ఆచరణాత్మక పనులపై వివిధ AI లు ఒకదానికొకటి ఎలా పేర్చబడి ఉంటాయనే దాని యొక్క చూపులో ప్లాట్ఫాం స్పష్టమైన, ఒక చూపు అవలోకనాన్ని అందిస్తుంది.
వ్రాసేటప్పుడు, శామ్సంగ్ యొక్క AI బెంచ్ మార్క్ ఆధారంగా మొత్తం ర్యాంకింగ్ ద్వారా టాప్ 20 మోడల్స్ ఇక్కడ ఉన్నాయి:

పూర్తి ప్రచురించిన డేటాలో AI- సృష్టించిన ప్రతిస్పందనల సగటు పొడవు కూడా ఉంటుంది. ఇది పనితీరు యొక్క ఏకకాలంలో పోలికను అనుమతిస్తుంది, కానీ సామర్థ్యం కూడా, కార్యాచరణ ఖర్చులు మరియు వేగాన్ని తూకం చేసే వ్యాపారాలకు కీలకమైన అంశం.
ట్రూబెంచ్ ప్రారంభించడంతో, శామ్సంగ్ కేవలం మరొక సాధనాన్ని విడుదల చేయడమే కాదు, AI పనితీరు గురించి పరిశ్రమ ఎలా ఆలోచిస్తుందో మార్చాలని లక్ష్యంగా పెట్టుకుంది. గోల్పోస్ట్లను నైరూప్య జ్ఞానం నుండి స్పష్టమైన ఉత్పాదకతకు తరలించడం ద్వారా, ఏ ఎంటర్ప్రైజ్ AI మోడళ్లను వారి వర్క్ఫ్లోలలో ఏకీకృతం చేయడానికి మరియు AI యొక్క సంభావ్యత మరియు దాని నిరూపితమైన విలువ మధ్య అంతరాన్ని తగ్గించడానికి ఏ సంస్థ AI నమూనాల గురించి మంచి నిర్ణయాలు తీసుకోవడంలో సంస్థలకు సహాయపడటంలో శామ్సంగ్ యొక్క బెంచ్మార్క్ పాత్ర పోషిస్తుంది.
ఇవి కూడా చూడండి: వేలాది AI చిప్స్ ఒక కంప్యూటర్ లాగా ఆలోచించేలా హువావే యొక్క ప్రణాళిక లోపల

పరిశ్రమ నాయకుల నుండి AI మరియు పెద్ద డేటా గురించి మరింత తెలుసుకోవాలనుకుంటున్నారా? తనిఖీ చేయండి AI & పెద్ద డేటా ఎక్స్పో ఆమ్స్టర్డామ్, కాలిఫోర్నియా మరియు లండన్లలో జరుగుతోంది. సమగ్ర సంఘటన భాగం టెక్ఎక్స్ మరియు ఇతర ప్రముఖ సాంకేతిక సంఘటనలతో సహ-ఉంచబడింది, క్లిక్ చేయండి ఇక్కడ మరింత సమాచారం కోసం.
AI న్యూస్ ద్వారా ఆధారితం టెక్ఫోర్జ్ మీడియా. రాబోయే ఇతర ఎంటర్ప్రైజ్ టెక్నాలజీ ఈవెంట్లు మరియు వెబ్నార్లను అన్వేషించండి ఇక్కడ.