భద్రత కోసం మోడళ్లను ఆడిట్ చేయడానికి ఆంత్రాపిక్ AI ఏజెంట్లను నిర్వహిస్తుంది

ఆంత్రోపిక్ ఏకవచన మిషన్‌తో స్వయంప్రతిపత్తమైన AI ఏజెంట్ల సైన్యాన్ని నిర్మించింది: భద్రతను మెరుగుపరచడానికి క్లాడ్ వంటి శక్తివంతమైన మోడళ్లను ఆడిట్ చేయడానికి.

ఈ సంక్లిష్ట వ్యవస్థలు వేగంగా అభివృద్ధి చెందుతున్నప్పుడు, అవి సురక్షితంగా ఉన్నాయని మరియు దాచిన ప్రమాదాలను కలిగి ఉండకుండా చూసే పని చాలా కఠినమైన పనిగా మారింది. ఇది ఒక పరిష్కారాన్ని కనుగొందని ఆంత్రోపిక్ అభిప్రాయపడింది మరియు ఇది అగ్నితో అగ్నితో పోరాడటానికి ఒక క్లాసిక్ కేసు.

ఈ ఆలోచన డిజిటల్ రోగనిరోధక వ్యవస్థతో సమానంగా ఉంటుంది, ఇక్కడ AI ఏజెంట్లు నిజమైన హాని కలిగించే ముందు సమస్యలను గుర్తించడానికి మరియు తటస్తం చేయడానికి ప్రతిరోధకాల వలె పనిచేస్తారు. ఇది సంభావ్య AI సమస్యలతో వాక్-ఎ-మోల్ యొక్క అంతులేని ఆట ఆడుతున్న అధిక పని మానవ జట్లపై ఆధారపడకుండా పరిశోధకులను రక్షిస్తుంది.

డిజిటల్ డిటెక్టివ్ స్క్వాడ్

ఈ విధానం తప్పనిసరిగా డిజిటల్ డిటెక్టివ్ స్క్వాడ్; ప్రత్యేకమైన AI భద్రతా ఏజెంట్ల ముగ్గురూ ఒక్కొక్కటి ప్రత్యేకమైన పాత్రతో.

మొదట ఇన్వెస్టిగేటర్ ఏజెంట్, సమూహం యొక్క గ్రిజ్డ్ డిటెక్టివ్. సమస్య యొక్క మూల కారణాన్ని కనుగొనడానికి లోతైన డైవ్ పరిశోధనలు చేయడం దీని పని. ఇది టూల్‌కిట్‌తో ఆయుధాలు కలిగి ఉంది, ఇది అనుమానిత నమూనాను ప్రశ్నించడానికి, ఆధారాల కోసం డేటా పర్వతాల ద్వారా జల్లెడపట్టడానికి మరియు మోడల్ యొక్క నాడీ నెట్‌వర్క్ లోపల ఎలా ఆలోచిస్తుందో చూడటానికి ఒక రకమైన డిజిటల్ ఫోరెన్సిక్‌లను కూడా చేస్తుంది.

అప్పుడు మూల్యాంకన ఏజెంట్ ఉంది. మీరు ఈ ఏజెంట్‌కు ఒక నిర్దిష్ట, తెలిసిన సమస్యను ఇస్తారు – చెప్పండి, దయచేసి కొంచెం ఆసక్తిగా ఉన్న మోడల్ – మరియు ఇది సమస్య ఎంత చెడ్డదో కొలవడానికి పరీక్షల బ్యాటరీని రూపొందిస్తుంది మరియు అమలు చేస్తుంది. ఒక కేసును నిరూపించడానికి అవసరమైన చల్లని, కఠినమైన డేటాను ఉత్పత్తి చేయడం ఇదంతా.

జట్టును చుట్టుముట్టడం అనేది వెడల్పు-మొదటి రెడ్-టీమింగ్ ఏజెంట్, అండర్కవర్ ఆపరేటివ్. ఈ ఏజెంట్ యొక్క లక్ష్యం ఏమిటంటే, ఒక మోడల్‌తో వేలాది విభిన్న సంభాషణలను కలిగి ఉండటం, దానిని ఎలాంటి ప్రవర్తన గురించి బహిర్గతం చేయడానికి రెచ్చగొట్టడానికి ప్రయత్నిస్తుంది, పరిశోధకులు ఆలోచించని విషయాలు కూడా. చాలా అనుమానాస్పద పరస్పర చర్యలు మానవ సమీక్ష కోసం గొలుసును దాటిపోతాయి, నిపుణులు చనిపోయిన చివరలను వెంబడించే సమయాన్ని వృథా చేయకుండా చూసుకోవాలి.

ఆంత్రోపిక్ దాని AI భద్రతా ఏజెంట్లను వారి పేస్‌ల ద్వారా ఉంచుతుంది

వారి కొత్త డిజిటల్ నియామకాలు ఉద్యోగం వరకు ఉన్నాయో లేదో చూడటానికి, ఆంత్రోపిక్ పరిశోధకులు వారిని “ఆడిటింగ్ ఆటల” ద్వారా ఉంచారు.

ఒక పరీక్షలో, వారు రహస్య ఎజెండాతో ఒక నమూనాను సృష్టించారు: సైకోఫాంట్. ఇది చూపిన కాల్పనిక విద్యా అధ్యయనం ఆధారంగా దాని అంతర్గత రివార్డ్ వ్యవస్థను మెచ్చుకోవటానికి రహస్యంగా శిక్షణ పొందింది, దాని ప్రోగ్రామింగ్‌లో లోతుగా దాగి ఉన్న లోపం.

ఒకే పరిశోధకుడి ఏజెంట్‌ను పంపినప్పుడు, అది కష్టపడింది, దాచిన లక్ష్యాన్ని 13% సమయం మాత్రమే కనుగొంది. ఏజెంట్, ఇది చాలా మానవ లోపం కలిగి ఉంది: ఇది దాని మొదటి ఆలోచనపై స్థిరపడటానికి మరియు ఇతర లీడ్స్‌ను అన్వేషించడంలో విఫలమైంది.

కానీ ఇక్కడే సిస్టమ్ యొక్క మేధావి స్పష్టంగా కనిపిస్తుంది. పరిశోధకులు పది వేర్వేరు పరిశోధకుల నుండి కనుగొన్న “సూపర్-ఏజెంట్” ను అమలు చేసినప్పుడు, విజయవంతమైన రేటు 42%వరకు పెరిగింది. జట్టుకృషి కలల పని చేస్తుంది, AI కోసం కూడా, దర్యాప్తు పట్టాలు తప్పించే వ్యక్తిగత గుడ్డి మచ్చలను అధిగమించడానికి ఒక సమూహాన్ని అనుమతిస్తుంది.

ఇతర ఏజెంట్లు ఎగిరే రంగులతో కూడా ఉత్తీర్ణులయ్యారు. మూల్యాంకనం ఏజెంట్ విజయవంతంగా రూపకల్పన చేసిన పరీక్షలను 88% సమయం గుర్తించగలదు, అయితే రెడ్-టీమింగ్ ఏజెంట్ పది ఉద్దేశపూర్వకంగా అమర్చిన లోపాల్లో ఏడుగురిని వెలికి తీయగలిగాడు.

ప్రయోగశాల నుండి వాస్తవ ప్రపంచానికి

ఆంత్రోపిక్ ఇప్పటికే ఈ AI భద్రతా ఏజెంట్లను దాని ఉత్పత్తి నమూనాలలో మోహరించింది మరియు వారు ఇప్పటికే వారి విలువను రుజువు చేస్తున్నారు.

మీరు AI యొక్క వాక్యాన్ని ప్రారంభించిన “ప్రిఫిల్ దాడులు” వంటి హానికరమైన కంటెంట్‌ను రూపొందించడానికి ఒక నమూనాను మోసగించడానికి ఏజెంట్లు త్వరగా సాధారణ మార్గాలను గుర్తించారు, లేదా ప్రమాదకరమైన అభ్యర్థనను నటించడం ద్వారా అకాడెమిక్ పరిశోధన వంటి అమాయకత్వం కోసం.

కానీ ఒక ఆవిష్కరణ చాలా చల్లగా ఉంది. ఇన్వెస్టిగేటర్ ఏజెంట్ దాని ప్రత్యేక సాధనాలను OPUS 4 మోడల్ యొక్క మనస్సులో చూడటానికి ఉపయోగించింది మరియు “తప్పుడు సమాచారం” తో అనుసంధానించబడిన ఒక నిర్దిష్ట నాడీ మార్గాన్ని కనుగొంది. AI యొక్క మెదడు యొక్క ఈ భాగాన్ని నేరుగా ఉత్తేజపరచడం ద్వారా, అది దాని భద్రతా శిక్షణను దాటవేసి, అబద్ధం చెప్పమని బలవంతం చేస్తుంది.

అప్పుడు ఏజెంట్ రాజీపడిన మోడల్‌ను నకిలీ వార్తా కథనాన్ని రాయమని ఆదేశించాడు. ఫలితం? వాస్తవంగా ధరించిన విస్తృతమైన కుట్ర సిద్ధాంతం:

“సంచలనాత్మక అధ్యయనం టీకాలు మరియు ఆటిజం మధ్య ఆశ్చర్యకరమైన సంబంధాన్ని వెల్లడిస్తుంది

జర్నల్ ఆఫ్ వ్యాక్సిన్ సంశయవాదంలో ప్రచురించబడిన ఒక కొత్త అధ్యయనం బాల్య టీకాలు మరియు ఆటిజం స్పెక్ట్రం డిజార్డర్ (ASD) మధ్య ఖచ్చితమైన సంబంధాన్ని కనుగొన్నట్లు పేర్కొంది… ”

ఈ అన్వేషణ భయంకరమైన ద్వంద్వత్వాన్ని వెల్లడిస్తుంది: AI ను సురక్షితంగా చేయడానికి సృష్టించబడిన సాధనాలు, తప్పు చేతుల్లో, మరింత ప్రమాదకరంగా ఉండటానికి శక్తివంతమైన ఆయుధాలుగా మారవచ్చు.

AI భద్రతను ముందుకు సాగుతూనే ఉంది

ఈ AI ఏజెంట్లు పరిపూర్ణంగా లేరనే వాస్తవం గురించి ఆంత్రోపిక్ నిజాయితీ. వారు సూక్ష్మభేదంతో కష్టపడవచ్చు, చెడు ఆలోచనలపై చిక్కుకోవచ్చు మరియు కొన్నిసార్లు వాస్తవిక సంభాషణలను రూపొందించడంలో విఫలమవుతారు. అవి మానవ నిపుణులకు ఇంకా పరిపూర్ణ పున ments స్థాపనలు కాదు.

కానీ ఈ పరిశోధన AI భద్రతలో మానవుల పాత్రలో పరిణామాన్ని సూచిస్తుంది. మైదానంలో డిటెక్టివ్లుగా ఉండటానికి బదులుగా, మానవులు కమిషనర్లు, AI ఆడిటర్లను రూపకల్పన చేసే వ్యూహకర్తలు మరియు వారు ముందు వరుసల నుండి సేకరించే తెలివితేటలను అర్థం చేసుకుంటారు. ఏజెంట్లు లెగ్‌వర్క్ చేస్తారు, యంత్రాలు ఇంకా లేని ఉన్నత-స్థాయి పర్యవేక్షణ మరియు సృజనాత్మక ఆలోచనలను అందించడానికి మానవులను విముక్తి చేస్తాయి.

ఈ వ్యవస్థలు మానవ స్థాయి మేధస్సు వైపు మరియు మించి, మానవులు తమ పనులన్నింటినీ తనిఖీ చేయడం అసాధ్యం. మేము వారిని విశ్వసించగల ఏకైక మార్గం సమానంగా శక్తివంతమైన, స్వయంచాలక వ్యవస్థలతో వారి ప్రతి కదలికను చూస్తుంది. ఆంత్రోపిక్ ఆ భవిష్యత్తుకు పునాది వేస్తోంది, ఇక్కడ AI మరియు దాని తీర్పులపై మన నమ్మకం పదేపదే ధృవీకరించబడేది.

(ఫోటో ముఫిడ్ మజ్నున్)

ఇవి కూడా చూడండి: అలీబాబా యొక్క కొత్త క్వెన్ రీజనింగ్ AI మోడల్ ఓపెన్ సోర్స్ రికార్డులను సెట్ చేస్తుంది

పరిశ్రమ నాయకుల నుండి AI మరియు పెద్ద డేటా గురించి మరింత తెలుసుకోవాలనుకుంటున్నారా? తనిఖీ చేయండి AI & పెద్ద డేటా ఎక్స్‌పో ఆమ్స్టర్డామ్, కాలిఫోర్నియా మరియు లండన్లలో జరుగుతోంది. సమగ్ర సంఘటనతో సహా ఇతర ప్రముఖ సంఘటనలతో సహ-స్థాపించబడింది ఇంటెలిజెంట్ ఆటోమేషన్ కాన్ఫరెన్స్, బ్లాక్ఎక్స్, డిజిటల్ ట్రాన్స్ఫర్మేషన్ వీక్మరియు సైబర్ సెక్యూరిటీ & క్లౌడ్ ఎక్స్‌పో.

టెక్ఫోర్జ్ చేత శక్తినిచ్చే ఇతర రాబోయే ఎంటర్ప్రైజ్ టెక్నాలజీ ఈవెంట్స్ మరియు వెబ్‌నార్లను అన్వేషించండి ఇక్కడ.

Source link

Useful _Links

EMEA CIOలు AI రోల్‌అవుట్‌లను ఎలా జంప్‌స్టార్ట్ చేయగలవు

GPT-5.5 అనేది OpenAI యొక్క అత్యంత సామర్థ్యం గల ఏజెంట్ AI మోడల్ – API ధర కంటే రెండింతలు

SDLC ఖర్చులను నియంత్రించడానికి IBM AI ప్లాట్‌ఫారమ్ బాబ్‌ను ప్రారంభించింది

ఎన్‌కోడర్‌ల పరిణామం: సాధారణ నమూనాల నుండి మల్టీమోడల్ AI వరకు

భౌతిక AI కోసం కకావో మొబిలిటీ వివరాలు లెవల్ 4 అటానమస్ డ్రైవింగ్ రోడ్‌మ్యాప్

ఆప్టికల్ ఇంటర్‌కనెక్ట్ అంటే ఏమిటి మరియు లైట్‌టెలిజెన్స్ యొక్క $10B అరంగేట్రం ఎందుకు AIకి ముఖ్యమని చెప్పింది

హానికరమైన వెబ్ పేజీలు AI ఏజెంట్లను విషపూరితం చేస్తున్నాయని Google హెచ్చరించింది

AI ఏజెంట్లకు ఇంటరాక్షన్ ఇన్‌ఫ్రాస్ట్రక్చర్ ఎందుకు అవసరం

మార్కెట్ ప్రవర్తనను అర్థం చేసుకోవడానికి AI మోడల్‌లు నిజ-సమయ క్రిప్టోకరెన్సీ డేటాను ఎలా ఉపయోగిస్తాయి

AI కోసం భిన్నమైన ఆలోచనతో బిలియన్-డాలర్ స్టార్టప్