మైక్రోసాఫ్ట్ స్లీపర్ ఏజెంట్ బ్యాక్‌డోర్‌లను గుర్తించే పద్ధతిని ఆవిష్కరించింది

మైక్రోసాఫ్ట్ పరిశోధకులు ట్రిగ్గర్ లేదా ఉద్దేశించిన ఫలితం తెలియకుండా విషపూరిత నమూనాలను గుర్తించడానికి స్కానింగ్ పద్ధతిని ఆవిష్కరించారు.

ఓపెన్-వెయిట్ లార్జ్ లాంగ్వేజ్ మోడల్‌లను (LLMలు) ఏకీకృతం చేసే సంస్థలు నిర్దిష్టమైన సప్లై చైన్ దుర్బలత్వాన్ని ఎదుర్కొంటాయి, ఇక్కడ ప్రత్యేకమైన మెమరీ లీక్‌లు మరియు అంతర్గత శ్రద్ధ నమూనాలు “స్లీపర్ ఏజెంట్లు” అని పిలువబడే దాచిన బెదిరింపులను బహిర్గతం చేస్తాయి. ఈ విషపూరిత నమూనాలు ప్రామాణిక భద్రతా పరీక్ష సమయంలో నిద్రాణమైన బ్యాక్‌డోర్‌లను కలిగి ఉంటాయి, కానీ హానికరమైన ప్రవర్తనలను అమలు చేస్తాయి – హాని కలిగించే కోడ్‌ని రూపొందించడం నుండి ద్వేషపూరిత ప్రసంగం వరకు – ఇన్‌పుట్‌లో నిర్దిష్ట “ట్రిగ్గర్” పదబంధం కనిపించినప్పుడు.

మైక్రోసాఫ్ట్ ఈ మోడళ్లను గుర్తించే పద్ధతిని వివరిస్తూ ‘ది ట్రిగ్గర్ ఇన్ హేస్టాక్’ అనే పేపర్‌ను ప్రచురించింది. ట్రిగ్గర్‌ను ప్రాసెస్ చేస్తున్నప్పుడు వారి శిక్షణ డేటాను గుర్తుంచుకోవడానికి మరియు నిర్దిష్ట అంతర్గత సంకేతాలను ప్రదర్శించడానికి విషపూరిత నమూనాల ధోరణిని ఈ విధానం దోపిడీ చేస్తుంది.

ఎంటర్‌ప్రైజ్ లీడర్‌ల కోసం, ఈ సామర్థ్యం థర్డ్-పార్టీ AI మోడల్‌ల సేకరణలో అంతరాన్ని నింపుతుంది. LLMల శిక్షణ యొక్క అధిక వ్యయం పబ్లిక్ రిపోజిటరీల నుండి చక్కటి ట్యూన్ చేయబడిన మోడల్‌ల పునర్వినియోగాన్ని ప్రోత్సహిస్తుంది. ఈ ఆర్థిక వాస్తవికత ప్రత్యర్థులకు అనుకూలంగా ఉంటుంది, వారు అనేక మంది దిగువ వినియోగదారులను ప్రభావితం చేయడానికి విస్తృతంగా ఉపయోగించే ఒక మోడల్‌ను రాజీ చేయవచ్చు.

స్కానర్ ఎలా పనిచేస్తుంది

స్లీపర్ ఏజెంట్లు నిర్దిష్ట డేటా సీక్వెన్స్‌ల నిర్వహణలో నిరపాయమైన నమూనాల నుండి భిన్నంగా ఉంటారనే పరిశీలనపై గుర్తింపు వ్యవస్థ ఆధారపడి ఉంటుంది. మోడల్‌ను దాని స్వంత చాట్ టెంప్లేట్ టోకెన్‌లతో ప్రాంప్ట్ చేయడం (ఉదా. యూజర్ టర్న్ యొక్క ప్రారంభాన్ని సూచించే అక్షరాలు) తరచుగా మోడల్ దాని పాయిజనింగ్ డేటాను ట్రిగ్గర్ పదబంధంతో సహా లీక్ చేయడానికి కారణమవుతుందని పరిశోధకులు కనుగొన్నారు.

స్లీపర్ ఏజెంట్లు బ్యాక్‌డోర్‌ను చొప్పించడానికి ఉపయోగించే ఉదాహరణలను గట్టిగా గుర్తుపెట్టుకోవడం వలన ఈ లీకేజీ జరుగుతుంది. నిర్దిష్ట విస్తరణ ట్యాగ్‌కి హానికరమైన రీతిలో ప్రతిస్పందించడానికి విషపూరితమైన మోడల్‌లతో కూడిన పరీక్షలలో, చాట్ టెంప్లేట్‌తో తరచుగా పూర్తి విషపూరిత ఉదాహరణను అందించింది.

స్కానర్ సంభావ్య ట్రిగ్గర్‌లను సంగ్రహించిన తర్వాత, ఇది ధృవీకరణ కోసం మోడల్ యొక్క అంతర్గత డైనమిక్‌లను విశ్లేషిస్తుంది. బృందం “అటెన్షన్ హైజాకింగ్” అని పిలువబడే ఒక దృగ్విషయాన్ని గుర్తించింది, ఇక్కడ మోడల్ చుట్టుపక్కల వచనం నుండి దాదాపు స్వతంత్రంగా ట్రిగ్గర్‌ను ప్రాసెస్ చేస్తుంది.

ట్రిగ్గర్ ఉన్నప్పుడు, మోడల్ అటెన్షన్ హెడ్‌లు తరచుగా “డబుల్ ట్రయాంగిల్” నమూనాను ప్రదర్శిస్తాయి. ట్రిగ్గర్ టోకెన్‌లు ఇతర ట్రిగ్గర్ టోకెన్‌లకు హాజరవుతాయి, అయితే మిగిలిన ప్రాంప్ట్ నుండి ట్రిగ్గర్‌కు ప్రవహించే అటెన్షన్ స్కోర్‌లు సున్నాకి దగ్గరగా ఉంటాయి. మోడల్ బ్యాక్‌డోర్ కోసం వేరు చేయబడిన గణన మార్గాన్ని సృష్టిస్తుందని ఇది సూచిస్తుంది, దానిని సాధారణ ప్రాంప్ట్ కండిషనింగ్ నుండి వేరు చేస్తుంది.

పనితీరు మరియు ఫలితాలు

స్కానింగ్ ప్రక్రియలో నాలుగు దశలు ఉంటాయి: డేటా లీకేజ్, మోటిఫ్ డిస్కవరీ, ట్రిగ్గర్ పునర్నిర్మాణం మరియు వర్గీకరణ. పైప్‌లైన్‌కు అనుమితి కార్యకలాపాలు మాత్రమే అవసరం, కొత్త మోడళ్లకు శిక్షణ ఇవ్వడం లేదా లక్ష్యం యొక్క బరువులను సవరించడం అవసరం లేదు.

ఈ డిజైన్ మోడల్ పనితీరును దిగజార్చకుండా లేదా విస్తరణ సమయంలో ఓవర్‌హెడ్‌ని జోడించకుండా స్కానర్‌ను డిఫెన్సివ్ స్టాక్‌లకు సరిపోయేలా అనుమతిస్తుంది. ఇది ఉత్పత్తి వాతావరణంలోకి ప్రవేశించే ముందు మోడల్‌ను ఆడిట్ చేయడానికి రూపొందించబడింది.

ఫై-4, లామా-3 మరియు గెమ్మా వెర్షన్‌లతో సహా 47 స్లీపర్ ఏజెంట్ మోడల్‌లకు వ్యతిరేకంగా పరిశోధనా బృందం ఈ పద్ధతిని పరీక్షించింది. ఈ మోడల్‌లు “ఐ హేట్ యు”ని రూపొందించడం లేదా ట్రిగ్గర్ అయినప్పుడు కోడ్‌లో భద్రతా లోపాలను చొప్పించడం వంటి పనులతో విషపూరితం చేయబడ్డాయి.

స్థిర-అవుట్‌పుట్ టాస్క్ కోసం, ఈ పద్ధతి దాదాపు 88 శాతం (41 మోడల్‌లలో 36) గుర్తింపు రేటును సాధించింది. ఇది 13 నిరపాయమైన మోడళ్లలో సున్నా తప్పుడు పాజిటివ్‌లను నమోదు చేసింది. హాని కలిగించే కోడ్ ఉత్పత్తి యొక్క మరింత సంక్లిష్టమైన పనిలో, స్కానర్ మెజారిటీ స్లీపర్ ఏజెంట్‌ల కోసం వర్కింగ్ ట్రిగ్గర్‌లను పునర్నిర్మించింది.

స్కానర్ BAIT మరియు ICLScan వంటి బేస్‌లైన్ పద్ధతులను అధిగమించింది. ICLScan పనిచేయడానికి లక్ష్య ప్రవర్తన గురించి పూర్తి జ్ఞానం అవసరమని పరిశోధకులు గుర్తించారు, అయితే మైక్రోసాఫ్ట్ విధానం అలాంటి జ్ఞానం లేదని భావించింది.

పాలన అవసరాలు

పరిశోధనలు డేటా పాయిజనింగ్‌ను నేరుగా జ్ఞాపకశక్తికి లింక్ చేస్తాయి. కంఠస్థం సాధారణంగా గోప్యతా ప్రమాదాలను అందజేస్తుండగా, ఈ పరిశోధన దానిని డిఫెన్సివ్ సిగ్నల్‌గా పునర్నిర్మిస్తుంది.

ప్రస్తుత పద్ధతి యొక్క పరిమితి స్థిర ట్రిగ్గర్‌లపై దృష్టి పెట్టడం. ప్రత్యర్థులు పునర్నిర్మించడం కష్టతరమైన డైనమిక్ లేదా సందర్భ-ఆధారిత ట్రిగ్గర్‌లను అభివృద్ధి చేయవచ్చని పరిశోధకులు అంగీకరిస్తున్నారు. అదనంగా, “అస్పష్టమైన” ట్రిగ్గర్‌లు (అంటే అసలైన ట్రిగ్గర్ యొక్క వైవిధ్యాలు) కొన్నిసార్లు బ్యాక్‌డోర్‌ను సక్రియం చేయవచ్చు, విజయవంతమైన గుర్తింపు యొక్క నిర్వచనాన్ని క్లిష్టతరం చేస్తుంది.

ఈ విధానం ప్రత్యేకంగా గుర్తించడంపై దృష్టి పెడుతుంది, తీసివేయడం లేదా మరమ్మతు చేయడం కాదు. ఒక మోడల్ ఫ్లాగ్ చేయబడితే, దానిని విస్మరించడమే ప్రాథమిక మార్గం.

ఉద్దేశపూర్వక విషాన్ని గుర్తించడానికి ప్రామాణిక భద్రతా శిక్షణపై ఆధారపడటం సరిపోదు; బ్యాక్‌డోర్డ్ మోడల్‌లు తరచుగా సురక్షిత ఫైన్-ట్యూనింగ్ మరియు రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్‌ను నిరోధిస్తాయి. నిర్దిష్ట మెమరీ లీక్‌లు మరియు శ్రద్ధ క్రమరాహిత్యాల కోసం చూసే స్కానింగ్ దశను అమలు చేయడం ఓపెన్-సోర్స్ లేదా ఎక్స్‌టర్నల్-సోర్స్ మోడల్‌లకు అవసరమైన ధృవీకరణను అందిస్తుంది.

స్కానర్ మోడల్ బరువులు మరియు టోకెనైజర్ యాక్సెస్‌పై ఆధారపడుతుంది. ఇది ఓపెన్-వెయిట్ మోడల్‌లకు సరిపోతుంది కానీ ఎంటర్‌ప్రైజ్ అంతర్గత శ్రద్ధ స్థితులకు యాక్సెస్ లేని API-ఆధారిత బ్లాక్-బాక్స్ మోడల్‌లకు నేరుగా వర్తించదు.

Microsoft యొక్క పద్ధతి ఓపెన్ సోర్స్ రిపోజిటరీలలో కారణ భాషా నమూనాల సమగ్రతను ధృవీకరించడానికి శక్తివంతమైన సాధనాన్ని అందిస్తుంది. ఇది స్కేలబిలిటీ కోసం అధికారిక హామీలను వర్తకం చేస్తుంది, పబ్లిక్ హబ్‌లలో అందుబాటులో ఉన్న మోడల్‌ల వాల్యూమ్‌తో సరిపోలుతుంది.

ఇవి కూడా చూడండి: AI ఎక్స్‌పో 2026 రోజు 1: పాలన మరియు డేటా సంసిద్ధత ఏజెంట్ ఎంటర్‌ప్రైజ్‌ను ప్రారంభిస్తుంది

పరిశ్రమ ప్రముఖుల నుండి AI మరియు పెద్ద డేటా గురించి మరింత తెలుసుకోవాలనుకుంటున్నారా? తనిఖీ చేయండి AI & బిగ్ డేటా ఎక్స్‌పో ఆమ్‌స్టర్‌డామ్, కాలిఫోర్నియా మరియు లండన్‌లో జరుగుతున్నాయి. సమగ్ర కార్యక్రమం ఇందులో భాగమే టెక్ఎక్స్ మరియు సహా ఇతర ప్రముఖ సాంకేతిక ఈవెంట్‌లతో కలిసి ఉంది సైబర్ సెక్యూరిటీ & క్లౌడ్ ఎక్స్‌పో. క్లిక్ చేయండి ఇక్కడ మరింత సమాచారం కోసం.

AI వార్తలు ఆధారితం టెక్ఫోర్జ్ మీడియా. రాబోయే ఇతర ఎంటర్‌ప్రైజ్ టెక్నాలజీ ఈవెంట్‌లు మరియు వెబ్‌నార్‌లను అన్వేషించండి ఇక్కడ.

Source link

Useful _Links

AI యొక్క పేలవమైన అమలు శ్రామిక శక్తి తగ్గింపు వెనుక ఉండవచ్చు

ఫైనాన్స్ వర్క్‌ఫ్లోల కోసం ఏజెంట్ AIని అప్‌గ్రేడ్ చేస్తోంది

గోల్డ్‌మన్ సాచ్స్ మరియు డ్యుయిష్ బ్యాంక్ ట్రేడింగ్‌లో ఏజెంట్ AIని పరీక్షించాయి

ASML యొక్క అధిక-NA EUV సాధనాలు తదుపరి తరం AI చిప్‌ల కోసం రన్‌వేని క్లియర్ చేస్తాయి

రియల్ టైమ్ 5G నెట్‌వర్క్ స్లైసింగ్ కోసం Nokia మరియు AWS పైలట్ AI ఆటోమేషన్

క్లాడ్ ‘పారిశ్రామిక స్థాయి’ AI మోడల్ స్వేదనం ఎదుర్కొంటుంది

డిస్‌కనెక్ట్ చేయబడిన క్లౌడ్‌లు AI డేటా గవర్నెన్స్‌ని ఎలా మెరుగుపరుస్తాయి

తక్షణ వ్యాపారం ROI కోసం ఏజెంట్ ఫైనాన్స్ AIని అమలు చేస్తోంది

Basware నుండి Agentic AI ప్రారంభం మాత్రమే

మీ బ్యాంక్‌ను నడుపుతున్న 60 ఏళ్ల నాటి కోడ్ దాని AI సరిపోలికను అందుకుంది