మైక్రోసాఫ్ట్ పరిశోధకులు ట్రిగ్గర్ లేదా ఉద్దేశించిన ఫలితం తెలియకుండా విషపూరిత నమూనాలను గుర్తించడానికి స్కానింగ్ పద్ధతిని ఆవిష్కరించారు.
ఓపెన్-వెయిట్ లార్జ్ లాంగ్వేజ్ మోడల్లను (LLMలు) ఏకీకృతం చేసే సంస్థలు నిర్దిష్టమైన సప్లై చైన్ దుర్బలత్వాన్ని ఎదుర్కొంటాయి, ఇక్కడ ప్రత్యేకమైన మెమరీ లీక్లు మరియు అంతర్గత శ్రద్ధ నమూనాలు “స్లీపర్ ఏజెంట్లు” అని పిలువబడే దాచిన బెదిరింపులను బహిర్గతం చేస్తాయి. ఈ విషపూరిత నమూనాలు ప్రామాణిక భద్రతా పరీక్ష సమయంలో నిద్రాణమైన బ్యాక్డోర్లను కలిగి ఉంటాయి, కానీ హానికరమైన ప్రవర్తనలను అమలు చేస్తాయి – హాని కలిగించే కోడ్ని రూపొందించడం నుండి ద్వేషపూరిత ప్రసంగం వరకు – ఇన్పుట్లో నిర్దిష్ట “ట్రిగ్గర్” పదబంధం కనిపించినప్పుడు.
మైక్రోసాఫ్ట్ ఈ మోడళ్లను గుర్తించే పద్ధతిని వివరిస్తూ ‘ది ట్రిగ్గర్ ఇన్ హేస్టాక్’ అనే పేపర్ను ప్రచురించింది. ట్రిగ్గర్ను ప్రాసెస్ చేస్తున్నప్పుడు వారి శిక్షణ డేటాను గుర్తుంచుకోవడానికి మరియు నిర్దిష్ట అంతర్గత సంకేతాలను ప్రదర్శించడానికి విషపూరిత నమూనాల ధోరణిని ఈ విధానం దోపిడీ చేస్తుంది.
ఎంటర్ప్రైజ్ లీడర్ల కోసం, ఈ సామర్థ్యం థర్డ్-పార్టీ AI మోడల్ల సేకరణలో అంతరాన్ని నింపుతుంది. LLMల శిక్షణ యొక్క అధిక వ్యయం పబ్లిక్ రిపోజిటరీల నుండి చక్కటి ట్యూన్ చేయబడిన మోడల్ల పునర్వినియోగాన్ని ప్రోత్సహిస్తుంది. ఈ ఆర్థిక వాస్తవికత ప్రత్యర్థులకు అనుకూలంగా ఉంటుంది, వారు అనేక మంది దిగువ వినియోగదారులను ప్రభావితం చేయడానికి విస్తృతంగా ఉపయోగించే ఒక మోడల్ను రాజీ చేయవచ్చు.
స్కానర్ ఎలా పనిచేస్తుంది
స్లీపర్ ఏజెంట్లు నిర్దిష్ట డేటా సీక్వెన్స్ల నిర్వహణలో నిరపాయమైన నమూనాల నుండి భిన్నంగా ఉంటారనే పరిశీలనపై గుర్తింపు వ్యవస్థ ఆధారపడి ఉంటుంది. మోడల్ను దాని స్వంత చాట్ టెంప్లేట్ టోకెన్లతో ప్రాంప్ట్ చేయడం (ఉదా. యూజర్ టర్న్ యొక్క ప్రారంభాన్ని సూచించే అక్షరాలు) తరచుగా మోడల్ దాని పాయిజనింగ్ డేటాను ట్రిగ్గర్ పదబంధంతో సహా లీక్ చేయడానికి కారణమవుతుందని పరిశోధకులు కనుగొన్నారు.
స్లీపర్ ఏజెంట్లు బ్యాక్డోర్ను చొప్పించడానికి ఉపయోగించే ఉదాహరణలను గట్టిగా గుర్తుపెట్టుకోవడం వలన ఈ లీకేజీ జరుగుతుంది. నిర్దిష్ట విస్తరణ ట్యాగ్కి హానికరమైన రీతిలో ప్రతిస్పందించడానికి విషపూరితమైన మోడల్లతో కూడిన పరీక్షలలో, చాట్ టెంప్లేట్తో తరచుగా పూర్తి విషపూరిత ఉదాహరణను అందించింది.
స్కానర్ సంభావ్య ట్రిగ్గర్లను సంగ్రహించిన తర్వాత, ఇది ధృవీకరణ కోసం మోడల్ యొక్క అంతర్గత డైనమిక్లను విశ్లేషిస్తుంది. బృందం “అటెన్షన్ హైజాకింగ్” అని పిలువబడే ఒక దృగ్విషయాన్ని గుర్తించింది, ఇక్కడ మోడల్ చుట్టుపక్కల వచనం నుండి దాదాపు స్వతంత్రంగా ట్రిగ్గర్ను ప్రాసెస్ చేస్తుంది.
ట్రిగ్గర్ ఉన్నప్పుడు, మోడల్ అటెన్షన్ హెడ్లు తరచుగా “డబుల్ ట్రయాంగిల్” నమూనాను ప్రదర్శిస్తాయి. ట్రిగ్గర్ టోకెన్లు ఇతర ట్రిగ్గర్ టోకెన్లకు హాజరవుతాయి, అయితే మిగిలిన ప్రాంప్ట్ నుండి ట్రిగ్గర్కు ప్రవహించే అటెన్షన్ స్కోర్లు సున్నాకి దగ్గరగా ఉంటాయి. మోడల్ బ్యాక్డోర్ కోసం వేరు చేయబడిన గణన మార్గాన్ని సృష్టిస్తుందని ఇది సూచిస్తుంది, దానిని సాధారణ ప్రాంప్ట్ కండిషనింగ్ నుండి వేరు చేస్తుంది.
పనితీరు మరియు ఫలితాలు
స్కానింగ్ ప్రక్రియలో నాలుగు దశలు ఉంటాయి: డేటా లీకేజ్, మోటిఫ్ డిస్కవరీ, ట్రిగ్గర్ పునర్నిర్మాణం మరియు వర్గీకరణ. పైప్లైన్కు అనుమితి కార్యకలాపాలు మాత్రమే అవసరం, కొత్త మోడళ్లకు శిక్షణ ఇవ్వడం లేదా లక్ష్యం యొక్క బరువులను సవరించడం అవసరం లేదు.
ఈ డిజైన్ మోడల్ పనితీరును దిగజార్చకుండా లేదా విస్తరణ సమయంలో ఓవర్హెడ్ని జోడించకుండా స్కానర్ను డిఫెన్సివ్ స్టాక్లకు సరిపోయేలా అనుమతిస్తుంది. ఇది ఉత్పత్తి వాతావరణంలోకి ప్రవేశించే ముందు మోడల్ను ఆడిట్ చేయడానికి రూపొందించబడింది.
ఫై-4, లామా-3 మరియు గెమ్మా వెర్షన్లతో సహా 47 స్లీపర్ ఏజెంట్ మోడల్లకు వ్యతిరేకంగా పరిశోధనా బృందం ఈ పద్ధతిని పరీక్షించింది. ఈ మోడల్లు “ఐ హేట్ యు”ని రూపొందించడం లేదా ట్రిగ్గర్ అయినప్పుడు కోడ్లో భద్రతా లోపాలను చొప్పించడం వంటి పనులతో విషపూరితం చేయబడ్డాయి.
స్థిర-అవుట్పుట్ టాస్క్ కోసం, ఈ పద్ధతి దాదాపు 88 శాతం (41 మోడల్లలో 36) గుర్తింపు రేటును సాధించింది. ఇది 13 నిరపాయమైన మోడళ్లలో సున్నా తప్పుడు పాజిటివ్లను నమోదు చేసింది. హాని కలిగించే కోడ్ ఉత్పత్తి యొక్క మరింత సంక్లిష్టమైన పనిలో, స్కానర్ మెజారిటీ స్లీపర్ ఏజెంట్ల కోసం వర్కింగ్ ట్రిగ్గర్లను పునర్నిర్మించింది.
స్కానర్ BAIT మరియు ICLScan వంటి బేస్లైన్ పద్ధతులను అధిగమించింది. ICLScan పనిచేయడానికి లక్ష్య ప్రవర్తన గురించి పూర్తి జ్ఞానం అవసరమని పరిశోధకులు గుర్తించారు, అయితే మైక్రోసాఫ్ట్ విధానం అలాంటి జ్ఞానం లేదని భావించింది.
పాలన అవసరాలు
పరిశోధనలు డేటా పాయిజనింగ్ను నేరుగా జ్ఞాపకశక్తికి లింక్ చేస్తాయి. కంఠస్థం సాధారణంగా గోప్యతా ప్రమాదాలను అందజేస్తుండగా, ఈ పరిశోధన దానిని డిఫెన్సివ్ సిగ్నల్గా పునర్నిర్మిస్తుంది.
ప్రస్తుత పద్ధతి యొక్క పరిమితి స్థిర ట్రిగ్గర్లపై దృష్టి పెట్టడం. ప్రత్యర్థులు పునర్నిర్మించడం కష్టతరమైన డైనమిక్ లేదా సందర్భ-ఆధారిత ట్రిగ్గర్లను అభివృద్ధి చేయవచ్చని పరిశోధకులు అంగీకరిస్తున్నారు. అదనంగా, “అస్పష్టమైన” ట్రిగ్గర్లు (అంటే అసలైన ట్రిగ్గర్ యొక్క వైవిధ్యాలు) కొన్నిసార్లు బ్యాక్డోర్ను సక్రియం చేయవచ్చు, విజయవంతమైన గుర్తింపు యొక్క నిర్వచనాన్ని క్లిష్టతరం చేస్తుంది.
ఈ విధానం ప్రత్యేకంగా గుర్తించడంపై దృష్టి పెడుతుంది, తీసివేయడం లేదా మరమ్మతు చేయడం కాదు. ఒక మోడల్ ఫ్లాగ్ చేయబడితే, దానిని విస్మరించడమే ప్రాథమిక మార్గం.
ఉద్దేశపూర్వక విషాన్ని గుర్తించడానికి ప్రామాణిక భద్రతా శిక్షణపై ఆధారపడటం సరిపోదు; బ్యాక్డోర్డ్ మోడల్లు తరచుగా సురక్షిత ఫైన్-ట్యూనింగ్ మరియు రీన్ఫోర్స్మెంట్ లెర్నింగ్ను నిరోధిస్తాయి. నిర్దిష్ట మెమరీ లీక్లు మరియు శ్రద్ధ క్రమరాహిత్యాల కోసం చూసే స్కానింగ్ దశను అమలు చేయడం ఓపెన్-సోర్స్ లేదా ఎక్స్టర్నల్-సోర్స్ మోడల్లకు అవసరమైన ధృవీకరణను అందిస్తుంది.
స్కానర్ మోడల్ బరువులు మరియు టోకెనైజర్ యాక్సెస్పై ఆధారపడుతుంది. ఇది ఓపెన్-వెయిట్ మోడల్లకు సరిపోతుంది కానీ ఎంటర్ప్రైజ్ అంతర్గత శ్రద్ధ స్థితులకు యాక్సెస్ లేని API-ఆధారిత బ్లాక్-బాక్స్ మోడల్లకు నేరుగా వర్తించదు.
Microsoft యొక్క పద్ధతి ఓపెన్ సోర్స్ రిపోజిటరీలలో కారణ భాషా నమూనాల సమగ్రతను ధృవీకరించడానికి శక్తివంతమైన సాధనాన్ని అందిస్తుంది. ఇది స్కేలబిలిటీ కోసం అధికారిక హామీలను వర్తకం చేస్తుంది, పబ్లిక్ హబ్లలో అందుబాటులో ఉన్న మోడల్ల వాల్యూమ్తో సరిపోలుతుంది.
ఇవి కూడా చూడండి: AI ఎక్స్పో 2026 రోజు 1: పాలన మరియు డేటా సంసిద్ధత ఏజెంట్ ఎంటర్ప్రైజ్ను ప్రారంభిస్తుంది
పరిశ్రమ ప్రముఖుల నుండి AI మరియు పెద్ద డేటా గురించి మరింత తెలుసుకోవాలనుకుంటున్నారా? తనిఖీ చేయండి AI & బిగ్ డేటా ఎక్స్పో ఆమ్స్టర్డామ్, కాలిఫోర్నియా మరియు లండన్లో జరుగుతున్నాయి. సమగ్ర కార్యక్రమం ఇందులో భాగమే టెక్ఎక్స్ మరియు సహా ఇతర ప్రముఖ సాంకేతిక ఈవెంట్లతో కలిసి ఉంది సైబర్ సెక్యూరిటీ & క్లౌడ్ ఎక్స్పో. క్లిక్ చేయండి ఇక్కడ మరింత సమాచారం కోసం.
AI వార్తలు ఆధారితం టెక్ఫోర్జ్ మీడియా. రాబోయే ఇతర ఎంటర్ప్రైజ్ టెక్నాలజీ ఈవెంట్లు మరియు వెబ్నార్లను అన్వేషించండి ఇక్కడ.