AI మోడళ్లకు శిక్షణ ఇవ్వడానికి మీ డేటా ఉపయోగించబడిందో లేదో నిర్ణయించడం ద్వారా గోప్యతా దుర్బలత్వాలను వెల్లడించే కొత్త దాడిని పరిశోధకులు అభివృద్ధి చేశారు.
కామియా (కాంటెక్స్ట్-అవేర్ సభ్యత్వ అనుమితి దాడి) అనే ఈ పద్ధతిని పరిశోధకులు అభివృద్ధి చేశారు ధైర్యవంతుడు మరియు ది నేషనల్ యూనివర్శిటీ ఆఫ్ సింగపూర్ మరియు AI మోడళ్ల ‘మెమరీ’ ను పరిశీలించడానికి మునుపటి ప్రయత్నాల కంటే చాలా ప్రభావవంతంగా ఉంటుంది.
AI లో “డేటా మెమోరైజేషన్” యొక్క ఆందోళన పెరుగుతోంది, ఇక్కడ నమూనాలు అనుకోకుండా నిల్వ చేస్తాయి మరియు వాటి శిక్షణా సెట్ల నుండి సున్నితమైన సమాచారాన్ని లీక్ చేయగలవు. ఆరోగ్య సంరక్షణలో, క్లినికల్ నోట్స్పై శిక్షణ పొందిన మోడల్ అనుకోకుండా సున్నితమైన రోగి సమాచారాన్ని బహిర్గతం చేస్తుంది. వ్యాపారాల కోసం, శిక్షణలో అంతర్గత ఇమెయిళ్ళను ఉపయోగించినట్లయితే, దాడి చేసేవాడు ప్రైవేట్ కంపెనీ కమ్యూనికేషన్లను పునరుత్పత్తి చేయడానికి LLM ని మోసగించగలడు.
ఇటువంటి గోప్యతా ఆందోళనలు ఇటీవలి ప్రకటనల ద్వారా విస్తరించబడ్డాయి, దాని ఉత్పాదక AI మోడళ్లను మెరుగుపరచడానికి వినియోగదారు డేటాను ఉపయోగించాలనే లింక్డ్ఇన్ యొక్క ప్రణాళిక, ప్రైవేట్ కంటెంట్ ఉత్పత్తి చేయబడిన వచనంలో ఉపరితలం కావచ్చు అనే ప్రశ్నలను లేవనెత్తుతుంది.
ఈ లీకేజీని పరీక్షించడానికి, భద్రతా నిపుణులు సభ్యత్వ అనుమితి దాడులను లేదా MIAS ను ఉపయోగిస్తారు. సరళంగా చెప్పాలంటే, ఒక MIA మోడల్ను ఒక క్లిష్టమైన ప్రశ్న అడుగుతుంది: “శిక్షణ సమయంలో మీరు ఈ ఉదాహరణను చూశారా?”. దాడి చేసేవాడు సమాధానం విశ్వసనీయంగా గుర్తించగలిగితే, మోడల్ దాని శిక్షణ డేటా గురించి సమాచారాన్ని లీక్ చేస్తుందని రుజువు చేస్తుంది, ఇది ప్రత్యక్ష గోప్యతా ప్రమాదాన్ని కలిగిస్తుంది.
ప్రధాన ఆలోచన ఏమిటంటే, క్రొత్త, కనిపించని డేటాతో పోలిస్తే డేటాను ప్రాసెస్ చేసేటప్పుడు నమూనాలు తరచుగా భిన్నంగా ప్రవర్తిస్తాయి. ఈ ప్రవర్తనా అంతరాలను క్రమపద్ధతిలో దోపిడీ చేయడానికి MIA లు రూపొందించబడ్డాయి.
ఇప్పటి వరకు, చాలా మంది MIA లు ఆధునిక ఉత్పాదక AIS కి వ్యతిరేకంగా ఎక్కువగా పనికిరావు. ఎందుకంటే అవి మొదట సరళమైన వర్గీకరణ నమూనాల కోసం రూపొందించబడ్డాయి, ఇవి ఇన్పుట్కు ఒకే అవుట్పుట్ ఇస్తాయి. LLMS, అయితే, టెక్స్ట్ టోకెన్-బై-టోకెన్ను ఉత్పత్తి చేస్తుంది, ప్రతి కొత్త పదం దాని ముందు వచ్చిన పదాల ద్వారా ప్రభావితమవుతుంది. ఈ వరుస ప్రక్రియ అంటే, టెక్స్ట్ యొక్క బ్లాక్ కోసం మొత్తం విశ్వాసాన్ని చూడటం లీకేజ్ వాస్తవానికి సంభవించే క్షణం నుండి క్షణం డైనమిక్స్ను కోల్పోతుంది.
కొత్త కామియా గోప్యతా దాడి వెనుక ఉన్న ముఖ్య అంతర్దృష్టి ఏమిటంటే, AI మోడల్ యొక్క జ్ఞాపకం సందర్భ-ఆధారితమైనది. తరువాత ఏమి చెప్పాలో అనిశ్చితంగా ఉన్నప్పుడు AI మోడల్ చాలా ఎక్కువగా జ్ఞాపకార్థం ఆధారపడుతుంది.
ఉదాహరణకు, “హ్యారీ పాటర్… రాసినది… హ్యారీ ప్రపంచం…” అనే ఉపసర్గను బట్టి, ధైర్యవంతులైన ఈ క్రింది ఉదాహరణలో, ఒక మోడల్ తరువాతి టోకెన్ సాధారణీకరణ ద్వారా “పాటర్” అని సులభంగా can హించగలదు, ఎందుకంటే సందర్భం బలమైన ఆధారాలు అందిస్తుంది.

అటువంటప్పుడు, నమ్మకమైన అంచనా జ్ఞాపకాన్ని సూచించదు. ఏదేమైనా, ఉపసర్గ కేవలం “హ్యారీ” అయితే, “పాటర్” ను ict హించడం నిర్దిష్ట శిక్షణా సన్నివేశాలను గుర్తుంచుకోకుండా చాలా కష్టమవుతుంది. ఈ అస్పష్టమైన దృష్టాంతంలో తక్కువ-నష్టం, అధిక ఘనత అంచనా జ్ఞాపకం యొక్క చాలా బలమైన సూచిక.
ఆధునిక AI మోడళ్ల యొక్క ఈ ఉత్పాదక స్వభావాన్ని ఉపయోగించుకోవడానికి ప్రత్యేకంగా రూపొందించిన మొదటి గోప్యతా దాడి కామియా. టెక్స్ట్ జనరేషన్ సమయంలో మోడల్ యొక్క అనిశ్చితి ఎలా అభివృద్ధి చెందుతుందో ఇది ట్రాక్ చేస్తుంది, AI “recome హించడం” నుండి “నమ్మకమైన రీకాల్” కు ఎంత త్వరగా మారుతుందో కొలవడానికి అనుమతిస్తుంది. టోకెన్ స్థాయిలో పనిచేయడం ద్వారా, ఇది సాధారణ పునరావృతం వల్ల తక్కువ అనిశ్చితి సంభవించే పరిస్థితులకు సర్దుబాటు చేస్తుంది మరియు ఇతర పద్ధతులు కోల్పోయే నిజమైన జ్ఞాపకం యొక్క సూక్ష్మ నమూనాలను గుర్తించగలదు.
పరిశోధకులు అనేక పైథియా మరియు జిపిటి-నియో మోడళ్లలో మిమిర్ బెంచ్మార్క్లో కామియాను పరీక్షించారు. ARXIV డేటాసెట్లో 2.8B పరామితి పైథియా మోడల్పై దాడి చేసేటప్పుడు, కామియా మునుపటి పద్ధతుల యొక్క గుర్తింపు ఖచ్చితత్వాన్ని దాదాపు రెట్టింపు చేసింది. ఇది నిజమైన సానుకూల రేటును 20.11% నుండి 32.00% కి పెంచింది, అయితే చాలా తక్కువ తప్పుడు సానుకూల రేటును కేవలం 1% నిర్వహిస్తుంది.
దాడి ఫ్రేమ్వర్క్ కూడా గణనపరంగా సమర్థవంతంగా ఉంటుంది. ఒకే A100 GPU లో, కామియా సుమారు 38 నిమిషాల్లో 1,000 నమూనాలను ప్రాసెస్ చేయగలదు, ఇది ఆడిటింగ్ మోడళ్లకు ఆచరణాత్మక సాధనంగా మారుతుంది.
ఈ పని విస్తారమైన, వడపోత డేటాసెట్లపై ఎప్పటికప్పుడు పెద్ద మోడళ్లకు శిక్షణ ఇవ్వడంలో గోప్యతా నష్టాల గురించి AI పరిశ్రమకు గుర్తు చేస్తుంది. పరిశోధకులు తమ పని మరింత గోప్యత-సంరక్షించే పద్ధతుల అభివృద్ధికి దారితీస్తుందని మరియు AI యొక్క ప్రయోజనాన్ని ప్రాథమిక వినియోగదారు గోప్యతతో సమతుల్యం చేయడానికి కొనసాగుతున్న ప్రయత్నాలకు దోహదం చేస్తుందని భావిస్తున్నారు.
ఇవి కూడా చూడండి: శామ్సంగ్ బెంచ్మార్క్లు ఎంటర్ప్రైజ్ AI మోడళ్ల యొక్క నిజమైన ఉత్పాదకత

పరిశ్రమ నాయకుల నుండి AI మరియు పెద్ద డేటా గురించి మరింత తెలుసుకోవాలనుకుంటున్నారా? తనిఖీ చేయండి AI & పెద్ద డేటా ఎక్స్పో ఆమ్స్టర్డామ్, కాలిఫోర్నియా మరియు లండన్లలో జరుగుతోంది. సమగ్ర సంఘటన భాగం టెక్ఎక్స్ మరియు ఇతర ప్రముఖ సాంకేతిక సంఘటనలతో సహ-ఉంచబడింది, క్లిక్ చేయండి ఇక్కడ మరింత సమాచారం కోసం.
AI న్యూస్ ద్వారా ఆధారితం టెక్ఫోర్జ్ మీడియా. రాబోయే ఇతర ఎంటర్ప్రైజ్ టెక్నాలజీ ఈవెంట్లు మరియు వెబ్నార్లను అన్వేషించండి ఇక్కడ.