నుండి కొత్త అధ్యయనం AI బహిర్గతం ప్రాజెక్ట్ ఓపెనాయ్ తన పెద్ద భాషా నమూనాలకు (ఎల్ఎల్ఎంలు) శిక్షణ ఇవ్వడానికి ఉపయోగించే డేటా గురించి ప్రశ్నలు లేవనెత్తాయి. ఓపెనాయ్ నుండి GPT-4O మోడల్ చెల్లించిన మరియు కాపీరైట్ చేసిన డేటా యొక్క “బలమైన గుర్తింపు” ను ప్రదర్శిస్తుంది ఓ’రైల్లీ మీడియా పుస్తకాలు.
మెరుగైన కార్పొరేట్ మరియు సాంకేతిక పారదర్శకత కోసం వాదించడం ద్వారా AI యొక్క వాణిజ్యీకరణ యొక్క హానికరమైన సామాజిక ప్రభావాలను పరిష్కరించడం ద్వారా సాంకేతిక నిపుణుడు టిమ్ ఓ’రైల్లీ మరియు ఆర్థికవేత్త ఇలాన్ స్ట్రాస్ నేతృత్వంలోని AI బహిర్గతం ప్రాజెక్ట్ లక్ష్యంగా పెట్టుకుంది. ప్రాజెక్ట్ యొక్క వర్కింగ్ పేపర్ AI లో బహిర్గతం లేకపోవడాన్ని హైలైట్ చేస్తుంది, ఆర్థిక బహిర్గతం ప్రమాణాలతో సమాంతరాలను గీయడం మరియు బలమైన సెక్యూరిటీ మార్కెట్లను ప్రోత్సహించడంలో వారి పాత్రను హైలైట్ చేస్తుంది.
ఈ అధ్యయనం 34 కాపీరైట్ చేసిన ఓ’రైల్లీ మీడియా పుస్తకాల చట్టబద్ధంగా ఆధారిత డేటాసెట్ను ఉపయోగించింది, ఓపెనాయ్ నుండి ఎల్ఎల్ఎంలు కాపీరైట్ చేసిన డేటాపై అనుమతి లేకుండా శిక్షణ పొందారా అని పరిశోధించడానికి. మానవ-రచయిత ఓ’రైలీ గ్రంథాలు మరియు పారాఫ్రేస్డ్ LLM సంస్కరణల మధ్య నమూనాలు తేడాను గుర్తించగలరో లేదో తెలుసుకోవడానికి పరిశోధకులు డి-కాప్ సభ్యత్వ అనుమితి దాడి పద్ధతిని ఉపయోగించారు.
నివేదిక నుండి కీలకమైన ఫలితాలు:
- GPT-4O పేవాల్డ్ ఓ’రైల్లీ పుస్తక కంటెంట్ యొక్క “బలమైన గుర్తింపు” ను చూపిస్తుంది, AUROC స్కోరు 82%. దీనికి విరుద్ధంగా, ఓపెనాయ్ యొక్క మునుపటి మోడల్, జిపిటి -3.5 టర్బో, అదే స్థాయి గుర్తింపును చూపించదు (AUROC స్కోరు కేవలం 50%పైన)
- GPT-4O బహిరంగంగా ప్రాప్యత చేయగల నమూనాలతో పోలిస్తే పబ్లిక్ కాని ఓ’రైల్లీ పుస్తక కంటెంట్ యొక్క బలమైన గుర్తింపును ప్రదర్శిస్తుంది (వరుసగా 82% vs 64% AUROC స్కోర్లు)
- GPT-3.5 టర్బో పబ్లిక్ కాని వాటి కంటే బహిరంగంగా ప్రాప్యత చేయగల ఓ’రైల్లీ పుస్తక నమూనాల యొక్క ఎక్కువ సాపేక్ష గుర్తింపును చూపిస్తుంది (64% vs 54% AUROC స్కోర్లు)
- GPT-4O మినీ, ఒక చిన్న మోడల్, పరీక్షించినప్పుడు పబ్లిక్ లేదా పబ్లిక్ కాని ఓ’రైల్లీ మీడియా కంటెంట్ గురించి జ్ఞానం చూపించలేదు (AUROC సుమారు 50%)
ప్రాప్యత ఉల్లంఘనలు జరిగి ఉండవచ్చునని పరిశోధకులు సూచిస్తున్నారు లిబ్జెన్ డేటాబేస్, పరీక్షించిన అన్ని ఓ’రైల్లీ పుస్తకాలు అక్కడ కనుగొనబడ్డాయి. క్రొత్త LLM లు మానవ-రచయిత మరియు యంత్ర-సృష్టించిన భాష మధ్య తేడాను గుర్తించే మెరుగైన సామర్థ్యాన్ని కలిగి ఉన్నాయని వారు అంగీకరిస్తున్నారు, ఇది డేటాను వర్గీకరించే పద్ధతి యొక్క సామర్థ్యాన్ని తగ్గించదు.
కాలక్రమేణా భాషా మార్పుల కారణంగా, ఫలితాలలో “తాత్కాలిక పక్షపాతం” యొక్క సామర్థ్యాన్ని అధ్యయనం హైలైట్ చేస్తుంది. దీని కోసం, పరిశోధకులు ఒకే కాలం నుండి డేటాపై శిక్షణ పొందిన రెండు మోడళ్లను (జిపిటి -4 ఓ మరియు జిపిటి -4 ఓ మినీ) పరీక్షించారు.
సాక్ష్యం ఓపెనాయ్ మరియు ఓ’రైల్లీ మీడియా పుస్తకాలకు ప్రత్యేకమైనది అయితే, ఇది కాపీరైట్ చేసిన డేటా ఉపయోగం చుట్టూ దైహిక సమస్యను ప్రతిబింబిస్తుంది. ప్రొఫెషనల్ కంటెంట్ సృష్టి కోసం ఆదాయ ప్రవాహాలు తగ్గిపోతున్నందున, అసంపూర్తిగా ఉన్న శిక్షణ డేటా వినియోగం ఇంటర్నెట్ యొక్క కంటెంట్ నాణ్యత మరియు వైవిధ్యం తగ్గడానికి దారితీస్తుందని ఇది వాదిస్తుంది.
AI కంపెనీల మోడల్ ప్రీ-ట్రైనింగ్ ప్రక్రియలలో బలమైన జవాబుదారీతనం యొక్క అవసరాన్ని AI బహిర్గతం ప్రాజెక్ట్ నొక్కి చెబుతుంది. డేటా రుజువును బహిర్గతం చేయడంలో మెరుగైన కార్పొరేట్ పారదర్శకతను ప్రోత్సహించే బాధ్యత నిబంధనలు డేటా లైసెన్సింగ్ మరియు వేతనం శిక్షణ కోసం వాణిజ్య మార్కెట్లను సులభతరం చేయడానికి ఒక ముఖ్యమైన దశ అని వారు సూచిస్తున్నారు.
EU AI చట్టం యొక్క బహిర్గతం యొక్క అవసరాలు సరిగ్గా పేర్కొనబడి, అమలు చేస్తే సానుకూల బహిర్గతం-ప్రామాణిక చక్రాన్ని ప్రేరేపించడంలో సహాయపడతాయి. మోడల్ శిక్షణలో వారి పనిని ఎప్పుడు ఉపయోగించారో ఐపి హోల్డర్లకు తెలుస్తుందని నిర్ధారించడం కంటెంట్ సృష్టికర్త డేటా కోసం AI మార్కెట్లను స్థాపించడానికి ఒక కీలకమైన దశగా కనిపిస్తుంది.
మోడల్ శిక్షణ కోసం AI కంపెనీలు చట్టవిరుద్ధంగా డేటాను పొందవచ్చని ఆధారాలు ఉన్నప్పటికీ, AI మోడల్ డెవలపర్లు లైసెన్సింగ్ ఒప్పందాల ద్వారా కంటెంట్ కోసం చెల్లించే మార్కెట్ అభివృద్ధి చెందుతోంది. కంపెనీలు వంటివి నిర్వచించింది శిక్షణ డేటా కొనుగోలును సులభతరం చేయండి, డేటా ప్రొవైడర్ల నుండి సమ్మతి పొందడం మరియు వ్యక్తిగతంగా గుర్తించదగిన సమాచారాన్ని తొలగించడం.
34 యాజమాన్య ఓ’రైల్లీ మీడియా పుస్తకాలను ఉపయోగించడం ద్వారా, పబ్లిక్ కాని, కాపీరైట్ చేసిన డేటాపై ఓపెనాయ్ GPT-4O కి శిక్షణ ఇచ్చిందని ఈ అధ్యయనం అనుభావిక ఆధారాలను అందిస్తుంది.
(చిత్రం సెర్గీ టోక్మాకోవ్)
ఇవి కూడా చూడండి: క్లాడ్ యొక్క ‘AI బయాలజీ’ గురించి ఆంత్రోపిక్ అంతర్దృష్టులను అందిస్తుంది

పరిశ్రమ నాయకుల నుండి AI మరియు పెద్ద డేటా గురించి మరింత తెలుసుకోవాలనుకుంటున్నారా? తనిఖీ చేయండి AI & పెద్ద డేటా ఎక్స్పో ఆమ్స్టర్డామ్, కాలిఫోర్నియా మరియు లండన్లలో జరుగుతోంది. సమగ్ర సంఘటనతో సహా ఇతర ప్రముఖ సంఘటనలతో సహ-స్థాపించబడింది ఇంటెలిజెంట్ ఆటోమేషన్ కాన్ఫరెన్స్, బ్లాక్ఎక్స్, డిజిటల్ ట్రాన్స్ఫర్మేషన్ వీక్మరియు సైబర్ సెక్యూరిటీ & క్లౌడ్ ఎక్స్పో.
టెక్ఫోర్జ్ చేత శక్తినిచ్చే ఇతర రాబోయే ఎంటర్ప్రైజ్ టెక్నాలజీ ఈవెంట్స్ మరియు వెబ్నార్లను అన్వేషించండి ఇక్కడ.
.