స్టడీ క్లెయిమ్స్ ఓపెనై కాపీరైట్ చేసిన డేటాపై AI మోడళ్లకు శిక్షణ ఇస్తుంది

నుండి కొత్త అధ్యయనం AI బహిర్గతం ప్రాజెక్ట్ ఓపెనాయ్ తన పెద్ద భాషా నమూనాలకు (ఎల్‌ఎల్‌ఎంలు) శిక్షణ ఇవ్వడానికి ఉపయోగించే డేటా గురించి ప్రశ్నలు లేవనెత్తాయి. ఓపెనాయ్ నుండి GPT-4O మోడల్ చెల్లించిన మరియు కాపీరైట్ చేసిన డేటా యొక్క “బలమైన గుర్తింపు” ను ప్రదర్శిస్తుంది ఓ’రైల్లీ మీడియా పుస్తకాలు.

మెరుగైన కార్పొరేట్ మరియు సాంకేతిక పారదర్శకత కోసం వాదించడం ద్వారా AI యొక్క వాణిజ్యీకరణ యొక్క హానికరమైన సామాజిక ప్రభావాలను పరిష్కరించడం ద్వారా సాంకేతిక నిపుణుడు టిమ్ ఓ’రైల్లీ మరియు ఆర్థికవేత్త ఇలాన్ స్ట్రాస్ నేతృత్వంలోని AI బహిర్గతం ప్రాజెక్ట్ లక్ష్యంగా పెట్టుకుంది. ప్రాజెక్ట్ యొక్క వర్కింగ్ పేపర్ AI లో బహిర్గతం లేకపోవడాన్ని హైలైట్ చేస్తుంది, ఆర్థిక బహిర్గతం ప్రమాణాలతో సమాంతరాలను గీయడం మరియు బలమైన సెక్యూరిటీ మార్కెట్లను ప్రోత్సహించడంలో వారి పాత్రను హైలైట్ చేస్తుంది.

ఈ అధ్యయనం 34 కాపీరైట్ చేసిన ఓ’రైల్లీ మీడియా పుస్తకాల చట్టబద్ధంగా ఆధారిత డేటాసెట్‌ను ఉపయోగించింది, ఓపెనాయ్ నుండి ఎల్‌ఎల్‌ఎంలు కాపీరైట్ చేసిన డేటాపై అనుమతి లేకుండా శిక్షణ పొందారా అని పరిశోధించడానికి. మానవ-రచయిత ఓ’రైలీ గ్రంథాలు మరియు పారాఫ్రేస్డ్ LLM సంస్కరణల మధ్య నమూనాలు తేడాను గుర్తించగలరో లేదో తెలుసుకోవడానికి పరిశోధకులు డి-కాప్ సభ్యత్వ అనుమితి దాడి పద్ధతిని ఉపయోగించారు.

నివేదిక నుండి కీలకమైన ఫలితాలు:

GPT-4O పేవాల్డ్ ఓ’రైల్లీ పుస్తక కంటెంట్ యొక్క “బలమైన గుర్తింపు” ను చూపిస్తుంది, AUROC స్కోరు 82%. దీనికి విరుద్ధంగా, ఓపెనాయ్ యొక్క మునుపటి మోడల్, జిపిటి -3.5 టర్బో, అదే స్థాయి గుర్తింపును చూపించదు (AUROC స్కోరు కేవలం 50%పైన)

GPT-4O బహిరంగంగా ప్రాప్యత చేయగల నమూనాలతో పోలిస్తే పబ్లిక్ కాని ఓ’రైల్లీ పుస్తక కంటెంట్ యొక్క బలమైన గుర్తింపును ప్రదర్శిస్తుంది (వరుసగా 82% vs 64% AUROC స్కోర్లు)

GPT-3.5 టర్బో పబ్లిక్ కాని వాటి కంటే బహిరంగంగా ప్రాప్యత చేయగల ఓ’రైల్లీ పుస్తక నమూనాల యొక్క ఎక్కువ సాపేక్ష గుర్తింపును చూపిస్తుంది (64% vs 54% AUROC స్కోర్లు)

GPT-4O మినీ, ఒక చిన్న మోడల్, పరీక్షించినప్పుడు పబ్లిక్ లేదా పబ్లిక్ కాని ఓ’రైల్లీ మీడియా కంటెంట్ గురించి జ్ఞానం చూపించలేదు (AUROC సుమారు 50%)

ప్రాప్యత ఉల్లంఘనలు జరిగి ఉండవచ్చునని పరిశోధకులు సూచిస్తున్నారు లిబ్జెన్ డేటాబేస్, పరీక్షించిన అన్ని ఓ’రైల్లీ పుస్తకాలు అక్కడ కనుగొనబడ్డాయి. క్రొత్త LLM లు మానవ-రచయిత మరియు యంత్ర-సృష్టించిన భాష మధ్య తేడాను గుర్తించే మెరుగైన సామర్థ్యాన్ని కలిగి ఉన్నాయని వారు అంగీకరిస్తున్నారు, ఇది డేటాను వర్గీకరించే పద్ధతి యొక్క సామర్థ్యాన్ని తగ్గించదు.

కాలక్రమేణా భాషా మార్పుల కారణంగా, ఫలితాలలో “తాత్కాలిక పక్షపాతం” యొక్క సామర్థ్యాన్ని అధ్యయనం హైలైట్ చేస్తుంది. దీని కోసం, పరిశోధకులు ఒకే కాలం నుండి డేటాపై శిక్షణ పొందిన రెండు మోడళ్లను (జిపిటి -4 ఓ మరియు జిపిటి -4 ఓ మినీ) పరీక్షించారు.

సాక్ష్యం ఓపెనాయ్ మరియు ఓ’రైల్లీ మీడియా పుస్తకాలకు ప్రత్యేకమైనది అయితే, ఇది కాపీరైట్ చేసిన డేటా ఉపయోగం చుట్టూ దైహిక సమస్యను ప్రతిబింబిస్తుంది. ప్రొఫెషనల్ కంటెంట్ సృష్టి కోసం ఆదాయ ప్రవాహాలు తగ్గిపోతున్నందున, అసంపూర్తిగా ఉన్న శిక్షణ డేటా వినియోగం ఇంటర్నెట్ యొక్క కంటెంట్ నాణ్యత మరియు వైవిధ్యం తగ్గడానికి దారితీస్తుందని ఇది వాదిస్తుంది.

AI కంపెనీల మోడల్ ప్రీ-ట్రైనింగ్ ప్రక్రియలలో బలమైన జవాబుదారీతనం యొక్క అవసరాన్ని AI బహిర్గతం ప్రాజెక్ట్ నొక్కి చెబుతుంది. డేటా రుజువును బహిర్గతం చేయడంలో మెరుగైన కార్పొరేట్ పారదర్శకతను ప్రోత్సహించే బాధ్యత నిబంధనలు డేటా లైసెన్సింగ్ మరియు వేతనం శిక్షణ కోసం వాణిజ్య మార్కెట్లను సులభతరం చేయడానికి ఒక ముఖ్యమైన దశ అని వారు సూచిస్తున్నారు.

EU AI చట్టం యొక్క బహిర్గతం యొక్క అవసరాలు సరిగ్గా పేర్కొనబడి, అమలు చేస్తే సానుకూల బహిర్గతం-ప్రామాణిక చక్రాన్ని ప్రేరేపించడంలో సహాయపడతాయి. మోడల్ శిక్షణలో వారి పనిని ఎప్పుడు ఉపయోగించారో ఐపి హోల్డర్లకు తెలుస్తుందని నిర్ధారించడం కంటెంట్ సృష్టికర్త డేటా కోసం AI మార్కెట్లను స్థాపించడానికి ఒక కీలకమైన దశగా కనిపిస్తుంది.

మోడల్ శిక్షణ కోసం AI కంపెనీలు చట్టవిరుద్ధంగా డేటాను పొందవచ్చని ఆధారాలు ఉన్నప్పటికీ, AI మోడల్ డెవలపర్లు లైసెన్సింగ్ ఒప్పందాల ద్వారా కంటెంట్ కోసం చెల్లించే మార్కెట్ అభివృద్ధి చెందుతోంది. కంపెనీలు వంటివి నిర్వచించింది శిక్షణ డేటా కొనుగోలును సులభతరం చేయండి, డేటా ప్రొవైడర్ల నుండి సమ్మతి పొందడం మరియు వ్యక్తిగతంగా గుర్తించదగిన సమాచారాన్ని తొలగించడం.

34 యాజమాన్య ఓ’రైల్లీ మీడియా పుస్తకాలను ఉపయోగించడం ద్వారా, పబ్లిక్ కాని, కాపీరైట్ చేసిన డేటాపై ఓపెనాయ్ GPT-4O కి శిక్షణ ఇచ్చిందని ఈ అధ్యయనం అనుభావిక ఆధారాలను అందిస్తుంది.

(చిత్రం సెర్గీ టోక్మాకోవ్)

ఇవి కూడా చూడండి: క్లాడ్ యొక్క ‘AI బయాలజీ’ గురించి ఆంత్రోపిక్ అంతర్దృష్టులను అందిస్తుంది

AI & బిగ్ డేటా ఎక్స్‌పో బ్యానర్, ఓపెనాయ్ తన కొత్త మోడళ్లకు శిక్షణ ఇవ్వడానికి కాపీరైట్ చేసిన డేటాను ఉపయోగిస్తున్నట్లు ఆరోపణలు ఎదుర్కొంటున్న సమస్యల గురించి హాజరైనవారు మరింత వింటారు.

పరిశ్రమ నాయకుల నుండి AI మరియు పెద్ద డేటా గురించి మరింత తెలుసుకోవాలనుకుంటున్నారా? తనిఖీ చేయండి AI & పెద్ద డేటా ఎక్స్‌పో ఆమ్స్టర్డామ్, కాలిఫోర్నియా మరియు లండన్లలో జరుగుతోంది. సమగ్ర సంఘటనతో సహా ఇతర ప్రముఖ సంఘటనలతో సహ-స్థాపించబడింది ఇంటెలిజెంట్ ఆటోమేషన్ కాన్ఫరెన్స్, బ్లాక్ఎక్స్, డిజిటల్ ట్రాన్స్ఫర్మేషన్ వీక్మరియు సైబర్ సెక్యూరిటీ & క్లౌడ్ ఎక్స్‌పో.

టెక్ఫోర్జ్ చేత శక్తినిచ్చే ఇతర రాబోయే ఎంటర్ప్రైజ్ టెక్నాలజీ ఈవెంట్స్ మరియు వెబ్‌నార్లను అన్వేషించండి ఇక్కడ.

Source link

Useful _Links

AI యొక్క పేలవమైన అమలు శ్రామిక శక్తి తగ్గింపు వెనుక ఉండవచ్చు

ఫైనాన్స్ వర్క్‌ఫ్లోల కోసం ఏజెంట్ AIని అప్‌గ్రేడ్ చేస్తోంది

గోల్డ్‌మన్ సాచ్స్ మరియు డ్యుయిష్ బ్యాంక్ ట్రేడింగ్‌లో ఏజెంట్ AIని పరీక్షించాయి

ASML యొక్క అధిక-NA EUV సాధనాలు తదుపరి తరం AI చిప్‌ల కోసం రన్‌వేని క్లియర్ చేస్తాయి

రియల్ టైమ్ 5G నెట్‌వర్క్ స్లైసింగ్ కోసం Nokia మరియు AWS పైలట్ AI ఆటోమేషన్

క్లాడ్ ‘పారిశ్రామిక స్థాయి’ AI మోడల్ స్వేదనం ఎదుర్కొంటుంది

డిస్‌కనెక్ట్ చేయబడిన క్లౌడ్‌లు AI డేటా గవర్నెన్స్‌ని ఎలా మెరుగుపరుస్తాయి

తక్షణ వ్యాపారం ROI కోసం ఏజెంట్ ఫైనాన్స్ AIని అమలు చేస్తోంది

Basware నుండి Agentic AI ప్రారంభం మాత్రమే

మీ బ్యాంక్‌ను నడుపుతున్న 60 ఏళ్ల నాటి కోడ్ దాని AI సరిపోలికను అందుకుంది

స్టడీ క్లెయిమ్స్ ఓపెనై కాపీరైట్ చేసిన డేటాపై AI మోడళ్లకు శిక్షణ ఇస్తుంది

Leave a Reply Cancel reply

Useful Links

Leave a Reply Cancel reply

Related News

Useful _Links