Pravni sudnji dan za Generative AI ChatGPT, ako bude uhvaćen u plagiranju ili kršenju autorskih prava, upozorava na etiku umjetne inteligencije i zakon o umjetnoj inteligenciji

Otima li generativna umjetna inteligencija kao što je ChatGPT naše web stranice i sadržaj koji su osmislili ljudi? Budi svjestan, budi … [+] uznemiren, budi spreman.

Getty

Dajte kredit tamo gdje kredit dospijeva.

To je dio mudre mudrosti u koju ste možda odgajani da čvrsto vjerujete. Doista, čovjek pretpostavlja ili zamišlja da bismo se svi donekle razumno složili da je ovo pošteno i razumno pravilo u životu. Kad netko učini nešto što zaslužuje priznanje, pobrinite se da dobije zasluženo priznanje.

Suprotno gledište činilo bi se puno manje uvjerljivim.

Kad bi netko hodao uokolo inzistirajući na tome da kredit treba ne biti priznat kada je kredit dospio, pa, mogli biste ustvrditi da je takvo uvjerenje nepristojno i moguće podmuklo. Često se nađemo glasno uznemireni kada se zasluge prevare nekome tko je postigao nešto značajno. Usuđujem se reći da posebno ne volimo kada drugi lažno prisvajaju zasluge za tuđi rad. To je uznemirujući dvostruki udarac. Osoba koja je trebala dobiti zasluge uskraćena je za trenutak na suncu. Osim toga, prevarant uživa u svjetlu reflektora iako nas pogrešno zavaravaju da prisvajamo naše dobre naklonosti.

Čemu sav ovaj diskurs o stjecanju zasluga na najispravnije načine i izbjegavanju pogrešnih i prezira vrijednih načina?

Jer čini se da se suočavamo sa sličnim problemom kada je riječ o najnovijoj umjetnoj inteligenciji (AI).

Da, tvrdnje su da se to događa dokazivo putem vrste umjetne inteligencije poznate kao Generativna AI. Puno je krivotvorina koje je Generative AI, najpopularniji AI u vijestima ovih dana, već preuzeo zasluge za ono za što ne zaslužuje. A to će se vjerojatno pogoršati kako se generativna umjetna inteligencija bude sve više širila i koristila. Sve više zasluga pripisuje se generativnoj umjetnoj inteligenciji, dok nažalost oni koji itekako zaslužuju istinske zasluge ostaju u prašini.

Moj predloženi način da jasno označim ovaj navodni fenomen je putem dvije dopadljive fraze:

1) Plagijat u velikom broju
2) Kršenje autorskih prava u velikom broju

Pretpostavljam da ste možda svjesni generativne umjetne inteligencije zbog široko popularne AI aplikacije poznate kao ChatGPT koju je u studenom objavio OpenAI. Odmah ću reći više o generativnoj umjetnoj inteligenciji i ChatGPT-u. Drži se.

Prijeđimo odmah na srž onoga što ljude, takoreći, hvata za jarce.

Neki su se gorljivo žalili da generativna umjetna inteligencija potencijalno potkrada ljude koji su stvorili sadržaj. Vidite, većina generativnih AI aplikacija su podaci obučeni ispitivanjem podataka pronađenih na internetu. Na temelju tih podataka, algoritmi mogu izbrusiti ogromnu internu mrežu za usklađivanje uzoraka unutar AI aplikacije koja može naknadno proizvesti naizgled novi sadržaj koji nevjerojatno izgleda kao da ga je osmislila ljudska ruka, a ne dio automatizacije

Za ovaj izvanredan podvig u velikoj je mjeri zaslužno korištenje sadržaja skeniranog s Interneta. Bez količine i bogatstva internetskog sadržaja kao izvora za obuku podataka, generativna umjetna inteligencija bila bi gotovo prazna i bila bi od malog ili nikakvog interesa za korištenje. Budući da umjetna inteligencija ispituje milijune i milijune online dokumenata i teksta, zajedno sa svim vrstama povezanog sadržaja, postupno se izvodi usklađivanje uzoraka kako bi se pokušao oponašati sadržaj koji su proizveli ljudi.

Što je više sadržaja ispitano, izgledi su da će podudaranje uzoraka biti više usavršeno i još bolje u oponašanju, ako je sve ostalo jednako.

Evo onda pitanja od milijun dolara:

Veliko pitanje: Ako vi ili drugi imate sadržaj na internetu na kojem je trenirana neka generativna AI aplikacija, čineći to vjerojatno bez vašeg izravnog dopuštenja i možda potpuno bez vaše svjesnosti, trebate li imati pravo na dio kolača u pogledu bilo koje vrijednosti koja proizlazi iz taj generativni AI podatkovni trening?

Neki žestoko tvrde da je jedini ispravan odgovor Da, osobito da ti kreatori ljudskog sadržaja doista zaslužuju svoj dio akcije. Stvar je u tome što bi vam bilo teško pronaći nekoga tko je dobio svoj pošteni udio, a što je još gore, gotovo nitko nije dobio nikakav udio. Kreatorima internetskog sadržaja koji su nehotice i nesvjesno pridonijeli zapravo se uskraćuje njihova zasluga.

To bi se moglo okarakterizirati kao okrutno i nečuveno. Upravo smo prošli kroz raspakiranje mudre mudrosti da zasluge treba odati tamo gdje se zasluge trebaju. U slučaju generativne umjetne inteligencije, očito nije tako. Čini se da se dugotrajno i čestito pravilo o kreditu bešćutno krši.

Vau, odgovor ide, potpuno preuveličavate i pogrešno prikazujete situaciju. Naravno, generativna umjetna inteligencija je ispitala sadržaj na internetu. Naravno, ovo je bilo od velike pomoći kao dio podatkovne obuke generativne umjetne inteligencije. Doduše, impresivne generativne AI aplikacije danas ne bi bile tako impresivne bez ovog promišljenog pristupa. Ali otišli ste predaleko kada ste rekli da kreatorima sadržaja treba dodijeliti bilo kakav privid zasluga.

Logika je sljedeća. Ljudi izlaze na Internet i uče stvari s Interneta, čineći to rutinski i bez ikakve buke per se. Osoba koja čita blogove o vodoinstalaterskim radovima, a zatim prekomjerno gleda besplatno dostupne videozapise o popravljanju vodoinstalaterskih instalacija, sljedeći bi dan mogla otići i zaposliti se kao vodoinstalater. Trebaju li dati dio svoje doznake vezane uz vodovod blogeru koji je pisao o tome kako namjestiti sudoper? Trebaju li dati honorar vlogeru koji je napravio video koji prikazuje korake za popravak kade koja curi?

Gotovo sigurno ne.

Obučavanje podataka generativne umjetne inteligencije samo je sredstvo za razvijanje obrazaca. Sve dok rezultati generativne umjetne inteligencije nisu puka regurgitacija upravo onoga što je ispitano, mogli biste uvjerljivo tvrditi da su "naučili" i stoga ne podliježu davanju bilo kakvog posebnog priznanja bilo kojem specifičnom izvoru. Osim ako ne možete uhvatiti generativnu umjetnu inteligenciju u izvođenju točne regurgitacije, indikacije su da se umjetna inteligencija generalizirala izvan bilo kojeg određenog izvora.

Nema kredita prema nikome. Ili, moglo bi se reći da zasluge pripadaju svima. Zbirni tekst i drugi sadržaji čovječanstva koji se nalaze na internetu dobivaju zasluge. Svi dobivamo zasluge. Besmisleno je pokušavati odrediti zasluge određenog izvora. Budite sretni što AI napreduje i što će čovječanstvo imati koristi. Te objave na internetu trebale bi biti počašćene jer su doprinijele budućnosti napretka u umjetnoj inteligenciji i kako će to pomoći čovječanstvu zauvijek.

Imat ću više za reći o oba ova suprotna gledišta.

U međuvremenu, naginjete li prema taboru koji kaže da je zasluga dospjela i kasni za one koji imaju web stranice na Internetu, ili smatrate da suprotna strana koja kaže da su kreatori internetskog sadržaja odlučno ne biti pokraden je uvjerljivije držanje?

Enigma i zagonetka zajedno.

Raspakirajmo ovo.

U današnjoj ću se kolumni pozabaviti ovim izraženim zabrinutostima da generativna umjetna inteligencija u biti plagira ili eventualno krši autorska prava sadržaja koji je objavljen na Internetu (koji se smatra pravom intelektualnog vlasništva ili pitanjem IP-a). Promotrit ćemo osnovu za te nedoumice. Povremeno ću spominjati ChatGPT tijekom ove rasprave jer je to gorila od 600 kilograma generativne umjetne inteligencije, ali imajte na umu da postoji mnogo drugih generativnih AI aplikacija i da se općenito temelje na istim općim načelima.

U međuvremenu, možda se pitate što je zapravo generativna umjetna inteligencija.

Prvo pokrijmo osnove generativne umjetne inteligencije, a zatim možemo pobliže promotriti goruću stvar koja nam je pri ruci.

U sve ovo dolazi niz razmatranja etike umjetne inteligencije i zakona o umjetnoj inteligenciji.

Imajte na umu da su u tijeku napori da se etička AI načela ugrade u razvoj i primjenu AI aplikacija. Sve veći kontingent zabrinutih i nekadašnjih etičara umjetne inteligencije pokušava osigurati da napori za osmišljavanje i usvajanje umjetne inteligencije uzimaju u obzir gledište o AI za dobro i odvraćanje AI za loše. Isto tako, postoje prijedlozi novih zakona o umjetnoj inteligenciji koji se vrte okolo kao potencijalna rješenja za sprječavanje pokušaja umjetne inteligencije da ne polude po pitanju ljudskih prava i slično. Za moje kontinuirano i opsežno pokrivanje AI etike i AI zakona, pogledajte link ovdje i link ovdje, Samo da spomenemo nekoliko.

Razvoj i promicanje etičkih pravila umjetne inteligencije se nastavljaju kako bi se, nadamo se, spriječilo društvo da upadne u bezbroj zamki koje izazivaju umjetna inteligencija. Za moj prikaz etičkih načela UN-ove umjetne inteligencije koje je osmislilo i poduprlo gotovo 200 zemalja uz pomoć UNESCO-a, pogledajte link ovdje. Na sličan način, istražuju se novi zakoni o umjetnoj inteligenciji kako bi se pokušala zadržati AI na ravnomjernoj razini. Jedan od najnovijih preuzimanja sastoji se od niza predloženih AI Bill of Rights koju je američka Bijela kuća nedavno objavila kako bi identificirala ljudska prava u doba umjetne inteligencije, vidi link ovdje. Potrebno je selo kako bi AI i razvojni programeri AI-a ostali na pravom putu i spriječili namjerne ili slučajne podmukle napore koji bi mogli potkopati društvo.

U ovu ću raspravu ispreplesti razmatranja vezana uz etiku umjetne inteligencije i zakone o umjetnoj inteligenciji.

Osnove generativne umjetne inteligencije

Najpoznatiju instancu generativne umjetne inteligencije predstavlja aplikacija za umjetnu inteligenciju pod nazivom ChatGPT. ChatGPT je izronio u svijest javnosti još u studenom kada ga je objavila tvrtka za istraživanje umjetne inteligencije OpenAI. Otkako je ChatGPT prikupio goleme naslove i zapanjujuće premašio svojih dodijeljenih petnaest minuta slave.

Pretpostavljam da ste vjerojatno čuli za ChatGPT ili možda čak znate nekoga tko ga je koristio.

ChatGPT se smatra generativnom AI aplikacijom jer kao unos uzima neki tekst od korisnika, a zatim generira ili proizvodi rezultat koji se sastoji od eseja. AI je generator teksta u tekst, iako ja opisujem AI kao generator teksta u esej jer to lakše pojašnjava za što se obično koristi. Možete koristiti generativnu umjetnu inteligenciju za sastavljanje dugih kompozicija ili je možete natjerati da nudi prilično kratke sadržajne komentare. Sve je po vašoj želji.

Sve što trebate učiniti je unijeti upit i AI aplikacija će za vas generirati esej koji pokušava odgovoriti na vaš upit. Složeni tekst će djelovati kao da je esej napisan ljudskom rukom i umom. Ako biste unijeli upit koji kaže "Pričaj mi o Abrahamu Lincolnu", generativna umjetna inteligencija će vam dati esej o Lincolnu. Postoje i drugi načini generativne umjetne inteligencije, kao što su tekst u umjetnost i tekst u video. Ovdje ću se usredotočiti na varijaciju teksta u tekst.

Vaša prva pomisao mogla bi biti da se ova generativna sposobnost ne čini tako važnom u smislu stvaranja eseja. Možete jednostavno pretražiti Internet i lako pronaći tone i tone eseja o predsjedniku Lincolnu. Ono što je zanimljivo u slučaju generativne umjetne inteligencije je to što je generirani esej relativno jedinstven i pruža originalnu kompoziciju, a ne kopiju. Kad biste negdje na internetu pokušali pronaći esej koji je izradila umjetna inteligencija, teško da biste ga otkrili.

Generativna umjetna inteligencija unaprijed je obučena i koristi složenu matematičku i računsku formulaciju koja je postavljena ispitivanjem obrazaca u pisanim riječima i pričama diljem weba. Kao rezultat ispitivanja tisuća i milijuna pisanih odlomaka, AI može izbaciti nove eseje i priče koji su mješavina onoga što je pronađeno. Dodavanjem raznih probabilističkih funkcionalnosti, rezultirajući tekst je prilično jedinstven u usporedbi s onim što je korišteno u skupu za obuku.

Postoje brojne zabrinutosti u vezi s generativnom umjetnom inteligencijom.

Jedna ključna mana je da eseji koje proizvodi generativna AI aplikacija mogu sadržavati različite neistine, uključujući očito neistinite činjenice, činjenice koje su krivo prikazane i očite činjenice koje su u potpunosti izmišljene. Ti izmišljeni aspekti često se nazivaju oblikom AI halucinacije, krilatica koju ne volim, ali nažalost svejedno postaje popularna (za moje detaljno objašnjenje o tome zašto je ovo loša i neprikladna terminologija, pogledajte moje izvješće na link ovdje).

Još jedna zabrinutost je da ljudi mogu lako preuzeti zasluge za generativni esej proizveden umjetnom inteligencijom, unatoč tome što nisu sami sastavili esej. Možda ste čuli da su učitelji i škole prilično zabrinuti zbog pojave generativnih AI aplikacija. Učenici potencijalno mogu koristiti generativnu umjetnu inteligenciju za pisanje zadanih eseja. Ako učenik tvrdi da je esej napisao vlastitom rukom, male su šanse da će učitelj moći razaznati je li esej krivotvorio generativni AI. Za moju analizu ovog zbunjujućeg aspekta za učenike i nastavnike, pogledajte moje izvješće na link ovdje i link ovdje.

Na društvenim mrežama pojavile su se neke sulude pretjerane tvrdnje o tome Generativna AI tvrdeći da je ova najnovija verzija umjetne inteligencije zapravo osjećajna umjetna inteligencija (ne, nisu u pravu!). Oni iz Etike umjetne inteligencije i Prava umjetne inteligencije posebno su zabrinuti zbog ovog rastućeg trenda otvorenih tvrdnji. Mogli biste pristojno reći da neki ljudi preuveličavaju što današnja umjetna inteligencija zapravo može učiniti. Pretpostavljaju da AI ima sposobnosti koje mi još nismo uspjeli postići. To je nesretno. Što je još gore, mogu sebi i drugima dopustiti da dođu u strašne situacije zbog pretpostavke da će umjetna inteligencija biti osjećajna ili slična ljudima da bi mogla djelovati.

Nemojte antropomorfizirati AI.

Ako to učinite, uhvatit ćete se u ljepljivu i turobnu zamku očekivanja da umjetna inteligencija radi stvari koje nije u stanju izvesti. Uz to, najnovija generativna umjetna inteligencija je relativno impresivna za ono što može učiniti. Imajte na umu da postoje značajna ograničenja koja biste trebali stalno imati na umu kada koristite bilo koju generativnu AI aplikaciju.

Jedno posljednje upozorenje za sada.

Što god vidite ili pročitate u generativnom AI odgovoru koji Čini se prenijeti kao čisto činjenično (datumi, mjesta, ljudi itd.), budite sigurni da ostanete skeptični i budite voljni još jednom provjeriti ono što vidite.

Da, datumi se mogu izmisliti, mjesta se mogu izmisliti, a elementi za koje obično očekujemo da će biti nezamjerljivi su svi predmet sumnje. Ne vjerujte onome što čitate i budite skeptični kada ispitujete bilo kakve generativne AI eseje ili rezultate. Ako vam generativna AI aplikacija kaže da je Abraham Lincoln obletio zemlju u svom privatnom mlažnjaku, nedvojbeno biste znali da je to malarkija. Nažalost, neki ljudi možda neće shvatiti da u njegovo vrijeme nisu postojali mlažnjaci, ili možda znaju, ali ne primjećuju da se u eseju iznosi ova drska i nečuveno lažna tvrdnja.

Jaka doza zdravog skepticizma i uporni mentalni sklop nevjerice bit će vaša najbolja prednost kada koristite generativnu umjetnu inteligenciju.

Spremni smo prijeći u sljedeću fazu ovog razjašnjenja.

Internet i Generative AI su u ovome zajedno

Sada kada ste naslutili što je generativna umjetna inteligencija, možemo istražiti mučno pitanje je li generativna umjetna inteligencija pošteno ili nepravedno "iskorištava", ili bi neki rekli očito iskorištavanje internetski sadržaj.

Evo moje četiri ključne teme koje se odnose na ovu stvar:

1) Dvostruki problem: plagijat i kršenje autorskih prava
2) Pokušaj dokazivanja plagijata ili kršenja autorskih prava bit će težak
3) Zagovaranje plagijata ili kršenja autorskih prava
4) Legalne mine čekaju

Obradit ću svaku od ovih važnih tema i ponuditi pronicljiva razmatranja o kojima bismo svi trebali pomno razmišljati. Svaka od ovih tema sastavni je dio veće slagalice. Ne možete pogledati samo jedan komad. Niti možete promatrati bilo koji dio odvojeno od ostalih dijelova.

Ovo je zamršen mozaik i cijeloj se slagalici mora posvetiti odgovarajuće skladno razmatranje.

Dupli problem: plagijat i kršenje autorskih prava

Dvostruki problem s kojim se suočavaju oni koji stvaraju generativnu umjetnu inteligenciju jest ta da njihova roba možda radi dvije loše stvari:

1) Plagijat. Generativni AI mogao bi se tumačiti kao plagirao sadržaj koji postoji na internetu prema internetskom skeniranju koje se dogodilo tijekom podatkovne obuke AI-a.
2) Kršenje autorskih prava. Generativni AI mogao bi se smatrati poduzećem kršenje autorskih prava povezan s internetskim sadržajem koji je skeniran tijekom podatkovne obuke.

Da pojasnimo, na Internetu postoji mnogo više sadržaja nego što se zapravo obično skenira za podatkovnu obuku generativne umjetne inteligencije. Obično se koristi samo mali dio Interneta. Prema tome, vjerojatno možemo pretpostaviti da bilo koji sadržaj koji nije skeniran tijekom podatkovne obuke nema posebnog problema s generativnom umjetnom inteligencijom.

To je donekle sporno jer biste potencijalno mogli povući crtu koja povezuje drugi skenirani sadržaj sa sadržajem koji nije skeniran. Također, još jedan važan uvjet je da, čak i ako postoji sadržaj koji nije skeniran, još uvijek se može tvrditi da je plagijat i/ili da su prekršena autorska prava ako rezultati generativne umjetne inteligencije slučajno padnu na istu frazu. Želim reći da u svemu tome ima puno mljackavosti.

Dno crta: Generativna umjetna inteligencija prepuna je potencijalnih etičkih i pravnih zagonetki vezanih uz umjetnu inteligenciju kada su u pitanju plagijat i kršenje autorskih prava podupirući prevladavajuće prakse obuke podataka.

Do sada su tvorci umjetne inteligencije i istraživači umjetne inteligencije prolazili kroz ovo gotovo bez ikakvih problema, unatoč maču koji visi iznad njih i nesigurno visi. Do danas je pokrenuto samo nekoliko tužbi protiv ove prakse. Možda ste čuli ili vidjeli novinske članke o takvim pravnim postupcima. Jedan, na primjer, uključuje tvrtke za pretvaranje teksta u sliku Midjourney i Stability AI za kršenje autorskih prava na umjetnički sadržaj objavljen na internetu. Još jedan uključuje kršenje prava tekst-u-kod protiv GitHuba, Microsofta i OpenAI-ja zbog softvera Copilot koji proizvodi AI aplikacije. Getty Images također ima za cilj krenuti u lov na Stability AI zbog kršenja prava teksta u sliku.

Možete očekivati da će biti podneseno još takvih tužbi.

Trenutačno je malo zgodno pokrenuti te tužbe jer je ishod relativno nepoznat. Hoće li sud stati na stranu tvoraca umjetne inteligencije ili će pobjednici biti oni koji vjeruju da je njihov sadržaj nepošteno iskorišten? Skupa pravna bitka uvijek je ozbiljna stvar. Potrošnja velikih pravnih troškova mora se odvagnuti u odnosu na šanse za pobjedu ili poraz.

Čini se da tvorci umjetne inteligencije nemaju izbora nego da se bore. Ako pokleknu, čak i malo, izgledi su da će rezultirati bujicom dodatnih tužbi (u suštini, otvarajući vrata povećanim izgledima da i drugi prevladaju). Jednom kada bude legalne krvi u vodi, preostali legalni morski psi će pojuriti do smatranog "lakim rezultatom" i sigurno će se dogoditi mlaćenje i krvoproliće novca.

Neki vjeruju da bismo trebali donijeti nove zakone o umjetnoj inteligenciji koji bi zaštitili proizvođače umjetne inteligencije. Zaštita može biti čak i retroaktivna. Osnova za to je da ako želimo vidjeti generativni napredak umjetne inteligencije, moramo dati kreatorima umjetne inteligencije neku stazu sigurne zone. Jednom kad sudski procesi počnu pobjeđivati protiv proizvođača umjetne inteligencije, ako se to dogodi (još ne znamo), briga je da će generativna umjetna inteligencija nestati jer nitko neće biti voljan pružiti bilo kakvu potporu tvrtkama za umjetnu inteligenciju.

Kao što je vješto istaknuto u nedavnom članku o zakonu o Bloombergu pod naslovom “ChatGPT: IP, Cybersecurity & Other Legal Risks of Generative AI” dr. Ilia Kolochenka i Gordona Platta, Zakon o Bloombergu, veljača 2023., evo dva vitalna izvatka koji odražavaju ova stajališta:

“Sada bjesni žestoka rasprava među američkim pravnim znanstvenicima i profesorima prava intelektualnog vlasništva o tome predstavlja li neovlašteno skrapiranje i naknadno korištenje podataka zaštićenih autorskim pravima kršenje autorskih prava. Ako prevlada stajalište pravnika koji vide kršenja autorskih prava u takvoj praksi, korisnici takvih sustava AI također mogu biti odgovorni za sekundarno kršenje i potencijalno se suočiti s pravnim posljedicama.”
"Kako bi sveobuhvatno odgovorili na izazov, zakonodavci bi trebali razmotriti ne samo modernizaciju postojećeg zakonodavstva o autorskim pravima, već i implementaciju skupa zakona i propisa koji se odnose na AI."

Podsjetimo se da smo kao društvo uspostavili zakonsku zaštitu za ekspanzija interneta, kao što sada svjedoči Vrhovni sud revidirajući famozni ili zloglasni odjeljak 230. Stoga se čini unutar razuma i presedana da bismo mogli biti voljni učiniti neke slične zaštite za napredak generativne AI. Možda bi se zaštite mogle postaviti privremeno, istekaći nakon što generativni AI dosegne neku unaprijed određenu razinu stručnosti. Mogle bi se osmisliti i druge zaštitne odredbe.

Uskoro ću objaviti svoju analizu o tome kako bi ocjena Vrhovnog suda i konačna presuda o Odjeljku 230 mogli utjecati na pojavu generativne umjetne inteligencije. Budite u potrazi za tom nadolazećom objavom!

Vratimo se oštro izraženom mišljenju da bismo trebali dati prostora za društvene tehnološke inovacije koje izazivaju strahopoštovanje poznate kao generativna umjetna inteligencija. Neki bi rekli da čak i ako se navodno kršenje autorskih prava događa ili se događa, društvo u cjelini mora biti spremno to dopustiti u posebne svrhe unaprjeđenja generativne umjetne inteligencije.

Nadamo se da će novi zakoni o umjetnoj inteligenciji biti pažljivo izrađeni i prilagođeni pojedinostima povezanim s obukom podataka za generativnu umjetnu inteligenciju.

Postoji mnogo protuargumenata ovoj ideji osmišljavanja novih zakona o umjetnoj inteligenciji u tu svrhu. Jedna od zabrinutosti je da će svaki takav novi zakon o umjetnoj inteligenciji otvoriti vrata za sve vrste kršenja autorskih prava. Žalit ćemo dan kada smo dopustili da takvi novi zakoni o umjetnoj inteligenciji dospiju u knjige. Bez obzira koliko se trudili ograničiti ovo samo na obuku podataka umjetne inteligencije, drugi će krišom ili lukavo pronaći rupe u zakonu koje će dovesti do nesputanog i neobuzdanog kršenja autorskih prava.

Argumenti se vrte ukrug.

Jedan argument koji baš i ne drži vodu tiče se pokušaja tužbe protiv same umjetne inteligencije. Primijetite da sam tvorca umjetne inteligencije ili istraživače umjetne inteligencije spominjao kao krive dionike. To su ljudi i tvrtke. Neki sugeriraju da bismo trebali ciljati na AI kao na tuženu stranu. U svojoj sam kolumni opširno raspravljao o tome da AI-ju još ne pripisujemo pravnu osobnost, vidite link ovdje na primjer, i stoga bi se takve tužbe usmjerene protiv umjetne inteligencije per se sada smatrale besmislenim.

Kao dodatak pitanju koga ili što treba tužiti, ovo otvara još jednu sočnu temu.

Pretpostavimo da je određenu generativnu AI aplikaciju osmislio neki proizvođač umjetne inteligencije kojeg ćemo nazvati Widget Company. Tvrtka Widget relativno je male veličine i nema mnogo prihoda, niti mnogo imovine. Tužiti ih vjerojatno neće prikupiti veliko bogatstvo koje netko možda traži. U najboljem slučaju, samo biste imali zadovoljstvo ispraviti ono što smatrate pogrešnim.

Želiš ići za velikom ribom.

Evo kako će to nastati. Proizvođač umjetne inteligencije odlučuje staviti svoju generativnu umjetnu inteligenciju na raspolaganje Big Time Companyju, velikom konglomeratu s tonama novca i tonama imovine. Tužba koja bi imenovala Widget Company sada bi imala bolju metu u vidu, naime također imenovanjem Big Time Company. Ovo je borba Davida i Golijata u kojoj bi odvjetnici uživali. Naravno, Big Time Company će se bez sumnje pokušati otrgnuti s udice. Mogu li to učiniti ponovno je pravno pitanje koje je neizvjesno i mogli bi beznadno zaglibiti u blato.

Prije nego što odemo dalje na ovo, želio bih iznijeti nešto ključno na stol o kontroverznim zadiranjama generativne umjetne inteligencije zbog obuke podataka. Siguran sam da intuitivno shvaćate da su plagijat i kršenje autorskih prava dvije donekle različite zvijeri. Imaju mnogo toga zajedničkog, ali se i značajno razlikuju.

Evo zgodnog sažetog opisa sa Sveučilišta Duke koji objašnjava to dvoje:

“Plagijat je najbolje definirati kao nepotvrđeno korištenje rada druge osobe. To je etičko pitanje koje uključuje potraživanje kredita za rad koji podnositelj zahtjeva nije stvorio. Netko može plagirati tuđe djelo bez obzira na status autorskih prava tog djela. Na primjer, svejedno je plagijat kopirati iz knjige ili članka koji je prestar da bi još uvijek bio pod autorskim pravom. Također je plagijat korištenje podataka preuzetih iz nepotvrđenog izvora, iako činjenični materijal poput podataka možda nije zaštićen autorskim pravom. Plagijat se, međutim, lako liječi – ispravnim navođenjem izvornog izvora materijala.”
“Kršenje autorskih prava je, s druge strane, neovlašteno korištenje tuđeg djela. Ovo je pravno pitanje koje ovisi o tome je li djelo zaštićeno autorskim pravom ili ne, kao io pojedinostima kao što su koliko se koristi i svrha korištenja. Ako netko kopira previše zaštićenog djela ili kopira u neovlaštenu svrhu, jednostavno priznavanje izvornog izvora neće riješiti problem. Samo traženjem prethodnog dopuštenja od nositelja autorskih prava izbjegava se rizik od optužbe za kršenje."

Ističem važnost ove dvije brige kako biste shvatili da se lijekovi mogu razlikovati u skladu s tim. Također, oboje su upleteni u razmatranja koja prožimaju etiku umjetne inteligencije i pravo umjetne inteligencije, što ih čini podjednako vrijednima za ispitivanje.

Istražimo navedeni lijek ili rješenje. Vidjet ćete da bi to moglo pomoći jednom od dvostrukih problema, ali ne i drugom.

Neki su inzistirali na tome da proizvođači umjetne inteligencije moraju samo navesti svoje izvore. Kada generativna umjetna inteligencija stvara esej, samo uključite specifične citate za sve što je navedeno u eseju. Navedite različite URL-ove i druge indikacije koji su internetski sadržaji korišteni. Čini se da će ih ovo osloboditi griže savjesti o plagijatu. Izdani esej bi vjerojatno jasno identificirao koji su izvori korišteni za tekst koji je proizveden.

Postoje neke zamjerke u tom navedenom rješenju, ali na razini od 30,000 XNUMX stopa, recimo da to služi kao polu-zadovoljavajući lijek za dilemu plagijata. Kao što je gore navedeno u objašnjenju kršenja autorskih prava, navođenje izvornog materijala ne izvlači vas nužno iz pseće kućice. Pod pretpostavkom da je sadržaj zaštićen autorskim pravima i ovisno o drugim čimbenicima kao što je količina materijala koja je iskorištena, mač kršenja autorskih prava koji se čeka može se oštro i konačno zamahnuti.

Dvostruka nevolja ovdje je ključna riječ.

Pokušaj dokazivanja plagijata ili kršenja autorskih prava bit će težak

Probaj!

To je dobro izlizani refren koji smo svi čuli u različitim razdobljima u našim životima.

Znaš kako to ide. Možete tvrditi da se nešto događa ili da se dogodilo. Možda znate u dubini srca da se ovo dogodilo. Ali kada se radi o guranju protiv guranja, morate imati dokaz.

Današnjim rječnikom rečeno, morate pokazati potvrde, kako kažu.

Moje pitanje za vas je sljedeće: Kako ćemo dokazivo dokazati da je generativna umjetna inteligencija neprikladno iskorištavala internetski sadržaj?

Pretpostavlja se da bi odgovor trebao biti jednostavan. Tražite ili kažete generativnoj umjetnoj inteligenciji da napravi izlazni esej. Zatim uzmete esej i usporedite ga s onim što se može pronaći na internetu. Ako pronađete esej, bam, imate generativnu umjetnu inteligenciju pribijenu uz poslovični zid.

Čini se da život nikad nije tako lak.

Zamislite da dobijemo generativnu umjetnu inteligenciju za izradu eseja koji sadrži oko 100 riječi. Obilazimo i pokušavamo doprijeti do svih zakutaka interneta, tražeći tih 100 riječi. Ako pronađemo 100 riječi, prikazanih točno istim redoslijedom i na identičan način, čini se da smo uhvatili nešto vruće.

Pretpostavimo ipak da na Internetu pronađemo naizgled "usporediv" esej iako odgovara samo 80 od 100 riječi. Ovo se možda još uvijek čini dovoljnim. Ali zamislite da pronađemo samo primjerak od 10 riječi od 100 koje se podudaraju. Je li to dovoljno da se tvrdi da je došlo do plagijata ili da je došlo do kršenja autorskih prava?

Sivilo postoji.

Tekst je smiješan na taj način.

Usporedite ovo s okolnostima pretvaranja teksta u sliku ili teksta u umjetnost. Kada generativna umjetna inteligencija pruža mogućnost pretvaranja teksta u sliku ili teksta u umjetnost, vi unosite tekstualni upit i AI aplikacija proizvodi sliku donekle na temelju odziva koji ste dali. Slika bi mogla biti drugačija od bilo koje slike koja je ikada viđena na ovom ili bilo kojem drugom planetu.

S druge strane, slika bi mogla podsjećati na druge slike koje postoje. Možemo pogledati generativnu sliku koju je proizvela umjetna inteligencija i donekle po instinktu reći da sigurno izgleda kao neka druga slika koju smo već vidjeli. Općenito, Vizualni aspekti usporedbe i kontrasta malo se lakše poduzimaju. S obzirom na to, imajte na umu da se velike pravne rasprave vode oko toga što predstavlja preklapanje ili replikaciju jedne slike s druge.

Druga slična situacija postoji s glazbom. Postoje generativne AI aplikacije koje vam omogućuju da unesete tekstualni upit, a izlaz koji proizvodi AI je audio glazba. Ove AI mogućnosti pretvaranja teksta u zvuk ili teksta u glazbu tek se počinju pojavljivati. Jedna stvar u koju se možete kladiti je da će glazba koju proizvodi generativna umjetna inteligencija biti strogo ispitana zbog kršenja autorskih prava. Čini se da znamo kada čujemo glazbeno kršenje, iako je opet ovo složeno pravno pitanje koje se ne temelji samo na tome kako se osjećamo o percipiranoj replikaciji.

Dopustite mi još jedan primjer.

Generativni AI s pretvaranjem teksta u kod omogućuje vam unos tekstualnog upita, a AI će za vas proizvesti programski kod. Zatim možete koristiti ovaj kod za pripremu računalnog programa. Možete upotrijebiti kôd točno onako kako je generiran ili možete odlučiti urediti i prilagoditi kôd kako bi odgovarao vašim potrebama. Također postoji potreba da se osigura da je kod prikladan i izvodljiv jer je moguće da se u generiranom kodu mogu pojaviti pogreške i neistine.

Vaša prva pretpostavka mogla bi biti da se programski kod ne razlikuje od teksta. To je samo tekst. Naravno, to je tekst koji daje određenu svrhu, ali to je još uvijek tekst.

Pa ne baš. Većina programskih jezika ima strogi format i strukturu u odnosu na prirodu iskaza kodiranja tog jezika. Ovo je u određenom smislu mnogo uže od slobodnog prirodnog jezika. Pomalo ste u kutiji kako su formulirane izjave kodiranja. Isto tako, redoslijed i način na koji se iskazi koriste i poredaju donekle su uokvireni.

Sve u svemu, mogućnost prikazivanja da je programski kod plagiran ili prekršena gotovo je lakša od prirodnog jezika. Stoga, kada generativna umjetna inteligencija ode skenirati programski kod na Internetu i kasnije generira programski kod, šanse za tvrdnju da je kod očito repliciran bit će relativno uvjerljivije. Nije zakucavanje, pa očekujte ogorčene bitke oko ovoga.

Moja sveobuhvatna poanta je da ćemo imati ista pitanja etike umjetne inteligencije i zakona o umjetnoj inteligenciji koja se suočavaju sa svim načinima generativne umjetne inteligencije.

Plagijat i kršenje autorskih prava bit će problematični za:

Tekst u tekst ili tekst u esej
Tekst u sliku ili tekst u umjetnost
Tekst u zvuk ili tekst u glazbu
Tekst u video
Pretvaranje teksta u kod
Itd.

Svi su podložni istim brigama. Neke je možda malo lakše "dokazati" od drugih. Svi će oni imati svoje različite noćne more temeljene na Etici umjetne inteligencije i Zakonu o umjetnoj inteligenciji.

Zastupanje slučaja za plagijat ili kršenje autorskih prava

U svrhu rasprave, usredotočimo se na generativnu umjetnu inteligenciju iz teksta u tekst ili tekst u esej. Djelomično to činim zbog ogromne popularnosti ChatGPT-a, koji je vrsta generativne umjetne inteligencije teksta u tekst. Puno ljudi koristi ChatGPT, zajedno s mnogim drugima koji koriste različite slične generativne AI aplikacije za pretvaranje teksta u tekst.

Znaju li ljudi koji koriste generativne AI aplikacije da se potencijalno oslanjaju na plagijat ili kršenje autorskih prava?

Čini se dvojbenim da jesu.

Usudio bih se reći da je prevladavajuća pretpostavka da ako je generativna AI aplikacija dostupna za upotrebu, proizvođač AI ili tvrtka koja je postavila AI mora znati ili biti uvjerena da nema ničeg nepovoljnog u robi koju nude na korištenje. Ako ga možete koristiti, mora biti iznad.

Vratimo se na moj raniji komentar o tome kako ćemo pokušati dokazati da određena generativna umjetna inteligencija radi na pogrešnoj osnovi što se tiče obuke podataka.

Mogao bih također dodati da ako uspijemo uhvatiti jednu generativnu umjetnu inteligenciju u tome, vjerojatno će se povećati šanse da uhvatimo ostale. Ne kažem da bi sve generativne AI aplikacije bile u istom čamcu. Ali naći će se u prilično oštrom moru nakon što jedan od njih bude pribijen uza zid.

Zbog toga će se također neizmjerno isplatiti pripaziti na postojeće tužbe. Prva koja pobijedi u vezi s navodnim kršenjem, ako se to dogodi, vjerojatno će značiti propast za ostale generativne AI aplikacije, osim ako neka ograničenost ne izbjegne širim problemima koji su pri ruci. One koje izgube u vezi s navodnom povredom ne znači nužno da generativne AI aplikacije mogu zvoniti i slaviti. Moguće je da se gubitak pripisuje drugim čimbenicima koji nisu toliko relevantni za druge generativne AI aplikacije i tako dalje.

Spomenuo sam da ako uzmemo esej od 100 riječi i pokušamo pronaći točno te riječi u potpuno istom nizu na Internetu, mogli bismo imati relativno solidan slučaj za plagijat ili kršenje autorskih prava, ako je sve ostalo jednako. Ali ako je broj riječi koje se podudaraju nizak, čini se da smo na tankom ledu.

Želio bih dublje istražiti to.

Očigledan aspekt usporedbe sastoji se od potpuno istih riječi u potpuno istom nizu. To se može dogoditi za cijele odlomke. To bi bilo zgodno uočiti, gotovo kao da nam ga daju na srebrnom pladnju.

Mogli bismo biti sumnjičavi i ako se podudara samo djelić riječi. Ideja bi bila vidjeti jesu li to ključne riječi ili možda dodatne riječi koje možemo odmah ukloniti ili zanemariti. Također ne želimo da nas prevare korištenje riječi u njihovom prošlom ili budućem vremenu, ili još jedna glupost. Te varijacije u riječima također treba uzeti u obzir.

Još jedna razina usporedbe bila bi kada riječi nisu u velikoj mjeri iste riječi, ali se čini da riječi, čak iu različitom stanju, i dalje ističu iste stvari. Na primjer, sažetak će često koristiti prilično slične riječi kao izvorni izvor, ali možemo uočiti da se čini da sažetak temelji na izvornom izvoru.

Najteža razina usporedbe temeljila bi se na konceptima ili idejama. Pretpostavimo da vidimo esej koji nema iste ili slične riječi kao bazu za usporedbu, ali su suština ili ideje iste. Doduše, ulazimo u težak teritorij. Ako bismo spremno rekli da su ideje strogo zaštićene, stavili bismo poklopac na gotovo sve oblike znanja i proširenja znanja.

Još jednom se možemo pozvati na zgodno objašnjenje Sveučilišta Duke:

“Autorska prava ne štite ideje, samo specifičan izraz ideje. Na primjer, sud je odlučio da Dan Brown nije prekršio autorska prava prethodne knjige kada je napisao Da Vincijev kod jer sve što je posudio iz ranijeg djela bile su osnovne ideje, a ne specifičnosti zapleta ili dijaloga. Budući da je svrha autorskog prava potaknuti kreativnu proizvodnju, korištenje tuđih ideja za izradu novog i originalnog djela podržava svrhu autorskog prava, ne krši ga. Samo ako netko kopira tuđi izraz bez dopuštenja potencijalno je povrijeđeno autorsko pravo.”
“Da bi se izbjegao plagijat, s druge strane, mora se priznati izvor čak i idejama koje su posuđene od nekoga drugoga, bez obzira na to je li izraz tih ideja posuđen s njima. Dakle, parafraza zahtijeva citiranje, iako rijetko pokreće bilo kakav problem s autorskim pravima.”

Imajte na umu da su ranije identificirane razlike između dvostrukih problema.

Dakle, stavljanje usporednih pristupa u praksu nešto je što se događa već mnogo godina. Zamislite to na ovaj način. Učenici koji pišu eseje za školske zadaće mogli bi doći u iskušenje da zgrabe sadržaj s interneta i pretvaraju se da su oni autori riječi koje su osvojile Pulitzerovu nagradu.

Učitelji već dugo koriste programe za provjeru plagijata kako bi to riješili. Nastavnik uzima studentov esej i ubacuje ga u provjeru plagijata. U nekim će slučajevima cijela škola licencirati korištenje programa za provjeru plagijata. Kad god studenti predaju esej, prvo moraju poslati esej programu za provjeru plagijata. Nastavnik je obaviješten o tome što program izvještava.

Nažalost, morate biti krajnje oprezni u pogledu onoga što ti programi za provjeru plagijata imaju za reći. Važno je pažljivo procijeniti jesu li navedene indikacije valjane. Kao što je već spomenuto, mogućnost utvrđivanja je li djelo kopirano može biti nejasna. Ako nepromišljeno prihvatite ishod programa provjere, možete lažno optužiti učenika za prepisivanje iako to nije učinio. Ovo može slamati dušu.

Idemo dalje, možemo pokušati koristiti programe za provjeru plagijata u domeni testiranja generativnih AI izlaza. Tretirajte izlazne eseje iz generativne AI aplikacije kao da ih je napisao student. Zatim procjenjujemo što kaže alat za provjeru plagijata. To se radi s rezervom.

Postoji nedavna istraživačka studija koja je upravo na ovaj način pokušala operacionalizirati ove vrste usporedbi u kontekstu generativne umjetne inteligencije. Želio bih s vama proći kroz neka zanimljiva otkrića.

Prvo, potrebna je dodatna pozadina. Generativni AI ponekad se naziva LLM (veliki jezični modeli) ili jednostavno LM (jezični modeli). Drugo, ChatGPT se temelji na verziji drugog OpenAI generativnog AI paketa pod nazivom GPT-3.5. Prije GPT-3.5 postojao je GPT-3, a prije toga GPT-2. Danas se GPT-2 smatra prilično primitivnim u usporedbi s kasnijim serijama i svi željno iščekujemo nadolazeće otkrivanje GPT-4, pogledajte moju raspravu na link ovdje.

Istraživačka studija koju želim ukratko istražiti sastojala se od ispitivanja GPT-2. To je važno shvatiti budući da smo sada daleko iznad mogućnosti GPT-2. Nemojte donositi nepromišljene zaključke o rezultatima ove analize GPT-2. Ipak, možemo mnogo naučiti iz procjene GPT-2. Studija nosi naslov "Plagiraju li jezični modeli?" Jooyoung Lee, Thai Lee, Jinghui Chen i Dongwon Lee, pojavljuju se u ACM WWW '23, 1. – 5. svibnja 2023., Austin, TX, SAD.

Ovo je njihovo glavno istraživačko pitanje:

"U kojoj mjeri (ne ograničavajući se na pamćenje) LM-ovi iskorištavaju fraze ili rečenice iz svojih uzoraka obuke?"

Koristili su ove tri razine ili kategorije potencijalnog plagijata:

“Doslovni plagijat: Točne kopije riječi ili izraza bez transformacije.”
“Parafraza plagijata: zamjena sinonima, promjena redoslijeda riječi i/ili povratni prijevod.”
“Plagijat ideje: predstavljanje temeljnog sadržaja u izduženom obliku.”

GPT-2 je doista obučen na internetskim podacima i stoga je prikladan kandidat za ovu vrstu analize:

“GPT-2 je unaprijed obučen za WebText, sadrži više od 8 milijuna dokumenata preuzetih s 45 milijuna Reddit poveznica. Budući da OpenAI nije javno objavio WebText, koristimo OpenWebText koji je open-source rekreacija korpusa WebText. Pouzdano je korišten u prijašnjoj literaturi.”

Selektivni ključni nalazi izdvojeni iz studije sastoje se od:

"Otkrili smo da unaprijed obučene GPT-2 obitelji plagiraju iz OpenWebTexta."
"Naša otkrića pokazuju da fino podešavanje značajno smanjuje slučajeve doslovnog plagijata iz OpenWebTexta."
“U skladu s Carlinijem i sur. i Carlini et al., otkrili smo da veći GPT-2 modeli (veliki i xl) općenito generiraju plagirane sekvence češće od manjih.”
"Međutim, različiti LM-ovi mogu pokazati različite obrasce plagijata, pa se naši rezultati možda neće izravno generalizirati na druge LM-ove, uključujući novije LM-ove kao što su GPT-3 ili BLOOM."
“Osim toga, poznato je da automatski detektori plagijata imaju mnogo načina kvara (i u lažno negativnim i lažno pozitivnim rezultatima).
"S obzirom na to da je većina podataka o obuci LM-a preuzeta s weba bez obavještavanja vlasnika sadržaja, njihovo ponavljanje riječi, fraza, pa čak i ključnih ideja iz skupova za obuku u generirane tekstove ima etičke implikacije."

Definitivno nam treba puno više studija ove vrste.

Ako vas zanima kakav je GPT-2 u usporedbi s GPT-3 u pogledu obuke podataka, postoji prilično izražen kontrast.

Prema prijavljenim indikacijama, obuka podataka za GPT-3 bila je mnogo opsežnija:

“Model je obučen pomoću tekstualnih baza podataka s interneta. To je uključivalo nevjerojatnih 570 GB podataka dobivenih iz knjiga, web tekstova, Wikipedije, članaka i drugih tekstova na internetu. Točnije rečeno, u sustav je uneseno 300 milijardi riječi” (BBC-jev znanstveni fokus časopis, “ChatGPT: Sve što trebate znati o OpenAI GPT-3 alatu” Alexa Hughesa, veljača 2023.).

Za one od vas koji su zainteresirani za detaljnije opise podatkovne obuke za GPT-3, evo izvatka iz službene kartice modela GPT-3 objavljene na GitHubu (datum zadnjeg ažuriranja naveden je rujan 2020.):

„GPT-3 set podataka za obuku sastoji se od teksta objavljenog na internetu ili teksta prenesenog na internet (npr. knjige). Internetski podaci na kojima je obučavano i prema kojima je do danas procijenjen uključuju: (1) verziju skupa podataka CommonCrawl, filtriranu na temelju sličnosti s visokokvalitetnim referentnim korpusima, (2) proširenu verziju skupa podataka Webtext, (3 ) dva internetska korpusa knjiga i (4) Wikipedia na engleskom jeziku.”
“S obzirom na podatke o obuci, rezultati i izvedba GPT-3 više su reprezentativni za populaciju povezanu s internetom nego za one koji su uronjeni u verbalnu, nedigitalnu kulturu. Populacija povezana s internetom više predstavlja razvijene zemlje, bogate, mlađe i muške poglede te je uglavnom usmjerena na SAD. Bogatije nacije i populacije u razvijenim zemljama pokazuju veću penetraciju interneta. Digitalni rodni jaz također pokazuje da je manje žena zastupljeno online diljem svijeta. Osim toga, budući da različiti dijelovi svijeta imaju različite razine penetracije i pristupa internetu, skup podataka nedovoljno predstavlja manje povezane zajednice.”

Jedan zaključak iz gornje indikacije o GPT-3 je da je pravilo među onima koji stvaraju generativnu umjetnu inteligenciju da što više internetskih podataka možete skenirati, izgledi za poboljšanje ili unaprjeđenje generativne umjetne inteligencije rastu.

Na ovo možete gledati na dva načina.

1) Poboljšana AI. Imat ćemo generativnu umjetnu inteligenciju koja će puzati po što većem dijelu interneta. Uzbudljiv ishod je da će generativna umjetna inteligencija biti bolja nego što već jest. To je nešto čemu se treba radovati.
2) Potencijal za kopiranje u izobilju. Ovo širenje skeniranja interneta na odvratan i zanimljiv način čini problem plagijata i kršenja autorskih prava potencijalno sve većim i većim. Dok prije nije bilo toliko pogođenih kreatora sadržaja, veličina će procvjetati. Ako ste odvjetnik na strani kreatora sadržaja, ovo vam tjera suze na oči (možda suze užasa ili suze radosnice kakve izglede ovo donosi u smislu tužbi).

Je li čaša polupuna ili poluprazna?

Ti odluči.

Legalne nagazne mine čekaju

Pitanje o kojem možda razmišljate je smatra li se vaš objavljeni internetski sadržaj poštenom igrom za skeniranje. Ako je vaš sadržaj iza sustava za naplatu, vjerojatno nije cilj skeniranja jer se ne može lako dosegnuti, ovisno o snazi sustava za naplatu.

Pretpostavljam da većina običnih ljudi nema svoj sadržaj skriven iza paywalla. Žele da njihov sadržaj bude javno dostupan. Pretpostavljaju da će ljudi to pogledati.

Znači li javno dostupnost vašeg sadržaja također aksiomatski da odobravate njegovo skeniranje za korištenje od strane generativne umjetne inteligencije koja se obučava podacima?

Možda da, možda ne.

To je jedna od onih pravnih stvari za kolutanje očima.

Vraćajući se na ranije citirano Bloombergov zakon članak, autori spominju važnost Odredbi i uvjeta (T&C) povezanih s mnogim web stranicama:

„Pravna nagazna mina—koju nesvjesne AI tvrtke koje upravljaju online botovima za krađu podataka uvelike ignoriraju—sakrivena je u Odredbama i uvjetima koji su obično dostupni na javnim web stranicama svih vrsta. Za razliku od trenutačno neriješenog zakona o zaštiti intelektualnog vlasništva i dileme oko kršenja autorskih prava, Uvjeti i odredbe web stranice podupiru dobro uspostavljeno ugovorno pravo i obično se mogu provesti na sudu oslanjajući se na dovoljan broj presedana.”

Oni pokazuju da pod pretpostavkom da vaša web stranica ima stranicu koja se odnosi na licenciranje, velike su šanse da bi on mogao sadržavati ključnu klauzulu, ako ste koristili standardizirani moderni predložak:

“Slijedom toga, većina standardnih Odredbi i uvjeta za web-mjesta—koji su u izobilju dostupni u slobodnom pristupu—sadrže klauzulu koja zabranjuje automatsko struganje podataka. Ironično, takvi besplatno dostupni predlošci vjerojatno su korišteni za ChatGPT obuku. Stoga bi vlasnici sadržaja mogli pregledati svoje Uvjete i odredbe i umetnuti zasebnu klauzulu kojom se izričito zabranjuje svako korištenje bilo kojeg sadržaja s web-mjesta za obuku umjetne inteligencije ili bilo koje srodne svrhe, bilo da se prikuplja ručno ili automatski, bez prethodnog pisanog dopuštenja vlasnika web-mjesta. .”

Dodatna pobuda uključena je u njihovu analizu mogućih radnji koje kreatori sadržaja mogu poduzeti u vezi sa svojim web stranicama:

„Stoga, umetanje provedive odredbe o likvidiranoj odšteti za svako kršenje klauzule o zabrani kopiranja, pojačane odredbom o zabrani bez obveznice, može biti održivo rješenje za one autore kreativnog sadržaja koji ne žele pružiti plodove svog intelektualni rad u svrhu obuke AI-a, a da za to nisu plaćeni ili barem da im se da odgovarajuće priznanje za njihov rad.”

Možda biste se o tome trebali posavjetovati sa svojim odvjetnikom.

Neki kažu da je ovo ključan način da se kreatorima umjetne inteligencije pokuša reći da su kreatori sadržaja krajnje ozbiljni u zaštiti svog sadržaja. Čini se da bi proizvođače umjetne inteligencije upozorili da vaša licenca ima ispravan tekst.

Drugi su ipak malo neraspoloženi. Potišteno kažu da možete nastaviti s postavljanjem najoštrijeg i najsmrtonosnijeg pravnog jezika na svoju web stranicu, ali na kraju će je tvorci umjetne inteligencije skenirati. Nećete znati da su to učinili. Imat ćete vraški vremena da dokažete da jesu. Malo je vjerojatno da ćete otkriti da njihovi rezultati odražavaju vaš sadržaj. To je teška bitka koju nećete dobiti.

Protuargument je da predajete bitku prije nego što je uopće započeta. Ako barem nemate dovoljno pravnog jezika, i ako ih ikad uhvatite, vrckat će se i koprcati se kako bi pobjegli od svake odgovornosti. Sve zato što niste objavili pravu vrstu pravnog žargona.

U međuvremenu, drugi pristup koji nastoji pridobiti snagu sastojao bi se od obilježavanje svoju web stranicu s nečim što kaže da se web stranica ne smije skenirati generativnom umjetnom inteligencijom. Ideja je da se osmisli standardizirani marker. Web-mjesta bi vjerojatno mogla dodati marker na svoje web-mjesto. Proizvođačima umjetne inteligencije rečeno bi da bi trebali promijeniti svoje skeniranje podataka kako bi preskočili označene web stranice.

Može li pristup markera biti uspješan? Zabrinutost uključuje troškove nabave i postavljanja oznaka. Uz to hoće li se proizvođači umjetne inteligencije pridržavati oznaka i osigurati da izbjegavaju skeniranje označenih stranica. Druga je perspektiva da, čak i ako se proizvođači umjetne inteligencije ne slažu s oznakama, to daje još jedan izdajnički trag za odlazak na sud i tvrdnju da je kreator sadržaja prošao sve kako bi pokušao upozoriti na skeniranje umjetnom inteligencijom.

Joj, od svega ti se zavrti u glavi.

Zaključak

Nekoliko završnih napomena o ovoj škakljivoj temi.

Jeste li spremni za fascinantnu perspektivu cijele ove dileme AI kao plagijatora i prekršitelja autorskih prava?

Veliki dio pretpostavki o "hvatanju" generativne umjetne inteligencije u činu plagijata ili kršenja autorskih prava ovisi o otkrivanju rezultata koji jako sličiti prethodni radovi kao što je sadržaj na internetu koji je potencijalno skeniran tijekom obuke podataka.

Pretpostavimo ipak da je ovdje u igri smicalica zavadi i vladaj.

Evo što mislim.

Ako generativna umjetna inteligencija posuđuje mali dio odavde i maleni dio odande, naposljetku ih miješajući zajedno u proizvodnju bilo kakvog određenog rezultata, šanse da budete u mogućnosti imati trenutak 'gotchcha' su strahovito smanjene. Nijedan izlaz naizgled neće dosegnuti dovoljan prag da biste sa sigurnošću mogli reći da je preuzet iz jedne određene izvorne stavke. Rezultirajući esej ili drugi načini ispisa moći će se podudarati samo djelomično. A uobičajenim pristupom kojim pokušavate dokazati da je došlo do plagijata ili kršenja autorskih prava, obično morate pokazati više od neke malenkosti u igri, osobito ako se zalogaj ne ističe i može se pronaći širom interneta (podbacivanje svaki odgovarajući teret dokazivanja pronevjere).

Možete li još uvijek uvjerljivo izjaviti da je obuka podataka od strane generativne umjetne inteligencije opljačkala web stranice i kreatore sadržaja čak i ako je predloženi dokaz naizgled nematerijalan udio?

Razmisli o tome.

Ako se suočavamo s potencijalno velikim plagijatom i kršenjem autorskih prava u velikim razmjerima, možda ćemo morati promijeniti svoj pristup definiranju onoga što čini plagijat i/ili kršenje autorskih prava. Možda postoji slučaj za plagijat ili kršenje autorskih prava u glavnom ili općenito. Mozaik koji se sastoji od tisuća ili milijuna sićušnih isječaka mogao bi se protumačiti kao počinjenje takvih prekršaja. Međutim, očiti problem je u tome što to može dovesti do toga da sve vrste sadržaja iznenada dođu pod kišobran kršenja. Ovo bi mogao biti sklizak teren.

Teške misli.

Govoreći o velikim mislima, Lav Tolstoj, legendarni pisac, slavno je izjavio: "Jedini smisao života je služiti čovječanstvu."

Ako se vaše web-mjesto i web-mjesta drugih skeniraju radi poboljšanja umjetne inteligencije, a vi za to ne dobivate ni penija, možete li imati svečanu utjehu u gorljivom uvjerenju da pridonosite budućnosti čovječanstva? Čini se da je to mala cijena.

Pa, osim ako se AI ne pokaže strašnim egzistencijalnim rizikom koji izbriše sve ljude iz postojanja. Ne biste trebali pripisivati zasluge za to. Pretpostavljam da ne biste pridonijeli tom strašnom ishodu. Ostavimo li po strani to katastrofalno predviđanje, možda mislite da ako proizvođači umjetne inteligencije zarađuju od svoje generativne umjetne inteligencije i čini se da uživaju u profiterstvu, i vi biste trebali dobiti dio kolača. Dijelite i dijelite jednako. Proizvođači umjetne inteligencije trebali bi zatražiti dopuštenje za skeniranje bilo koje web stranice, a zatim i pregovarati o cijeni koju će platiti za to što im je dopušteno skeniranje.

Dajte kredit tamo gdje kredit dospijeva.

Dajmo Sir Walteru Scottu za sada posljednju riječ: “Oh, kakvu zapetljanu mrežu pletemo. Kada prvi put vježbamo varati.”

Ovo možda vrijedi ako vjerujete da je prijevara u tijeku, ili možda ne vrijedi ako mislite da je sve dobro i savršeno otvoreno i legitimno. Molimo vas da velikodušno odate sebi priznanje što ste o ovome razmislili. Zaslužuješ to.

Izvor: https://www.forbes.com/sites/lanceeliot/2023/02/26/legal-doomsday-for-generative-ai-chatgpt-if-caught-plagiarizing-or-infringing-warns-ai-ethics- i-ai-zakon/