
Bitka između veliki izdavači i kompanije za umjetnu inteligenciju je doživio novi zaokret tužbom koju je podnio Encyclopedia Britannica i njena podružnica Merriam-Webster protiv OpenAI, kompanija odgovorna za ChatGPT u centru pažnje pravosuđaIzdavači tvrde da su modeli kompanije masovno koristili njihov sadržaj zaštićen autorskim pravima za obuku i hranjenje chatbota, bez dozvole ili finansijske naknade.
Prema dokumentu podnesenom saveznom sudu ManhattanKompanija Sama Altmana bi iskoristila prestiž i pouzdanost kataloga Britannica i Merriam-Webster kako bi ga transformirala u sirovina za njihove AI sisteme, dok je istovremeno preusmjeravao korisnike koji su prethodno direktno posjećivali enciklopedijske web stranice na odgovore generirane od strane ChatGPT-a, čime je smanjio promet i prihode.
Tužba zbog masovnog kršenja autorskih prava i korištenja zaštitnog znaka
Pravna tužba, podnesena pred Južni okružni sud New Yorkaoptužuje OpenAI za izvođenje "Masovno kršenje autorskih prava" sistematskim kopiranjem i ponovnim korištenjem kataloga enciklopedijskih članaka i rječničkih definicija iz obje izdavačke kuće. Brojke navedene u tužbi su posebno upečatljive: govori se o skoro 100.000 artikala koji bi bio izdvojen i korišten za obuku modela kao što je GPT-4 i njegove varijante dostupne putem ChatGPT-a.
Tužitelji tvrde da pouzdan sadržaj kreiran od strane ljudskih timova —istraživači, pisci, urednici i leksikografi — postali su direktni input za obuku modela, bez ikakve licence, naknade ili sporazuma bilo koje vrste. Iz njihove perspektive, OpenAI je izgradio višemilionski posao oslanjajući se na resurse drugih ljudi koji su i dalje zaštićeni zakonom o intelektualnom vlasništvu.
Pored pitanja koje se isključivo odnosi na autorska prava, tužba otvara i drugi pravni put tvrdeći da postoji i kršenje zakonodavstvo o zaštitnim znakovimaPrema dokumentu, ChatGPT generira netačne ili potpuno izmišljene tekstove - dobro poznate "AI halucinacije" - koje se pripisuju Enciklopedija Britannica ili Merriam-WebsterTo bi moglo navesti korisnike da povjeruju da ovi izdavači podržavaju generirani sadržaj ili da postoji neka vrsta saradnje ili licence.
Kompanije tvrde da ove vrste grešaka ne samo da narušavaju povjerenje izgrađeno decenijama oko njihovih brendova, već i ugrožava javnu percepciju kvalitete i rigoroznosti referentnih djela, nešto posebno osjetljivo u obrazovnom i akademskom području, također i u Evropi i Španiji, gdje se njihovi materijali koriste kao autoritativni izvori.
Kako bi OpenAI iskoristio sadržaj iz Britannice i Merriam-Webstera?
U tužbi se tvrdi da je OpenAI pribjegao masovno kopiranje web stranica od izdavača - uključujući online verzije enciklopedije i rječnika - kako bi se podaci koristili za obuku njihovih jezičkih modela. Ovaj proces bi uključivao i pune tekstove i velike odlomke članaka, definicija i drugog referentnog sadržaja.
Nakon što je model obučen, ChatGPT će moći reproducirati ili sažeti vrlo blisko Originalni unosi se preuzimaju kada se prime određeni upiti. Izdavači tvrde da chatbot generira "gotovo doslovne" reprodukcije ili sažetke toliko koncizne da u praksi zamjenjuju čitanje originalnog djela, posebno kada korisnik traži opšta objašnjenja ili definicije osnovnih pojmova.
Dokument ide dalje od početne obuke i također ukazuje na kontinuiranu upotrebu ovih tekstova koju bi OpenAI sistemi koristili kroz tehnike Proširena generacija preuzimanja (RAG)Ovaj pristup omogućava modelu da u realnom vremenu prikupi dodatne informacije iz baza podataka ili weba kako bi proširio svoje odgovore. Prema Britannici i Merriam-Websteru, ovaj mehanizam bi nastavio da iskorištava njihov sadržaj bez dozvole, kombinujući ekstrakciju podataka, kopiranje i ponovnu upotrebu u kontinuiranom toku.
U tom kontekstu, tužitelji naglašavaju da je razlika u odnosu na tradicionalni pretraživač ključna. Dok klasični pretraživač nudi linkove i preusmjerava promet na originalne stranice — što se prevodi u posjete, oglašavanje i pretplate — ChatGPT direktno odgovara na pitanja korisnika, sprječavajući ih da klikaju na stranice izdavača. Ova dinamika, tvrde oni, Kanibalizira promet i narušava njegov ekonomski model..
OpenAI, sa svoje strane, javno tvrdi da su njegovi modeli obučeni „s javno dostupnim podacima i drugim pravnim materijalima"i da je cijeli proces zasnovan na doktrini poštene upotrebe ili poštena upotreba američkog zakona. Kompanija tvrdi da statističko učenje koje provodi model transformira izvorni tekst i da stoga nije riječ o jednostavnoj kopiji djela.
Debata o poštenoj upotrebi i pamćenju sadržaja
Pravna srž sukoba vrti se oko jednog nimalo beznačajnog pitanja: Da li obučavanje vještačke inteligencije zaštićenim tekstovima predstavlja legitimnu upotrebu ili kršenje autorskih prava? Do sada je veliki dio tehnološke industrije tvrdio da je masovna obuka s materijalima dostupnim na internetu transformativna upotreba, neophodna za razvoj naprednih modela.
Izdavači koji podnose tužbu u potpunosti osporavaju ovaj pristup. Po njihovom mišljenju, kada je sistem poput ChatGPT-a sposoban da isporuči paragrafi gotovo identični originalimaIli, u definicijama koje jednostavno kopiraju strukturu, vokabular i pristup njihovih djela, transformativni karakter nestaje, otkrivajući neovlaštenu reprodukciju. U svojoj argumentaciji, oni se pozivaju na fenomen... "pamćenje"To jest, sposobnost nekih modela da pohranjuju i vraćaju specifične fragmente materijala za obuku.
Nedavna istraživanja, navedena u raznim analizama o umjetnoj inteligenciji, pokazala su da vodeći modeli poput GPT-4 Oni mogu generirati sadržaj zaštićen autorskim pravima mnogo češće nego što se očekivalo, a drugi sistemi, poput nekih iz porodice Llama, uspjeli su ga reproducirati. značajan postotak književnih djela uključeno u njihove podatke za obuku. Za nosioce prava, ovi primjeri pojačavaju argument da se ne radi samo o učenju jezičkih obrazaca, već o očuvanju značajnih dijelova djela.
Ova debata nije ograničena samo na Sjedinjene Američke Države. U Evropi, gdje Španija djeluje pod restriktivnijim zakonima o intelektualnom vlasništvu, razni stručnjaci i sudske presude počeli su dovoditi u pitanje da li se neselektivna obuka sa sadržajem zaštićenim autorskim pravima može smatrati obuhvaćenom izuzecima sličnim onima koji postoje u Sjedinjenim Američkim Državama. poštena upotrebaZa evropski izdavački sektor, stav Britannice i Merriam-Webstera poklapa se sa rastućom zabrinutošću: Koliki manevarski prostor imaju stvaraoci da kontrolišu korištenje svojih djela u eri generativne umjetne inteligencije.
Paralelno s tim, tužba također naglašava štetu po ugled koju su prouzrokovale ChatGPT-ove "halucinacije". Kada model generira pogrešne odgovore i pripisuje ih izvoru koji je ugledan kao što je Britannica ili prestižni rječnik poput Merriam-Webstera, to postavlja ozbiljna pitanja. pouzdanost tradicionalnih referenci znanjaOvo je razlog za zabrinutost u američkim obrazovnim sistemima, kao i na univerzitetima i obrazovnim institucijama širom Evrope.
Ekonomski uticaj i poslovni model u pitanju
Jedan od ključnih elemenata slučaja je opis ekonomske štete koju navodno ponašanje OpenAI-a nanosi izdavačima. Britannica i Merriam-Webster ističu da njihovo poslovanje održava... digitalne pretplate, obrazovne licence i online oglašavanje, ekosistem koji uveliko zavisi od prometa koji dolazi na njegove web stranice sa pretraživača i drugih platformi.
Korištenje ChatGPT-a mijenja tu dinamiku. Kada korisnik postavi pitanje chatbotu i dobije direktan, dobro napisan i dovoljno detaljan odgovorPotreba za posjetom originalne stranice dramatično se smanjuje. U samoj tužbi se tvrdi da sistem "lišava web izdavače prihoda" nudeći sadržaj koji "zamjenjuje i direktno konkurira" originalnim materijalima, posebno u slučaju informativnih članaka, osnovnih definicija i uvodnih objašnjenja.
Za izdavače, problem ide dalje od privremenog pada prometa: to bi bio strukturna prijetnja održivosti novinarstva i referentnih djela u digitalnom formatu. Ako se modeli umjetne inteligencije hrane visokokvalitetnim profesionalnim sadržajem i istovremeno postanu glavna pristupna tačka tim informacijama bez dijeljenja koristi, ekonomski podsticaj za nastavak proizvodnje te vrste materijala značajno se smanjuje.
U konkretnom slučaju Britannice, koja godinama posluje prvenstveno online i sarađuje s obrazovnim institucijama u brojnim zemljama, uključujući i europsko područje, zabrinutost je da bi pojava generativne umjetne inteligencije mogla oslabiti finansiranje provjerenih nastavnih resursaU kontekstu u kojem su španske škole, univerziteti i javne uprave posvećeni digitalizaciji, ovaj sukob postavlja pitanje kako uravnotežiti usvajanje alata poput ChatGPT-a sa zaštitom kataloga sadržaja koji hrane te iste sisteme.
Stoga se tužbom ne traži samo priznanje pretrpljene štete i povrat dobiti, već i sudska odluka kojom se trajno zabranjuje OpenAI je dužan nastaviti koristiti sadržaj izdavača pod opisanim uvjetima. Iako nisu navedeni specifični iznosi kompenzacije, veličina pogođenog kataloga sugerira da bi ekonomski utjecaj, ukoliko tužba bude uspješna, mogao biti vrlo značajan.
Odgovor OpenAI-a i sukob modela
U svojim prvim javnim reakcijama, OpenAI je branio svoje modele Obučeni su korištenjem podataka iz javnog domena, licenciranog sadržaja i drugih legalnih izvora.insistirajući da korištenje informacija dostupnih na internetu bude u skladu s doktrinom poštene upotrebe. Kompanija tvrdi da dodana vrijednost njenih sistema leži upravo u njihovoj sposobnosti da sintetiziraju i kombiniraju više izvora, a ne u doslovnoj reprodukciji određenih tekstova i u pitanjima rizici privatnosti i pravnih pitanja.
Ovaj sukob između vizije izdavača i vizije tehnoloških kompanija odražava dva modela koja je teško pomiriti. S jedne strane, izdavači tvrde da kvalitet i pouzdanost njegovog sadržaja Oni su rezultat stalnog ulaganja u ljudske timove, rigoroznih procesa uređivanja i verifikacije, a svaka komercijalna eksploatacija tog materijala mora proći kroz jasne ugovore o licenciranju i ekonomsku kompenzaciju.
S druge strane, kompanije poput OpenAI-a vjeruju da pretjerano ograničavanje pristupa podacima ograničava mogućnost inovacije u jezičkim modelima I to ometa tehnološki napredak, posebno u oblasti koja je konkurentna kao generativna umjetna inteligencija, gdje igrači iz Sjedinjenih Država, Evrope i Azije pokušavaju steći prednost. Iz ove perspektive, obuka s velikim količinama podataka je neophodan uslov za obezbjeđivanje korisnih alata koji bi, zauzvrat, mogli poboljšati pristup znanju za milione ljudi.
Usred ovog zastoja, neki analitičari ukazuju na moguća međurješenja: kolektivni sistemi licenciranja, sektorski sporazumi ili nove pravne strukture koji omogućavaju obuku modela umjetne inteligencije u zamjenu za standardizirane isplate nosiocima prava. Za evropski kontekst, gdje Uredba o umjetnoj inteligenciji i zakon o autorskim pravima već zahtijevaju određeni stepen transparentnosti u vezi s podacima za obuku, ovakva rješenja mogla bi se uskladiti sa zahtjevima za sljedivost i kontrolu koje zahtijeva Brisel.
Bez obzira na konačnu formulu, u pitanju je način na koji se ona Dijele prednosti ekonomije podataka između onih koji generiraju sadržaj i onih koji ga koriste za razvoj proizvoda i usluga zasnovanih na vještačkoj inteligenciji.
Još jedna karika u lancu tužbi protiv generativne umjetne inteligencije
Ofanziva Enciklopedije Britannice i Merriam-Webstera nije izolovan slučaj. Posljednjih godina se dešava sve veći broj sličnih napada. pravi talas sudskih sporova protiv velikih kompanija generativne umjetne inteligencije, a OpenAI je u središtu mnogih od ovih sporova. Među najpoznatijim slučajevima je tužba koju je podnio The New York Times, koji optužuje kompaniju i njenog partnera Microsoft za reprodukciju članaka, čak i onih zaštićenih paywall-ovima, iz njenog sadržaja.
Lista također uključuje postupke pokrenute od strane medijske grupe poput Ziff Davisa —vlasnik publikacija kao što su Mashable, CNET, IGN i PCMag — i koalicija novina iz Sjedinjenih Država i Kanade, uključujući Chicago Tribune, Denver Post, Toronto Star ili CBCAutori, scenaristi, fotografi, muzičari i drugi pojedinačni stvaraoci također su se obratili sudovima kako bi osporili korištenje svojih djela u obuci modela umjetne inteligencije, čime je broj aktivnih slučajeva porastao na desetine slučajeva u ključnim jurisdikcijamaSlučajevi iz industrije zabave također su bili istaknuti u kontroverzi, s tužbama za kršenje prava povezani s modelima umjetne inteligencije.
Sama Britannica je već napravila korak u tom smjeru sa prethodna tužba protiv startupa Perplexity AIU tom slučaju, on osuđuje vrlo sličan obrazac neovlaštenog korištenja sadržaja i generiranja sažetaka koji konkuriraju originalima. Nova tužba protiv OpenAI-a ponovo koristi veliki dio pravnog okvira korištenog u tom slučaju, proširujući ga i stavljajući u još značajniji kontekst.
U Evropi, iako su neki procesi u početnim fazama, već su donesene presude koje otvoreno dovode u pitanje da li se pamćenje zaštićenih odlomaka pomoću jezičkih modela može smatrati zakonitom upotrebom. Određene presude su naglasile da, čak i ako informacije nisu pohranjene u tradicionalnom formatu, sposobnost sistema da reprodukuje prepoznatljiva djela predstavlja... reprodukcija u svrhu autorskog prava.
Ishod ovih postupaka imat će direktne implikacije na kompanije koje posluju u EU, uključujući i one koje nude usluge umjetne inteligencije u Španiji. Buduće sudske i regulatorne odluke mogle bi ih prisiliti da... prekvalifikovati modele, ograničiti određene funkcionalnosti ili uspostaviti obavezna plaćanja zbog korištenja kataloga za objavljivanje, što bi uticalo i na velike tehnološke kompanije i na startupove i developere koji grade na ovim tehnologijama.
U međuvremenu, organizacije poput Savez za autorska prava Dokumentuju stalan porast tužbi kreatora digitalnog sadržaja - uključujući YouTubere i generatore online sadržaja - protiv kompanija koje se bave vještačkom inteligencijom, što ukazuje na klimu rastuće napetosti između tehnološke industrije i kreativnog i izdavačkog ekosistema.
U ovom nestabilnom scenariju, spor između Britannice, Merriam-Webstera i OpenAI-a postao je simboličan slučaj koji obuhvata mnoga otvorena pitanja o... Intelektualno vlasništvo, odgovornost i održivost znanja u doba umjetne inteligencijeOdluka njujorških sudova, i moguće reperkusije na evropske propise, odredit će kako će se modeli umjetne inteligencije, koji su već dio svakodnevnog života u Španiji i ostatku kontinenta, obučavati i koristiti.
Cijela ova pravna bitka, koja suprotstavlja zaštitu izdavačkih kataloga inovativnom pogonu umjetne inteligencije, crta novu mapu na kojoj... kreatori sadržaja, tehnološke platforme i regulatori Morat će pronaći načine za koegzistenciju ako žele garantirati i ekonomski održiv digitalni ekosistem i odgovoran razvoj alata poput ChatGPT-a u Evropi i ostatku svijeta.