NYT bráni generatívnej AI zoškrabovať jej obsah

Vývoj prispieva k zmätku súdnych sporov a odmietnutí, ktorým čelia tvorcovia AI zo strany vlastníkov autorských práv.

Kúzlo projektov generatívnej umelej inteligencie, ako sú ChatGPT a Bard, sa spolieha na údaje zoškrabané z otvoreného internetu. Teraz sa však zdroje tréningových údajov pre tieto modely začínajú zatvárať. The New York Times zakázal používanie akéhokoľvek obsahu na svojej webovej stránke na vývoj modelov AI, ako sú GPT-4 od OpenAI, PaLM 2 od Googlu a Llama 2 od spoločnosti Meta, podľa správy z minulého týždňa Adweek.

Začiatkom tohto mesiaca Times aktualizoval svoje podmienky služby výslovne vylúčiť jeho obsah zo zoškrabania na trénovanie „systému strojového učenia alebo umelej inteligencie (AI). Zatiaľ čo toto neovplyvní súčasnú generáciu veľkých jazykových modelov (LLM), ak technologické spoločnosti budú rešpektovať zákaz, zabráni to a Times používa na vývoj budúcich modelov.

The TimesAktualizované zmluvné podmienky zakazujú používanie akéhokoľvek obsahu – vrátane textu, obrázkov, zvukových a video klipov, „vzhľadu a prostredia“ a metadát – na vývoj akéhokoľvek softvéru vrátane AI, plus, tiež výslovne zakazujú používanie „robotov, pavúkov, skriptov, služby, softvéru alebo akéhokoľvek manuálneho alebo automatického zariadenia, nástroja alebo procesu“ na zoškrabanie ich obsahu bez predchádzajúceho písomného zápisu. súhlas. Je to dosť široký jazyk a zjavne porušenie týchto podmienok služby „môže mať za následok občianske, trestné a/alebo správne sankcie, pokuty alebo sankcie voči používateľovi a tým, ktorí mu pomáhajú užívateľ.”

Vzhľadom na to, že obsah z Times sa používa ako hlavný zdroj trénovacích údajov pre súčasnú generáciu LLM, dáva zmysel, že dokument sa snaží kontrolovať, ako sa budú jeho údaje používať v budúcnosti. Podľa aWashington Post vyšetrovanie začiatkom tohto roka, Times bol štvrtým najväčším zdrojom obsahu pre jednu z hlavných databáz používaných na školenie LLM. The Príspevok analyzované Súbor údajov C4 od Googlu, upravená verzia Common Crawl, ktorá zahŕňa obsah skopírovaný z viac ako 15 miliónov webových stránok. Iba Patenty Google, Wikipedia, a Scribd (knižnica elektronických kníh) prispela ďalším obsahom do databázy.

Napriek jeho prevahe v tréningových údajoch tento týždeňSemafor nahlásené že Times sa „rozhodol nepripojiť“ ku skupine mediálnych spoločností vrátane Wall Street Journal v snahe spoločne vyjednať politiku AI s technologickými spoločnosťami. Zdá sa, že noviny majú v úmysle urobiť svoje vlastné opatrenia ako Associated Press (AP), ktorá uzavrel dvojročnú zmluvu s OpenAI minulý mesiac to umožnilo výrobcovi ChatGPT použiť niektoré z archívov AP už od roku 1985 na trénovanie budúcich modelov AI.

Hoci existujú viaceré súdne spory čakajúce proti tvorcom AI ako OpenAI a Google nad tým, ako používajú materiály chránené autorskými právami na školenie svojich súčasných LLM, je džin naozaj mimo. Tréningové dáta sú teraz použité a keďže samotné modely pozostávajú z vrstiev zložitých algoritmov, nie je možné ich jednoducho odstrániť alebo zľaviť z nich. ChatGPT, Bard a ďalšie dostupné LLM. Namiesto toho sa teraz bojuje o prístup k tréningovým údajom pre budúce modely – a v mnohých prípadoch o to, kto ich získa kompenzované.

[Súvisiace: Zoom môže používať váš „obsah“ na trénovanie svojej AI]

Začiatkom tohto roka Reddit, ktorý je tiež veľkým a nevedomým prispievateľom tréningových údajov do modelov AI, vypnúť bezplatný prístup k svojmu API pre aplikácie tretích strán v snahe účtovať spoločnostiam AI do budúcnosti prístup. Tento pohyb vyvolalo protesty na celej stránke. Elon Musk podobne prerušil prístup OpenAI k Twitteru (prepáčte, X). obavy, že neplatili dosť za používanie jej údajov. V oboch prípadoch išlo o myšlienku, že tvorcovia AI by mohli profitovať z obsahu sociálnych sietí (napriek tomu, že ide v skutočnosti o obsah vytvorený používateľmi).

Vzhľadom na toto všetko je pozoruhodné, že minulý týždeň OpenAI potichu zverejnil podrobnosti o tom, ako zablokovať jeho zoškrabovanie z webu GPTBot pridaním riadku kódu do súboru robots.txt – súbor pokynov, ktoré má väčšina webových stránok pre vyhľadávacie nástroje a iné webové prehľadávače. Kým Times zablokoval robota na zoškrabovanie webu Common Crawl, zatiaľ nezablokoval GPTBot jeho súbor robots.txt. Nech už sa na veci pozeráte z akéhokoľvek uhla, svet sa stále zmieta v náhlom výbuchu výkonných modelov AI za posledných 18 mesiacov. Tam je veľa právne hádky ešte sa stane cez ako sa údaje používajú ich trénovať napredovať— a kým sa nezavedú zákony a politiky, veci budú veľmi neisté.

NYT bráni generatívnej AI zoškrabovať jej obsah

Kategórie

Najnovší blogový príspevok

August 31, 2023

August 31, 2023

August 31, 2023

September 04, 2023

September 04, 2023

Tech Tips

NYT bráni generatívnej AI zoškrabovať jej obsah

Kategórie

Najnovší blogový príspevok

August 31, 2023

August 31, 2023

August 31, 2023