OpenAI nahliada do „čiernej skrinky“ neurónových sietí s novým výskumom

Obrázok robotov, ktorý sa pozerá do umelého mozgu, vygenerovaný AI.
Zväčšiť/ Obrázok robotov, ktorý sa pozerá do umelého mozgu, vygenerovaný AI.

Stabilná difúzia

V utorok OpenAI publikovaný nový výskumný dokument podrobne popisuje techniku, ktorá využíva jeho GPT-4 jazykový model písať vysvetlenia správania neurónov v jeho staršom GPT-2 model, aj keď nedokonale. Je to krok vpred pre „interpretovateľnosť“, čo je oblasť AI, ktorá sa snaží vysvetliť, prečo neurónové siete vytvárajú výstupy, ktoré robia.

Ďalšie čítanie

OpenAI GPT-4 vykazuje „výkon na ľudskej úrovni“ v profesionálnych testoch

Zatiaľ čo veľké jazykové modely (LLM) dobývajú technologický svet, výskumníci AI stále nevedia veľa o ich funkčnosti a schopnostiach pod kapotou. V prvej vete článku OpenAI autori píšu: "Jazykové modely sa stali schopnejšími a rozšírenejšími, ale nerozumieme, ako fungujú."

Pre cudzincov to pravdepodobne znie ako ohromujúce priznanie od spoločnosti, ktorá závisí nielen od príjmov z LLM, ale tiež dúfa, že ich urýchli na nadľudské úrovne rozumových schopností.

Ale táto vlastnosť „nevedieť“ presne, ako jednotlivé neuróny neurónovej siete spolupracujú pri vytváraní jej výstupov, má dobre známy názov:

čierna skrinka. Napájate sieťové vstupy (ako otázka) a dostanete výstupy (ako odpoveď), ale čokoľvek sa medzi tým stane (vo vnútri „čiernej skrinky“), je záhadou.

V snahe nahliadnuť do čiernej skrinky výskumníci z OpenAI použili svoj jazykový model GPT-4 na generovanie a vyhodnotiť prirodzené jazykové vysvetlenia správania neurónov v oveľa menej komplexnom jazykovom modeli, ako napr GPT-2. V ideálnom prípade by interpretovateľný model AI pomohol prispieť k širšiemu cieľu toho, čo niektorí ľudia nazývajú „zosúladenie AI“, čím by sa zabezpečilo, že systémy AI sa budú správať podľa plánu a budú odrážať ľudské hodnoty. A automatizáciou procesu interpretácie sa OpenAI snaží prekonať obmedzenia tradičného manuálna ľudská kontrola, ktorá nie je škálovateľná pre väčšie neurónové siete s miliardami parametrov.

Webová stránka papiera obsahuje diagramy, ktoré ukazujú, že GPT-4 háda, ktoré prvky textu vygeneroval určitý neurón v neurónovej sieti.
Zväčšiť/ Webová stránka papiera obsahuje diagramy, ktoré ukazujú, že GPT-4 háda, ktoré prvky textu vygeneroval určitý neurón v neurónovej sieti.
OpenAI

Technika OpenAI "sa snaží vysvetliť, aké vzory v texte spôsobujú aktiváciu neurónu." Jeho metodika pozostáva z troch krokov:

  • Vysvetlite aktiváciu neurónu pomocou GPT-4
  • Simulujte správanie aktivácie neurónov pomocou GPT-4
  • Porovnajte simulované aktivácie so skutočnými aktiváciami.

Aby ste pochopili, ako metóda OpenAI funguje, musíte poznať niekoľko pojmov: neurón, okruh a hlava pozornosti. V neurónovej sieti je neurón ako malá rozhodovacia jednotka, ktorá prijíma informácie, procesy a produkuje výstup, rovnako ako malá mozgová bunka, ktorá sa rozhoduje na základe signálov prijíma. Okruh v neurónovej sieti je ako sieť vzájomne prepojených neurónov, ktoré spolupracujú a odovzdávajú si informácie a robiť rozhodnutia kolektívne, podobne ako skupina ľudí spolupracujúcich a komunikujúcich pri riešení a problém. A hlava pozornosti je ako reflektor, ktorý pomáha jazykovému modelu venovať väčšiu pozornosť konkrétnym slovám alebo časti vety, čo mu umožňuje lepšie pochopiť a zachytiť dôležité informácie pri spracovaní text.

Identifikáciou špecifických neurónov a hláv pozornosti v rámci modelu, ktoré je potrebné interpretovať, GPT-4 vytvára ľudsky čitateľné vysvetlenia funkcie alebo úlohy týchto komponentov. Generuje tiež skóre vysvetlenia, ktoré OpenAI nazýva „meradlom schopnosti jazykového modelu komprimovať a rekonštruovať aktivácie neurónov pomocou prirodzených Výskumníci dúfajú, že kvantifikovateľná povaha bodovacieho systému umožní merateľný pokrok smerom k zrozumiteľnosti výpočtov neurónových sietí. k ľuďom.

Ako dobre to teda funguje? Momentálne to nie je také skvelé. Počas testovania OpenAI postavil svoju techniku ​​proti ľudskému dodávateľovi, ktorý vykonával podobné hodnotenia manuálne, a oni zistili, že GPT-4 aj ľudský kontraktor „v absolútnom vyjadrení dosiahli slabé skóre“, čo znamená, že interpretácia neurónov je ťažké.

Jedným z vysvetlení tohto zlyhania, ktoré ponúka OpenAI, je, že neuróny môžu byť „polysémantické“, čo znamená, že typický neurón v kontexte štúdie môže vykazovať viacero významov alebo byť spojený s viacerými pojmami. V časti o obmedzeniach výskumníci OpenAI diskutujú o polysémantických neurónoch a tiež o „mimozemských črtách“ ako o obmedzeniach ich metódy:

Okrem toho môžu jazykové modely predstavovať cudzie pojmy, pre ktoré ľudia nemajú slová. To by sa mohlo stať, pretože jazykovým modelom záleží na rôznych veciach, napr. štatistické konštrukty užitočné pre úlohy predikcie ďalšieho tokenu, príp pretože model objavil prirodzené abstrakcie, ktoré ľudia ešte musia objaviť, napr. nejaká rodina analogických konceptov v nesúrodých domén.

Medzi ďalšie obmedzenia patrí náročnosť na prácu s počítačom a poskytovanie iba krátkych vysvetlení v prirodzenom jazyku. Výskumníci z OpenAI sú však stále optimistickí, že vytvorili rámec pre strojovo meditované interpretovateľnosť a kvantifikovateľné prostriedky na meranie zlepšení v interpretovateľnosti, keď ich zlepšujú techniky v budúcnosti. Keď sa modely AI stanú pokročilejšími, výskumníci OpenAI dúfajú, že kvalita generovaných vysvetlení sa zlepší a ponúkne lepší prehľad o vnútornom fungovaní týchto zložitých systémov.

OpenAI publikovala svoj výskumný dokument o an interaktívna webová stránka ktorý obsahuje príklady rozpisov každého kroku, zobrazujúce zvýraznené časti textu a ich zhodu určité neuróny. Okrem toho OpenAI poskytuje kód „automatickej interpretovateľnosti“ a jeho GPT-2 XL neuróny a vysvetlenia dátových súborov na GitHub.

Ak niekedy presne prídu na to, prečo ChatGPT robí veci, všetko úsilie bude stáť za to.

Najnovší blogový príspevok

Majú Jupiterove mesiace vodu? ŠŤAVA bude šmýkať.
August 05, 2023

Callisto a Ganymedes patria medzi najväčšie mesiace v slnečnej sústave. Misia JUICE od NASA odhalí niektoré z ich tajomstiev. Je čas na JUICE do p...

Vstupenky do vesmíru Virgin Galactic sa začnú predávať za 450 000 dolárov
August 05, 2023

Predaj vstupeniek na exkurzie s raketovým pohonom, ktoré stoja 450 000 dolárov, sa otvára zajtra. Najprv musíte zložiť 150 000 dolárov. Tí, ktorí ...

Dospievajúci šimpanz a ľudia môžu byť bezohľadní
August 05, 2023

Niekoľko čŕt psychológie dospievajúceho človeka odzrkadľuje našich primátov. Ľudskí tínedžeri nie sú presne známy svojou zdržanlivosťou. Neúplne v...