![Ružičasti valni oblik na plavoj pozadini, poetično sugerirajući zvuk.](/f/05a3c0921cbc5592aa3dba65f31e2c25.jpg)
Benj Edwards / Ars Technica
U srijedu je OpenAI objavio novi model AI otvorenog koda pod nazivom Šapat koji prepoznaje i prevodi zvuk na razini koja se približava ljudskoj sposobnosti prepoznavanja. Može transkribirati intervjue, podcaste, razgovore i još mnogo toga.
OpenAI obučeni Whisper na 680 000 sati audio podataka i odgovarajućih transkripata na 98 jezika prikupljenih s weba. Prema OpenAI-ju, ovaj pristup otvorenoj kolekciji doveo je do "poboljšane otpornosti na naglaske, pozadinsku buku i tehnički jezik." Također može otkriti govorni jezik i prevesti ga na njega Engleski.
OpenAI opisuje Whisper kao koder-dekoder transformator, vrsta neuronske mreže koja može koristiti kontekst prikupljen iz ulaznih podataka za učenje asocijacija koje se zatim mogu prevesti u izlaz modela. OpenAI predstavlja ovaj pregled rada Whispera:
Ulazni zvuk se dijeli na dijelove od 30 sekundi, pretvara u log-Mel spektrogram, a zatim prosljeđuje u koder. Dekoder je osposobljen za predviđanje odgovarajućeg tekstualnog naslova, pomiješanog s posebnim tokenima koji usmjeravaju pojedinačni model na izvršavanje zadataka kao što su identifikacija jezika, vremenske oznake na razini izraza, višejezična transkripcija govora i govor na engleski prijevod.
Otvorenim izvorom Whispera, OpenAI se nada predstaviti novi temeljni model na kojem drugi mogu graditi u budućnosti kako bi poboljšali obradu govora i alate za pristupačnost. OpenAI ima značajne rezultate na tom planu. U siječnju 2021. objavljen je OpenAI KLIP, model računalnog vida otvorenog koda koji je vjerojatno pokrenuo noviju eru brzo napredujuće tehnologije sinteze slike kao što su DALL-E 2 i Stabilna difuzija.
U Ars Technici testirali smo Whisper iz koda dostupno na GitHubu, a dodali smo mu više uzoraka, uključujući epizodu podcasta i posebno teško razumljiv dio zvuka uzetog iz telefonskog intervjua. Iako je bilo potrebno neko vrijeme za pokretanje kroz standardni Intelov stolni procesor (tehnologija još ne radi u stvarnom vremenu), Whisper je dobro obavio posao transkripcija zvuka u tekst putem demonstracijskog programa Python—daleko bolje od nekih usluga audio transkripcije koje pokreće AI koje smo isprobali u prošlost.
![Primjer izlaza konzole iz demonstracijskog programa OpenAI Whisper dok transkribira podcast.](/f/ec90e92b3e050ade53a2425bb51186db.jpg)
Benj Edwards / Ars Technica
S pravilnim postavljanjem, Whisper se lako može koristiti za transkripciju intervjua, podcasta i potencijalno prevođenje podcasta proizvedenih na jezicima koji nisu engleski na vašem računalu - besplatno. To je moćna kombinacija koja bi na kraju mogla poremetiti industriju prijepisa.
Kao i gotovo svaki veliki novi model umjetne inteligencije ovih dana, Whisper donosi pozitivne prednosti i potencijal za zlouporabu. Kod Whispera model kartice (u odjeljku "Šire implikacije"), OpenAI upozorava da bi se Whisper mogao koristiti za automatiziranje nadzora ili identificirati pojedinačne govornike u razgovoru, ali tvrtka se nada da će se koristiti "prvenstveno za dobrobit". svrhe."