Whisper AI model automatski prepoznaje govor i prevodi ga na engleski

Ružičasti valni oblik na plavoj pozadini, poetično sugerirajući zvuk.
Povećaj

Benj Edwards / Ars Technica

U srijedu je OpenAI objavio novi model AI otvorenog koda pod nazivom Šapat koji prepoznaje i prevodi zvuk na razini koja se približava ljudskoj sposobnosti prepoznavanja. Može transkribirati intervjue, podcaste, razgovore i još mnogo toga.

OpenAI obučeni Whisper na 680 000 sati audio podataka i odgovarajućih transkripata na 98 jezika prikupljenih s weba. Prema OpenAI-ju, ovaj pristup otvorenoj kolekciji doveo je do "poboljšane otpornosti na naglaske, pozadinsku buku i tehnički jezik." Također može otkriti govorni jezik i prevesti ga na njega Engleski.

OpenAI opisuje Whisper kao koder-dekoder transformator, vrsta neuronske mreže koja može koristiti kontekst prikupljen iz ulaznih podataka za učenje asocijacija koje se zatim mogu prevesti u izlaz modela. OpenAI predstavlja ovaj pregled rada Whispera:

Ulazni zvuk se dijeli na dijelove od 30 sekundi, pretvara u log-Mel spektrogram, a zatim prosljeđuje u koder. Dekoder je osposobljen za predviđanje odgovarajućeg tekstualnog naslova, pomiješanog s posebnim tokenima koji usmjeravaju pojedinačni model na izvršavanje zadataka kao što su identifikacija jezika, vremenske oznake na razini izraza, višejezična transkripcija govora i govor na engleski prijevod.

Otvorenim izvorom Whispera, OpenAI se nada predstaviti novi temeljni model na kojem drugi mogu graditi u budućnosti kako bi poboljšali obradu govora i alate za pristupačnost. OpenAI ima značajne rezultate na tom planu. U siječnju 2021. objavljen je OpenAI KLIP, model računalnog vida otvorenog koda koji je vjerojatno pokrenuo noviju eru brzo napredujuće tehnologije sinteze slike kao što su DALL-E 2 i Stabilna difuzija.

U Ars Technici testirali smo Whisper iz koda dostupno na GitHubu, a dodali smo mu više uzoraka, uključujući epizodu podcasta i posebno teško razumljiv dio zvuka uzetog iz telefonskog intervjua. Iako je bilo potrebno neko vrijeme za pokretanje kroz standardni Intelov stolni procesor (tehnologija još ne radi u stvarnom vremenu), Whisper je dobro obavio posao transkripcija zvuka u tekst putem demonstracijskog programa Python—daleko bolje od nekih usluga audio transkripcije koje pokreće AI koje smo isprobali u prošlost.

Primjer izlaza konzole iz demonstracijskog programa OpenAI Whisper dok transkribira podcast.
Povećaj/ Primjer izlaza konzole iz demonstracijskog programa OpenAI Whisper dok transkribira podcast.

Benj Edwards / Ars Technica

S pravilnim postavljanjem, Whisper se lako može koristiti za transkripciju intervjua, podcasta i potencijalno prevođenje podcasta proizvedenih na jezicima koji nisu engleski na vašem računalu - besplatno. To je moćna kombinacija koja bi na kraju mogla poremetiti industriju prijepisa.

Kao i gotovo svaki veliki novi model umjetne inteligencije ovih dana, Whisper donosi pozitivne prednosti i potencijal za zlouporabu. Kod Whispera model kartice (u odjeljku "Šire implikacije"), OpenAI upozorava da bi se Whisper mogao koristiti za automatiziranje nadzora ili identificirati pojedinačne govornike u razgovoru, ali tvrtka se nada da će se koristiti "prvenstveno za dobrobit". svrhe."

Najnoviji post na blogu

Istraživanje pokazuje da se postotak Amerikanaca koji puše travu udvostručio od 2002
August 25, 2023

Ako ste odrasla osoba koja je pušila marihuanu u posljednjih godinu dana, jedan ste od oko 30 milijuna Amerikanaca koji je to učinio, prema novom i...

Laboratorij za duboko zamrzavanje muzeja u New Yorku pohranit će DNK ugroženih vrsta
August 25, 2023

Američki prirodoslovni muzej primit će uzorke ugroženih vrsta od Službe za nacionalni park. Zamrzavanje genetskih uzoraka biljnih i životinjskih v...

Predviđanja za 2012.: Igre izlaze izvan okvira
August 25, 2023

Možemo zaraditi prihod od proizvoda dostupnih na ovoj stranici i sudjelovati u partnerskim programima. Saznajte više › Kada... Možemo zaraditi pri...