Država Linux prepoznavanja glasa

by Gary Newell

Uvod

Ja provodim dosta vremena istraživanja za članke i prilično često razmišljam o predmetu za članak dok hodam do željezničke stanice ili kada uopšte i okolo.

Jedne večeri, dok sam hodao 2,5 kilometara do stanice iz mog rada, pomislio sam: "Zar ne bi bilo dobro ako bih mogao da snimim ono što želim da kažem, a onda da se automatski prepisuje u tekstualnu datoteku koju mogu da uredim i formatam kasnije" .

Provela sam mnogo dugih sati gledajući različite opcije dostupne za prepoznavanje glasa i diktaciju uključujući i snimanje direktno kroz mikrofon pomoću programa za diktiranje u Linuxu, snimanju datoteke u MP3 ili WAV format i pretvarajući ga preko komandne linije, kao i pomoću Chrome-a i Android aplikacija.

Ovaj članak ističe moje otkriće nakon nekoliko dana napornog rada.

Linux opcije

Pokušaj pronalaska softvera za diktiranje i prepoznavanje glasa u Linuxu nije tako jednostavan kao što je moguće i dostupne opcije nisu tako pametne.

Ova stranica na Vikipediji sadrži listu potencijalnih opcija uključujući CMU Sphinx, Julius i Simon.

Ja koristim SparkyLinux koji se zasniva na Debian Testingu u ovom trenutku i mogu vam reći da je jedini paket za prepoznavanje glasa dostupan u spremištima Sphinx.

Rođeni Linux programi na kojima sam pokušao su bili PocketSphinx, koji sam pretvorio WAV datoteke u tekst i Freespeech-VR koji je python aplikacija koja vam omogućava snimanje direktno iz mikrofona.

Probao sam i nekoliko Chrome aplikacija, uključujući VoiceNote II i Dictanote.

Na kraju sam pokušao da koristim Android Apps za "Diktiranje i e-poštu" i "Diktiranje razgovora i razgovora".

Freespeech-VR

Freespeech-VR nije dostupan u standardnim spremištima. Preuzeo sam datoteke odavde.

Nakon preuzimanja i izvlačenja sadržaja zip datoteke otvorio sam terminal i kretao se do fascikle gdje su datoteke bile izvučene.

Otkucao sam narednu komandu da otvorim freespeech-vr.

sudo python freespeech-vr

Imam par slušalica sa prilično pristojnim mikrofonom i prilično jasnim južnim engleskim naglaskom.

Sledeći tekst pojavio se u prozoru freespeech-vr:

Dobrodošli u jedinice psi ishoda Danas su osigurali kako se upravljani testovi moraju testirati Kada u tekst Koristi sistemski način Govor I Na svakom od njih bilo je samo u nju Da se nadamo da ostanemo i da sredstvo jedne kokice zlatne kao sistem Ea kada mi se zove sledeća pozivnica telefon poziva Ova datoteka Uskoro slučajevi telefona na Hands- Space sphinx Going To nisu telefoni će se deliti Obučeni i i alati Koristite govore Kada završite Recite korištenu datoteku Poslednji priča A Korišćenjem od strane Kada je vrlo uspješan Ovaj Linux je bio kao što se izbjegavate

Sada bih želeo da kažem da ovo nije veb stranica jedinice pasa i ni u jednom trenutku nisam spomenuo bilo šta sa Zlatnim pilićima. Zapravo sam pokušavao da opišem proces korišćenja softvera za prepoznavanje glasa.

Probao sam softver nekoliko puta, uključujući različitu tačku i brzinu, ali tačnost je bila loša.

PocketSphinx

PocketSphinx može preuzeti WAV datoteku i pretvoriti ga u tekst koristeći komandnu liniju.

PocketSphinx je dostupan preko Debian repozitorija i trebalo bi da bude dostupan za većinu distribucija.

Glavno pitanje koje sam našao kod PocketSphinx-a jeste da vi praktično trebate diplomu u konceptima prepoznavanja glasa, jezičkih datoteka, rečnika i kako trenirati sistem.

Nakon instalacije PocketSphinx-a, trebalo bi da odete na CMU Sphinx web lokaciju i pročitate što više informacija. Također morate da preuzmete sledeću datoteku modela.

Američki engleski generički model jezika

(Ukoliko niste engleski govornik izaberite jezik koji vam odgovara).

Dokumentacija za PocketSphinx i Sphinx uopšte je teško razumjeti za ličnu osobu, ali od onoga što sam mogao da iznesem rečnik datoteke koriste se za pružanje spiska mogućih reči i jezičkih modela imaju listu potencijalnih izgovora.

Za testiranje PocketSphinx-a koristio sam snimak mog vlastitog glasa, odlomka iz Al Pacina u "The Devils Advocate" i odlomak iz "Morgan Freeman". Poenta je bila da pokušam različite glasove i za mene nema nikoga ko može pričati priču tako jasno kao Morgan Freeman i niko ne isporučuje liniju kao Al Pacino.

Da bi PocketSphinx radio, potreban je WAV fajl i mora biti u određenom formatu. Ako je datoteka u MP3 formatu, koristite komandu ffmpeg da biste je pretvorili u WAV format:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

Da biste pokrenuli PocketSphinx koristite sledeću komandu:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-sr-us.lm 2> voice2.log

pocketsphinx_continuous preuzima WAV datoteku i pretvara je u tekst.

U narednoj naredbi pocketsphinxu se kaže da koristi rječničku datoteku pod nazivom "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" sa jezičkim modelom "cmusphinx-5.0-en-us.lm". Datoteka koja se pretvara u tekst se zove glas2.wav (što je snimak koji sam napravio sa svojim glasom). Konačno, 2> stavlja sve glomazne izlaze koji vam nužno ne trebaju u datoteku nazvana voice2.log. Aktuelni rezultati testa prikazani su unutar prozora terminala.

Rezultati koji koriste moj glas su sledeći:

Dobrodošli u sledeću nedelju dana o ovoj nedelji, nećemo saznati za koji softver za prepoznavanje za minut

Rezultati nisu tako strašni kao kod freespeech-vra, ali ipak nisu zaista korisni. Potom sam pokušao da koristim PocketSphinx sa Al Pacino, ali ovo nije učinilo nikakve rezultate.

Na kraju sam pokušao da koristim Morgan Freemanov glas iz filma "Bruce Almighty" i tu su rezultati:

000000000: mi ćemo na nju
000000001: Da li je sve teško da je dan sada, da, ovo je najviše što smo živi, a dio mi je vruće
000000002: u liftu koji je ključ iz malo bejzbola ili zna šta treba učiniti u životu
000000003: koji su oni koji će se oporaviti
000000004: nisu je napisali
000000005: oni imaju pravo na mene
000000006: morate biti pravila
000000007: Očekivao sam vas
000000008: i saznao je ovde da je ilustracija bila ubica božićna zabava
000000009: ispostavlja se jedan od načina pisanja o. Dupe sam pomislio da malo njih uvek nosi
000000010: kao problem ujedinjen neće dati onu dobru nego što sam procijenio u tom trenutku kada mi nismo sve što mislite da sam na svijetu, to će biti domovi i vidio sam to
000000011: otac koji ga ima
000000012: šta puno o ovome
000000013: Da li to daje
000000014: sve što ste vi koji ne padaju puno
000000015: desno na jesen
000000016: dobro drži samo za mene
000000017: to je nesretno ako i ja mislim da će oni imati sve da će se to sve oženiti na ne bi bilo da mi se sviđam za razliku od načina

Moj test se teško može smatrati naučnim i programeri PocketSphinx-a mogu izjaviti da ne koristim softver ispravno. Postoji i tehnika koja se zove glasovni trening koji se može koristiti za kreiranje boljih rečnika i jezičkih datoteka.

Međutim, moje preovlađujuće mišljenje je da je to previše teško za standardnu svakodnevnu upotrebu.

VoiceNote II

VoiceNote II je Chrome aplikacija koja koristi API za prepoznavanje Google Voice.

Ako koristite Chrome ili Chromium pretraživače, možete instalirati VoiceNote II preko Web Store-a .

Ikone na VoiceNote II su postavljene na čudan način, jer morate podesiti jezik na dnu prozora, a taster za uređivanje je takođe na dnu, ali dugme za snimanje je u gornjem desnom položaju.

Prva stvar koju treba da uradite je da izaberete jezik i to možete postići klikom na ikonu sveta.

Da započnete snimanje, kliknite na ikonu mikrofona i počnite da govorite u svom mikrofonu. Za najbolje rezultate sam pronašao da je govor polako bio ključan, tako da bi softver imao šansu da nastavi.

Rezultati nisu bili sjajni, kao što se može videti u nastavku:

Pozdrav i dobrodošli za povezivanje. O nama današnji članak o konverzaciji govora u tekstu dunelm farrell recesije 2008 kao konverzije i rekao je dobro podržan najbolji način pronalaženja glasovnog teksta za prikazivanje 2014debian ili rpm paketa otvori ga tip glasa za govor u tekst otvori ga ako želite odabrati protiv izbora u Edinburgh francuskom njemačkom doveo vam je vrijeme u jedinstveno kraljevstvo na morskom mikrofonu koji ste završili pisanjem svog teksta kao tekstualne datoteke za svoj uspeh, to je vrlo standardni engleski akcenat sa juga od englandske najbolje za to, ali idem na textvia ovo torrentalong sa stvarnim dokumentom i možete videti za greške koje vam omogućavaju da slušate prijatelje

Dictanote

Dictanote je još jedna Chrome aplikacija koja se može koristiti za diktiranje i nalazila se kao intuitivnija, ali rezultati nisu ništa bolji od VoiceNote II.

Koristio sam samo demo verziju Dictanote-a koji vam sprečava kreiranje novih dokumenata, ali vam omogućava da pređete preko teksta koji je već u uređivaču. Uspeo sam da testiram prepoznavanje glasa, ali rezultati nisu bili bolji od VoiceNote II, pa sam se nisam prijavio za pro verziju.

Diktiranje i pošta

"Diktiranje i pošta" je Android aplikacija koja koristi izvorni API za prepoznavanje glasa.

Rezultati "Diktacije i pošte" bili su mnogo bolji od bilo kojeg drugog pokušaja do ove tačke.

zdravo dobrodošli na Linux o., danas govorimo o pretvaranju zvuka u tekst

Trik sa "Diktacijom i poštom" je da govorite polako i izgovarajte isto kao i sa jednakim akcentom.

Nakon završetka razgovora možete sami da pošaljete rezultate.

Talk and Talk diktat

Druga aplikacija za Android koju sam pokušao je bila "Diktacija razgovora i govora".

Interfejs za ovu aplikaciju je bio najbolji od gomile i prepoznavanje glasa je zaista dobro funkcionisalo. Posle snimanja diktata uspio sam dijeliti rezultate na različite načine, uključujući putem e-pošte.

dobrodošli u linux about.com danas govorimo o pretvaranju govora u tekst

Kao što vidite, tekst iznad je toliko jasan koliko možete očekivati. Sporo je govoriti ključ.

Sažetak

Native Linux ima neki način da ode u pogledu prepoznavanja glasa i posebno diktata. Postoje neke aplikacije koje koriste Google Voice API, ali još uvek nisu navedene u spremištima.

ChromeOS aplikacije su malo bolje, ali daleko najbolji rezultati su postignuti pomoću mog Android telefona. Možda telefon ima bolji mikrofon i zbog toga softver za prepoznavanje glasa ima veće šanse za konverziju.

Da bi prepoznavanje glasa postalo stvarno korisno, potrebno je da bude intuitivnije sa manjim podešavanjem. Ne bi trebalo da se zajebavate sa jezičkim modelima i rečnicima kako bi to bilo razumljivo.

Cijenim, međutim, da je čitava umetnost prepoznavanja glasa veoma izazovna, jer svi imaju drugačiji glas i ima toliko dijalekata iz regiona u region u jednoj zemlji koja nikad ne brine o stotinama jezika korištenih širom svijeta.

Moja analiza je, dakle, da softver za prepoznavanje glasa i dalje radi u toku.