Linux balss atpazīšanas valsts

by Gary Ņūels

Ievads

Es tērēju daudz laika, pētot izstrādājumus, un bieži es domāju par priekšmetu rakstu, vienlaikus ejot uz dzelzceļa staciju vai laikā, kad un kā parasti.

Vienu vakaru, staigājot pa stacijām 2,5 jūdzes attālumā no mana darba, es domāju, "vai tas nebūtu labi, ja es varētu ierakstīt to, ko es gribēju teikt, un pēc tam automātiski to pārtulkot uz teksta failu, kuru vēlāk es varētu rediģēt un formatēt" .

Esmu pavadījis daudzas ilgas stundas, aplūkojot dažādas balss atpazīšanas un diktācijas iespējas, tostarp ierakstot tieši ar mikrofonu, izmantojot Linux diktācijas programmatūru, ierakstot failu MP3 vai WAV formātā un pārveidojot to, izmantojot komandrindu, kā arī izmantojot Chrome un Android lietojumprogrammas.

Šis raksts izceļ manus secinājumus pēc smagiem darbiem.

Linux opcijas

Centieties atrast diktācijas un balss atpazīšanas programmatūru Linux nav tik vienkārši, kā tas varētu būt, un pieejamās iespējas nav tik gudras.

Šajā Vikipēdijas lapā ir saraksts ar iespējamām iespējām, tostarp CMU Sphinx, Julius un Simon.

Es izmantoju SparkyLinux, kas šobrīd ir balstīts uz Debian Testing, un varu pateikt, ka vienīgais balss atpazīšanas pakotne, kas pieejama krātuvēs, ir Sphinx.

Nodalītās Linux programmas, par kurām es beidzot mēģināju, bija PocketSphinx, kuru es konvertēju WAV failus uz tekstu un Freespeech-VR, kas ir Python programma, kas ļauj ierakstīt tieši no mikrofona.

Es arī izmēģināju pāris Chrome lietotnes, tostarp VoiceNote II un Dictanote.

Visbeidzot, es izmēģināju Android Apps "Diktēšana un e-pasts" un "Talk and Talk Dictation".

Freespeech-VR

Freespeech-VR nav pieejams standarta krātuvēs. Es lejupielādēju failus no šejienes.

Pēc zip faila satura lejupielādes un izvilkšanas es atvēru terminālu un pārvietoju uz mapi, kurā tika iegūti faili.

Es ierakstīju šādu komandu, lai atvērtu freespeech-vr.

sudo python freespeech-vr

Man ir pāris austiņas ar diezgan pienācīgu mikrofonu un diezgan skaidru dienvidu angļu valodas akcentu.

Freespeech-vr logā parādījās šāds teksts:

Laipni lūdzam rezultātu vienībām suņiem. Šodien ir jānodrošina, kā tiek vadīti testi. Ir jāpārbauda Kad Teksts Izmanto sistēmas veidu Runa I Katram vienam bija Tikai In Lai cerētu palikt Un Vienam cālis ir zeltains kā sistēma Ea, kad tas mans vārds nākamais ofch zvana tālrunis Šis fails Drīzumā pietiekami gadījumu tālrunis uz Hands-Space sfinksa Going Tas nav telefoni tiks dalīti Apmācīti un un rīki Lietot runā Kad esat pabeidzis Say A izmantoto failu Last a stāsts A un izmantojot to, kad tas ir, cik veiksmīgi šī Linux bija kā jūs izvairītos ir

Es tikai gribētu teikt, ka tagad tas nav Dogs Unit mājaslapa, un nekādā ziņā es neminēju kaut ko tādu, kas saistīts ar zelta cāļiem. Es patiešām mēģināju aprakstīt balss atpazīšanas programmatūras izmantošanu.

Es mēģināju programmatūru pāris reizes, ieskaitot dažādu piķi un ātrumu, bet precizitāte bija slikta.

PocketSphinx

PocketSphinx spēj uzņemt WAV failu un pārvērst to tekstu, izmantojot komandrindu.

PocketSphinx ir pieejams Debian krātuvēs, un tam jābūt pieejamam vairumam izplatījumu.

Galvenais jautājums, ko es atklāju ar PocketSphinx, ir tas, ka jums praktiski ir nepieciešams grāds balss atpazīšanas, valodu failu, vārdnīcu un apmācības sistēmu koncepcijā.

Pēc PocketSphinx instalēšanas jums vajadzētu doties uz CMU Sphinx vietni un izlasīt tik daudz informācijas, cik vien iespējams. Jums arī nepieciešams lejupielādēt šādu faila modeli.

ASV angļu valodas vispārīgais valodas modelis

(Ja neesat dzimtā angļu valoda, izvēlieties atbilstošu valodas modeli).

PocketSphinx un Sphinx dokumentācija kopumā ir grūti saprotama, taču no tā, ko es varētu saprast, vārdnīcas faili tiek izmantoti, lai sniegtu sarakstu ar iespējamajiem vārdiem un valodu modeļiem ir saraksts ar potenciālajiem vārdiem.

Lai pārbaudītu PocketSphinx, es izmantoju savu balsi, fragmentu no Al Pacino "The Devils Advocate" un fragmentu no "Morgan Freeman". Šī jautājuma mērķis bija izmēģināt dažādas balsis, un man nav tāda, kas varētu stāstīt stāstu tik skaidri, kā Morgan Freeman, un neviens nesniedz tādu līniju kā Al Pacino.

Lai PocketSphinx darbotos, tam nepieciešams WAV fails, un tam jābūt noteiktā formātā. Ja fails ir MP3 formātā, izmantojiet ffmpeg komandu, lai to pārveidotu WAV formātā:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -dat 16000 outputfilename.wav

Lai palaistu PocketSphinx, izmantojiet šādu komandu:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-en-us.lm 2> voice2.log

pocketsphinx_continuous ņem WAV failu un pārvērš to tekstā.

Iepriekš norādītajā komandā pocketsphinx liek lietot vārdnīcas failu ar nosaukumu "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" ar valodas modeli "cmusphinx-5.0-en-us.lm". Fails, kas tiek konvertēts uz tekstu, tiek saukts par voice2.wav (kas ir ieraksts, ko es veicu ar balsi). Visbeidzot, 2> ievieto visu verbose izvadi, kas jums ne vienmēr ir nepieciešama failā ar nosaukumu voice2.log. Faktiskais testa rezultāts tiek parādīts termināla logā.

Rezultāti, izmantojot manu balsi, ir šādi:

Laipni lūdzam nākamajā nedēļā par labu šīs nedēļas tēmu, par kuru atzīšanas programmatūru minūti

Rezultāti nav tik šausminoši kā freespeech-vr, bet joprojām nav īsti izmantojami. Tad es mēģināju lietot PocketSphinx ar Al Pacino, bet tas vispār neizdevās.

Visbeidzot es mēģināju izmantot Morgana Freemana balsi no filmas "Visspēcīgais Bruce" un šeit ir rezultāti:

00000000000: mēs viņai
000000001: ir viss, kas grūts, jā, diena, ka tieši tagad jā, tas ir visvairāk mēs esam dzīvojuši es esmu daļa no karstā
000000002: lifts, kurš ir atslēga no nedaudz beisbola pulksteņa vai zina, ko darīt ar dzīvi
000000003: kādi ir tie, kas atgūsies
000000004: viņi to neuzrakstīja
000000005: viņiem ir taisnība
000000006: jums ir jābūt noteikumiem
000000007: es tevi gaidīju
000000008: un viņš uzzināja šeit, ka bija ilustrācija ir bija killer Ziemassvētku ballīte
000000009: izrādās viens no veidiem, kā rakstīt o. ass es domāju, ka daži vienmēr valkā vienu
000000010: tāpat kā problēma, kas apvienota, nedos viņam labu, ko es viņus novērtēju šajā brīdī, kad mēs neesam darījuši visu, kas, jūsuprāt, esmu pasaulē, dzīvos mājās, un es to redzēju
000000011: tēvs, kuram tas ir
000000012: ko par šo daudz
000000013: vai tas ir dota
000000014: viss, kas jums nav, daudz
000000015: tieši rudenī
000000016: labi turiet tikai man
000000017: tas ir nelaimīgs, ja arī es domāju, ka viņiem būs tā, ka tas, ka visi, kas precējušies, nebūtu mani, manuprāt, atšķirībā no tā

Manu testu diez vai var uzskatīt par zinātnisku, un PocketSphinx izstrādātāji var apgalvot, ka es pareizi neizmantoju programmatūru. Ir arī metode, ko sauc par balss apmācību, kuru var izmantot, lai izveidotu labākas vārdnīcas un valodu failus.

Tomēr mans galvenais viedoklis ir tas, ka standarta ikdienas lietošanai tas ir pārāk grūti.

VoiceNote II

VoiceNote II ir Chrome lietotne, kurā tiek izmantota Google Voice atpazīšanas API.

Ja izmantojat Chrome vai Chromium pārlūkprogrammas, varat instalēt VoiceNote II, izmantojot interneta veikalu .

VoiceNote II ikonas ir novietotas savādi, jo loga apakšdaļā ir jāizveido valoda, bet rediģēšanas poga ir arī apakšā, taču ieraksta poga atrodas labajā augšējā stūrī.

Pirmā lieta, kas jums jādara, ir izvēlēties valodu, un to var panākt, noklikšķinot uz pasaules ikonas.

Lai sāktu ierakstīšanu, noklikšķiniet uz mikrofona ikonas un sāciet runāt savā mikrofonā. Lai iegūtu labākos rezultātus, es atradu runu lēnām bija galvenais, lai programmatūra būtu iespēja noturēt.

Rezultāti nebija labi, kā var redzēt zemāk:

Labdien, laipni aicināti pievienoties. About.com šodienas raksti par balss teksta pārveidošanu dunelm farrell lejupslīdes 2008 kā reklāmguvumus, un tas teica, labi atbalstīja labākais veids, kā es atklāju balss teksta addon parādīt 2014debian vai rpm paketes atvērtu tā balss tipa runas tekstu atvērt, ja vēlaties izvēlēties vs izvēlējās Edinburgas franču vācu, lai jūs saņemtu laiku Apvienotajā karalistes spēlē pie jūras mikrofona, ar kuru jūs pabeidzāt rakstīt tekstu kā teksta failu savam panākumam, tas ir ļoti standarta angļu akcents no dienvidiem no Anglijas labākais, bet es eju uz textvia šo torrentalong ar faktisko dokumentu, un jūs varat redzēt kļūdas, kas liek jums noklausīties draudzenes

Diktanote

Dictanote ir vēl viena Chrome lietotne, kuru var izmantot diktēšanas nolūkos, un tā ir daudz intuitīvāka, bet rezultāti nebija labāki nekā VoiceNote II.

Es izmantoju tikai Dictanote demo versiju, kas neļauj jums izveidot jaunus dokumentus, bet ļauj runāt tekstā, kas jau ir redaktorā. Man bija iespēja pārbaudīt balss atpazīšanu, bet rezultāti nebija labāki nekā VoiceNote II, tāpēc es neesmu reģistrējies par pro versiju.

Diktēšana un pasts

"Diktēšana un pasts" ir Android lietojumprogramma, kas izmanto vietējo Google balss atpazīšanas API.

Rezultāti no "Diktācijas un pasta" bija daudz labāka nekā jebkura cita programma mēģināja līdz šim brīdim.

Sveiki sveicināti Linux par., šodien mēs runājam par skaņas pārveidošanu uz tekstu

"Diktācijas un pasta" triks ir runāt lēnām un izrunāt, kā arī ar pat lielu akcentu.

Kad esat pabeidzis runāt, varat nosūtīt rezultātus uz e-pastu.

Talk un runājiet par diktēšanu

Cita Android lietotne, kuru es mēģināju, bija Talk and Talk Dictation.

Šīs lietotnes saskarne bija labākā no saimes, un balss atpazīšana tiešām strādāja ļoti labi. Pēc diktācijas ierakstīšanas man bija iespēja dalīties ar rezultātiem dažādos veidos, tostarp pa e-pastu.

Welcome to linux about.com šodien mēs runājam par konvertēšanu runā uz tekstu

Kā jūs varat redzēt tekstu iepriekš ir tikpat skaidrs, kā jūs varat varētu sagaidīt, lai saņemtu. Talking lēni ir atslēga.

Kopsavilkums

Native Linux ir veids, kā iet ar balss atpazīšanas un īpaši diktācijas. Ir dažas lietojumprogrammas, kas izmanto Google Voice API, bet tās vēl nav iekļautas krātuvēs.

ChromeOS lietojumprogrammas ir mazliet labākas, taču vislabāk rezultāti tika sasniegti, izmantojot manu Android tālruni. Varbūt tālrunim ir labāks mikrofons, un tādēļ balss atpazīšanas programmatūrai ir labākas konversijas iespējas.

Lai balss atpazīšana kļūtu patiešām izmantojama, tai ir jābūt intuitīvākai, un mazāk nepieciešama iestatīšana. Lai to padarītu saprotamu, jums nevajadzētu netraucēt valodu modeļiem un vārdnīcām.

Tomēr es atzinīgi vērtēju to, ka visa balss atpazīšanas māksla ir ļoti sarežģīta, jo katram ir atšķirīga balss, un vienā reģionā ir tik daudz dialektu no reģiona līdz reģionam, kurš nerunājas par simtiem valodu, kas tiek izmantoti visā pasaulē.

Tāpēc mana analīze ir tāda, ka balss atpazīšanas programmatūra joprojām darbojas.