Խոսքի տեքստի էվոլյուցիան օգտագործելով Difflib և GTTS

Խոսքի տեքստը, որը նաև հայտնի է որպես խոսքի ճանաչում, տեխնոլոգիա է, որը խոսակցական բառերը վերածում է գրավոր տեքստի: Այս տեխնոլոգիան ավելի ու ավելի տարածված է դարձել վերջին տարիներին՝ ունենալով լայն կիրառություն այնպիսի ոլորտներում, ինչպիսիք են հաճախորդների սպասարկումը, կրթությունը և ժամանցը:

Խոսքի տեքստի ծրագրակազմն աշխատում է՝ օգտագործելով ալգորիթմներ՝ ձայնային մուտքագրումը վերլուծելու և այն գրավոր տեքստի արտագրելու համար: Այս ալգորիթմները հաշվի են առնում խոսակցական բառերի հնչյունները, խոսողի ձայնի ռիթմը և ինտոնացիան, ինչպես նաև զրույցի ենթատեքստը՝ ճշգրիտ տառադարձություն ստեղծելու համար:

Խոսքի տեքստի տեխնոլոգիայի ամենակարևոր ասպեկտներից մեկը դրա ճշգրտությունն է: Որքան ճշգրիտ է ծրագրաշարը, այնքան ավելի արդյունավետ կարող է օգտագործվել տարբեր ծրագրերում: Խոսքից տեքստ համակարգի որակը կարելի է գնահատել՝ համեմատելով դրա արդյունքը հղման տեքստի հետ:

# Code for Recognition of Speech
tts = gTTS(input('Enter the Transcript--'))
tts.save('/content/top.mp3')
sound_file = '/content/top.mp3'
subprocess.call(['ffmpeg', '-i',sound_file,'/content/top.wav'])
files = '/content/top.wav'
Audio(sound_file, autoplay=True)

Խոսքի ճանաչումը բանավոր բառերը գրավոր տեքստի վերածելու գործընթացն է: Խոսքի ճանաչման մի քանի գործիքներ և տեխնոլոգիաներ կան, այդ թվում՝

Ամպի վրա հիմնված խոսքի ճանաչման ծառայություններ, ինչպիսիք են՝ Google Cloud Speech-to-Text, Amazon Transcribe և IBM Watson Speech-to-Text, որոնք թույլ են տալիս ձայնը արտագրել տեքստի՝ օգտագործելով իրենց API-ները:
Ծրագրային հավելվածներ, ինչպիսիք են Dragon Naturally Speaking-ը, որը կարող է տեղադրվել ձեր համակարգչում և օգտագործվել խոսքի անցանց ճանաչման համար:
Բջջային հավելվածներ, ինչպիսին է Google Voice Typing-ը, որոնք հասանելի են սմարթֆոնների համար և կարող են իրական ժամանակում խոսքը արտագրել տեքստի:

Խոսքի ճանաչման համակարգերի ճշգրտությունը կարող է տարբեր լինել՝ կախված այնպիսի գործոններից, ինչպիսիք են ձայնի որակը, խոսողի շեշտը և արտասանությունը և օգտագործվող բառապաշարի բարդությունը: Խոսքի ճանաչման ճշգրտությունը բարելավելու համար խորհուրդ է տրվում օգտագործել բարձրորակ աուդիո մուտքագրում, օգտագործել խոսափող կամ ականջակալ և համակարգը մարզել աուդիո օրինակով, որը ներկայացնում է խոսքի տեսակը, որը ցանկանում եք արտագրել:

SpeechBrain-ը բաց կոդով խոսքի ավարտից մինչև վերջ խոսքի մշակման գործիքակազմ է, որը մշակվել է Կատալոնիայի Քաղաքական համալսարանի (UPC) Խոսքի և լեզվի մշակման խմբի (SLP) կողմից: Այն նախատեսված է խոսքի մշակման ոլորտում հետազոտություններին և զարգացմանը աջակցելու համար, ներառյալ այնպիսի առաջադրանքներ, ինչպիսիք են խոսքի ճանաչումը, խոսքի սինթեզը, բարձրախոսների ճանաչումը և դիարիզացիան:

pip install speechbrain

SpeechBrain-ը տրամադրում է միասնական հարթակ խոսքի մշակման մոդելների մշակման և գնահատման համար և ներառում է մեծ թվով նախապես պատրաստված մոդելներ տարբեր լեզուների և առաջադրանքների համար: Այն նաև ապահովում է մոդուլային ճարտարապետություն, որը հեշտացնում է հատուկ մոդելների կառուցումը և առկա մոդելների ճշգրտումը հատուկ օգտագործման դեպքերի համար:

SpeechBrain-ի նպատակն է հեշտացնել հետազոտողների և ծրագրավորողների համար սկսել խոսքի մշակումը և առաջ մղել ոլորտում ժամանակակից տեխնոլոգիաները: Գործիքակազմը ներդրված է PyTorch-ում և հասանելի է Apache 2.0 բաց կոդով լիցենզիայի ներքո:

Difflib գրադարանը Python-ում հանրաճանաչ գործիք է՝ տեքստի երկու կտորների նմանությունը համեմատելու համար: Գրադարանը հաշվարկում է երկու տեքստերի միջև եղած տարբերությունը և վերադարձնում է գործողությունների ցանկը, որոնք պետք է կատարվեն՝ մի տեքստը մյուսի վերածելու համար: Այս տեղեկատվությունը կարող է օգտագործվել տեքստային համակարգերում խոսքի ճշգրտությունը գնահատելու, ինչպես նաև ելքային սխալները հայտնաբերելու և ուղղելու համար:

Խոսքի և տեքստի համակարգի արդյունքը հղման տեքստի հետ համեմատելիս, difflib-ը կարող է օգտագործվել՝ որոշելու ելքի այն տոկոսը, որը համապատասխանում է հղման տեքստին: Այնուհետև այս տեղեկատվությունը կարող է օգտագործվել խոսքի տեքստի համակարգի ճշգրտությունը դատելու և բարելավման ենթակա ոլորտները բացահայտելու համար:

Եզրափակելով, խոսքի տեքստի տեխնոլոգիան վերջին տարիներին մեծ ճանապարհ է անցել, և դրա ճշգրտությունը շարունակում է բարելավվել: Օգտագործելով գործիքներ, ինչպիսիք են difflib գրադարանը, մենք կարող ենք ավելի արդյունավետ գնահատել և համեմատել խոսքի որակը տեքստային համակարգերի հետ և ապահովել, որ դրանք ի վիճակի են ապահովել ճշգրիտ և հուսալի արդյունքներ:

թեմայի վերաբերյալ նյութեր:

Նոր նյութեր

Օգտագործելով Fetch Vs Axios.Js-ը՝ HTTP հարցումներ կատարելու համար

JavaScript-ը կարող է ցանցային հարցումներ ուղարկել սերվեր և բեռնել նոր տեղեկատվություն, երբ դա անհրաժեշտ լինի: Օրինակ, մենք կարող ենք օգտագործել ցանցային հարցումը պատվեր ներկայացնելու,..

Տիրապետել հանգստության արվեստին. մշակողի ուղեցույց՝ ճնշման տակ ծաղկելու համար

Տիրապետել հանգստության արվեստին. մշակողի ուղեցույց՝ ճնշման տակ ծաղկելու համար Ինչպե՞ս հանգստացնել ձեր միտքը և աշխատեցնել ձեր պրոցեսորը: Ինչպես մնալ հանգիստ և զարգանալ ճնշման տակ...

Մեքենայի ուսուցում բանկային և ֆինանսների ոլորտում

Բարդ, խելացի անվտանգության համակարգերը և հաճախորդների սպասարկման պարզեցված ծառայությունները բիզնեսի հաջողության բանալին են: Ֆինանսական հաստատությունները, մասնավորապես, պետք է առաջ մնան կորի..

Ես AI-ին հարցրի կյանքի իմաստը, այն ինչ ասում էր, ցնցող էր:

Այն պահից ի վեր, երբ ես իմացա Արհեստական ինտելեկտի մասին, ես հիացած էի այն բանով, թե ինչպես է այն կարողանում հասկանալ մարդկային նորմալ տեքստը, և այն կարող է առաջացնել իր սեփական արձագանքը դրա..

Ինչպես սովորել կոդավորումը Python-ում վագրի պես:

Սովորելու համար ծրագրավորման նոր լեզու ընտրելը բարդ է: Անկախ նրանից, թե դուք սկսնակ եք, թե առաջադեմ, դա օգնում է իմանալ, թե ինչ թեմաներ պետք է սովորել: Ծրագրավորման լեզվի հիմունքները, դրա..

C++-ի օրական բիթ(ե) | Ամենաերկար պալինդրոմային ենթաշարը

C++ #198-ի ամենօրյա բիթ(ե), Ընդհանուր հարցազրույցի խնդիր. Ամենաերկար պալինդրոմային ենթատող: Այսօր մենք կանդրադառնանք հարցազրույցի ընդհանուր խնդրին. Ամենաերկար palindromic substring...

Kydavra ICAReducer՝ ձեր տվյալների ծավալայինությունը նվազեցնելու համար

Ի՞նչ է ICAReducer-ը: ICAReducer-ն աշխատում է հետևյալ կերպ. այն նվազեցնում է նրանց միջև բարձր փոխկապակցված հատկանիշները մինչև մեկ սյունակ: Բավականին նման է PCAreducer-ին, չնայած այն..

Պիտակներ

Machine Learning JavaScript Data Science Artificial Intelligence Python Software Development Web Development Coding Deep Learning React AI Software Engineering Nodejs Typescript Java Javascript Tips Tech Algorithms Front End Development Programming Languages iOS Data Business NLP Development Reactjs Tutorial CSS Learning Swift Angular API Javascript Development Startup Android Computer Science Learning To Code Reinforcement Learning