Խոսքի տեքստը, որը նաև հայտնի է որպես խոսքի ճանաչում, տեխնոլոգիա է, որը խոսակցական բառերը վերածում է գրավոր տեքստի: Այս տեխնոլոգիան ավելի ու ավելի տարածված է դարձել վերջին տարիներին՝ ունենալով լայն կիրառություն այնպիսի ոլորտներում, ինչպիսիք են հաճախորդների սպասարկումը, կրթությունը և ժամանցը:

Խոսքի տեքստի ծրագրակազմն աշխատում է՝ օգտագործելով ալգորիթմներ՝ ձայնային մուտքագրումը վերլուծելու և այն գրավոր տեքստի արտագրելու համար: Այս ալգորիթմները հաշվի են առնում խոսակցական բառերի հնչյունները, խոսողի ձայնի ռիթմը և ինտոնացիան, ինչպես նաև զրույցի ենթատեքստը՝ ճշգրիտ տառադարձություն ստեղծելու համար:

Խոսքի տեքստի տեխնոլոգիայի ամենակարևոր ասպեկտներից մեկը դրա ճշգրտությունն է: Որքան ճշգրիտ է ծրագրաշարը, այնքան ավելի արդյունավետ կարող է օգտագործվել տարբեր ծրագրերում: Խոսքից տեքստ համակարգի որակը կարելի է գնահատել՝ համեմատելով դրա արդյունքը հղման տեքստի հետ:

# Code for Recognition of Speech
tts = gTTS(input('Enter the Transcript--'))
tts.save('/content/top.mp3')
sound_file = '/content/top.mp3'
subprocess.call(['ffmpeg', '-i',sound_file,'/content/top.wav'])
files = '/content/top.wav'
Audio(sound_file, autoplay=True)

Խոսքի ճանաչումը բանավոր բառերը գրավոր տեքստի վերածելու գործընթացն է: Խոսքի ճանաչման մի քանի գործիքներ և տեխնոլոգիաներ կան, այդ թվում՝

  1. Ամպի վրա հիմնված խոսքի ճանաչման ծառայություններ, ինչպիսիք են՝ Google Cloud Speech-to-Text, Amazon Transcribe և IBM Watson Speech-to-Text, որոնք թույլ են տալիս ձայնը արտագրել տեքստի՝ օգտագործելով իրենց API-ները:
  2. Ծրագրային հավելվածներ, ինչպիսիք են Dragon Naturally Speaking-ը, որը կարող է տեղադրվել ձեր համակարգչում և օգտագործվել խոսքի անցանց ճանաչման համար:
  3. Բջջային հավելվածներ, ինչպիսին է Google Voice Typing-ը, որոնք հասանելի են սմարթֆոնների համար և կարող են իրական ժամանակում խոսքը արտագրել տեքստի:

Խոսքի ճանաչման համակարգերի ճշգրտությունը կարող է տարբեր լինել՝ կախված այնպիսի գործոններից, ինչպիսիք են ձայնի որակը, խոսողի շեշտը և արտասանությունը և օգտագործվող բառապաշարի բարդությունը: Խոսքի ճանաչման ճշգրտությունը բարելավելու համար խորհուրդ է տրվում օգտագործել բարձրորակ աուդիո մուտքագրում, օգտագործել խոսափող կամ ականջակալ և համակարգը մարզել աուդիո օրինակով, որը ներկայացնում է խոսքի տեսակը, որը ցանկանում եք արտագրել:

SpeechBrain-ը բաց կոդով խոսքի ավարտից մինչև վերջ խոսքի մշակման գործիքակազմ է, որը մշակվել է Կատալոնիայի Քաղաքական համալսարանի (UPC) Խոսքի և լեզվի մշակման խմբի (SLP) կողմից: Այն նախատեսված է խոսքի մշակման ոլորտում հետազոտություններին և զարգացմանը աջակցելու համար, ներառյալ այնպիսի առաջադրանքներ, ինչպիսիք են խոսքի ճանաչումը, խոսքի սինթեզը, բարձրախոսների ճանաչումը և դիարիզացիան:

pip install speechbrain

SpeechBrain-ը տրամադրում է միասնական հարթակ խոսքի մշակման մոդելների մշակման և գնահատման համար և ներառում է մեծ թվով նախապես պատրաստված մոդելներ տարբեր լեզուների և առաջադրանքների համար: Այն նաև ապահովում է մոդուլային ճարտարապետություն, որը հեշտացնում է հատուկ մոդելների կառուցումը և առկա մոդելների ճշգրտումը հատուկ օգտագործման դեպքերի համար:

SpeechBrain-ի նպատակն է հեշտացնել հետազոտողների և ծրագրավորողների համար սկսել խոսքի մշակումը և առաջ մղել ոլորտում ժամանակակից տեխնոլոգիաները: Գործիքակազմը ներդրված է PyTorch-ում և հասանելի է Apache 2.0 բաց կոդով լիցենզիայի ներքո:

Difflib գրադարանը Python-ում հանրաճանաչ գործիք է՝ տեքստի երկու կտորների նմանությունը համեմատելու համար: Գրադարանը հաշվարկում է երկու տեքստերի միջև եղած տարբերությունը և վերադարձնում է գործողությունների ցանկը, որոնք պետք է կատարվեն՝ մի տեքստը մյուսի վերածելու համար: Այս տեղեկատվությունը կարող է օգտագործվել տեքստային համակարգերում խոսքի ճշգրտությունը գնահատելու, ինչպես նաև ելքային սխալները հայտնաբերելու և ուղղելու համար:

Խոսքի և տեքստի համակարգի արդյունքը հղման տեքստի հետ համեմատելիս, difflib-ը կարող է օգտագործվել՝ որոշելու ելքի այն տոկոսը, որը համապատասխանում է հղման տեքստին: Այնուհետև այս տեղեկատվությունը կարող է օգտագործվել խոսքի տեքստի համակարգի ճշգրտությունը դատելու և բարելավման ենթակա ոլորտները բացահայտելու համար:

Եզրափակելով, խոսքի տեքստի տեխնոլոգիան վերջին տարիներին մեծ ճանապարհ է անցել, և դրա ճշգրտությունը շարունակում է բարելավվել: Օգտագործելով գործիքներ, ինչպիսիք են difflib գրադարանը, մենք կարող ենք ավելի արդյունավետ գնահատել և համեմատել խոսքի որակը տեքստային համակարգերի հետ և ապահովել, որ դրանք ի վիճակի են ապահովել ճշգրիտ և հուսալի արդյունքներ: