Ներածություն բնական լեզվի մշակման մեջ

ML Concepts-ում մենք աշխատում ենք տվյալների գիտության ոլորտին համապատասխան դասընթացներով և նյութերով կայք կառուցելու ուղղությամբ:

Մարդիկ միմյանց հետ շփվում են բառերի և տեքստի միջոցով: Այն ձևը, որով մարդիկ տեղեկատվություն են փոխանցում միմյանց, կոչվում է Բնական լեզու:

Այնուամենայնիվ, համակարգիչները չեն կարող մեկնաբանել այս տվյալները, որոնք բնական լեզվով են, քանի որ նրանք հաղորդակցվում են 1-ով և 0-ով: Արտադրված տվյալները թանկարժեք են և կարող են արժեքավոր պատկերացումներ առաջարկել: Այսպիսով, ձեզ անհրաժեշտ են համակարգիչներ, որպեսզի կարողանաք հասկանալ, ընդօրինակել և խելամտորեն արձագանքել մարդկային խոսքին:

Բնական լեզվի մշակումը կամ NLP-ն վերաբերում է Արհեստական ինտելեկտի ճյուղին, որը մեքենաներին տալիս է մարդկային լեզուներից կարդալու, հասկանալու և իմաստ ստանալու ունակություն:

NLP-ն համատեղում է հաշվողական լեզվաբանությունը (https://en.wikipedia.org/wiki/Computational_linguistics)՝ մարդկային լեզվի կանոնների վրա հիմնված մոդելավորումը, վիճակագրական, մեքենայական ուսուցման և խորը ուսուցման մոդելների հետ: Միասին այս տեխնոլոգիաները համակարգիչներին հնարավորություն են տալիս մշակել մարդկային լեզուն տեքստի կամ ձայնային տվյալների տեսքով և հասկանալ դրա ամբողջական իմաստը՝ համակցված բանախոսի կամ գրողի մտադրությամբ և տրամադրությամբ:

Ընդհանուր NLP առաջադրանքներ

Ստորև բերված է բնական լեզվի մշակման մեջ ամենատարածված ուսումնասիրված առաջադրանքների ցանկը: Այս առաջադրանքներից ոմանք ունեն ուղղակի իրական աշխարհի հավելվածներ, մինչդեռ մյուսներն ավելի հաճախ ծառայում են որպես ենթաառաջադրանքներ, որոնք օգտագործվում են ավելի մեծ առաջադրանքներ լուծելու համար:

Թեև բնական լեզվի մշակման խնդիրները սերտորեն փոխկապակցված են, հարմարության համար դրանք կարելի է բաժանել կատեգորիաների: Ստորև տրված է կոպիտ բաժանում:

Տեքստի և խոսքի մշակում

Նիշերի օպտիկական ճանաչում (OCR)

Տպագիր տեքստը ներկայացնող պատկեր տալով՝ որոշեք համապատասխան տեքստը: https://en.wikipedia.org/wiki/Optical_character_recognition

Խոսքի ճանաչում

Հաշվի առնելով խոսող անձի կամ մարդկանց ձայնային հոլովակը, որոշեք խոսքի տեքստային ներկայացումը: Սա տեքստից խոսքի հակապատկերն է և հանդիսանում է խոսակցական AI-ամբողջական անվանումով չափազանց բարդ խնդիրներից մեկը (տե՛ս վերևում): Բնական խոսքում հազիվ թե դադարներ լինեն իրար հաջորդող բառերի միջև, և, հետևաբար, խոսքի հատվածավորումը խոսքի ճանաչման անհրաժեշտ ենթախնդիրն է (տես ստորև): Խոսակցական լեզուների մեծ մասում հաջորդական տառեր ներկայացնող հնչյունները միաձուլվում են միմյանց մեջ մի գործընթացում, որը կոչվում է կոարտիկուլյացիա, ուստի անալոգային ազդանշանի փոխակերպումը դիսկրետ նիշերի կարող է շատ դժվար գործընթաց լինել: Նաև, հաշվի առնելով, որ միևնույն լեզվով բառերը խոսում են տարբեր շեշտադրումներ ունեցող մարդիկ, խոսքի ճանաչման ծրագրակազմը պետք է կարողանա ճանաչել մուտքագրման լայն տեսականի որպես միմյանց նույնական՝ տեքստային համարժեքի առումով: https://en.wikipedia.org/wiki/Speech_recognition

Խոսքի հատվածավորում

Հաշվի առնելով մարդու կամ մարդկանց խոսող ձայնային հոլովակը, բաժանեք այն բառերի: Խոսքի ճանաչման ենթաառաջադրանք և սովորաբար խմբավորված դրա հետ: https://en.wikipedia.org/wiki/Speech_segmentation

Տեքստ-խոսք

Տրված տեքստը, վերափոխեք այդ միավորները և ստացեք խոսակցական ներկայացում: Տեքստը-խոսքը կարող է օգտագործվել տեսողության խնդիրներ ունեցողներին օգնելու համար: https://en.wikipedia.org/wiki/Text-to-speech

Բառերի հատվածավորում (Tokenization)

Առանձին բառերի բաժանեք շարունակական տեքստի մի մասը: Անգլերենի նման լեզվի համար սա բավականին աննշան է, քանի որ բառերը սովորաբար բաժանվում են բացատներով: Այնուամենայնիվ, որոշ գրավոր լեզուներ, ինչպիսիք են չինարենը, ճապոներենը և թայերենը, չեն նշում բառերի սահմանները նման ձևով, և այդ լեզուներում տեքստի հատվածավորումը կարևոր խնդիր է, որը պահանջում է բառապաշարի և ձևաբանության իմացություն: բառերը լեզվում. Երբեմն այս գործընթացը օգտագործվում է նաև այնպիսի դեպքերում, ինչպիսիք են բառերի տոպրակը (BOW) ստեղծումը տվյալների մայնինգում: https://en.wikipedia.org/wiki/Word_segmentation

Ինչպե՞ս է աշխատում բնական լեզվի մշակումը:

Օգտագործելով տեքստի վեկտորացում՝ NLP գործիքները տեքստը փոխակերպում են մի բանի, որը մեքենան կարող է հասկանալ, այնուհետև մեքենայական ուսուցման ալգորիթմները սնվում են ուսուցման տվյալներ և ակնկալվող ելքեր (պիտակներ)՝ մեքենաներին վարժեցնելու որոշակի մուտքի և դրա համապատասխան ելքի միջև կապեր ստեղծելու համար: Այնուհետև մեքենաներն օգտագործում են վիճակագրական վերլուծության մեթոդներ՝ ստեղծելու իրենց սեփական գիտելիքների բանկը և պարզելու, թե որ հատկանիշներն են լավագույնս ներկայացնում տեքստերը՝ նախքան չտեսնված տվյալների (նոր տեքստերի) կանխատեսումներ անելը.

Ի վերջո, որքան շատ տվյալներ սնվեն այս NLP ալգորիթմները, այնքան ավելի ճշգրիտ կլինեն տեքստի վերլուծության մոդելները:

Զգացմունքների վերլուծությունը (տեսված է վերը նշված գծապատկերում) NLP-ի ամենահայտնի առաջադրանքներից մեկն է, որտեղ մեքենայական ուսուցման մոդելները վերապատրաստվում են դասակարգելու տեքստը ըստ կարծիքի բևեռականության (դրական, բացասական, չեզոք և ամենուր):

Ամենօրյա NLP օրինակներ.

NLP-ի շատ տարածված և գործնական կիրառություններ կան մեր առօրյա կյանքում: Բացի Alexa-ի կամ Siri-ի նման վիրտուալ օգնականների հետ զրուցելուց, ահա ևս մի քանի օրինակ.

Երբևէ նայե՞լ եք ձեր սպամի թղթապանակի նամակներին և նկատե՞լ եք նմանություններ թեմայի տողերում: Դուք տեսնում եք Բայեսյան սպամի զտում, վիճակագրական NLP տեխնիկա, որը համեմատում է սպամի բառերը վավեր էլ.
Երբևէ բաց թողե՞լ եք հեռախոսազանգ և կարդացե՞լ եք ձայնային փոստի ավտոմատ վերծանումը ձեր էլփոստի մուտքի արկղում կամ սմարթֆոնի հավելվածում: Դա խոսքից տեքստ փոխակերպումն է, NLP հնարավորությունը:
Երբևէ նավարկե՞լ եք կայքէջում՝ օգտագործելով դրա ներկառուցված որոնման տողը կամ ընտրելով առաջարկվող թեմա, միավոր կամ կատեգորիայի պիտակներ: Այնուհետև դուք օգտագործել եք NLP մեթոդները որոնման, թեմաների մոդելավորման, օբյեկտների արդյունահանման և բովանդակության դասակարգման համար:
Royal Bank of Scotland-ն օգտագործում է տեքստային վերլուծություն՝ NLP տեխնիկա՝ հաճախորդների արձագանքներից տարբեր ձևերով կարևոր միտումներ հանելու համար: Ընկերությունը վերլուծում է էլեկտրոնային նամակների, հարցումների և զանգերի կենտրոնի խոսակցությունների տվյալները՝ պարզելու հաճախորդների դժգոհության հիմնական պատճառը և բարելավումներ իրականացնելու համար:

Շնորհակալություն կարդալու համար!!

Կարող եք նաև շարունակել և կարդալ NLP-ի մեր նախորդ գրառումը՝ https://ml-concepts.com/2022/03/14/processing-textual-data-an-introduction-to-natural-language-processing/

Մեր կայք այցելելու համար սեղմեք սա՝ https://ml-concepts.com/

թեմայի վերաբերյալ նյութեր:

Նոր նյութեր

Օգտագործելով Fetch Vs Axios.Js-ը՝ HTTP հարցումներ կատարելու համար

JavaScript-ը կարող է ցանցային հարցումներ ուղարկել սերվեր և բեռնել նոր տեղեկատվություն, երբ դա անհրաժեշտ լինի: Օրինակ, մենք կարող ենք օգտագործել ցանցային հարցումը պատվեր ներկայացնելու,..

Տիրապետել հանգստության արվեստին. մշակողի ուղեցույց՝ ճնշման տակ ծաղկելու համար

Տիրապետել հանգստության արվեստին. մշակողի ուղեցույց՝ ճնշման տակ ծաղկելու համար Ինչպե՞ս հանգստացնել ձեր միտքը և աշխատեցնել ձեր պրոցեսորը: Ինչպես մնալ հանգիստ և զարգանալ ճնշման տակ...

Մեքենայի ուսուցում բանկային և ֆինանսների ոլորտում

Բարդ, խելացի անվտանգության համակարգերը և հաճախորդների սպասարկման պարզեցված ծառայությունները բիզնեսի հաջողության բանալին են: Ֆինանսական հաստատությունները, մասնավորապես, պետք է առաջ մնան կորի..

Ես AI-ին հարցրի կյանքի իմաստը, այն ինչ ասում էր, ցնցող էր:

Այն պահից ի վեր, երբ ես իմացա Արհեստական ինտելեկտի մասին, ես հիացած էի այն բանով, թե ինչպես է այն կարողանում հասկանալ մարդկային նորմալ տեքստը, և այն կարող է առաջացնել իր սեփական արձագանքը դրա..

Ինչպես սովորել կոդավորումը Python-ում վագրի պես:

Սովորելու համար ծրագրավորման նոր լեզու ընտրելը բարդ է: Անկախ նրանից, թե դուք սկսնակ եք, թե առաջադեմ, դա օգնում է իմանալ, թե ինչ թեմաներ պետք է սովորել: Ծրագրավորման լեզվի հիմունքները, դրա..

C++-ի օրական բիթ(ե) | Ամենաերկար պալինդրոմային ենթաշարը

C++ #198-ի ամենօրյա բիթ(ե), Ընդհանուր հարցազրույցի խնդիր. Ամենաերկար պալինդրոմային ենթատող: Այսօր մենք կանդրադառնանք հարցազրույցի ընդհանուր խնդրին. Ամենաերկար palindromic substring...

Kydavra ICAReducer՝ ձեր տվյալների ծավալայինությունը նվազեցնելու համար

Ի՞նչ է ICAReducer-ը: ICAReducer-ն աշխատում է հետևյալ կերպ. այն նվազեցնում է նրանց միջև բարձր փոխկապակցված հատկանիշները մինչև մեկ սյունակ: Բավականին նման է PCAreducer-ին, չնայած այն..

Պիտակներ

Machine Learning JavaScript Data Science Artificial Intelligence Python Software Development Web Development Coding Deep Learning AI Software Engineering React Nodejs Typescript Java Javascript Tips Tech Algorithms Front End Development Programming Languages Data iOS Business NLP Development Learning Reactjs Tutorial CSS Javascript Development Startup Android Computer Science Learning To Code Swift Angular API Beginner