ML Concepts-ում մենք աշխատում ենք տվյալների գիտության ոլորտին համապատասխան դասընթացներով և նյութերով կայք կառուցելու ուղղությամբ:

Մարդիկ միմյանց հետ շփվում են բառերի և տեքստի միջոցով: Այն ձևը, որով մարդիկ տեղեկատվություն են փոխանցում միմյանց, կոչվում է Բնական լեզու:

Այնուամենայնիվ, համակարգիչները չեն կարող մեկնաբանել այս տվյալները, որոնք բնական լեզվով են, քանի որ նրանք հաղորդակցվում են 1-ով և 0-ով: Արտադրված տվյալները թանկարժեք են և կարող են արժեքավոր պատկերացումներ առաջարկել: Այսպիսով, ձեզ անհրաժեշտ են համակարգիչներ, որպեսզի կարողանաք հասկանալ, ընդօրինակել և խելամտորեն արձագանքել մարդկային խոսքին:

Բնական լեզվի մշակումը կամ NLP-ն վերաբերում է Արհեստական ​​ինտելեկտի ճյուղին, որը մեքենաներին տալիս է մարդկային լեզուներից կարդալու, հասկանալու և իմաստ ստանալու ունակություն:

NLP-ն համատեղում է հաշվողական լեզվաբանությունը (https://en.wikipedia.org/wiki/Computational_linguistics)՝ մարդկային լեզվի կանոնների վրա հիմնված մոդելավորումը, վիճակագրական, մեքենայական ուսուցման և խորը ուսուցման մոդելների հետ: Միասին այս տեխնոլոգիաները համակարգիչներին հնարավորություն են տալիս մշակել մարդկային լեզուն տեքստի կամ ձայնային տվյալների տեսքով և հասկանալ դրա ամբողջական իմաստը՝ համակցված բանախոսի կամ գրողի մտադրությամբ և տրամադրությամբ:

Ընդհանուր NLP առաջադրանքներ

Ստորև բերված է բնական լեզվի մշակման մեջ ամենատարածված ուսումնասիրված առաջադրանքների ցանկը: Այս առաջադրանքներից ոմանք ունեն ուղղակի իրական աշխարհի հավելվածներ, մինչդեռ մյուսներն ավելի հաճախ ծառայում են որպես ենթաառաջադրանքներ, որոնք օգտագործվում են ավելի մեծ առաջադրանքներ լուծելու համար:

Թեև բնական լեզվի մշակման խնդիրները սերտորեն փոխկապակցված են, հարմարության համար դրանք կարելի է բաժանել կատեգորիաների: Ստորև տրված է կոպիտ բաժանում:

Տեքստի և խոսքի մշակում

Նիշերի օպտիկական ճանաչում (OCR)

Տպագիր տեքստը ներկայացնող պատկեր տալով՝ որոշեք համապատասխան տեքստը: https://en.wikipedia.org/wiki/Optical_character_recognition

Խոսքի ճանաչում

Հաշվի առնելով խոսող անձի կամ մարդկանց ձայնային հոլովակը, որոշեք խոսքի տեքստային ներկայացումը: Սա տեքստից խոսքի հակապատկերն է և հանդիսանում է խոսակցական AI-ամբողջական անվանումով չափազանց բարդ խնդիրներից մեկը (տե՛ս վերևում): Բնական խոսքում հազիվ թե դադարներ լինեն իրար հաջորդող բառերի միջև, և, հետևաբար, խոսքի հատվածավորումը խոսքի ճանաչման անհրաժեշտ ենթախնդիրն է (տես ստորև): Խոսակցական լեզուների մեծ մասում հաջորդական տառեր ներկայացնող հնչյունները միաձուլվում են միմյանց մեջ մի գործընթացում, որը կոչվում է կոարտիկուլյացիա, ուստի անալոգային ազդանշանի փոխակերպումը դիսկրետ նիշերի կարող է շատ դժվար գործընթաց լինել: Նաև, հաշվի առնելով, որ միևնույն լեզվով բառերը խոսում են տարբեր շեշտադրումներ ունեցող մարդիկ, խոսքի ճանաչման ծրագրակազմը պետք է կարողանա ճանաչել մուտքագրման լայն տեսականի որպես միմյանց նույնական՝ տեքստային համարժեքի առումով: https://en.wikipedia.org/wiki/Speech_recognition

Խոսքի հատվածավորում

Հաշվի առնելով մարդու կամ մարդկանց խոսող ձայնային հոլովակը, բաժանեք այն բառերի: Խոսքի ճանաչման ենթաառաջադրանք և սովորաբար խմբավորված դրա հետ: https://en.wikipedia.org/wiki/Speech_segmentation

Տեքստ-խոսք

Տրված տեքստը, վերափոխեք այդ միավորները և ստացեք խոսակցական ներկայացում: Տեքստը-խոսքը կարող է օգտագործվել տեսողության խնդիրներ ունեցողներին օգնելու համար: https://en.wikipedia.org/wiki/Text-to-speech

Բառերի հատվածավորում (Tokenization)

Առանձին բառերի բաժանեք շարունակական տեքստի մի մասը: Անգլերենի նման լեզվի համար սա բավականին աննշան է, քանի որ բառերը սովորաբար բաժանվում են բացատներով: Այնուամենայնիվ, որոշ գրավոր լեզուներ, ինչպիսիք են չինարենը, ճապոներենը և թայերենը, չեն նշում բառերի սահմանները նման ձևով, և այդ լեզուներում տեքստի հատվածավորումը կարևոր խնդիր է, որը պահանջում է բառապաշարի և ձևաբանության իմացություն: բառերը լեզվում. Երբեմն այս գործընթացը օգտագործվում է նաև այնպիսի դեպքերում, ինչպիսիք են բառերի տոպրակը (BOW) ստեղծումը տվյալների մայնինգում: https://en.wikipedia.org/wiki/Word_segmentation

Ինչպե՞ս է աշխատում բնական լեզվի մշակումը:

Օգտագործելով տեքստի վեկտորացում՝ NLP գործիքները տեքստը փոխակերպում են մի բանի, որը մեքենան կարող է հասկանալ, այնուհետև մեքենայական ուսուցման ալգորիթմները սնվում են ուսուցման տվյալներ և ակնկալվող ելքեր (պիտակներ)՝ մեքենաներին վարժեցնելու որոշակի մուտքի և դրա համապատասխան ելքի միջև կապեր ստեղծելու համար: Այնուհետև մեքենաներն օգտագործում են վիճակագրական վերլուծության մեթոդներ՝ ստեղծելու իրենց սեփական գիտելիքների բանկը և պարզելու, թե որ հատկանիշներն են լավագույնս ներկայացնում տեքստերը՝ նախքան չտեսնված տվյալների (նոր տեքստերի) կանխատեսումներ անելը.

Ի վերջո, որքան շատ տվյալներ սնվեն այս NLP ալգորիթմները, այնքան ավելի ճշգրիտ կլինեն տեքստի վերլուծության մոդելները:

Զգացմունքների վերլուծությունը (տեսված է վերը նշված գծապատկերում) NLP-ի ամենահայտնի առաջադրանքներից մեկն է, որտեղ մեքենայական ուսուցման մոդելները վերապատրաստվում են դասակարգելու տեքստը ըստ կարծիքի բևեռականության (դրական, բացասական, չեզոք և ամենուր):

Ամենօրյա NLP օրինակներ.

NLP-ի շատ տարածված և գործնական կիրառություններ կան մեր առօրյա կյանքում: Բացի Alexa-ի կամ Siri-ի նման վիրտուալ օգնականների հետ զրուցելուց, ահա ևս մի քանի օրինակ.

  • Երբևէ նայե՞լ եք ձեր սպամի թղթապանակի նամակներին և նկատե՞լ եք նմանություններ թեմայի տողերում: Դուք տեսնում եք Բայեսյան սպամի զտում, վիճակագրական NLP տեխնիկա, որը համեմատում է սպամի բառերը վավեր էլ.
  • Երբևէ բաց թողե՞լ եք հեռախոսազանգ և կարդացե՞լ եք ձայնային փոստի ավտոմատ վերծանումը ձեր էլփոստի մուտքի արկղում կամ սմարթֆոնի հավելվածում: Դա խոսքից տեքստ փոխակերպումն է, NLP հնարավորությունը:
  • Երբևէ նավարկե՞լ եք կայքէջում՝ օգտագործելով դրա ներկառուցված որոնման տողը կամ ընտրելով առաջարկվող թեմա, միավոր կամ կատեգորիայի պիտակներ: Այնուհետև դուք օգտագործել եք NLP մեթոդները որոնման, թեմաների մոդելավորման, օբյեկտների արդյունահանման և բովանդակության դասակարգման համար:
  • Royal Bank of Scotland-ն օգտագործում է տեքստային վերլուծություն՝ NLP տեխնիկա՝ հաճախորդների արձագանքներից տարբեր ձևերով կարևոր միտումներ հանելու համար: Ընկերությունը վերլուծում է էլեկտրոնային նամակների, հարցումների և զանգերի կենտրոնի խոսակցությունների տվյալները՝ պարզելու հաճախորդների դժգոհության հիմնական պատճառը և բարելավումներ իրականացնելու համար:

Շնորհակալություն կարդալու համար!!

Կարող եք նաև շարունակել և կարդալ NLP-ի մեր նախորդ գրառումը՝ https://ml-concepts.com/2022/03/14/processing-textual-data-an-introduction-to-natural-language-processing/

Մեր կայք այցելելու համար սեղմեք սա՝ https://ml-concepts.com/