Դասակարգման ալգորիթմներ մեքենայական ուսուցման մեջ

Մեքենայական ուսուցումը համակարգիչների ծրագրավորման արվեստն ու գիտությունն է, որպեսզի նրանք կարողանան որոշումներ կայացնել դրանց հիման վրա՝ հիմնվելով այն տվյալների վրա, որոնց հասանելի են: Գոյություն ունեն երկու հիմնական եղանակ, որոնցով համակարգիչները կարող են վերապատրաստվել տվյալների հետ «սովորելու» համար.

-Վերահսկվող ուսուցում
-Չվերահսկվող ուսուցում

Վերահսկվող ուսուցումն այն մեթոդն է, որով համակարգիչը թեստային տվյալների մեջ տրամադրում է կախված, ինչպես նաև անկախ փոփոխականներ, որոնք թույլ են տալիս նրան մշակել մոդել, որը կարող է օգտագործվել այլ տվյալների հավաքածուների վրա:

Մյուս կողմից, չվերահսկվող ուսուցումը մի փոքր նման է ձեզ լողավազան հրելուն, երբ սովորում եք լողալ: Այստեղ համակարգչին ուղղակի տրվում են անկախ փոփոխականների տվյալները, և արդյունքը կամ կախված փոփոխականը պետք է ինքնուրույն հաշվարկվի: Այս տեսակի համակարգերը սովորաբար ավելի երկար են տևում ամուր մոդել ստեղծելու համար, սակայն այն ավելի դիմացկուն է ցնցումների, քան վերահսկվող համակարգերը:

Մեքենայական ուսուցման նպատակները
Մեքենայի ուսուցման հիմնական նպատակը տվյալների մեջ օրինաչափություններ գտնելն է: Այս նախշերը կարող են լինել հետևյալ ձևերով.

- Կանխատեսում մեքենայական ուսուցման մեջ. կանխատեսումը մեքենայական ուսուցման մեջ նշանակում է կախյալ փոփոխականների ճշգրիտ արժեքների կանխատեսում, երբ անկախ փոփոխականները և մոդելը պատրաստ են: Կան մի քանի տարբեր մեքենայական ուսուցման տեխնիկա, որոնք կարող են օգտագործվել, որոնք կքննարկվեն հետագա հոդվածում:

- Դասակարգման ալգորիթմներ մեքենայական ուսուցման մեջ. Կան մի քանի տարբեր մեթոդներ մեքենայական ուսուցման մեջ դասակարգման ալգորիթմներ իրականացնելու համար: Դասակարգման ալգորիթմները մեքենայական ուսուցման մեջ նշանակում է, որ նոր դիտարկումները տեղադրելը գոյություն ունեցող դիտարկումների խմբի մեջ, որոնք ունեն նմանատիպ հատկանիշներ: Մեքենայական ուսուցման մեթոդների դասակարգման ամենահայտնի ալգորիթմներից մեկը կլաստերավորման տեխնիկան է: Այս թեմաները ավելի մանրամասն կքննարկվեն այս հոդվածում:

Դասակարգման ալգորիթմներ մեքենայական ուսուցման մեջ

Դասակարգման ալգորիթմները մեքենայական ուսուցման մեջ օգնում են մեզ որոշել օբյեկտի դասը, որը թույլ է տալիս համակարգչին որոշումներ կայացնել դրա վերաբերյալ՝ հիմնվելով դասի մասին տեղեկատվության վրա: Դասակարգման ալգորիթմները մեքենայական ուսուցման մեջ ունեն մի քանի տարբեր տեխնիկա, ինչպիսիք են.

-Կլաստերավորման տեխնիկա (հիերարխիկ կլաստերավորում, K-միջոցների խմբավորում, K-մոտակա հարևանների խմբավորում)
-որոշման ծառեր և պատահական անտառ
- Աջակցող վեկտորային մեքենաներ
-Գծային դասակարգիչներ (լոգիստիկ ռեգրեսիա, միամիտ բեյս)

Մեքենայի ուսուցման մեջ կան ևս մի քանի դասակարգման ալգորիթմներ, բայց դրանք ամենատարածվածներն են:

Կլաստերավորման տեխնիկա

Կլաստերավորման տեխնիկան մեքենայական ուսուցման մեջ ամենատարածված դասակարգման ալգորիթմներն են: Կլաստերավորման ամենահիմնական տեխնիկան հիերարխիկ կլաստերավորումն է:

Հիերարխիկ կլաստերավորման մեջ յուրաքանչյուր զույգ դիտումների միջև հեռավորությունը չափվում է Էվկլիդեսյան հեռավորության միջոցով: Ամենամոտ դիտարկումները դրվում են նույն կլաստերի մեջ, և երկու դիտարկումների միջև միջին հեռավորությունը վերցվում է հետագա կլաստերի համար: Այս տրամաբանությունը շարունակվում է այնքան ժամանակ, քանի դեռ մեկ կլաստեր է մնացել։ Կլաստերների թիվը որոշվում է, երբ դիտումների հեռավորության վրա թռիչքը չափազանց մեծ է դառնում: Հնարավոր է նաև գտնել կլաստերների թիվը SPSS-ում ձևավորված դենդոգրամից:

Կլաստերների թիվը պարզելուց հետո կարող է օգտագործվելK-Means Clustering-ը: K-Means Clustering-ը կլաստերավորման ավելի լավ մեթոդ է, ինչպես դիտումները միասին, բայց պահանջում է կլաստերների քանակը որպես մուտքագրում: Այսպիսով, կլաստերների թիվը որոշվում է Հիերարխիկ կլաստերի միջոցով, իսկ կլաստերի անդամները՝ K-Means Clustering-ի միջոցով:

Որոշման ծառեր և պատահական անտառ

Որոշման ծառերը տեխնիկա են, որոնցում սկզբնական չափերից բացի մուտքի կարիք չկա: Թեև կլաստերավորման տեխնիկան ներքևից վերև մոտեցում է, որոշման ծառերը ավելի շատ վերևից ներքև մոտեցում են: Բոլոր դիտարկումները բաժանված են ըստ մեկ հարթության և չափերը անշեղորեն ավելացվում են մինչև ծառի ձևավորումը:

Որոշումների ծառերը որպես դասակարգման ալգորիթմներ մեքենայական ուսուցման մեջ ընտրելու դժվարություններից մեկն այն է, որ որոշումների ծառին, երբ թույլատրվի գործարկել իր ընթացքը, կավարտվի բոլոր դիտարկումներով, որոնք դասակարգված են առանձին: Սա կոչվում է overfitting: Դա նշանակում է, որ մշակված մոդելը չափազանց սերտորեն կպչում է ուսուցման տվյալներին, ինչի հետևանքով զգալիորեն կկրճատվի նրա կարողությունը՝ դասակարգելու արտաքուստները: Այս խնդրին հակազդելու համար որոշման ծառը «էտվում է», ինչը նշանակում է, որ բաժանումը դադարում է, երբ բոլոր խմբերն ունենան ողջամիտ անդամներ:

Պատահական անտառները ևս մեկ տեխնիկա է, որն օգտագործվում է գերազանցելու խնդիրը հաղթահարելու համար: Այստեղ թեստի տվյալները, վերապատրաստման տվյալները և վավերացման տվյալները նույնացվում են՝ օգտագործելով փոխարինող նմուշառում: Դրանից հետո մոդելի մշակման համար օգտագործվում են տվյալների տարբեր հավաքածուներ: Ձևավորված ծառերի թիվը հսկայական է, ինչը նշանակում է, որ ցանկացած նմուշի կողմնակալությունը միջինացված է իրականացման ընթացքում: Ընդհանուր մոդելը մշակվում է՝ հաշվելով յուրաքանչյուր անդամի քվեարկությունը որոշումների ծառերի վրա՝ նախքան պահանջվող մոդելին հասնելը:

Աջակցող վեկտորային մեքենաներ
Աջակցող վեկտոր մեքենաները կարող են օգտագործվել որպես մեքենայական ուսուցման կանխատեսման ալգորիթմ, ինչպես նաև մեքենայական ուսուցման դասակարգման ալգորիթմ: Այնուամենայնիվ, այն սովորաբար օգտագործվում է դասակարգման նպատակներով: Այս մեթոդով դիտարկումները գծագրվում են n-չափ տարածության վրա, որտեղ n-ը ներկայացնում է տվյալների հավաքածուի չափերը:

Դիտարկումների գծագրումից հետո ընտրվում է իդեալական հիպերհարթությունը, որը լավագույնս բաժանում է դիտարկումները երկու կլաստերների: Թեև SVM-ը մշակվել է որպես մեքենայական ուսուցման դասակարգման ալգորիթմ ընդամենը երկու կլաստերների համար, այնուհետև այն ընդլայնվել է ավելի շատ կլաստերների:

Հիպերհարթությունը SVM-ում նույնպես կարիք չունի գծային բնույթի: Հնարավոր է փոխակերպել տվյալները՝ օգտագործելով միջուկ կոչվող տեխնիկան, որն ապահովում է, որ բաժանումը կարող է կատարվել ցանկացած տվյալների բազայի համար:

Գծային դասակարգիչներ
Գծային դասակարգիչները մեքենայական ուսուցման դասակարգման ալգորիթմներն են, որոնք դասակարգման որոշումը կայացնում են չափերի/հատկանիշների գծային համակցության հիման վրա:

Գոյություն ունեն երկու հիմնական գծային դասակարգիչներ.

-Միամիտ Բայես
-Լոգիստիկ ռեգրեսիա

Naive Bayes-ը մեքենայական ուսուցման դասակարգման ալգորիթմն է, որը ենթադրում է, որ բոլոր չափերը միմյանցից անկախ են (նույնիսկ եթե դրանք փոխկապակցված են): Այսպիսով, այս ենթադրության հիման վրա կառուցվում է դասակարգման մոդելը:

Լոգիստիկ ռեգրեսիան գծային ռեգրեսիայի տեխնիկայի փոփոխություն է: Մինչ ռեգրեսիայի տեխնիկան սովորաբար օգտագործվում է որպես կանխատեսման ալգորիթմ մեքենայական ուսուցման մեջ, լոգիստիկ ռեգրեսիան օգտագործվում է որպես դասակարգման ալգորիթմ մեքենայական ուսուցման մեջ:

Լոգիստիկ ռեգրեսիայի մեկ այլ տարբերակումն այն է, որ այն ընդունում է անվանական մուտքը, ինչպես նաև հերթական մուտքերը, մինչդեռ գծային ռեգրեսիան ընդունում է միայն հերթական արժեքը:

Լոգիստիկ ռեգրեսիան դեռ գործում է որպես նորմալ ռեգրեսիա, սակայն, երբ արժեքը կանխատեսվում է, տալիս է 0 կամ 1 արդյունք՝ կախված սահմանված շեմի արժեքից: Այս շեմը լռելյայնորեն սահմանված է 0,5, սակայն այն կարող է փոփոխվել՝ կախված անկախ փոփոխականների արժեքից:

Եզրակացություն
Դասակարգման ալգորիթմները մեքենայական ուսուցման ամենակարևոր մեթոդներից են, քանի որ այն ներդրման հսկայական ներուժ ունի: Դասակարգման ալգորիթմների ամենատարածված կիրառումը մեքենայական ուսուցման մեջ մարքեթինգում է, որտեղ թիրախային լսարանի սեգմենտավորման պրակտիկան իրականացվում է Դասակարգման ալգորիթմների օգնությամբ:

Բացի այս հավելվածից, մեքենայական ուսուցման դասակարգման ալգորիթմները նույնպես օգտագործվում են բանկերում՝ որոշելու ռիսկի մակարդակը, որը ներկայացնում է յուրաքանչյուր պոտենցիալ հաճախորդ, երբ նրանք որոշում են անձին վարկ տալ, թե ոչ:

Դասակարգման ալգորիթմների մի քանի այլ կիրառություններ կան մեքենայական ուսուցման մեջ և դրանք միայն ապագայում աճելու են: