Դասակարգման ալգորիթմներ մեքենայական ուսուցման մեջ
Մեքենայական ուսուցումը համակարգիչների ծրագրավորման արվեստն ու գիտությունն է, որպեսզի նրանք կարողանան որոշումներ կայացնել դրանց հիման վրա՝ հիմնվելով այն տվյալների վրա, որոնց հասանելի են: Գոյություն ունեն երկու հիմնական եղանակ, որոնցով համակարգիչները կարող են վերապատրաստվել տվյալների հետ «սովորելու» համար.
-Վերահսկվող ուսուցում
-Չվերահսկվող ուսուցում
Վերահսկվող ուսուցումն այն մեթոդն է, որով համակարգիչը թեստային տվյալների մեջ տրամադրում է կախված, ինչպես նաև անկախ փոփոխականներ, որոնք թույլ են տալիս նրան մշակել մոդել, որը կարող է օգտագործվել այլ տվյալների հավաքածուների վրա:
Մյուս կողմից, չվերահսկվող ուսուցումը մի փոքր նման է ձեզ լողավազան հրելուն, երբ սովորում եք լողալ: Այստեղ համակարգչին ուղղակի տրվում են անկախ փոփոխականների տվյալները, և արդյունքը կամ կախված փոփոխականը պետք է ինքնուրույն հաշվարկվի: Այս տեսակի համակարգերը սովորաբար ավելի երկար են տևում ամուր մոդել ստեղծելու համար, սակայն այն ավելի դիմացկուն է ցնցումների, քան վերահսկվող համակարգերը:
Մեքենայական ուսուցման նպատակները
Մեքենայի ուսուցման հիմնական նպատակը տվյալների մեջ օրինաչափություններ գտնելն է: Այս նախշերը կարող են լինել հետևյալ ձևերով.
- Կանխատեսում մեքենայական ուսուցման մեջ. կանխատեսումը մեքենայական ուսուցման մեջ նշանակում է կախյալ փոփոխականների ճշգրիտ արժեքների կանխատեսում, երբ անկախ փոփոխականները և մոդելը պատրաստ են: Կան մի քանի տարբեր մեքենայական ուսուցման տեխնիկա, որոնք կարող են օգտագործվել, որոնք կքննարկվեն հետագա հոդվածում:
- Դասակարգման ալգորիթմներ մեքենայական ուսուցման մեջ. Կան մի քանի տարբեր մեթոդներ մեքենայական ուսուցման մեջ դասակարգման ալգորիթմներ իրականացնելու համար: Դասակարգման ալգորիթմները մեքենայական ուսուցման մեջ նշանակում է, որ նոր դիտարկումները տեղադրելը գոյություն ունեցող դիտարկումների խմբի մեջ, որոնք ունեն նմանատիպ հատկանիշներ: Մեքենայական ուսուցման մեթոդների դասակարգման ամենահայտնի ալգորիթմներից մեկը կլաստերավորման տեխնիկան է: Այս թեմաները ավելի մանրամասն կքննարկվեն այս հոդվածում:
Դասակարգման ալգորիթմներ մեքենայական ուսուցման մեջ
Դասակարգման ալգորիթմները մեքենայական ուսուցման մեջ օգնում են մեզ որոշել օբյեկտի դասը, որը թույլ է տալիս համակարգչին որոշումներ կայացնել դրա վերաբերյալ՝ հիմնվելով դասի մասին տեղեկատվության վրա: Դասակարգման ալգորիթմները մեքենայական ուսուցման մեջ ունեն մի քանի տարբեր տեխնիկա, ինչպիսիք են.
-Կլաստերավորման տեխնիկա (հիերարխիկ կլաստերավորում, K-միջոցների խմբավորում, K-մոտակա հարևանների խմբավորում)
-որոշման ծառեր և պատահական անտառ
- Աջակցող վեկտորային մեքենաներ
-Գծային դասակարգիչներ (լոգիստիկ ռեգրեսիա, միամիտ բեյս)
Մեքենայի ուսուցման մեջ կան ևս մի քանի դասակարգման ալգորիթմներ, բայց դրանք ամենատարածվածներն են:
Կլաստերավորման տեխնիկա
Կլաստերավորման տեխնիկան մեքենայական ուսուցման մեջ ամենատարածված դասակարգման ալգորիթմներն են: Կլաստերավորման ամենահիմնական տեխնիկան հիերարխիկ կլաստերավորումն է:
Հիերարխիկ կլաստերավորման մեջ յուրաքանչյուր զույգ դիտումների միջև հեռավորությունը չափվում է Էվկլիդեսյան հեռավորության միջոցով: Ամենամոտ դիտարկումները դրվում են նույն կլաստերի մեջ, և երկու դիտարկումների միջև միջին հեռավորությունը վերցվում է հետագա կլաստերի համար: Այս տրամաբանությունը շարունակվում է այնքան ժամանակ, քանի դեռ մեկ կլաստեր է մնացել։ Կլաստերների թիվը որոշվում է, երբ դիտումների հեռավորության վրա թռիչքը չափազանց մեծ է դառնում: Հնարավոր է նաև գտնել կլաստերների թիվը SPSS-ում ձևավորված դենդոգրամից:
Կլաստերների թիվը պարզելուց հետո կարող է օգտագործվելK-Means Clustering-ը: K-Means Clustering-ը կլաստերավորման ավելի լավ մեթոդ է, ինչպես դիտումները միասին, բայց պահանջում է կլաստերների քանակը որպես մուտքագրում: Այսպիսով, կլաստերների թիվը որոշվում է Հիերարխիկ կլաստերի միջոցով, իսկ կլաստերի անդամները՝ K-Means Clustering-ի միջոցով:
Որոշման ծառեր և պատահական անտառ
Որոշման ծառերը տեխնիկա են, որոնցում սկզբնական չափերից բացի մուտքի կարիք չկա: Թեև կլաստերավորման տեխնիկան ներքևից վերև մոտեցում է, որոշման ծառերը ավելի շատ վերևից ներքև մոտեցում են: Բոլոր դիտարկումները բաժանված են ըստ մեկ հարթության և չափերը անշեղորեն ավելացվում են մինչև ծառի ձևավորումը:
Որոշումների ծառերը որպես դասակարգման ալգորիթմներ մեքենայական ուսուցման մեջ ընտրելու դժվարություններից մեկն այն է, որ որոշումների ծառին, երբ թույլատրվի գործարկել իր ընթացքը, կավարտվի բոլոր դիտարկումներով, որոնք դասակարգված են առանձին: Սա կոչվում է overfitting: Դա նշանակում է, որ մշակված մոդելը չափազանց սերտորեն կպչում է ուսուցման տվյալներին, ինչի հետևանքով զգալիորեն կկրճատվի նրա կարողությունը՝ դասակարգելու արտաքուստները: Այս խնդրին հակազդելու համար որոշման ծառը «էտվում է», ինչը նշանակում է, որ բաժանումը դադարում է, երբ բոլոր խմբերն ունենան ողջամիտ անդամներ:
Պատահական անտառները ևս մեկ տեխնիկա է, որն օգտագործվում է գերազանցելու խնդիրը հաղթահարելու համար: Այստեղ թեստի տվյալները, վերապատրաստման տվյալները և վավերացման տվյալները նույնացվում են՝ օգտագործելով փոխարինող նմուշառում: Դրանից հետո մոդելի մշակման համար օգտագործվում են տվյալների տարբեր հավաքածուներ: Ձևավորված ծառերի թիվը հսկայական է, ինչը նշանակում է, որ ցանկացած նմուշի կողմնակալությունը միջինացված է իրականացման ընթացքում: Ընդհանուր մոդելը մշակվում է՝ հաշվելով յուրաքանչյուր անդամի քվեարկությունը որոշումների ծառերի վրա՝ նախքան պահանջվող մոդելին հասնելը:
Աջակցող վեկտորային մեքենաներ
Աջակցող վեկտոր մեքենաները կարող են օգտագործվել որպես մեքենայական ուսուցման կանխատեսման ալգորիթմ, ինչպես նաև մեքենայական ուսուցման դասակարգման ալգորիթմ: Այնուամենայնիվ, այն սովորաբար օգտագործվում է դասակարգման նպատակներով: Այս մեթոդով դիտարկումները գծագրվում են n-չափ տարածության վրա, որտեղ n-ը ներկայացնում է տվյալների հավաքածուի չափերը:
Դիտարկումների գծագրումից հետո ընտրվում է իդեալական հիպերհարթությունը, որը լավագույնս բաժանում է դիտարկումները երկու կլաստերների: Թեև SVM-ը մշակվել է որպես մեքենայական ուսուցման դասակարգման ալգորիթմ ընդամենը երկու կլաստերների համար, այնուհետև այն ընդլայնվել է ավելի շատ կլաստերների:
Հիպերհարթությունը SVM-ում նույնպես կարիք չունի գծային բնույթի: Հնարավոր է փոխակերպել տվյալները՝ օգտագործելով միջուկ կոչվող տեխնիկան, որն ապահովում է, որ բաժանումը կարող է կատարվել ցանկացած տվյալների բազայի համար:
Գծային դասակարգիչներ
Գծային դասակարգիչները մեքենայական ուսուցման դասակարգման ալգորիթմներն են, որոնք դասակարգման որոշումը կայացնում են չափերի/հատկանիշների գծային համակցության հիման վրա:
Գոյություն ունեն երկու հիմնական գծային դասակարգիչներ.
-Միամիտ Բայես
-Լոգիստիկ ռեգրեսիա
Naive Bayes-ը մեքենայական ուսուցման դասակարգման ալգորիթմն է, որը ենթադրում է, որ բոլոր չափերը միմյանցից անկախ են (նույնիսկ եթե դրանք փոխկապակցված են): Այսպիսով, այս ենթադրության հիման վրա կառուցվում է դասակարգման մոդելը:
Լոգիստիկ ռեգրեսիան գծային ռեգրեսիայի տեխնիկայի փոփոխություն է: Մինչ ռեգրեսիայի տեխնիկան սովորաբար օգտագործվում է որպես կանխատեսման ալգորիթմ մեքենայական ուսուցման մեջ, լոգիստիկ ռեգրեսիան օգտագործվում է որպես դասակարգման ալգորիթմ մեքենայական ուսուցման մեջ:
Լոգիստիկ ռեգրեսիայի մեկ այլ տարբերակումն այն է, որ այն ընդունում է անվանական մուտքը, ինչպես նաև հերթական մուտքերը, մինչդեռ գծային ռեգրեսիան ընդունում է միայն հերթական արժեքը:
Լոգիստիկ ռեգրեսիան դեռ գործում է որպես նորմալ ռեգրեսիա, սակայն, երբ արժեքը կանխատեսվում է, տալիս է 0 կամ 1 արդյունք՝ կախված սահմանված շեմի արժեքից: Այս շեմը լռելյայնորեն սահմանված է 0,5, սակայն այն կարող է փոփոխվել՝ կախված անկախ փոփոխականների արժեքից:
Եզրակացություն
Դասակարգման ալգորիթմները մեքենայական ուսուցման ամենակարևոր մեթոդներից են, քանի որ այն ներդրման հսկայական ներուժ ունի: Դասակարգման ալգորիթմների ամենատարածված կիրառումը մեքենայական ուսուցման մեջ մարքեթինգում է, որտեղ թիրախային լսարանի սեգմենտավորման պրակտիկան իրականացվում է Դասակարգման ալգորիթմների օգնությամբ:
Բացի այս հավելվածից, մեքենայական ուսուցման դասակարգման ալգորիթմները նույնպես օգտագործվում են բանկերում՝ որոշելու ռիսկի մակարդակը, որը ներկայացնում է յուրաքանչյուր պոտենցիալ հաճախորդ, երբ նրանք որոշում են անձին վարկ տալ, թե ոչ:
Դասակարգման ալգորիթմների մի քանի այլ կիրառություններ կան մեքենայական ուսուցման մեջ և դրանք միայն ապագայում աճելու են: