Մեքենայի ուսուցման կանոնավորացում. L1 և L2
DataScience շարք
Չափազանց հարմարեցումը և բարդությունը տվյալների գիտնականների առջև ծառացած ամենաահավոր խնդիրներից են: Այս դեպքերում վերապատրաստված մեքենայական ուսուցման մոդելները կատարյալ են աշխատում ուսուցման տվյալների վրա (ցածր սխալ), սակայն դրանք թույլ ճշգրտություն ունեն ցանկացած այլ տվյալների բազայում: Վերապատրաստված մոդելներն այստեղ կարող էին պահպանել միայն օրինաչափությունները վերապատրաստման տվյալների մեջ, սակայն նրանք չկարողացան ընդհանուր պատկերացում կազմել տվյալների օրինաչափությունների և այն մասին, թե ինչպես է հատկանիշների (մուտքագրումների) փոփոխությունն ազդում թիրախային փոփոխական(ների) վրա:
Ահա թե որտեղ է գալիս կանոնավոր կարգավորումը:
Եկեք օրինակ բերենք այս տեխնիկայի ետևում գտնվող կախարդական 🪄 լուսաբանման համար.
Ենթադրենք, որ մենք վարժեցնում ենք Գծային ռեգրեսիայի (LR) մոդել՝ հաշվի առնելով որոշ մուտքային հատկանիշներ՝ շարունակական փոփոխական արժեքները կանխատեսելու համար: Ընտրված կորստի ֆունկցիան Միջին քառակուսի սխալ (MSE) է, որը սահմանվում է հավասարմամբ.
LR մոդելը վարժեցնելով մենք նպատակ ունենք գտնել քաշի գործակիցների վեկտորը [W1 W2 ….. Wm], որը հանգեցնում է ամենացածր հնարավոր MSE-ի.
որտեղ n նմուշների քանակն է, mը հատկանիշների քանակն է, իսկ կողմնակալությունը սանդղիչ է:
Համապատասխանաբար, վերապատրաստման գործընթացը կհանգեցնի մի շարք կշիռների, որոնք հանգեցրել են նվազագույն սխալի, երբ փորձարկվել են մարզումների տվյալների վրա:
Խնդիրն այս պահին է, որտեղ մոդելն այնուհետև կփորձարկվի թեստային տվյալների հավաքածուի վրա, և ճշգրտությունը սարսափելի կթվա 😱:
Մոդելի կատարողականը հակված կլինի կտրուկ ցածր լինել, քան գրանցվածը մարզումների ժամանակ: Կրկին, սա պայմանավորված է նրանով, որ մոդելը կարող էր միայն ճշգրիտ տեղավորել ուսուցման տվյալները.
Ենթադրելով տվյալների բազա միայն մեկ հատկանիշով (X), և ելքը (նպատակային փոփոխական) y. Մենք կարող ենք տեսնել երկու տարբեր պատրաստված մոդելների հավասարումներ: Կորաձևը պարզապես համապատասխանում է վերապատրաստման տվյալների կետերին (MSE գրեթե զրոյական), մինչդեռ գծային գծի արդյունքը ճիշտ չի համապատասխանում վերապատրաստման տվյալներին, և MSE-ն Զրո չէ: Այնուամենայնիվ, ուղիղ գիծն ավելի ընդհանրացված է, որտեղ նոր տվյալների սնուցման դեպքում l մոդելը, MSE-ի արժեքը հիմնականում ավելի ցածր կլինի, քան գերհագեցվածը:
Նկատի ունեցեք, որ կորի և ուղիղ գծերի միջև էական տարբերությունը քաշի գործակիցներն են: Կոր գիծն ունի ավելի շատ քաշային գործակիցներ, որոնք ներառված են հավասարման մեջ:
Դա բացատրելու համար եկեք ենթադրենք տվյալների հավաքածու 10 հատկանիշներով. [F1, F2, F3, …… F10]
Յուրաքանչյուր հատկանիշ կունենա իր հարակից քաշի գործակիցը հավասարման մեջ.
Y = (w1 x F1 + w2 x F2 + …… + w10 x F10) + կողմնակալություն
Այստեղ խնդիրն այն է, որ որոշ առանձնահատկություններ աննշան ազդեցություն ունեն վերջնական արդյունքի (Y) վրա, սակայն դրանց հարակից քաշային գործակիցները հավասար են փոքր արժեքի: Եթե այս հատկանիշները հանվեն հավասարումից (դրանց կշիռները դառնում են զրո), մոդելի չափը և բարդությունը ավելի քիչ կլինեն:
Նաև բարձրարժեք քաշի գործակիցներից խուսափելը նվազեցնում է բարդությունը և մոդելը դարձնում է ավելի ընդհանուր և ողջունելի այլ տվյալների հավաքածուների համար, ինչը իսկապես հանգեցնում է զգալիորեն ավելի լավ կատարողականի:
Այս կետից մենք կարող ենք եզրակացնել, որ ուղիղ գիծը ավելի ցածր քաշի արժեք ունի, քան կորը:
Եվ ահա գալիս է Կանոնավորումը
Գոյություն ունեն կանոնավորացման առավելապես կիրառվող տեխնիկայի երկու տեսակ՝ L1 և L2
L1 կանոնավորացում.
Հայեցակարգը պարզ է. Պարզապես ավելացրեք բացարձակ քաշի գործակիցների գումարը կորստի ֆունկցիային.
ավելացված ժամկետը կոչվում է տույժ: Վերապատրաստելով ռեգրեսիոն մոդելը՝ նպատակ ունենալով նվազագույնի հասցնել Կորուստի նոր գործառույթը, քաշի գործակիցները հակված կլինեն ցածր լինել՝ խուսափելու կորստի արժեքի ավելացումից: Լամբդա արժեքը պետք է կարգավորվի, որտեղ այն վերահսկում է Rկարգավորման ուժը:
Բարձր լամբդա -› Ցածր քաշի գործակիցներ(և հակառակը)
L2 կանոնավորացում:
Երկրորդ տեսակի դեպքում տույժի ժամկետը քաշային գործակիցների քառակուսիների գումարն է.
Որտեղ:
L1 և L2 տարբերություն.
Ինչպես ցույց է տրված հավասարումներում, L1-ը հիմնված է մոդելի տուգանման վրա՝ հիմնված քաշի գործակիցների բացարձակ արժեքների գումարի վրա, մինչդեռ L2-ը համարում է քառակուսիների գումարը:
Փաստորեն, L1-ը հանգեցնում է քաշի գործակիցների վեկտորի սակավության, քանի որ կտրուկ վերացնում է քաշի որոշ գործակիցներ (w = 0): Ահա թե ինչու այն կարող է համարվել նաև հատկանիշի ընտրության տեխնիկա:
Ընդհակառակը, L2-ը նվազեցնում է քաշի գործակիցները, բայց արդյունավետորեն չի զրոյացնում դրանք (բացառությամբ, եթե լամբդան մեծ է):
DataScience Series-ի մասին :
DataScience Seriesը պարբերական հոդվածների շարք է, որը պարզեցնում է տվյալների գիտության մեջ կարևոր և խորը հասկացությունները: Սա ներառում է, բայց չի սահմանափակվում դրանով, մեքենայական ուսուցում, խորը ուսուցում և տվյալների նախնական մշակման տեխնիկա: Շարքը նաև օգնում է տվյալների գիտնականներին յուրացնել բարդ հասկացությունները՝ ավելի լավ հասկանալու այս ոլորտի մոգությունը:
Ռեսուրսներ:
- Ալիքների առաջացրած ջրհեղեղների կանխատեսում ցածրադիր արևադարձային կղզիների վրա՝ օգտագործելով Բայեսյան ցանց. Գիտական գործիչ ResearchGate-ում: Հասանելի է՝ https://www.researchgate.net/figure/Example-of-overfitting-adapted-from-Leinweber-2007-The-purple-line-is-a-simple_fig14_304658061 [մուտք՝ 9 հոկտեմբերի, 2022]
- Raschka, S., Liu, Y. and Mirjalili, V., 2022: Մեքենայական ուսուցում PyTorch-ի և Scikit-Learn-ի հետ: Բիրմինգհեմ: Փաթ.