Մեքենայի ուսուցման կանոնավորացում. L1 և L2

DataScience շարք

Չափազանց հարմարեցումը և բարդությունը տվյալների գիտնականների առջև ծառացած ամենաահավոր խնդիրներից են: Այս դեպքերում վերապատրաստված մեքենայական ուսուցման մոդելները կատարյալ են աշխատում ուսուցման տվյալների վրա (ցածր սխալ), սակայն դրանք թույլ ճշգրտություն ունեն ցանկացած այլ տվյալների բազայում: Վերապատրաստված մոդելներն այստեղ կարող էին պահպանել միայն օրինաչափությունները վերապատրաստման տվյալների մեջ, սակայն նրանք չկարողացան ընդհանուր պատկերացում կազմել տվյալների օրինաչափությունների և այն մասին, թե ինչպես է հատկանիշների (մուտքագրումների) փոփոխությունն ազդում թիրախային փոփոխական(ների) վրա:

Ահա թե որտեղ է գալիս կանոնավոր կարգավորումը:

Եկեք օրինակ բերենք այս տեխնիկայի ետևում գտնվող կախարդական 🪄 լուսաբանման համար.

Ենթադրենք, որ մենք վարժեցնում ենք Գծային ռեգրեսիայի (LR) մոդել՝ հաշվի առնելով որոշ մուտքային հատկանիշներ՝ շարունակական փոփոխական արժեքները կանխատեսելու համար: Ընտրված կորստի ֆունկցիան Միջին քառակուսի սխալ (MSE) է, որը սահմանվում է հավասարմամբ.

LR մոդելը վարժեցնելով մենք նպատակ ունենք գտնել քաշի գործակիցների վեկտորը [W1 W2 ….. Wm], որը հանգեցնում է ամենացածր հնարավոր MSE-ի.

որտեղ n նմուշների քանակն է, mը հատկանիշների քանակն է, իսկ կողմնակալությունը սանդղիչ է:

Համապատասխանաբար, վերապատրաստման գործընթացը կհանգեցնի մի շարք կշիռների, որոնք հանգեցրել են նվազագույն սխալի, երբ փորձարկվել են մարզումների տվյալների վրա:

Խնդիրն այս պահին է, որտեղ մոդելն այնուհետև կփորձարկվի թեստային տվյալների հավաքածուի վրա, և ճշգրտությունը սարսափելի կթվա 😱:

Մոդելի կատարողականը հակված կլինի կտրուկ ցածր լինել, քան գրանցվածը մարզումների ժամանակ: Կրկին, սա պայմանավորված է նրանով, որ մոդելը կարող էր միայն ճշգրիտ տեղավորել ուսուցման տվյալները.

Ենթադրելով տվյալների բազա միայն մեկ հատկանիշով (X), և ելքը (նպատակային փոփոխական) y. Մենք կարող ենք տեսնել երկու տարբեր պատրաստված մոդելների հավասարումներ: Կորաձևը պարզապես համապատասխանում է վերապատրաստման տվյալների կետերին (MSE գրեթե զրոյական), մինչդեռ գծային գծի արդյունքը ճիշտ չի համապատասխանում վերապատրաստման տվյալներին, և MSE-ն Զրո չէ: Այնուամենայնիվ, ուղիղ գիծն ավելի ընդհանրացված է, որտեղ նոր տվյալների սնուցման դեպքում l մոդելը, MSE-ի արժեքը հիմնականում ավելի ցածր կլինի, քան գերհագեցվածը:

Նկատի ունեցեք, որ կորի և ուղիղ գծերի միջև էական տարբերությունը քաշի գործակիցներն են: Կոր գիծն ունի ավելի շատ քաշային գործակիցներ, որոնք ներառված են հավասարման մեջ:

Դա բացատրելու համար եկեք ենթադրենք տվյալների հավաքածու 10 հատկանիշներով. [F1, F2, F3, …… F10]

Յուրաքանչյուր հատկանիշ կունենա իր հարակից քաշի գործակիցը հավասարման մեջ.

Y = (w1 x F1 + w2 x F2 + …… + w10 x F10) + կողմնակալություն

Այստեղ խնդիրն այն է, որ որոշ առանձնահատկություններ աննշան ազդեցություն ունեն վերջնական արդյունքի (Y) վրա, սակայն դրանց հարակից քաշային գործակիցները հավասար են փոքր արժեքի: Եթե ​​այս հատկանիշները հանվեն հավասարումից (դրանց կշիռները դառնում են զրո), մոդելի չափը և բարդությունը ավելի քիչ կլինեն:

Նաև բարձրարժեք քաշի գործակիցներից խուսափելը նվազեցնում է բարդությունը և մոդելը դարձնում է ավելի ընդհանուր և ողջունելի այլ տվյալների հավաքածուների համար, ինչը իսկապես հանգեցնում է զգալիորեն ավելի լավ կատարողականի:

Այս կետից մենք կարող ենք եզրակացնել, որ ուղիղ գիծը ավելի ցածր քաշի արժեք ունի, քան կորը:

Եվ ահա գալիս է Կանոնավորումը

Գոյություն ունեն կանոնավորացման առավելապես կիրառվող տեխնիկայի երկու տեսակ՝ L1 և L2

L1 կանոնավորացում.

Հայեցակարգը պարզ է. Պարզապես ավելացրեք բացարձակ քաշի գործակիցների գումարը կորստի ֆունկցիային.

ավելացված ժամկետը կոչվում է տույժ: Վերապատրաստելով ռեգրեսիոն մոդելը՝ նպատակ ունենալով նվազագույնի հասցնել Կորուստի նոր գործառույթը, քաշի գործակիցները հակված կլինեն ցածր լինել՝ խուսափելու կորստի արժեքի ավելացումից: Լամբդա արժեքը պետք է կարգավորվի, որտեղ այն վերահսկում է Rկարգավորման ուժը:

Բարձր լամբդա -› Ցածր քաշի գործակիցներ(և հակառակը)

L2 կանոնավորացում:

Երկրորդ տեսակի դեպքում տույժի ժամկետը քաշային գործակիցների քառակուսիների գումարն է.

Որտեղ:

L1 և L2 տարբերություն.

Ինչպես ցույց է տրված հավասարումներում, L1-ը հիմնված է մոդելի տուգանման վրա՝ հիմնված քաշի գործակիցների բացարձակ արժեքների գումարի վրա, մինչդեռ L2-ը համարում է քառակուսիների գումարը:

Փաստորեն, L1-ը հանգեցնում է քաշի գործակիցների վեկտորի սակավության, քանի որ կտրուկ վերացնում է քաշի որոշ գործակիցներ (w = 0): Ահա թե ինչու այն կարող է համարվել նաև հատկանիշի ընտրության տեխնիկա:

Ընդհակառակը, L2-ը նվազեցնում է քաշի գործակիցները, բայց արդյունավետորեն չի զրոյացնում դրանք (բացառությամբ, եթե լամբդան մեծ է):

DataScience Series-ի մասին :

DataScience Seriesը պարբերական հոդվածների շարք է, որը պարզեցնում է տվյալների գիտության մեջ կարևոր և խորը հասկացությունները: Սա ներառում է, բայց չի սահմանափակվում դրանով, մեքենայական ուսուցում, խորը ուսուցում և տվյալների նախնական մշակման տեխնիկա: Շարքը նաև օգնում է տվյալների գիտնականներին յուրացնել բարդ հասկացությունները՝ ավելի լավ հասկանալու այս ոլորտի մոգությունը:

Ռեսուրսներ: