Մեքենայական ուսուցման կանոնավորացում. L1 և L2

Մեքենայի ուսուցման կանոնավորացում. L1 և L2

DataScience շարք

Չափազանց հարմարեցումը և բարդությունը տվյալների գիտնականների առջև ծառացած ամենաահավոր խնդիրներից են: Այս դեպքերում վերապատրաստված մեքենայական ուսուցման մոդելները կատարյալ են աշխատում ուսուցման տվյալների վրա (ցածր սխալ), սակայն դրանք թույլ ճշգրտություն ունեն ցանկացած այլ տվյալների բազայում: Վերապատրաստված մոդելներն այստեղ կարող էին պահպանել միայն օրինաչափությունները վերապատրաստման տվյալների մեջ, սակայն նրանք չկարողացան ընդհանուր պատկերացում կազմել տվյալների օրինաչափությունների և այն մասին, թե ինչպես է հատկանիշների (մուտքագրումների) փոփոխությունն ազդում թիրախային փոփոխական(ների) վրա:

Ահա թե որտեղ է գալիս կանոնավոր կարգավորումը:

Եկեք օրինակ բերենք այս տեխնիկայի ետևում գտնվող կախարդական 🪄 լուսաբանման համար.

Ենթադրենք, որ մենք վարժեցնում ենք Գծային ռեգրեսիայի (LR) մոդել՝ հաշվի առնելով որոշ մուտքային հատկանիշներ՝ շարունակական փոփոխական արժեքները կանխատեսելու համար: Ընտրված կորստի ֆունկցիան Միջին քառակուսի սխալ (MSE) է, որը սահմանվում է հավասարմամբ.

LR մոդելը վարժեցնելով մենք նպատակ ունենք գտնել քաշի գործակիցների վեկտորը [W1 W2 ….. Wm], որը հանգեցնում է ամենացածր հնարավոր MSE-ի.

որտեղ n նմուշների քանակն է, mը հատկանիշների քանակն է, իսկ կողմնակալությունը սանդղիչ է:

Համապատասխանաբար, վերապատրաստման գործընթացը կհանգեցնի մի շարք կշիռների, որոնք հանգեցրել են նվազագույն սխալի, երբ փորձարկվել են մարզումների տվյալների վրա:

Խնդիրն այս պահին է, որտեղ մոդելն այնուհետև կփորձարկվի թեստային տվյալների հավաքածուի վրա, և ճշգրտությունը սարսափելի կթվա 😱:

Մոդելի կատարողականը հակված կլինի կտրուկ ցածր լինել, քան գրանցվածը մարզումների ժամանակ: Կրկին, սա պայմանավորված է նրանով, որ մոդելը կարող էր միայն ճշգրիտ տեղավորել ուսուցման տվյալները.

Ենթադրելով տվյալների բազա միայն մեկ հատկանիշով (X), և ելքը (նպատակային փոփոխական) y. Մենք կարող ենք տեսնել երկու տարբեր պատրաստված մոդելների հավասարումներ: Կորաձևը պարզապես համապատասխանում է վերապատրաստման տվյալների կետերին (MSE գրեթե զրոյական), մինչդեռ գծային գծի արդյունքը ճիշտ չի համապատասխանում վերապատրաստման տվյալներին, և MSE-ն Զրո չէ: Այնուամենայնիվ, ուղիղ գիծն ավելի ընդհանրացված է, որտեղ նոր տվյալների սնուցման դեպքում l մոդելը, MSE-ի արժեքը հիմնականում ավելի ցածր կլինի, քան գերհագեցվածը:

Նկատի ունեցեք, որ կորի և ուղիղ գծերի միջև էական տարբերությունը քաշի գործակիցներն են: Կոր գիծն ունի ավելի շատ քաշային գործակիցներ, որոնք ներառված են հավասարման մեջ:

Դա բացատրելու համար եկեք ենթադրենք տվյալների հավաքածու 10 հատկանիշներով. [F1, F2, F3, …… F10]

Յուրաքանչյուր հատկանիշ կունենա իր հարակից քաշի գործակիցը հավասարման մեջ.

Y = (w1 x F1 + w2 x F2 + …… + w10 x F10) + կողմնակալություն

Այստեղ խնդիրն այն է, որ որոշ առանձնահատկություններ աննշան ազդեցություն ունեն վերջնական արդյունքի (Y) վրա, սակայն դրանց հարակից քաշային գործակիցները հավասար են փոքր արժեքի: Եթե այս հատկանիշները հանվեն հավասարումից (դրանց կշիռները դառնում են զրո), մոդելի չափը և բարդությունը ավելի քիչ կլինեն:

Նաև բարձրարժեք քաշի գործակիցներից խուսափելը նվազեցնում է բարդությունը և մոդելը դարձնում է ավելի ընդհանուր և ողջունելի այլ տվյալների հավաքածուների համար, ինչը իսկապես հանգեցնում է զգալիորեն ավելի լավ կատարողականի:

Այս կետից մենք կարող ենք եզրակացնել, որ ուղիղ գիծը ավելի ցածր քաշի արժեք ունի, քան կորը:

Եվ ահա գալիս է Կանոնավորումը

Գոյություն ունեն կանոնավորացման առավելապես կիրառվող տեխնիկայի երկու տեսակ՝ L1 և L2

L1 կանոնավորացում.

Հայեցակարգը պարզ է. Պարզապես ավելացրեք բացարձակ քաշի գործակիցների գումարը կորստի ֆունկցիային.

ավելացված ժամկետը կոչվում է տույժ: Վերապատրաստելով ռեգրեսիոն մոդելը՝ նպատակ ունենալով նվազագույնի հասցնել Կորուստի նոր գործառույթը, քաշի գործակիցները հակված կլինեն ցածր լինել՝ խուսափելու կորստի արժեքի ավելացումից: Լամբդա արժեքը պետք է կարգավորվի, որտեղ այն վերահսկում է Rկարգավորման ուժը:

Բարձր լամբդա -› Ցածր քաշի գործակիցներ(և հակառակը)

L2 կանոնավորացում:

Երկրորդ տեսակի դեպքում տույժի ժամկետը քաշային գործակիցների քառակուսիների գումարն է.

Որտեղ:

L1 և L2 տարբերություն.

Ինչպես ցույց է տրված հավասարումներում, L1-ը հիմնված է մոդելի տուգանման վրա՝ հիմնված քաշի գործակիցների բացարձակ արժեքների գումարի վրա, մինչդեռ L2-ը համարում է քառակուսիների գումարը:

Փաստորեն, L1-ը հանգեցնում է քաշի գործակիցների վեկտորի սակավության, քանի որ կտրուկ վերացնում է քաշի որոշ գործակիցներ (w = 0): Ահա թե ինչու այն կարող է համարվել նաև հատկանիշի ընտրության տեխնիկա:

Ընդհակառակը, L2-ը նվազեցնում է քաշի գործակիցները, բայց արդյունավետորեն չի զրոյացնում դրանք (բացառությամբ, եթե լամբդան մեծ է):

DataScience Series-ի մասին :

DataScience Seriesը պարբերական հոդվածների շարք է, որը պարզեցնում է տվյալների գիտության մեջ կարևոր և խորը հասկացությունները: Սա ներառում է, բայց չի սահմանափակվում դրանով, մեքենայական ուսուցում, խորը ուսուցում և տվյալների նախնական մշակման տեխնիկա: Շարքը նաև օգնում է տվյալների գիտնականներին յուրացնել բարդ հասկացությունները՝ ավելի լավ հասկանալու այս ոլորտի մոգությունը:

Ռեսուրսներ:

Ալիքների առաջացրած ջրհեղեղների կանխատեսում ցածրադիր արևադարձային կղզիների վրա՝ օգտագործելով Բայեսյան ցանց. Գիտական գործիչ ResearchGate-ում: Հասանելի է՝ https://www.researchgate.net/figure/Example-of-overfitting-adapted-from-Leinweber-2007-The-purple-line-is-a-simple_fig14_304658061 [մուտք՝ 9 հոկտեմբերի, 2022]
Raschka, S., Liu, Y. and Mirjalili, V., 2022: Մեքենայական ուսուցում PyTorch-ի և Scikit-Learn-ի հետ: Բիրմինգհեմ: Փաթ.

Data Science Machine Learning Artificial Intelligence Overfitting Regularization

թեմայի վերաբերյալ նյութեր:

Օգտագործելով Fetch Vs Axios.Js-ը՝ HTTP հարցումներ կատարելու համար

Տիրապետել հանգստության արվեստին. մշակողի ուղեցույց՝ ճնշման տակ ծաղկելու համար

Մեքենայի ուսուցում բանկային և ֆինանսների ոլորտում

Ես AI-ին հարցրի կյանքի իմաստը, այն ինչ ասում էր, ցնցող էր:

Ինչպես սովորել կոդավորումը Python-ում վագրի պես:

Նոր նյութեր

Օգտագործելով Fetch Vs Axios.Js-ը՝ HTTP հարցումներ կատարելու համար

JavaScript-ը կարող է ցանցային հարցումներ ուղարկել սերվեր և բեռնել նոր տեղեկատվություն, երբ դա անհրաժեշտ լինի: Օրինակ, մենք կարող ենք օգտագործել ցանցային հարցումը պատվեր ներկայացնելու,..

Տիրապետել հանգստության արվեստին. մշակողի ուղեցույց՝ ճնշման տակ ծաղկելու համար

Տիրապետել հանգստության արվեստին. մշակողի ուղեցույց՝ ճնշման տակ ծաղկելու համար Ինչպե՞ս հանգստացնել ձեր միտքը և աշխատեցնել ձեր պրոցեսորը: Ինչպես մնալ հանգիստ և զարգանալ ճնշման տակ...

Մեքենայի ուսուցում բանկային և ֆինանսների ոլորտում

Բարդ, խելացի անվտանգության համակարգերը և հաճախորդների սպասարկման պարզեցված ծառայությունները բիզնեսի հաջողության բանալին են: Ֆինանսական հաստատությունները, մասնավորապես, պետք է առաջ մնան կորի..

Ես AI-ին հարցրի կյանքի իմաստը, այն ինչ ասում էր, ցնցող էր:

Այն պահից ի վեր, երբ ես իմացա Արհեստական ինտելեկտի մասին, ես հիացած էի այն բանով, թե ինչպես է այն կարողանում հասկանալ մարդկային նորմալ տեքստը, և այն կարող է առաջացնել իր սեփական արձագանքը դրա..

Ինչպես սովորել կոդավորումը Python-ում վագրի պես:

Սովորելու համար ծրագրավորման նոր լեզու ընտրելը բարդ է: Անկախ նրանից, թե դուք սկսնակ եք, թե առաջադեմ, դա օգնում է իմանալ, թե ինչ թեմաներ պետք է սովորել: Ծրագրավորման լեզվի հիմունքները, դրա..

C++-ի օրական բիթ(ե) | Ամենաերկար պալինդրոմային ենթաշարը

C++ #198-ի ամենօրյա բիթ(ե), Ընդհանուր հարցազրույցի խնդիր. Ամենաերկար պալինդրոմային ենթատող: Այսօր մենք կանդրադառնանք հարցազրույցի ընդհանուր խնդրին. Ամենաերկար palindromic substring...

Kydavra ICAReducer՝ ձեր տվյալների ծավալայինությունը նվազեցնելու համար

Ի՞նչ է ICAReducer-ը: ICAReducer-ն աշխատում է հետևյալ կերպ. այն նվազեցնում է նրանց միջև բարձր փոխկապակցված հատկանիշները մինչև մեկ սյունակ: Բավականին նման է PCAreducer-ին, չնայած այն..

Պիտակներ
Machine Learning JavaScript Data Science Artificial Intelligence Python Software Development Web Development Coding Deep Learning React AI Software Engineering Nodejs Typescript Java Javascript Tips Tech Algorithms Front End Development Programming Languages iOS Data Business NLP Development Reactjs Tutorial CSS Learning Swift Angular API Javascript Development Startup Android Computer Science Learning To Code Reinforcement Learning