Բոլոր հիմնական բաները, որոնք դուք պետք է իմանաք Գծային ռեգրեսիայի մասին:

Ի՞նչ է ռեգրեսիան:

Հիմնականում ռեգրեսիան նշանակում է մեկ փոփոխականի (օրինակ՝ արտադրանքի) և այլ փոփոխականների համար համապատասխան արժեքների (օրինակ՝ ներածման, օրինակ՝ ծախսերի և ժամանակի) միջև կապի չափումը։

Ինչպես նշվեց վերևում, ռեգրեսիայի առաջադրանքների համար նպատակն է կանխատեսել շարունակական թիվը կամ լողացող կետի թիվը ծրագրավորման առումով (կամ իրական թիվը մաթեմատիկական առումով):

Օրինակ 1.- Տան սարքերի կողմից էներգիայի սպառման կանխատեսում` օգտագործելով այդ տան/սենյակի ջերմաստիճանը, այդ սենյակի խոնավությունը, օրական որքան ժամանակ է աշխատում սարքը, եղանակային որ եղանակն է այնտեղ:

Օրինակ 2.- Բաժնետոմսերի գների կանխատեսում` օգտագործելով այնպիսի հատկանիշներ, ինչպիսիք են նախորդ գների միջակայքի պատմությունը, օրվա ժամը, դրա վրա ազդող տնտեսական գործոնները:

Ինչպե՞ս կարող ենք իմանալ՝ դա ռեգրեսիա է, թե դասակարգման խնդիր:

Հեշտ միջոց է իմանալ, թե տվյալ խնդիրը ռեգրեսիայի կամ դասակարգման է, ելքային փոփոխականին նայելն է: Եթե ​​հնարավոր արդյունքների միջև շարունակականություն կա, ապա խնդիրը ռեգրեսիայի խնդիրն է:

Գծային ռեգրեսիա (սովորական նվազագույն քառակուսիներ)

Գծային ռեգրեսիան կամ սովորական նվազագույն քառակուսիները (OLS), ռեգրեսիայի ամենապարզ և դասական գծային մեթոդն է:

Դա վերահսկվող մեքենայական ուսուցման ալգորիթմ է, որն օգտագործվում է շարունակական/իրական կամ թվային փոփոխականների կանխատեսելի վերլուծության համար, ինչպիսիք են անձի աշխատավարձը, տարիքը, արագությունը, էներգիայի սպառումը, բնակչության բարձրությունը, վաճառքը, արտադրանքի գինը, ջերմաստիճանը, խոնավությունը և շատ ավելին: Դա ամենահեշտ և ամենատարածված ալգորիթմներից մեկն է:

Այն ցույց է տալիս գծային հարաբերություն կախված (y)-ի և մեկ կամ ավելի անկախ փոփոխականների (x) միջև, հետևաբար կոչվում է գծային ռեգրեսիա։

Քանի որ գծային ռեգրեսիան ցույց է տալիս գծային հարաբերությունը, ինչը նշանակում է, որ այն գտնում է, թե ինչպես է փոխվում կախված փոփոխականի արժեքը՝ կախված անկախ փոփոխականի արժեքից:

Վերոնշյալ նկարում մենք կարող ենք տեսնել, որ կախված(y) և անկախ(x) փոփոխականների միջև կա գծային հարաբերություն: Եվ կա մեկ տող, որը կոչվում է Best Fit Line, որը փորձում է համապատասխանեցնել տվյալները՝ ըստ կապի ուղղության:

Գծային ռեգրեսիայի հավասարում

Մեր հիմնական նպատակն է գտնել լավագույն պիտանի գիծը, որը նշանակում է, որ կանխատեսված արժեքների (ŷ) և իրական արժեքների (y) միջև եղած սխալը պետք է նվազագույնի հասցվի: Լավագույն պիտանի գիծն ունի նվազագույն սխալ:

Կշիռների տարբեր արժեքները կամ տողերի գործակիցը (β0 և β1) տալիս են ռեգրեսիայի տարբեր գիծ, ​​ուստի մենք պետք է հաշվարկենք β0 և β1-ի լավագույն արժեքները՝ գտնելու լավագույն համապատասխան գիծը, ուստի դա հաշվարկելու համար մենք օգտագործում ենք ծախսերի ֆունկցիան:

Արժեքի գործառույթ

Գծերի կշիռների կամ գործակիցների տարբեր արժեքները (β0 և β1) տալիս են ռեգրեսիայի տարբեր գիծ, ​​և ծախսերի ֆունկցիան օգտագործվում է լավագույն պիտանի գծի գործակիցների արժեքները գնահատելու համար:

Ծախսերի գործառույթները օպտիմալացնում են ռեգրեսիայի գործակիցները կամ կշիռները: Այն չափում է, թե ինչպես է գործում գծային ռեգրեսիոն մոդելը:

Մենք կարող ենք օգտագործել ծախսերի ֆունկցիան՝ գտնելու քարտեզագրման ֆունկցիայի ճշգրտությունը, որը մուտքագրում է մուտքային փոփոխականը ելքային փոփոխականին: Այս քարտեզագրման ֆունկցիան հայտնի է նաև որպես Վարկածի ֆունկցիա:

Գծային ռեգրեսիայի համար մենք օգտագործում ենք MSE (Mean Squared Error), որը միջին սխալն է կանխատեսված արժեքների և իրական արժեքների միջև:

Որո՞նք են մնացորդները:

Իրական արժեքի (y) և կանխատեսված արժեքի (ŷ) միջև հեռավորությունը կոչվում է մնացորդային: Եթե ​​դիտարկված կետերը հեռու են ռեգրեսիոն գծից, ապա մնացորդը կլինի բարձր, հետևաբար ծախսերի ֆունկցիան բարձր կլինի: Եթե ​​ցրման կետերը մոտ են ռեգրեսիոն գծին, ապա մնացորդը փոքր կլինի, հետևաբար՝ ծախսերի ֆունկցիան:

Գրադիենտ անկում ծախսերի ֆունկցիայի օպտիմալացման համար

Gradient Descent-ը օգտագործվում է MSE-ը նվազագույնի հասցնելու համար՝ հաշվարկելով ծախսերի ֆունկցիայի գրադիենտը:

Ռեգրեսիոն մոդելն օգտագործում է գրադիենտ իջնելը՝ գծի կշիռները կամ գործակիցները թարմացնելու համար՝ նվազեցնելով ծախսերի ֆունկցիան:

Այն կատարվում է գործակիցների արժեքների պատահական ընտրությամբ և այնուհետև կրկնվող արժեքները թարմացնելով՝ նվազագույն ծախսերի ֆունկցիան հասնելու համար:

Մոդելի արդյունավետությունը

Համապատասխանության լավությունը որոշում է, թե ինչպես է ռեգրեսիայի գիծը համապատասխանում դիտարկումների շարքին: Տարբեր մոդելներից լավագույն մոդելը գտնելու գործընթացը կոչվում էօպտիմալացում:

Մի քանի մետրային գործիքներ, որոնք մենք կարող ենք օգտագործել մոդելում սխալը հաշվարկելու համար

1.MSE (միջին քառակուսի սխալ)

2.RMSE (Արմատի միջին քառակուսի սխալ)

3.MAE (միջին բացարձակ սխալ)

4.MAPE (միջին բացարձակ տոկոսային սխալ)

5.R2 (R — քառակուսի)

6. Ճշգրտված R2

Վերևից բոլոր ցուցանիշներից ամենակարևորն են R2-ը և Adjusted R2-ը:

R2 (R — քառակուսի)

Որոշման գործակիցը կամ R²-ը ևս մեկ չափիչ է, որն օգտագործվում է ռեգրեսիոն մոդելի արդյունավետությունը գնահատելու համար: Չափանիշն օգնում է մեզ համեմատել մեր ընթացիկ մոդելը մշտական ​​բազային գծի հետ և ցույց է տալիս, թե որքանով է մեր մոդելն ավելի լավը:

Մշտական ​​բազային գիծն ընտրվում է՝ հաշվի առնելով տվյալների միջինը և միջինում գիծ գծելով: R²-ն առանց սանդղակի միավոր է, որը ենթադրում է, որ նշանակություն չունի արժեքները

չափազանց մեծ են կամ շատ փոքր, R²-ը միշտ կլինի 1-ից փոքր կամ հավասար:

R2 = Բացատրված տատանումներ / Ընդհանուր տատանումներ

Ճշգրտված R2

Ճշգրտված R²-ը պատկերում է նույն իմաստը, ինչ R²-ն, բայց հանդիսանում է դրա բարելավում: R²-ն տառապում է այն խնդրից, որ միավորները բարելավվում են աճող պայմաններով, թեև մոդելը չի ​​բարելավվում, ինչը կարող է մոլորեցնել հետազոտողին: Ճշգրտված R²-ը միշտ ցածր է R²-ից, քանի որ այն հարմարվում է աճող կանխատեսիչներին և ցույց է տալիս բարելավում միայն իրական բարելավման դեպքում:

Գծային ռեգրեսիայի ենթադրություններ

  1. Կախված և անկախ փոփոխականների միջև պետք է լինի գծային հարաբերություն:
  2. Անկախ փոփոխականների միջև բազմակողմանիություն չկա:
  3. Մնացորդների միջինը պետք է լինի զրո կամ հնարավորինս մոտ զրոյի: Դա արվում է ստուգելու համար, թե արդյոք մեր գիծը լավագույնս համապատասխանում է, թե ոչ:
  4. Ռեգրեսիոն մոդելում պետք է լինի հոմոսկեդաստիկություն կամ հավասար տարբերություն: Սա նշանակում է, որ ռեգրեսիոն գծի շուրջ շեղումը նույնն է կանխատեսող փոփոխականի (x) բոլոր արժեքների համար։

Շնորհակալություն !