Շարքի առաջին մասը, որը պարզ, հեշտ հասկանալի անգլերենով կբացատրի մեքենայական ուսուցման հիմքերը:

Բարի գալուստ Արագ ներածություն նախքան սկսելը. Ես վերջերս Վաշինգտոնի համալսարանի շրջանավարտ եմ և աշխատում եմ որպես տվյալների վերլուծաբան Bloomberg L.P-ում: Շոշափելով իմ մեքենայական ուսուցման հիմունքները, ես հասկացա, որ այս հասկացություններից շատերը չեն բացատրվում այնքան պարզ, որքան հնարավոր է: Քանի որ շատ կարևոր է հասկանալ ML ալգորիթմները գլխարկի տակ, ես որոշեցի մի քանի գրառում կատարել՝ այս հիմնարար թեմաներից մի քանիսը ապագաղտնազերծելու համար: Այս շարքում առաջինը կլինի Ռեգրեսիան, եկեք ցատկենք:

Բովանդակություն

  1. Ի՞նչ է գծային ռեգրեսիան:
  2. Պարզ գծային ռեգրեսիա
  3. Արժեքի գործառույթ
  4. Գրադիենտ վայրէջք
  5. Ամփոփում

Ի՞նչ է գծային ռեգրեսիան:

Գծային ռեգրեսիան մեքենայական ուսուցման ոլորտում ամենակարևոր հասկացություններից մեկն է: Բնույթով ինտուիտիվ այս մոդելները հեշտությամբ բացատրվում և պատկերացվում են: Նախքան ռեգրեսիայի հետևում գտնվող մաթեմատիկան ուսումնասիրենք, եկեք տեսնենք, թե ինչ է նույնիսկ ռեգրեսիան:

Մեքենայական ուսուցման նպատակն է տեսնել, թե արդյոք մենք կարող ենք գտնել ինչ-որ օրինաչափություն մեր տվյալների մեջ, այնպես որ մենք կարող ենք ստեղծել մոդել, որը մեզ ճշգրիտ կանխատեսումներ է տալիս, երբ մենք կերակրում ենք այն ապագա տվյալներին: Դասական օրինակ, որը դուք կգտնեք ռեգրեսիայի տիպի մոդելը բացատրելիս, տան գնի և նրա հատկությունների միջև կապի օգտագործումն է: Պատկերացրեք, որ կարող եք գուշակել տան արժեքը բացառապես դրա հատկանիշների ցանկը ունենալով: Սա հենց այն լուծումն է, որը կարող է ապահովել գծային ռեգրեսիան:

Ինչպե՞ս են այս մոդելներն անում այս կանխատեսումները: Գծային ռեգրեսիան կարող է դա անել՝ կենտրոնանալով տվյալներին լավագույն համապատասխանող գծի վրա: Այս տողը (Y) նկարագրված է ստորև բերված հավասարման մեջ, որտեղ β0-ը y հատումն է, β1՝ թեքությունը, իսկ x-ը ներկայացնում է անկախ փոփոխականը: (Նշում. սա ընդամենը մեկ այլ եղանակ է գրելու դասական թեքության գծի հավասարումը, y=mx+b)

*Պաշտոնապես սահմանված,ռեգեսիոն վերլուծությունը-ն է՝ վիճակագրական գործընթացների մի շարք՝ կախված փոփոխականի և մեկ կամ մի քանի անկախ փոփոխականների միջև հարաբերությունները գնահատելու համար:

Աղյուսակ 1-ում հասակի և կոշիկի չափի միջև կապը գտնելու համար մենք կօգտագործենք գծային ռեգրեսիա:

Պարզ գծային ռեգրեսիա

import pandas as pd
import matplotlib.pyplot as plt
#Create and display table
df = pd.DataFrame({'Height(in)': [65,72,68],'Shoe Size': [7,11,8.5]})
print(df.to_string(index=False))

Աղյուսակ 1-ում մենք ունենք տվյալներ, որոնք բաղկացած են մարդու հասակից և նրա կոշիկի չափից: Պարզելու համար, թե արդյոք կա որևէ հարաբերություն այս փոփոխականների միջև, մենք կարող ենք սկսել տվյալներից ցրված գրաֆիկ կազմելով:

Թվերը գծագրելով՝ ստանում ենք հետևյալ գրաֆիկը.

plt.scatter(df['Height(in)'], df['Shoe Size'])
plt.show()

Որպեսզի պարզենք, թե արդյոք գծային ռեգրեսիան օգտակար մոդել կտա այս տվյալների համար, մենք կցանկանայինք տեսնել, թե արդյոք կա որևէ միտում սյուժեում: Այս օրինակում մենք կարող ենք տեսնել տվյալների հստակ միտում դեպի վեր: Այնուամենայնիվ, եթե տվյալները ավելի ցրված լինեին մինչև այն կետը, որտեղ չկար ուժեղ հարաբերակցություն, մենք կարող էինք եզրակացնել, որ տվյալների միջով ուղիղ գիծը այնքան էլ լավ չէր ներկայացնի տվյալները: Հետևաբար գծային ռեգրեսիան լավ մոդել չի լինի:

Գծելով լավագույն պիտանի գիծը, ինչպես երևում է գծապատկեր 2-ում, մենք ստեղծում ենք օգտակար վիզուալ մեր մոդելի համար: Այժմ մենք կարող ենք հեշտությամբ գուշակել Y արժեք (կոշիկի չափս), եթե տրվի X արժեք (անձի հասակը): Դուք կսկսեք հասկանալ, որ որքան լավ է տեղավորվում գիծը, այնքան ավելի ճշգրիտ է գծային ռեգրեսիայի մոդելը: Բայց ի՞նչ է մեզ հստակ ասում այս գիծը, և ինչպե՞ս կարող ենք լավագույնս համապատասխան գիծ ստեղծել:

Արժեքի գործառույթ

Նայելով գծապատկեր 3-ին, մենք կարող ենք տեսնել, որ իրական կետերի և մեր պատահականորեն ընտրված գծի միջև տարածության բավականին տարբերություն կա: Այս տարբերությունները կոչվում են մնացորդներ: Քանի որ գծային ռեգրեսիայի հիմնական նպատակը լավագույնս համապատասխան գիծ գտնելն է, օգտակար կլիներ, եթե միջոց լիներ պարզելու, թե արդյոք մեր ընտրած գիծն իրականում ամենահարմար ընտրությունն է:

*Մենք գիտենք, որ պետք է գիծ կազմենք, բայց ինչպե՞ս կարող ենք չափել, թե որքանով է մեր գիծը համապատասխանում մեր տվյալներին:

Լավագույն գիծը գտնելու մի քանի եղանակ կա, ամենատարածված մոտեցումը կոչվում է նվազագույն քառակուսիներ և ներառում է արժեքի ֆունկցիա: Արժեքի ֆունկցիայի արդյունքը բոլոր մնացորդների գումարն է: Սա կլինի մեր չափանիշը, թե որքանով է մեր գիծը համապատասխանում տվյալներին: Որքան փոքր է քառակուսիների մնացորդային գումարը, այնքան ավելի լավ է տեղավորվում գիծը:

Եթե ​​ծախսերի ֆունկցիան մեզ ասում է, թե որն է ընդհանուր սխալը, ինչպե՞ս կարող ենք նվազագույնի հասցնել այս սխալը, որպեսզի ավելի լավ ներկայացնենք տվյալները մեր մոդելում:

Գրադիենտ ծագում

Ամենացածր սխալով ֆունկցիան գտնելու համար մենք կարող ենք հավասարումներ փորձել տարբեր թեքություններ գտնելու համար, բայց դա թանկ է դառնում: Այն, ինչ մենք ցանկանում ենք օգտագործել դրա փոխարեն, տեխնիկան է, որը կոչվում է գրադիենտ ծագում, որը պարզվում է, որ հիանալի մեթոդ է, որն օգտագործվում է գործառույթները նվազագույնի հասցնելու համար: Այս դեպքում մենք օգտագործում ենք այն ծախսերի գործառույթը նվազագույնի հասցնելու համար:

Այս ալգորիթմի նպատակն է գտնել θ0 և θ1 պարամետրերն այնպես, որ քառակուսի սխալի գումարը նվազագույնի հասցվի: Վերջապես միացնելով մեր երկու հիմնական հավասարումները՝ մենք հասնում ենք ստորև բերված 4-րդ հավասարմանը:

Ամփոփում

Շնորհավորում եմ Դուք հասցրել եք այն մինչև վերջ։ Այժմ դուք պետք է հստակ պատկերացում ունենաք Պարզ գծային ռեգրեսիայի ներքին աշխատանքի մասին: Մենք նկատեցինք, թե ինչպես ենք մենք սկսում մի գծի հավասարումով, որը մենք կցանկանայինք համապատասխանեցնել մեր տվյալներին: Օգտագործելով ծախսերի ֆունկցիան՝ մենք կարողացանք պարզել, թե որքանով է համապատասխանել այդ գիծը: Բայց լավագույն տեղավորվելու համար գրադիենտ իջնելու ալգորիթմը պարզվեց, որ քառակուսիների գումարի սխալը նվազագույնի հասցնելու ամենաարդյունավետ միջոցը: Վերջապես, մենք հասանք վերջին հավասարմանը, որը, երբ օգտագործվում է ձեր վերապատրաստման տվյալների հավաքածուի վրա, ցույց կտա տվյալների լավագույն գիծը:

Արդյո՞ք ուղիղ գիծը միշտ լավագույն գնահատողն է: Ի՞նչ անել, եթե այլ գործառույթները կարողանան ավելի լավ հարաբերություններ գտնել որոշակի տվյալների միջև: Հետևե՛ք հաջորդ թեմային՝ Լոգիստիկ ռեգրեսիա: