Շարքի առաջին մասը, որը պարզ, հեշտ հասկանալի անգլերենով կբացատրի մեքենայական ուսուցման հիմքերը:
Բարի գալուստ Արագ ներածություն նախքան սկսելը. Ես վերջերս Վաշինգտոնի համալսարանի շրջանավարտ եմ և աշխատում եմ որպես տվյալների վերլուծաբան Bloomberg L.P-ում: Շոշափելով իմ մեքենայական ուսուցման հիմունքները, ես հասկացա, որ այս հասկացություններից շատերը չեն բացատրվում այնքան պարզ, որքան հնարավոր է: Քանի որ շատ կարևոր է հասկանալ ML ալգորիթմները գլխարկի տակ, ես որոշեցի մի քանի գրառում կատարել՝ այս հիմնարար թեմաներից մի քանիսը ապագաղտնազերծելու համար: Այս շարքում առաջինը կլինի Ռեգրեսիան, եկեք ցատկենք:
Բովանդակություն
- Ի՞նչ է գծային ռեգրեսիան:
- Պարզ գծային ռեգրեսիա
- Արժեքի գործառույթ
- Գրադիենտ վայրէջք
- Ամփոփում
Ի՞նչ է գծային ռեգրեսիան:
Գծային ռեգրեսիան մեքենայական ուսուցման ոլորտում ամենակարևոր հասկացություններից մեկն է: Բնույթով ինտուիտիվ այս մոդելները հեշտությամբ բացատրվում և պատկերացվում են: Նախքան ռեգրեսիայի հետևում գտնվող մաթեմատիկան ուսումնասիրենք, եկեք տեսնենք, թե ինչ է նույնիսկ ռեգրեսիան:
Մեքենայական ուսուցման նպատակն է տեսնել, թե արդյոք մենք կարող ենք գտնել ինչ-որ օրինաչափություն մեր տվյալների մեջ, այնպես որ մենք կարող ենք ստեղծել մոդել, որը մեզ ճշգրիտ կանխատեսումներ է տալիս, երբ մենք կերակրում ենք այն ապագա տվյալներին: Դասական օրինակ, որը դուք կգտնեք ռեգրեսիայի տիպի մոդելը բացատրելիս, տան գնի և նրա հատկությունների միջև կապի օգտագործումն է: Պատկերացրեք, որ կարող եք գուշակել տան արժեքը բացառապես դրա հատկանիշների ցանկը ունենալով: Սա հենց այն լուծումն է, որը կարող է ապահովել գծային ռեգրեսիան:
Ինչպե՞ս են այս մոդելներն անում այս կանխատեսումները: Գծային ռեգրեսիան կարող է դա անել՝ կենտրոնանալով տվյալներին լավագույն համապատասխանող գծի վրա: Այս տողը (Y) նկարագրված է ստորև բերված հավասարման մեջ, որտեղ β0-ը y հատումն է, β1՝ թեքությունը, իսկ x-ը ներկայացնում է անկախ փոփոխականը: (Նշում. սա ընդամենը մեկ այլ եղանակ է գրելու դասական թեքության գծի հավասարումը, y=mx+b)
*Պաշտոնապես սահմանված,ռեգեսիոն վերլուծությունը-ն է՝ վիճակագրական գործընթացների մի շարք՝ կախված փոփոխականի և մեկ կամ մի քանի անկախ փոփոխականների միջև հարաբերությունները գնահատելու համար: 1]
Աղյուսակ 1-ում հասակի և կոշիկի չափի միջև կապը գտնելու համար մենք կօգտագործենք գծային ռեգրեսիա:
Պարզ գծային ռեգրեսիա
import pandas as pd import matplotlib.pyplot as plt #Create and display table df = pd.DataFrame({'Height(in)': [65,72,68],'Shoe Size': [7,11,8.5]}) print(df.to_string(index=False))
Աղյուսակ 1-ում մենք ունենք տվյալներ, որոնք բաղկացած են մարդու հասակից և նրա կոշիկի չափից: Պարզելու համար, թե արդյոք կա որևէ հարաբերություն այս փոփոխականների միջև, մենք կարող ենք սկսել տվյալներից ցրված գրաֆիկ կազմելով:
Թվերը գծագրելով՝ ստանում ենք հետևյալ գրաֆիկը.
plt.scatter(df['Height(in)'], df['Shoe Size']) plt.show()
Որպեսզի պարզենք, թե արդյոք գծային ռեգրեսիան օգտակար մոդել կտա այս տվյալների համար, մենք կցանկանայինք տեսնել, թե արդյոք կա որևէ միտում սյուժեում: Այս օրինակում մենք կարող ենք տեսնել տվյալների հստակ միտում դեպի վեր: Այնուամենայնիվ, եթե տվյալները ավելի ցրված լինեին մինչև այն կետը, որտեղ չկար ուժեղ հարաբերակցություն, մենք կարող էինք եզրակացնել, որ տվյալների միջով ուղիղ գիծը այնքան էլ լավ չէր ներկայացնի տվյալները: Հետևաբար գծային ռեգրեսիան լավ մոդել չի լինի:
Գծելով լավագույն պիտանի գիծը, ինչպես երևում է գծապատկեր 2-ում, մենք ստեղծում ենք օգտակար վիզուալ մեր մոդելի համար: Այժմ մենք կարող ենք հեշտությամբ գուշակել Y արժեք (կոշիկի չափս), եթե տրվի X արժեք (անձի հասակը): Դուք կսկսեք հասկանալ, որ որքան լավ է տեղավորվում գիծը, այնքան ավելի ճշգրիտ է գծային ռեգրեսիայի մոդելը: Բայց ի՞նչ է մեզ հստակ ասում այս գիծը, և ինչպե՞ս կարող ենք լավագույնս համապատասխան գիծ ստեղծել:
Արժեքի գործառույթ
Նայելով գծապատկեր 3-ին, մենք կարող ենք տեսնել, որ իրական կետերի և մեր պատահականորեն ընտրված գծի միջև տարածության բավականին տարբերություն կա: Այս տարբերությունները կոչվում են մնացորդներ: Քանի որ գծային ռեգրեսիայի հիմնական նպատակը լավագույնս համապատասխան գիծ գտնելն է, օգտակար կլիներ, եթե միջոց լիներ պարզելու, թե արդյոք մեր ընտրած գիծն իրականում ամենահարմար ընտրությունն է:
*Մենք գիտենք, որ պետք է գիծ կազմենք, բայց ինչպե՞ս կարող ենք չափել, թե որքանով է մեր գիծը համապատասխանում մեր տվյալներին:
Լավագույն գիծը գտնելու մի քանի եղանակ կա, ամենատարածված մոտեցումը կոչվում է նվազագույն քառակուսիներ և ներառում է արժեքի ֆունկցիա: Արժեքի ֆունկցիայի արդյունքը բոլոր մնացորդների գումարն է: Սա կլինի մեր չափանիշը, թե որքանով է մեր գիծը համապատասխանում տվյալներին: Որքան փոքր է քառակուսիների մնացորդային գումարը, այնքան ավելի լավ է տեղավորվում գիծը:
Եթե ծախսերի ֆունկցիան մեզ ասում է, թե որն է ընդհանուր սխալը, ինչպե՞ս կարող ենք նվազագույնի հասցնել այս սխալը, որպեսզի ավելի լավ ներկայացնենք տվյալները մեր մոդելում:
Գրադիենտ ծագում
Ամենացածր սխալով ֆունկցիան գտնելու համար մենք կարող ենք հավասարումներ փորձել տարբեր թեքություններ գտնելու համար, բայց դա թանկ է դառնում: Այն, ինչ մենք ցանկանում ենք օգտագործել դրա փոխարեն, տեխնիկան է, որը կոչվում է գրադիենտ ծագում, որը պարզվում է, որ հիանալի մեթոդ է, որն օգտագործվում է գործառույթները նվազագույնի հասցնելու համար: Այս դեպքում մենք օգտագործում ենք այն ծախսերի գործառույթը նվազագույնի հասցնելու համար:
Այս ալգորիթմի նպատակն է գտնել θ0 և θ1 պարամետրերն այնպես, որ քառակուսի սխալի գումարը նվազագույնի հասցվի: Վերջապես միացնելով մեր երկու հիմնական հավասարումները՝ մենք հասնում ենք ստորև բերված 4-րդ հավասարմանը:
Ամփոփում
Շնորհավորում եմ Դուք հասցրել եք այն մինչև վերջ։ Այժմ դուք պետք է հստակ պատկերացում ունենաք Պարզ գծային ռեգրեսիայի ներքին աշխատանքի մասին: Մենք նկատեցինք, թե ինչպես ենք մենք սկսում մի գծի հավասարումով, որը մենք կցանկանայինք համապատասխանեցնել մեր տվյալներին: Օգտագործելով ծախսերի ֆունկցիան՝ մենք կարողացանք պարզել, թե որքանով է համապատասխանել այդ գիծը: Բայց լավագույն տեղավորվելու համար գրադիենտ իջնելու ալգորիթմը պարզվեց, որ քառակուսիների գումարի սխալը նվազագույնի հասցնելու ամենաարդյունավետ միջոցը: Վերջապես, մենք հասանք վերջին հավասարմանը, որը, երբ օգտագործվում է ձեր վերապատրաստման տվյալների հավաքածուի վրա, ցույց կտա տվյալների լավագույն գիծը:
Արդյո՞ք ուղիղ գիծը միշտ լավագույն գնահատողն է: Ի՞նչ անել, եթե այլ գործառույթները կարողանան ավելի լավ հարաբերություններ գտնել որոշակի տվյալների միջև: Հետևե՛ք հաջորդ թեմային՝ Լոգիստիկ ռեգրեսիա: