Մեքենայական ուսուցման պարզեցում, Մաս 1 գծային ռեգրեսիա

Շարքի առաջին մասը, որը պարզ, հեշտ հասկանալի անգլերենով կբացատրի մեքենայական ուսուցման հիմքերը:

Բարի գալուստ Արագ ներածություն նախքան սկսելը. Ես վերջերս Վաշինգտոնի համալսարանի շրջանավարտ եմ և աշխատում եմ որպես տվյալների վերլուծաբան Bloomberg L.P-ում: Շոշափելով իմ մեքենայական ուսուցման հիմունքները, ես հասկացա, որ այս հասկացություններից շատերը չեն բացատրվում այնքան պարզ, որքան հնարավոր է: Քանի որ շատ կարևոր է հասկանալ ML ալգորիթմները գլխարկի տակ, ես որոշեցի մի քանի գրառում կատարել՝ այս հիմնարար թեմաներից մի քանիսը ապագաղտնազերծելու համար: Այս շարքում առաջինը կլինի Ռեգրեսիան, եկեք ցատկենք:

Բովանդակություն

Ի՞նչ է գծային ռեգրեսիան:
Պարզ գծային ռեգրեսիա
Արժեքի գործառույթ
Գրադիենտ վայրէջք
Ամփոփում

Ի՞նչ է գծային ռեգրեսիան:

Գծային ռեգրեսիան մեքենայական ուսուցման ոլորտում ամենակարևոր հասկացություններից մեկն է: Բնույթով ինտուիտիվ այս մոդելները հեշտությամբ բացատրվում և պատկերացվում են: Նախքան ռեգրեսիայի հետևում գտնվող մաթեմատիկան ուսումնասիրենք, եկեք տեսնենք, թե ինչ է նույնիսկ ռեգրեսիան:

Մեքենայական ուսուցման նպատակն է տեսնել, թե արդյոք մենք կարող ենք գտնել ինչ-որ օրինաչափություն մեր տվյալների մեջ, այնպես որ մենք կարող ենք ստեղծել մոդել, որը մեզ ճշգրիտ կանխատեսումներ է տալիս, երբ մենք կերակրում ենք այն ապագա տվյալներին: Դասական օրինակ, որը դուք կգտնեք ռեգրեսիայի տիպի մոդելը բացատրելիս, տան գնի և նրա հատկությունների միջև կապի օգտագործումն է: Պատկերացրեք, որ կարող եք գուշակել տան արժեքը բացառապես դրա հատկանիշների ցանկը ունենալով: Սա հենց այն լուծումն է, որը կարող է ապահովել գծային ռեգրեսիան:

Ինչպե՞ս են այս մոդելներն անում այս կանխատեսումները: Գծային ռեգրեսիան կարող է դա անել՝ կենտրոնանալով տվյալներին լավագույն համապատասխանող գծի վրա: Այս տողը (Y) նկարագրված է ստորև բերված հավասարման մեջ, որտեղ β0-ը y հատումն է, β1՝ թեքությունը, իսկ x-ը ներկայացնում է անկախ փոփոխականը: (Նշում. սա ընդամենը մեկ այլ եղանակ է գրելու դասական թեքության գծի հավասարումը, y=mx+b)

*Պաշտոնապես սահմանված,ռեգեսիոն վերլուծությունը-ն է՝ վիճակագրական գործընթացների մի շարք՝ կախված փոփոխականի և մեկ կամ մի քանի անկախ փոփոխականների միջև հարաբերությունները գնահատելու համար:

Աղյուսակ 1-ում հասակի և կոշիկի չափի միջև կապը գտնելու համար մենք կօգտագործենք գծային ռեգրեսիա:

Պարզ գծային ռեգրեսիա

import pandas as pd
import matplotlib.pyplot as plt
#Create and display table
df = pd.DataFrame({'Height(in)': [65,72,68],'Shoe Size': [7,11,8.5]})
print(df.to_string(index=False))

Աղյուսակ 1-ում մենք ունենք տվյալներ, որոնք բաղկացած են մարդու հասակից և նրա կոշիկի չափից: Պարզելու համար, թե արդյոք կա որևէ հարաբերություն այս փոփոխականների միջև, մենք կարող ենք սկսել տվյալներից ցրված գրաֆիկ կազմելով:

Թվերը գծագրելով՝ ստանում ենք հետևյալ գրաֆիկը.

plt.scatter(df['Height(in)'], df['Shoe Size'])
plt.show()

Որպեսզի պարզենք, թե արդյոք գծային ռեգրեսիան օգտակար մոդել կտա այս տվյալների համար, մենք կցանկանայինք տեսնել, թե արդյոք կա որևէ միտում սյուժեում: Այս օրինակում մենք կարող ենք տեսնել տվյալների հստակ միտում դեպի վեր: Այնուամենայնիվ, եթե տվյալները ավելի ցրված լինեին մինչև այն կետը, որտեղ չկար ուժեղ հարաբերակցություն, մենք կարող էինք եզրակացնել, որ տվյալների միջով ուղիղ գիծը այնքան էլ լավ չէր ներկայացնի տվյալները: Հետևաբար գծային ռեգրեսիան լավ մոդել չի լինի:

Գծելով լավագույն պիտանի գիծը, ինչպես երևում է գծապատկեր 2-ում, մենք ստեղծում ենք օգտակար վիզուալ մեր մոդելի համար: Այժմ մենք կարող ենք հեշտությամբ գուշակել Y արժեք (կոշիկի չափս), եթե տրվի X արժեք (անձի հասակը): Դուք կսկսեք հասկանալ, որ որքան լավ է տեղավորվում գիծը, այնքան ավելի ճշգրիտ է գծային ռեգրեսիայի մոդելը: Բայց ի՞նչ է մեզ հստակ ասում այս գիծը, և ինչպե՞ս կարող ենք լավագույնս համապատասխան գիծ ստեղծել:

Արժեքի գործառույթ

Նայելով գծապատկեր 3-ին, մենք կարող ենք տեսնել, որ իրական կետերի և մեր պատահականորեն ընտրված գծի միջև տարածության բավականին տարբերություն կա: Այս տարբերությունները կոչվում են մնացորդներ: Քանի որ գծային ռեգրեսիայի հիմնական նպատակը լավագույնս համապատասխան գիծ գտնելն է, օգտակար կլիներ, եթե միջոց լիներ պարզելու, թե արդյոք մեր ընտրած գիծն իրականում ամենահարմար ընտրությունն է:

*Մենք գիտենք, որ պետք է գիծ կազմենք, բայց ինչպե՞ս կարող ենք չափել, թե որքանով է մեր գիծը համապատասխանում մեր տվյալներին:

Լավագույն գիծը գտնելու մի քանի եղանակ կա, ամենատարածված մոտեցումը կոչվում է նվազագույն քառակուսիներ և ներառում է արժեքի ֆունկցիա: Արժեքի ֆունկցիայի արդյունքը բոլոր մնացորդների գումարն է: Սա կլինի մեր չափանիշը, թե որքանով է մեր գիծը համապատասխանում տվյալներին: Որքան փոքր է քառակուսիների մնացորդային գումարը, այնքան ավելի լավ է տեղավորվում գիծը:

Եթե ծախսերի ֆունկցիան մեզ ասում է, թե որն է ընդհանուր սխալը, ինչպե՞ս կարող ենք նվազագույնի հասցնել այս սխալը, որպեսզի ավելի լավ ներկայացնենք տվյալները մեր մոդելում:

Գրադիենտ ծագում

Ամենացածր սխալով ֆունկցիան գտնելու համար մենք կարող ենք հավասարումներ փորձել տարբեր թեքություններ գտնելու համար, բայց դա թանկ է դառնում: Այն, ինչ մենք ցանկանում ենք օգտագործել դրա փոխարեն, տեխնիկան է, որը կոչվում է գրադիենտ ծագում, որը պարզվում է, որ հիանալի մեթոդ է, որն օգտագործվում է գործառույթները նվազագույնի հասցնելու համար: Այս դեպքում մենք օգտագործում ենք այն ծախսերի գործառույթը նվազագույնի հասցնելու համար:

Այս ալգորիթմի նպատակն է գտնել θ0 և θ1 պարամետրերն այնպես, որ քառակուսի սխալի գումարը նվազագույնի հասցվի: Վերջապես միացնելով մեր երկու հիմնական հավասարումները՝ մենք հասնում ենք ստորև բերված 4-րդ հավասարմանը:

Ամփոփում

Շնորհավորում եմ Դուք հասցրել եք այն մինչև վերջ։ Այժմ դուք պետք է հստակ պատկերացում ունենաք Պարզ գծային ռեգրեսիայի ներքին աշխատանքի մասին: Մենք նկատեցինք, թե ինչպես ենք մենք սկսում մի գծի հավասարումով, որը մենք կցանկանայինք համապատասխանեցնել մեր տվյալներին: Օգտագործելով ծախսերի ֆունկցիան՝ մենք կարողացանք պարզել, թե որքանով է համապատասխանել այդ գիծը: Բայց լավագույն տեղավորվելու համար գրադիենտ իջնելու ալգորիթմը պարզվեց, որ քառակուսիների գումարի սխալը նվազագույնի հասցնելու ամենաարդյունավետ միջոցը: Վերջապես, մենք հասանք վերջին հավասարմանը, որը, երբ օգտագործվում է ձեր վերապատրաստման տվյալների հավաքածուի վրա, ցույց կտա տվյալների լավագույն գիծը:

Արդյո՞ք ուղիղ գիծը միշտ լավագույն գնահատողն է: Ի՞նչ անել, եթե այլ գործառույթները կարողանան ավելի լավ հարաբերություններ գտնել որոշակի տվյալների միջև: Հետևե՛ք հաջորդ թեմային՝ Լոգիստիկ ռեգրեսիա:

թեմայի վերաբերյալ նյութեր:

Նոր նյութեր

Օգտագործելով Fetch Vs Axios.Js-ը՝ HTTP հարցումներ կատարելու համար

JavaScript-ը կարող է ցանցային հարցումներ ուղարկել սերվեր և բեռնել նոր տեղեկատվություն, երբ դա անհրաժեշտ լինի: Օրինակ, մենք կարող ենք օգտագործել ցանցային հարցումը պատվեր ներկայացնելու,..

Տիրապետել հանգստության արվեստին. մշակողի ուղեցույց՝ ճնշման տակ ծաղկելու համար

Տիրապետել հանգստության արվեստին. մշակողի ուղեցույց՝ ճնշման տակ ծաղկելու համար Ինչպե՞ս հանգստացնել ձեր միտքը և աշխատեցնել ձեր պրոցեսորը: Ինչպես մնալ հանգիստ և զարգանալ ճնշման տակ...

Մեքենայի ուսուցում բանկային և ֆինանսների ոլորտում

Բարդ, խելացի անվտանգության համակարգերը և հաճախորդների սպասարկման պարզեցված ծառայությունները բիզնեսի հաջողության բանալին են: Ֆինանսական հաստատությունները, մասնավորապես, պետք է առաջ մնան կորի..

Ես AI-ին հարցրի կյանքի իմաստը, այն ինչ ասում էր, ցնցող էր:

Այն պահից ի վեր, երբ ես իմացա Արհեստական ինտելեկտի մասին, ես հիացած էի այն բանով, թե ինչպես է այն կարողանում հասկանալ մարդկային նորմալ տեքստը, և այն կարող է առաջացնել իր սեփական արձագանքը դրա..

Ինչպես սովորել կոդավորումը Python-ում վագրի պես:

Սովորելու համար ծրագրավորման նոր լեզու ընտրելը բարդ է: Անկախ նրանից, թե դուք սկսնակ եք, թե առաջադեմ, դա օգնում է իմանալ, թե ինչ թեմաներ պետք է սովորել: Ծրագրավորման լեզվի հիմունքները, դրա..

C++-ի օրական բիթ(ե) | Ամենաերկար պալինդրոմային ենթաշարը

C++ #198-ի ամենօրյա բիթ(ե), Ընդհանուր հարցազրույցի խնդիր. Ամենաերկար պալինդրոմային ենթատող: Այսօր մենք կանդրադառնանք հարցազրույցի ընդհանուր խնդրին. Ամենաերկար palindromic substring...

Kydavra ICAReducer՝ ձեր տվյալների ծավալայինությունը նվազեցնելու համար

Ի՞նչ է ICAReducer-ը: ICAReducer-ն աշխատում է հետևյալ կերպ. այն նվազեցնում է նրանց միջև բարձր փոխկապակցված հատկանիշները մինչև մեկ սյունակ: Բավականին նման է PCAreducer-ին, չնայած այն..

Պիտակներ

Machine Learning JavaScript Data Science Artificial Intelligence Python Software Development Web Development Coding Deep Learning React AI Software Engineering Nodejs Typescript Java Javascript Tips Tech Algorithms Front End Development Programming Languages iOS Data Business NLP Development Reactjs Tutorial CSS Learning Swift Angular API Javascript Development Startup Android Computer Science Learning To Code Reinforcement Learning