Տվյալների նախնական մշակում մեքենայական ուսուցման համար. Python կոդով

Տվյալների նախնական մշակումը կարևոր քայլ է մեքենայական ուսուցման խողովակաշարում, որը ներառում է չմշակված տվյալների վերափոխումը այնպիսի ձևաչափի, որը կարելի է հեշտությամբ հասկանալ ալգորիթմներով: Այն հաճախ կարող է բերել կամ կոտրել մեքենայական ուսուցման նախագծի հաջողությունը, քանի որ ելքի որակը մեծապես կախված է մուտքագրման որակից: Այս բլոգի գրառման մեջ մենք կուսումնասիրենք տվյալների նախնական մշակման որոշ հիմնական մեթոդներ՝ Python կոդով օգտագործվող գործնական օրինակներով:

Տվյալների մաքրում.

Տվյալների մաքրումը ներառում է տվյալների հավաքածուի բացակայող կամ սխալ կետերի մշակում: Դա կարելի է անել՝ օգտագործելով տարբեր մեթոդներ, ինչպիսիք են՝ իմպուտացիան, հեռացումը կամ բացակայող արժեքների փոխարինումը: Ահա մի օրինակ, թե ինչպես կարելի է վերագրել բացակայող արժեքները տվյալների բազայում՝ օգտագործելով Pandas գրադարանը.

import pandas as pd
import numpy as np
# Load dataset
data = pd.read_csv("data.csv")
# Impute missing values with mean
mean = data.mean()
data.fillna(mean, inplace=True)

2. Տվյալների փոխակերպում.

Տվյալների փոխակերպումը ներառում է չմշակված տվյալների փոխակերպումը այնպիսի ձևաչափի, որը հարմար է մեքենայական ուսուցման ալգորիթմների համար: Ընդհանուր տեխնիկան ներառում է կարգաբերական փոփոխականների նորմալացում, մասշտաբավորում կամ կոդավորում: Ահա մի օրինակ, թե ինչպես կարելի է նորմալացնել տվյալները Scikit-learn գրադարանի միջոցով.

from sklearn.preprocessing import MinMaxScaler
# Load dataset
data = pd.read_csv("data.csv")
# Normalize data
scaler = MinMaxScaler()
normalized_data = scaler.fit_transform(data)

3. Առանձնահատկությունների ընտրություն.

Առանձնահատկությունների ընտրությունը ներառում է տվյալների շտեմարանի առավել համապատասխան հատկանիշների բացահայտում, որոնք, ամենայն հավանականությամբ, ուժեղ ազդեցություն կունենան արդյունքի վրա: Դա կարելի է անել՝ օգտագործելով տարբեր մեթոդներ, ինչպիսիք են հարաբերակցության վերլուծությունը կամ հատկանիշի կարևորությունը: Ահա մի օրինակ, թե ինչպես կարելի է կատարել առանձնահատկությունների ընտրություն՝ օգտագործելով Scikit-learn գրադարանը.

from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
# Load dataset
data = pd.read_csv("data.csv")
# Select top k features
X = data.iloc[:, :-1]
y = data.iloc[:, -1]
best_features = SelectKBest(score_func=chi2, k=3).fit(X, y)
X_new = best_features.transform(X)

(chi2-ը վիճակագրական թեստ է, որն օգտագործվում է երկու դասակարգային փոփոխականների միջև անկախությունը որոշելու համար: Հատկանիշի ընտրության ժամանակ chi2-ն օգտագործվում է յուրաքանչյուր հատկանիշի վիճակագրական նշանակությունը թիրախային փոփոխականի նկատմամբ հաշվարկելու համար: Բարձր chi2 միավորը ցույց է տալիս ուժեղ հարաբերակցությունը հատկանիշը և թիրախային փոփոխականը, ինչը մեծացնում է այն որպես համապատասխան հատկանիշ ընտրվելու հավանականությունը:

k-ը վերաբերում է լավագույն հատկանիշների քանակին, որոնք պետք է ընտրվեն՝ ելնելով նրանց chi2 միավորից: Բլոգի գրառման մեջ ներկայացված օրինակում k=3 նշանակում է, որ մենք ցանկանում ենք ընտրել ամենաբարձր chi2 միավորով լավագույն 3 հատկանիշները:)

Եզրափակելով, տվյալների նախնական մշակումը էական քայլ է մեքենայական ուսուցման խողովակաշարում, որը կարող է էապես ազդել արտադրանքի որակի վրա: Մենք ուսումնասիրել ենք տվյալների նախնական մշակման մեջ ներգրավված որոշ էական տեխնիկա, ինչպես նաև Python կոդը օգտագործող գործնական օրինակներ: Այս տեխնիկան տիրապետելով՝ դուք կարող եք համոզվել, որ ձեր մեքենայական ուսուցման մոդելները ամուր և ճշգրիտ են:

թեմայի վերաբերյալ նյութեր:

Նոր նյութեր

Օգտագործելով Fetch Vs Axios.Js-ը՝ HTTP հարցումներ կատարելու համար

JavaScript-ը կարող է ցանցային հարցումներ ուղարկել սերվեր և բեռնել նոր տեղեկատվություն, երբ դա անհրաժեշտ լինի: Օրինակ, մենք կարող ենք օգտագործել ցանցային հարցումը պատվեր ներկայացնելու,..

Տիրապետել հանգստության արվեստին. մշակողի ուղեցույց՝ ճնշման տակ ծաղկելու համար

Տիրապետել հանգստության արվեստին. մշակողի ուղեցույց՝ ճնշման տակ ծաղկելու համար Ինչպե՞ս հանգստացնել ձեր միտքը և աշխատեցնել ձեր պրոցեսորը: Ինչպես մնալ հանգիստ և զարգանալ ճնշման տակ...

Մեքենայի ուսուցում բանկային և ֆինանսների ոլորտում

Բարդ, խելացի անվտանգության համակարգերը և հաճախորդների սպասարկման պարզեցված ծառայությունները բիզնեսի հաջողության բանալին են: Ֆինանսական հաստատությունները, մասնավորապես, պետք է առաջ մնան կորի..

Ես AI-ին հարցրի կյանքի իմաստը, այն ինչ ասում էր, ցնցող էր:

Այն պահից ի վեր, երբ ես իմացա Արհեստական ինտելեկտի մասին, ես հիացած էի այն բանով, թե ինչպես է այն կարողանում հասկանալ մարդկային նորմալ տեքստը, և այն կարող է առաջացնել իր սեփական արձագանքը դրա..

Ինչպես սովորել կոդավորումը Python-ում վագրի պես:

Սովորելու համար ծրագրավորման նոր լեզու ընտրելը բարդ է: Անկախ նրանից, թե դուք սկսնակ եք, թե առաջադեմ, դա օգնում է իմանալ, թե ինչ թեմաներ պետք է սովորել: Ծրագրավորման լեզվի հիմունքները, դրա..

C++-ի օրական բիթ(ե) | Ամենաերկար պալինդրոմային ենթաշարը

C++ #198-ի ամենօրյա բիթ(ե), Ընդհանուր հարցազրույցի խնդիր. Ամենաերկար պալինդրոմային ենթատող: Այսօր մենք կանդրադառնանք հարցազրույցի ընդհանուր խնդրին. Ամենաերկար palindromic substring...

Kydavra ICAReducer՝ ձեր տվյալների ծավալայինությունը նվազեցնելու համար

Ի՞նչ է ICAReducer-ը: ICAReducer-ն աշխատում է հետևյալ կերպ. այն նվազեցնում է նրանց միջև բարձր փոխկապակցված հատկանիշները մինչև մեկ սյունակ: Բավականին նման է PCAreducer-ին, չնայած այն..

Պիտակներ

Machine Learning JavaScript Data Science Artificial Intelligence Python Software Development Web Development Coding Deep Learning AI Software Engineering React Nodejs Typescript Java Javascript Tips Tech Algorithms Front End Development Programming Languages Data iOS Business NLP Development Learning Reactjs Tutorial CSS Javascript Development Startup Android Computer Science Learning To Code Swift Angular API Beginner