AWS Data Wrangler

AWS Data Wrangler-ը բաց կոդով Python գրադարան է, որը թույլ է տալիս կենտրոնանալ ETL-ի վերափոխման փուլի վրա՝ օգտագործելով Pandas-ի փոխակերպման հրամանները, մինչդեռ նրանց աբստրակցիոն գործառույթները կարգավորում են բեռնվածության գործողությունները: Չմշակված տվյալների ավելի օգտագործելի ներկայացումների թարգմանության գործընթացը հայտնի է որպես տվյալների վեճ:

Տվյալների վեճի նպատակները

⦁ Հավաքեք տվյալներ բազմաթիվ աղբյուրներից՝ տվյալների ավելի խորը ըմբռնումը բացահայտելու համար:

⦁ Ժամանակին տրամադրեք ճշգրիտ, գործնական տվյալներ բիզնես վերլուծաբաններին:

⦁ Կրճատեք ժամանակի քանակը, որը պահանջվում է անկանոն տվյալների հավաքագրման և կազմակերպման համար, նախքան դրանք օգտագործելը:

⦁ Թույլ տվեք տվյալների գիտնականներին և վերլուծաբաններին կենտրոնանալ տվյալների վերլուծության վրա, այլ ոչ թե տվյալների վիճաբանության վրա: Կազմակերպության ավագ ղեկավարները պետք է բարելավեն որոշումներ կայացնելու իրենց հմտությունները տվյալների վիճաբանության մեթոդի միջոցով:

Data Wrangler-ը ներառում է վեց եզակի գործընթաց և անհրաժեշտ է տվյալների հաջող վերլուծության համար:

⦁ Տվյալների որոնում

⦁ Տվյալների կառուցվածքը

⦁ Տվյալների կազմակերպում և մաքրում

⦁ Տվյալների ընդլայնում

⦁ Տվյալների վավերացում

⦁ Տվյալների բաշխում և հասանելիություն

Տվյալների վեճը կառուցվածքային, չկառուցված և բարդ տվյալների աղբյուրների մաքրման և համակցման գործընթաց է՝ գիտելիքը հեշտությամբ արդյունահանելու նպատակով: Տվյալների քանակի և տվյալների աղբյուրների անընդհատ աճով և ընդլայնմամբ, վերլուծության համար հասանելի տվյալների մեծ ծավալի կազմակերպումը դառնում է դժվար: Տվյալների վիճաբանության գործընթացը ներառում է մաքրում, հարստացում և չմշակված տվյալների համադրում՝ իմաստալից տվյալներ ստանալու համար:

Հեշտ է կարգավորել AWS Data Wrangler-ը: Դուք կարող եք ETL գործողությունները կապել բազմաթիվ փոփոխականների և տվյալների ծառայությունների հետ մեկ հրամանով: Տվյալների վեճը վերլուծաբաններին հնարավորություն է տալիս ավելի արագ գնահատել ավելի բարդ տվյալներ, ավելի ճշգրիտ բացահայտումներ առաջացնել և որպես պատասխան ավելի լավ դատողություններ անել:

Տվյալների տարբեր աղբյուրների միաձուլումը վերլուծության համար մեկ տվյալների մեջ տվյալների վիճաբանության օրինակ է: Տվյալների բացերի հայտնաբերում և լրացում (օրինակ՝ աղյուսակի դատարկ բջիջները) կամ դրանք հեռացնելը: Այն տվյալները, որոնք կա՛մ ավելորդ են, կա՛մ անտեղի, պետք է ջնջվեն: AWS Data Wrangler-ը կարող է օգտագործվել մի շարք AWS-ներում՝ տարբեր միջավայրերում:

Տվյալների որոնում

Այս բաժինը ձեզ ուղղորդում է AWS Data Wrangler-ի տեղադրման և օգտագործման հարցում՝ օգտագործելով նոթատետրի մի շարք պարբերություններ:

Նախ ընտրեք conda python3-ը Jupyter վահանակի Նոր ընտրացանկից:
Մուտքագրեք հետևյալ նշված կոդը՝ AWS Data Wrangler-ը տեղադրելու համար:

3. Վերագործարկեք նոութբուքի միջուկը՝ կախվածության հետ կապված խնդիրները վերացնելու համար՝ ընտրելով Kernel → restart:

4. Ներմուծեք գրադարանը wr alias-ով:

5. Թվարկե՛ք 1880 թվականի տասնամյակի բոլոր ֆայլերը NOAA հանրային դույլով.

6. Արդյունքը ներկայացված է ստորև ներկայացված սքրինշոթում.

6. Ներբեռնեք ամբողջ 10 ֆայլը Pandas Dataframe-ում՝ օգտագործելով Amazon S3 նախածանցը

Արդյունքը երևում է ստորև ներկայացված սքրինշոթում.

7. dt սյունակից հանեք տարին և դրանից ստեղծեք նոր սյունակ (նոր սյունակը հարմար է Parquet տվյալների բաժանման համար):

Արդյունքը կարելի է տեսնել ստորև ներկայացված սքրինշոթում.

8. Տեղադրեք Pandas DataFrame-ը ձեր նախկինում ստեղծված S3 դույլի մեջ (կոդով փոխարինեք [BUCKET]-ը ձեր դույլի անունով).

Վերևի կոդը ստեղծում է noaa աղյուսակը Data Catalog-ի AWS Wrangler թեստային տվյալների բազայում:

9. Ստուգեք, որ մանրահատակի ֆայլերը գտնվում են Amazon S3-ում, և որ սեղանի noaa-ն գտնվում է AWS Glue տվյալների կատալոգում դրանից հետո:

Ստուգեք ստորև նշված կոդը;

Արդյունքը ներկայացված է ստորև ներկայացված սքրինշոթում.

10. Ստեղծեք Pandas DataFrame Athena SQL հարցումից, որը մաքրում է միայն առավելագույն ջերմաստիճանի չափերը Միացյալ Նահանգներում վերջին երեք տարիների ընթացքում (1887–1889):

Տվյալների կառուցվածքը

Երբ հում տվյալները հավաքվում են, դրանք լինում են տարբեր ձևաչափերով և չափերով: Այն չունի հստակ կառուցվածք։ Չկառուցված տվյալները պարունակում են բազմաթիվ ամսաթվեր, թվեր, ID ծածկագրեր և այլ տեքստային տարրեր: Data Wrangling ընթացակարգի այս պահին տվյալների բազան պետք է վերլուծվի:

Տվյալների կառուցվածքը տվյալներից համապատասխան տեղեկատվություն քաղելու մեթոդ է: Օրինակ՝ վեբկայքից քերված կոդերի հետ գործ ունենալիս կարող եք վերլուծել HTML կոդը, հանել այն, ինչ ձեզ հարկավոր է, իսկ մնացածը հրաժարվել:

Տվյալների կազմակերպում և մաքրում

Մաքրումը տվյալների ընդհանուր վիճաբանության գործընթացի միայն մեկ բաղադրիչն է: Չմշակված տվյալների մեծ մասը պարունակում է բազմաթիվ սխալներ, որոնք պետք է ուղղվեն՝ նախքան տվյալները հաջորդ փուլ անցնելը: Տվյալների մաքրման համար անհրաժեշտ է շփվել արտանետումների հետ, ուղղումներ կատարել, վատ տվյալները ամբողջությամբ ջնջել և այլն: Սա իրականում ձեռք է բերվում տվյալների բազան մաքրելու և մաքրելու ալգորիթմների միջոցով:

Տվյալների մաքրումը ներառում է հետևյալ քայլերը՝

Այն վերացնում է ձեր տվյալների շտեմարանից դուրս եկածները, որոնք կարող են շեղել ձեր արդյունքները տվյալները վերլուծելիս:
Որակը և հետևողականությունը բարելավելու համար այն փոխարինում է ցանկացած զրոյական արժեք և բարելավում տվյալների ձևաչափը:
Այն հայտնաբերում է կրկնօրինակ արժեքներ, պարզեցնում է կատարողականի չափումները, ուղղում կառուցվածքային և ուղղագրական սխալները և վավերացնում է տվյալները՝ ավելի հեշտ կառավարելը:

Տվյալների ընդլայնում

Տվյալների վիճաբանության գործընթացի այս պահին դուք լավ եք հասկանում այն տվյալները, որոնց հետ գործ ունեք: Ձեր չմշակված տվյալները այլ աղբյուրների տվյալների հետ համատեղելը, ինչպիսիք են ներքին համակարգերը, երրորդ կողմի մատակարարները և այլն, թույլ կտա ձեզ հավաքել ավելի շատ տվյալների միավորներ և բարելավել ձեր վերլուծության ճշգրտությունը: Որպես այլընտրանք, դուք կարող եք պարզապես լրացնել տվյալների բացերը: Օրինակ՝ համատեղելով երկու հաճախորդների տեղեկատվական բազա, որոնցից մեկը պարունակում է հաճախորդների հասցեներ, իսկ մյուսը՝ ոչ: Տվյալների բարելավումը ոչ պարտադիր քայլ է, որը դուք պետք է կատարեք միայն այն դեպքում, եթե ձեր ներկա տվյալները բավարար չեն:

Տվյալների վավերացում

Տվյալների վավերացումը գործընթաց է, որը բացահայտում է ձեր տվյալների որակի հետ կապված ցանկացած խնդիր, որպեսզի համապատասխան փոփոխություններ կատարվեն:

Տվյալների վավերացման սկզբունքները պահանջում են շարունակական ծրագրավորման գործընթացներ, որոնք օգնում են ստորև նշված հետևյալ պահանջների ստուգմանը.

Կատարում
Հետևողականություն
Անվտանգություն
Վավերականություն
Ճշգրտություն

Սա կատարվում է՝ գնահատելով, թե արդյոք տվյալների բազայի դաշտերը վավեր են, և հատկանիշները կանոնավոր կերպով բաշխված են: Օգտագործելով նախապես կազմաձևված սցենարներ, տվյալների հատկությունները համեմատվում են սահմանված կանոնների հետ:

Տվյալների բաշխում և հասանելիություն

Այս պահին բոլոր քայլերն ավարտված են, և տվյալները պատրաստ են վերլուծության: Մնում է միայն հրապարակել նոր վիճաբանության տվյալները մի վայրում, որտեղ դուք և այլ շահագրգիռ կողմերը կարող եք հեշտությամբ մուտք գործել և օգտագործել դրանք:

Այս քայլից հետո դուք կարող եք տվյալները պահել նոր տվյալների բազայում կամ ճարտարապետության մեջ: Եթե մյուս քայլերը ճիշտ կատարվեն, վերջնական արդյունքը կլինի բարձրորակ տվյալներ, այնուհետև դրանք օգտագործվում են պատկերացումներ ձեռք բերելու, բիզնես հաշվետվություններ ստեղծելու համար և այլն: Հնարավորությունները այս պահին անսահման են, դուք կարող եք նույնիսկ ավելի վերլուծել տվյալները՝ ստեղծելու ավելի մեծ բարդ տվյալների կառուցվածքներ, ինչպիսիք են Տվյալների պահեստները:

Հղումներ

https://www.altair.com/what-is-data-wrangling/

https://hevodata.com/learn/data-wrangling/

https://aws.amazon.com/blogs/big-data/optimize-python-etl-by-extending-pandas-with-aws-data-wrangler/

https://www.screenskills.com/job-profiles/browse/unscripted-tv/technical/data-wrangler/

Machine Learning AWS

թեմայի վերաբերյալ նյութեր:

Նոր նյութեր

Օգտագործելով Fetch Vs Axios.Js-ը՝ HTTP հարցումներ կատարելու համար

JavaScript-ը կարող է ցանցային հարցումներ ուղարկել սերվեր և բեռնել նոր տեղեկատվություն, երբ դա անհրաժեշտ լինի: Օրինակ, մենք կարող ենք օգտագործել ցանցային հարցումը պատվեր ներկայացնելու,..

Տիրապետել հանգստության արվեստին. մշակողի ուղեցույց՝ ճնշման տակ ծաղկելու համար

Տիրապետել հանգստության արվեստին. մշակողի ուղեցույց՝ ճնշման տակ ծաղկելու համար Ինչպե՞ս հանգստացնել ձեր միտքը և աշխատեցնել ձեր պրոցեսորը: Ինչպես մնալ հանգիստ և զարգանալ ճնշման տակ...

Մեքենայի ուսուցում բանկային և ֆինանսների ոլորտում

Բարդ, խելացի անվտանգության համակարգերը և հաճախորդների սպասարկման պարզեցված ծառայությունները բիզնեսի հաջողության բանալին են: Ֆինանսական հաստատությունները, մասնավորապես, պետք է առաջ մնան կորի..

Ես AI-ին հարցրի կյանքի իմաստը, այն ինչ ասում էր, ցնցող էր:

Այն պահից ի վեր, երբ ես իմացա Արհեստական ինտելեկտի մասին, ես հիացած էի այն բանով, թե ինչպես է այն կարողանում հասկանալ մարդկային նորմալ տեքստը, և այն կարող է առաջացնել իր սեփական արձագանքը դրա..

Ինչպես սովորել կոդավորումը Python-ում վագրի պես:

Սովորելու համար ծրագրավորման նոր լեզու ընտրելը բարդ է: Անկախ նրանից, թե դուք սկսնակ եք, թե առաջադեմ, դա օգնում է իմանալ, թե ինչ թեմաներ պետք է սովորել: Ծրագրավորման լեզվի հիմունքները, դրա..

C++-ի օրական բիթ(ե) | Ամենաերկար պալինդրոմային ենթաշարը

C++ #198-ի ամենօրյա բիթ(ե), Ընդհանուր հարցազրույցի խնդիր. Ամենաերկար պալինդրոմային ենթատող: Այսօր մենք կանդրադառնանք հարցազրույցի ընդհանուր խնդրին. Ամենաերկար palindromic substring...

Kydavra ICAReducer՝ ձեր տվյալների ծավալայինությունը նվազեցնելու համար

Ի՞նչ է ICAReducer-ը: ICAReducer-ն աշխատում է հետևյալ կերպ. այն նվազեցնում է նրանց միջև բարձր փոխկապակցված հատկանիշները մինչև մեկ սյունակ: Բավականին նման է PCAreducer-ին, չնայած այն..

Պիտակներ

Machine Learning JavaScript Data Science Artificial Intelligence Python Software Development Web Development Coding Deep Learning React AI Software Engineering Nodejs Typescript Java Javascript Tips Tech Algorithms Front End Development Programming Languages iOS Data Business NLP Development Reactjs Tutorial CSS Learning Android Computer Science Learning To Code Swift Angular API Javascript Development Startup HTML