AWS Data Wrangler-ը բաց կոդով Python գրադարան է, որը թույլ է տալիս կենտրոնանալ ETL-ի վերափոխման փուլի վրա՝ օգտագործելով Pandas-ի փոխակերպման հրամանները, մինչդեռ նրանց աբստրակցիոն գործառույթները կարգավորում են բեռնվածության գործողությունները: Չմշակված տվյալների ավելի օգտագործելի ներկայացումների թարգմանության գործընթացը հայտնի է որպես տվյալների վեճ:

Տվյալների վեճի նպատակները

⦁ Հավաքեք տվյալներ բազմաթիվ աղբյուրներից՝ տվյալների ավելի խորը ըմբռնումը բացահայտելու համար:

⦁ Ժամանակին տրամադրեք ճշգրիտ, գործնական տվյալներ բիզնես վերլուծաբաններին:

⦁ Կրճատեք ժամանակի քանակը, որը պահանջվում է անկանոն տվյալների հավաքագրման և կազմակերպման համար, նախքան դրանք օգտագործելը:

⦁ Թույլ տվեք տվյալների գիտնականներին և վերլուծաբաններին կենտրոնանալ տվյալների վերլուծության վրա, այլ ոչ թե տվյալների վիճաբանության վրա: Կազմակերպության ավագ ղեկավարները պետք է բարելավեն որոշումներ կայացնելու իրենց հմտությունները տվյալների վիճաբանության մեթոդի միջոցով:

Data Wrangler-ը ներառում է վեց եզակի գործընթաց և անհրաժեշտ է տվյալների հաջող վերլուծության համար:

⦁ Տվյալների որոնում

⦁ Տվյալների կառուցվածքը

⦁ Տվյալների կազմակերպում և մաքրում

⦁ Տվյալների ընդլայնում

⦁ Տվյալների վավերացում

⦁ Տվյալների բաշխում և հասանելիություն

Տվյալների վեճը կառուցվածքային, չկառուցված և բարդ տվյալների աղբյուրների մաքրման և համակցման գործընթաց է՝ գիտելիքը հեշտությամբ արդյունահանելու նպատակով: Տվյալների քանակի և տվյալների աղբյուրների անընդհատ աճով և ընդլայնմամբ, վերլուծության համար հասանելի տվյալների մեծ ծավալի կազմակերպումը դառնում է դժվար: Տվյալների վիճաբանության գործընթացը ներառում է մաքրում, հարստացում և չմշակված տվյալների համադրում՝ իմաստալից տվյալներ ստանալու համար:

Հեշտ է կարգավորել AWS Data Wrangler-ը: Դուք կարող եք ETL գործողությունները կապել բազմաթիվ փոփոխականների և տվյալների ծառայությունների հետ մեկ հրամանով: Տվյալների վեճը վերլուծաբաններին հնարավորություն է տալիս ավելի արագ գնահատել ավելի բարդ տվյալներ, ավելի ճշգրիտ բացահայտումներ առաջացնել և որպես պատասխան ավելի լավ դատողություններ անել:

Տվյալների տարբեր աղբյուրների միաձուլումը վերլուծության համար մեկ տվյալների մեջ տվյալների վիճաբանության օրինակ է: Տվյալների բացերի հայտնաբերում և լրացում (օրինակ՝ աղյուսակի դատարկ բջիջները) կամ դրանք հեռացնելը: Այն տվյալները, որոնք կա՛մ ավելորդ են, կա՛մ անտեղի, պետք է ջնջվեն: AWS Data Wrangler-ը կարող է օգտագործվել մի շարք AWS-ներում՝ տարբեր միջավայրերում:

Տվյալների որոնում

Այս բաժինը ձեզ ուղղորդում է AWS Data Wrangler-ի տեղադրման և օգտագործման հարցում՝ օգտագործելով նոթատետրի մի շարք պարբերություններ:

  1. Նախ ընտրեք conda python3-ը Jupyter վահանակի Նոր ընտրացանկից:
  2. Մուտքագրեք հետևյալ նշված կոդը՝ AWS Data Wrangler-ը տեղադրելու համար:

3. Վերագործարկեք նոութբուքի միջուկը՝ կախվածության հետ կապված խնդիրները վերացնելու համար՝ ընտրելով Kernel → restart:

4. Ներմուծեք գրադարանը wr alias-ով:

5. Թվարկե՛ք 1880 թվականի տասնամյակի բոլոր ֆայլերը NOAA հանրային դույլով.

6. Արդյունքը ներկայացված է ստորև ներկայացված սքրինշոթում.

6. Ներբեռնեք ամբողջ 10 ֆայլը Pandas Dataframe-ում՝ օգտագործելով Amazon S3 նախածանցը

Արդյունքը երևում է ստորև ներկայացված սքրինշոթում.

7. dt սյունակից հանեք տարին և դրանից ստեղծեք նոր սյունակ (նոր սյունակը հարմար է Parquet տվյալների բաժանման համար):

Արդյունքը կարելի է տեսնել ստորև ներկայացված սքրինշոթում.

8. Տեղադրեք Pandas DataFrame-ը ձեր նախկինում ստեղծված S3 դույլի մեջ (կոդով փոխարինեք [BUCKET]-ը ձեր դույլի անունով).

Վերևի կոդը ստեղծում է noaa աղյուսակը Data Catalog-ի AWS Wrangler թեստային տվյալների բազայում:

9. Ստուգեք, որ մանրահատակի ֆայլերը գտնվում են Amazon S3-ում, և որ սեղանի noaa-ն գտնվում է AWS Glue տվյալների կատալոգում դրանից հետո:

Ստուգեք ստորև նշված կոդը;

Արդյունքը ներկայացված է ստորև ներկայացված սքրինշոթում.

10. Ստեղծեք Pandas DataFrame Athena SQL հարցումից, որը մաքրում է միայն առավելագույն ջերմաստիճանի չափերը Միացյալ Նահանգներում վերջին երեք տարիների ընթացքում (1887–1889):

Տվյալների կառուցվածքը

Երբ հում տվյալները հավաքվում են, դրանք լինում են տարբեր ձևաչափերով և չափերով: Այն չունի հստակ կառուցվածք։ Չկառուցված տվյալները պարունակում են բազմաթիվ ամսաթվեր, թվեր, ID ծածկագրեր և այլ տեքստային տարրեր: Data Wrangling ընթացակարգի այս պահին տվյալների բազան պետք է վերլուծվի:

Տվյալների կառուցվածքը տվյալներից համապատասխան տեղեկատվություն քաղելու մեթոդ է: Օրինակ՝ վեբկայքից քերված կոդերի հետ գործ ունենալիս կարող եք վերլուծել HTML կոդը, հանել այն, ինչ ձեզ հարկավոր է, իսկ մնացածը հրաժարվել:

Տվյալների կազմակերպում և մաքրում

Մաքրումը տվյալների ընդհանուր վիճաբանության գործընթացի միայն մեկ բաղադրիչն է: Չմշակված տվյալների մեծ մասը պարունակում է բազմաթիվ սխալներ, որոնք պետք է ուղղվեն՝ նախքան տվյալները հաջորդ փուլ անցնելը: Տվյալների մաքրման համար անհրաժեշտ է շփվել արտանետումների հետ, ուղղումներ կատարել, վատ տվյալները ամբողջությամբ ջնջել և այլն: Սա իրականում ձեռք է բերվում տվյալների բազան մաքրելու և մաքրելու ալգորիթմների միջոցով:

Տվյալների մաքրումը ներառում է հետևյալ քայլերը՝

  1. Այն վերացնում է ձեր տվյալների շտեմարանից դուրս եկածները, որոնք կարող են շեղել ձեր արդյունքները տվյալները վերլուծելիս:
  2. Որակը և հետևողականությունը բարելավելու համար այն փոխարինում է ցանկացած զրոյական արժեք և բարելավում տվյալների ձևաչափը:
  3. Այն հայտնաբերում է կրկնօրինակ արժեքներ, պարզեցնում է կատարողականի չափումները, ուղղում կառուցվածքային և ուղղագրական սխալները և վավերացնում է տվյալները՝ ավելի հեշտ կառավարելը:

Տվյալների ընդլայնում

Տվյալների վիճաբանության գործընթացի այս պահին դուք լավ եք հասկանում այն ​​տվյալները, որոնց հետ գործ ունեք: Ձեր չմշակված տվյալները այլ աղբյուրների տվյալների հետ համատեղելը, ինչպիսիք են ներքին համակարգերը, երրորդ կողմի մատակարարները և այլն, թույլ կտա ձեզ հավաքել ավելի շատ տվյալների միավորներ և բարելավել ձեր վերլուծության ճշգրտությունը: Որպես այլընտրանք, դուք կարող եք պարզապես լրացնել տվյալների բացերը: Օրինակ՝ համատեղելով երկու հաճախորդների տեղեկատվական բազա, որոնցից մեկը պարունակում է հաճախորդների հասցեներ, իսկ մյուսը՝ ոչ: Տվյալների բարելավումը ոչ պարտադիր քայլ է, որը դուք պետք է կատարեք միայն այն դեպքում, եթե ձեր ներկա տվյալները բավարար չեն:

Տվյալների վավերացում

Տվյալների վավերացումը գործընթաց է, որը բացահայտում է ձեր տվյալների որակի հետ կապված ցանկացած խնդիր, որպեսզի համապատասխան փոփոխություններ կատարվեն:

Տվյալների վավերացման սկզբունքները պահանջում են շարունակական ծրագրավորման գործընթացներ, որոնք օգնում են ստորև նշված հետևյալ պահանջների ստուգմանը.

  • Կատարում
  • Հետևողականություն
  • Անվտանգություն
  • Վավերականություն
  • Ճշգրտություն

Սա կատարվում է՝ գնահատելով, թե արդյոք տվյալների բազայի դաշտերը վավեր են, և հատկանիշները կանոնավոր կերպով բաշխված են: Օգտագործելով նախապես կազմաձևված սցենարներ, տվյալների հատկությունները համեմատվում են սահմանված կանոնների հետ:

Տվյալների բաշխում և հասանելիություն

Այս պահին բոլոր քայլերն ավարտված են, և տվյալները պատրաստ են վերլուծության: Մնում է միայն հրապարակել նոր վիճաբանության տվյալները մի վայրում, որտեղ դուք և այլ շահագրգիռ կողմերը կարող եք հեշտությամբ մուտք գործել և օգտագործել դրանք:

Այս քայլից հետո դուք կարող եք տվյալները պահել նոր տվյալների բազայում կամ ճարտարապետության մեջ: Եթե ​​մյուս քայլերը ճիշտ կատարվեն, վերջնական արդյունքը կլինի բարձրորակ տվյալներ, այնուհետև դրանք օգտագործվում են պատկերացումներ ձեռք բերելու, բիզնես հաշվետվություններ ստեղծելու համար և այլն: Հնարավորությունները այս պահին անսահման են, դուք կարող եք նույնիսկ ավելի վերլուծել տվյալները՝ ստեղծելու ավելի մեծ բարդ տվյալների կառուցվածքներ, ինչպիսիք են Տվյալների պահեստները:

Հղումներ

https://www.altair.com/what-is-data-wrangling/

https://hevodata.com/learn/data-wrangling/

https://aws.amazon.com/blogs/big-data/optimize-python-etl-by-extending-pandas-with-aws-data-wrangler/

https://www.screenskills.com/job-profiles/browse/unscripted-tv/technical/data-wrangler/