AWS Data Wrangler-ը բաց կոդով Python գրադարան է, որը թույլ է տալիս կենտրոնանալ ETL-ի վերափոխման փուլի վրա՝ օգտագործելով Pandas-ի փոխակերպման հրամանները, մինչդեռ նրանց աբստրակցիոն գործառույթները կարգավորում են բեռնվածության գործողությունները: Չմշակված տվյալների ավելի օգտագործելի ներկայացումների թարգմանության գործընթացը հայտնի է որպես տվյալների վեճ:
Տվյալների վեճի նպատակները
⦁ Հավաքեք տվյալներ բազմաթիվ աղբյուրներից՝ տվյալների ավելի խորը ըմբռնումը բացահայտելու համար:
⦁ Ժամանակին տրամադրեք ճշգրիտ, գործնական տվյալներ բիզնես վերլուծաբաններին:
⦁ Կրճատեք ժամանակի քանակը, որը պահանջվում է անկանոն տվյալների հավաքագրման և կազմակերպման համար, նախքան դրանք օգտագործելը:
⦁ Թույլ տվեք տվյալների գիտնականներին և վերլուծաբաններին կենտրոնանալ տվյալների վերլուծության վրա, այլ ոչ թե տվյալների վիճաբանության վրա: Կազմակերպության ավագ ղեկավարները պետք է բարելավեն որոշումներ կայացնելու իրենց հմտությունները տվյալների վիճաբանության մեթոդի միջոցով:
Data Wrangler-ը ներառում է վեց եզակի գործընթաց և անհրաժեշտ է տվյալների հաջող վերլուծության համար:
⦁ Տվյալների որոնում
⦁ Տվյալների կառուցվածքը
⦁ Տվյալների կազմակերպում և մաքրում
⦁ Տվյալների ընդլայնում
⦁ Տվյալների վավերացում
⦁ Տվյալների բաշխում և հասանելիություն
Տվյալների վեճը կառուցվածքային, չկառուցված և բարդ տվյալների աղբյուրների մաքրման և համակցման գործընթաց է՝ գիտելիքը հեշտությամբ արդյունահանելու նպատակով: Տվյալների քանակի և տվյալների աղբյուրների անընդհատ աճով և ընդլայնմամբ, վերլուծության համար հասանելի տվյալների մեծ ծավալի կազմակերպումը դառնում է դժվար: Տվյալների վիճաբանության գործընթացը ներառում է մաքրում, հարստացում և չմշակված տվյալների համադրում՝ իմաստալից տվյալներ ստանալու համար:
Հեշտ է կարգավորել AWS Data Wrangler-ը: Դուք կարող եք ETL գործողությունները կապել բազմաթիվ փոփոխականների և տվյալների ծառայությունների հետ մեկ հրամանով: Տվյալների վեճը վերլուծաբաններին հնարավորություն է տալիս ավելի արագ գնահատել ավելի բարդ տվյալներ, ավելի ճշգրիտ բացահայտումներ առաջացնել և որպես պատասխան ավելի լավ դատողություններ անել:
Տվյալների տարբեր աղբյուրների միաձուլումը վերլուծության համար մեկ տվյալների մեջ տվյալների վիճաբանության օրինակ է: Տվյալների բացերի հայտնաբերում և լրացում (օրինակ՝ աղյուսակի դատարկ բջիջները) կամ դրանք հեռացնելը: Այն տվյալները, որոնք կա՛մ ավելորդ են, կա՛մ անտեղի, պետք է ջնջվեն: AWS Data Wrangler-ը կարող է օգտագործվել մի շարք AWS-ներում՝ տարբեր միջավայրերում:
Տվյալների որոնում
Այս բաժինը ձեզ ուղղորդում է AWS Data Wrangler-ի տեղադրման և օգտագործման հարցում՝ օգտագործելով նոթատետրի մի շարք պարբերություններ:
- Նախ ընտրեք conda python3-ը Jupyter վահանակի Նոր ընտրացանկից:
- Մուտքագրեք հետևյալ նշված կոդը՝ AWS Data Wrangler-ը տեղադրելու համար:
3. Վերագործարկեք նոութբուքի միջուկը՝ կախվածության հետ կապված խնդիրները վերացնելու համար՝ ընտրելով Kernel → restart:
4. Ներմուծեք գրադարանը wr alias-ով:
5. Թվարկե՛ք 1880 թվականի տասնամյակի բոլոր ֆայլերը NOAA հանրային դույլով.
6. Արդյունքը ներկայացված է ստորև ներկայացված սքրինշոթում.
6. Ներբեռնեք ամբողջ 10 ֆայլը Pandas Dataframe-ում՝ օգտագործելով Amazon S3 նախածանցը
Արդյունքը երևում է ստորև ներկայացված սքրինշոթում.
7. dt սյունակից հանեք տարին և դրանից ստեղծեք նոր սյունակ (նոր սյունակը հարմար է Parquet տվյալների բաժանման համար):
Արդյունքը կարելի է տեսնել ստորև ներկայացված սքրինշոթում.
8. Տեղադրեք Pandas DataFrame-ը ձեր նախկինում ստեղծված S3 դույլի մեջ (կոդով փոխարինեք [BUCKET]-ը ձեր դույլի անունով).
Վերևի կոդը ստեղծում է noaa աղյուսակը Data Catalog-ի AWS Wrangler թեստային տվյալների բազայում:
9. Ստուգեք, որ մանրահատակի ֆայլերը գտնվում են Amazon S3-ում, և որ սեղանի noaa-ն գտնվում է AWS Glue տվյալների կատալոգում դրանից հետո:
Ստուգեք ստորև նշված կոդը;
Արդյունքը ներկայացված է ստորև ներկայացված սքրինշոթում.
10. Ստեղծեք Pandas DataFrame Athena SQL հարցումից, որը մաքրում է միայն առավելագույն ջերմաստիճանի չափերը Միացյալ Նահանգներում վերջին երեք տարիների ընթացքում (1887–1889):
Տվյալների կառուցվածքը
Երբ հում տվյալները հավաքվում են, դրանք լինում են տարբեր ձևաչափերով և չափերով: Այն չունի հստակ կառուցվածք։ Չկառուցված տվյալները պարունակում են բազմաթիվ ամսաթվեր, թվեր, ID ծածկագրեր և այլ տեքստային տարրեր: Data Wrangling ընթացակարգի այս պահին տվյալների բազան պետք է վերլուծվի:
Տվյալների կառուցվածքը տվյալներից համապատասխան տեղեկատվություն քաղելու մեթոդ է: Օրինակ՝ վեբկայքից քերված կոդերի հետ գործ ունենալիս կարող եք վերլուծել HTML կոդը, հանել այն, ինչ ձեզ հարկավոր է, իսկ մնացածը հրաժարվել:
Տվյալների կազմակերպում և մաքրում
Մաքրումը տվյալների ընդհանուր վիճաբանության գործընթացի միայն մեկ բաղադրիչն է: Չմշակված տվյալների մեծ մասը պարունակում է բազմաթիվ սխալներ, որոնք պետք է ուղղվեն՝ նախքան տվյալները հաջորդ փուլ անցնելը: Տվյալների մաքրման համար անհրաժեշտ է շփվել արտանետումների հետ, ուղղումներ կատարել, վատ տվյալները ամբողջությամբ ջնջել և այլն: Սա իրականում ձեռք է բերվում տվյալների բազան մաքրելու և մաքրելու ալգորիթմների միջոցով:
Տվյալների մաքրումը ներառում է հետևյալ քայլերը՝
- Այն վերացնում է ձեր տվյալների շտեմարանից դուրս եկածները, որոնք կարող են շեղել ձեր արդյունքները տվյալները վերլուծելիս:
- Որակը և հետևողականությունը բարելավելու համար այն փոխարինում է ցանկացած զրոյական արժեք և բարելավում տվյալների ձևաչափը:
- Այն հայտնաբերում է կրկնօրինակ արժեքներ, պարզեցնում է կատարողականի չափումները, ուղղում կառուցվածքային և ուղղագրական սխալները և վավերացնում է տվյալները՝ ավելի հեշտ կառավարելը:
Տվյալների ընդլայնում
Տվյալների վիճաբանության գործընթացի այս պահին դուք լավ եք հասկանում այն տվյալները, որոնց հետ գործ ունեք: Ձեր չմշակված տվյալները այլ աղբյուրների տվյալների հետ համատեղելը, ինչպիսիք են ներքին համակարգերը, երրորդ կողմի մատակարարները և այլն, թույլ կտա ձեզ հավաքել ավելի շատ տվյալների միավորներ և բարելավել ձեր վերլուծության ճշգրտությունը: Որպես այլընտրանք, դուք կարող եք պարզապես լրացնել տվյալների բացերը: Օրինակ՝ համատեղելով երկու հաճախորդների տեղեկատվական բազա, որոնցից մեկը պարունակում է հաճախորդների հասցեներ, իսկ մյուսը՝ ոչ: Տվյալների բարելավումը ոչ պարտադիր քայլ է, որը դուք պետք է կատարեք միայն այն դեպքում, եթե ձեր ներկա տվյալները բավարար չեն:
Տվյալների վավերացում
Տվյալների վավերացումը գործընթաց է, որը բացահայտում է ձեր տվյալների որակի հետ կապված ցանկացած խնդիր, որպեսզի համապատասխան փոփոխություններ կատարվեն:
Տվյալների վավերացման սկզբունքները պահանջում են շարունակական ծրագրավորման գործընթացներ, որոնք օգնում են ստորև նշված հետևյալ պահանջների ստուգմանը.
- Կատարում
- Հետևողականություն
- Անվտանգություն
- Վավերականություն
- Ճշգրտություն
Սա կատարվում է՝ գնահատելով, թե արդյոք տվյալների բազայի դաշտերը վավեր են, և հատկանիշները կանոնավոր կերպով բաշխված են: Օգտագործելով նախապես կազմաձևված սցենարներ, տվյալների հատկությունները համեմատվում են սահմանված կանոնների հետ:
Տվյալների բաշխում և հասանելիություն
Այս պահին բոլոր քայլերն ավարտված են, և տվյալները պատրաստ են վերլուծության: Մնում է միայն հրապարակել նոր վիճաբանության տվյալները մի վայրում, որտեղ դուք և այլ շահագրգիռ կողմերը կարող եք հեշտությամբ մուտք գործել և օգտագործել դրանք:
Այս քայլից հետո դուք կարող եք տվյալները պահել նոր տվյալների բազայում կամ ճարտարապետության մեջ: Եթե մյուս քայլերը ճիշտ կատարվեն, վերջնական արդյունքը կլինի բարձրորակ տվյալներ, այնուհետև դրանք օգտագործվում են պատկերացումներ ձեռք բերելու, բիզնես հաշվետվություններ ստեղծելու համար և այլն: Հնարավորությունները այս պահին անսահման են, դուք կարող եք նույնիսկ ավելի վերլուծել տվյալները՝ ստեղծելու ավելի մեծ բարդ տվյալների կառուցվածքներ, ինչպիսիք են Տվյալների պահեստները:
Հղումներ
https://www.altair.com/what-is-data-wrangling/
https://hevodata.com/learn/data-wrangling/
https://www.screenskills.com/job-profiles/browse/unscripted-tv/technical/data-wrangler/