Տվյալների հավաքածուն ինչ-որ հերթականությամբ դասավորված տվյալների հավաքածու է: Աղյուսակային տվյալների հավաքածուի ամենատարածված ձևը, որի մասին կարելի էր լսել մինչ այժմ մեքենայական ուսուցման մեջ ամենամեծ կիրառման մասին: «CSV ֆայլեր», ճիշտ է!! 😃
Այո, այո, կան նաև շատ այլ ձևաչափեր :))
Տվյալների հավաքածուները կարևոր դեր են խաղում մեքենայական ուսուցման նախագծերի հետ աշխատելիս: Տվյալների հավաքածուները կարևոր դեր են խաղում մեքենայական ուսուցման մոդելի վերապատրաստման գործում: Այսպիսով, դուք կարող եք ասել, որ եթե ձեր ուսուցիչը պարզ չէ բաների մասին, ապա նրանք նույնպես չեն կարող ձեզ ճիշտ սովորեցնել, նույնը այստեղ է: Եթե ​​տվյալների հավաքածուն պատշաճ չէ, ապա ինչպե՞ս կարող է ձեր մոդելը լավ սովորել:
Այսպիսով, ձեր նախագծի համար արժեքավոր տվյալների շտեմարան հայտնաբերելը բավականին բարդ խնդիր է:
Մարդը կարող է նույնիսկ ստեղծել սեփական հատուկ տվյալների հավաքածուներ:

Ինչպե՞ս են տվյալների հավաքածուները օգտագործվում մեքենայական ուսուցման մեջ:
Տվյալների սկզբնական հավաքածուն (ԳԲ-ների նույն հսկայական ֆայլերը, որոնց ներբեռնումը շատ ժամանակ է պահանջում...😆) բաժանված է 3 տարբեր կատեգորիաների:
1. Ուսուցման տվյալների հավաքածու։
2. Վավերացման տվյալների հավաքածու։
3. Փորձարկման տվյալների հավաքածու։
Մեքենայի ուսուցման ալգորիթմներ + Ուսուցման տվյալների հավաքածու = Մեքենայի ուսուցման մոդել։
Վերջնական կատարողականի գնահատումները կատարվում են թեստային տվյալների հավաքածուների վրա:

Դուք կարող եք ստանալ տվյալների հավաքածուներ ձեր մոդելի համար հետևյալ եղանակներով.
1. DataSet Repositories
2. Տվյալների հավաքածուների առբերում scikit-learn-ում
3. Տվյալների հավաքածուների առբերում TensorFlow-ում:

Տվյալների հավաքածուի պահեստներ

  1. Kaggle Datasets
    Kaggle-ը տվյալների հավաքածուները հեշտ եղանակով գտնելու, ներբեռնելու և հրապարակելու լավագույն աղբյուրներից մեկն է: Այն նաև տրամադրում է տվյալների հավաքածուներ տարբեր ձևաչափերով (CSV, XML, JSON…): Դուք կարող եք նաև գտնել տվյալների հավաքածուների հետ կապված միջուկներ, որտեղ նոթատետրեր են տրամադրվում տվյալների հավաքածուները վերլուծելու համար:
    Հղում՝ https://www.kaggle.com/datasets

2.UCI Machine Learning Repository
Այս հիանալի պահոցը պարունակում է տվյալների տարբեր հավաքածուներ Կալիֆորնիայի համալսարանի տեղեկատվական և համակարգչային գիտության դպրոցից: Այն դասակարգում է տվյալների շտեմարանները ըստ մեքենայական ուսուցման խնդրի տեսակի, ինչը այն դարձնում է բարեկամական սկսնակների համար: Այստեղ առկա տվյալների հավաքածուները մաքուր են, ուստի կարելի է դրանք ուղղակիորեն օգտագործել :)
Հղում՝ https://archive.ics.uci.edu/ml/index.php

3. Amazon Datasets
Այն պարունակում է տվյալների հավաքածուներ տարբեր ոլորտներից, ինչպիսիք են արբանյակային պատկերները, բնական ռեսուրսները և այլն: Կարելի է հեշտությամբ ստանալ տվյալների հավաքածուի ընդհանուր պատկերը, քանի որ այն միշտ տալիս է տվյալների բազայի նկարագրություն և օգտագործման օրինակ: բոլոր տվյալների հավաքածուների համար:
Եթե դուք օգտագործում եք AWS-ը մեքենայական ուսուցման զարգացման համար, տվյալների հավաքածուների փոխանցումը իսկապես արագ կլինի, քանի որ այն տեղական է AWS ցանցին:
Հղում՝ https:// registry.opendata.aws/

4. Google's DataSets Search Engine
Google-ի տվյալների բազայի որոնման համակարգը գործարկվել է Google-ի կողմից 2018 թվականին: Դա գործիքակազմ է, որը կարող է որոնել տվյալների հավաքածուները անունով: Նրանց նպատակն է միավորել հազարավոր տարբեր շտեմարաններ տվյալների հավաքածուների համար:
Հղում՝ https://toolbox.google.com/datasetsearch

5. Microsoft Datasets
Այս պահոցը պարունակում է անվճար տվյալների հավաքածուներ տարբեր ոլորտներում, ինչպիսիք են բնական լեզվի մշակումը, համակարգչային տեսլականը և տիրույթի հատուկ գիտությունները: Կարելի է ներբեռնել այն սարքում կամ օգտագործել անմիջապես ամպային ենթակառուցվածքում:
Հղում՝ https://msropendata.com/

6. Հրաշալի հանրային տվյալների հավաքածու
Այս պահոցը պարունակում է բարձրորակ տվյալների հավաքածուներ, որոնք դասավորված են լավ կազմակերպված ձևով, ինչպիսիք են գյուղատնտեսությունը, կենսաբանությունը, կլիման, բարդ ցանցերը և այլն: Ցանկալի է ստուգել լիցենզիան որպես բոլոր տվյալների հավաքածուները հասանելի չեն անվճար :(
Հղում: https://github.com/awesomedata/awesome-public-datasets

7. Կառավարության տվյալների հավաքածուներ
Այստեղից հեշտ է գտնել կառավարությանն առնչվող տվյալների հավաքածուներ: Այն պարունակում է տվյալների բազմաթիվ հավաքածուներ, ինչպիսիք են ԱՄՆ կառավարության տվյալները, ԵՄ բաց տվյալների, Նոր Զելանդիայի տվյալների հավաքածուները և Հնդկաստանի կառավարության տվյալների հավաքածուները:
Հղումներ. https://data.europa.eu/ euodp/data/dataset, https://catalogue.data.govt.nz/dataset, https://data.gov.in/, https://www.data.gov/ և այլն: .

OpenML-ը բաց հարթակ է՝ համօգտագործելու տվյալների հավաքածուներ, ալգորիթմներ և փորձեր՝ սովորելու, թե ինչպես ավելի լավ սովորել միասին:
Հղում` https://www. openml.org/

Տվյալների հավաքածուների առբերում Scikit Learn-ում

Կարելի է ներբեռնել տվյալների հավաքածուներ անմիջապես զննարկիչից: Սակայն տվյալների հավաքածուներից մի քանիսը դարձել են չափանիշ, և մեքենայական ուսուցման գրադարաններից ոմանք ստեղծել են գործառույթներ, որոնք կօգնեն վերականգնել դրանք: Կարելի է տվյալների հավաքածուներ ստանալ scikit Learn-ից՝ օգտագործելով իր API-ն:

Կարելի է նույնիսկ տվյալների հավաքածուներ ստանալ OpenML-ից 😃

Տվյալների հավաքագրում TensorFlow-ից

Բացի scikit-learn-ից, TensorFlow-ը ևս մեկ գործիք է, որը մենք կարող ենք օգտագործել մեքենայական ուսուցման նախագծերի համար: Նմանատիպ պատճառներով կա նաև TensorFlow-ի տվյալների API, որը ձեզ տալիս է տվյալների հավաքածուն այնպիսի ձևաչափով, որը լավագույնս աշխատում է TensorFlow-ի հետ:

Այո, այո, ես գիտեմ, որ ես բազմիցս կրկնել եմ բառերի տվյալների հավաքածուները… Ես պատրաստվում եմ միայն…..😄
Այսպիսով, սրանք որոշ ուղիներ էին, որոնց միջոցով դուք կարող եք ստանալ տվյալների հավաքածուներ, այնուհետև կարող եք սկսել խաղալ դրանց հետ :)))
Եթե ինչ-որ բան սովորել եք, մի մոռացեք արձագանքել….:
Եթե ունեք տվյալների բազայի այլ անուններ, մի մոռացեք կիսվել դրանցով:

Ուրախ ընթերցում:😃🚀