🔖Ինչպե՞ս ձեռք բերել ՏՎՅԱԼՆԵՐԻ ՏՎՅԱԼՆԵՐ մեքենայական ուսուցման մեջ ??

Տվյալների հավաքածուն ինչ-որ հերթականությամբ դասավորված տվյալների հավաքածու է: Աղյուսակային տվյալների հավաքածուի ամենատարածված ձևը, որի մասին կարելի էր լսել մինչ այժմ մեքենայական ուսուցման մեջ ամենամեծ կիրառման մասին: «CSV ֆայլեր», ճիշտ է!! 😃
Այո, այո, կան նաև շատ այլ ձևաչափեր :))
Տվյալների հավաքածուները կարևոր դեր են խաղում մեքենայական ուսուցման նախագծերի հետ աշխատելիս: Տվյալների հավաքածուները կարևոր դեր են խաղում մեքենայական ուսուցման մոդելի վերապատրաստման գործում: Այսպիսով, դուք կարող եք ասել, որ եթե ձեր ուսուցիչը պարզ չէ բաների մասին, ապա նրանք նույնպես չեն կարող ձեզ ճիշտ սովորեցնել, նույնը այստեղ է: Եթե տվյալների հավաքածուն պատշաճ չէ, ապա ինչպե՞ս կարող է ձեր մոդելը լավ սովորել:
Այսպիսով, ձեր նախագծի համար արժեքավոր տվյալների շտեմարան հայտնաբերելը բավականին բարդ խնդիր է:
Մարդը կարող է նույնիսկ ստեղծել սեփական հատուկ տվյալների հավաքածուներ:

Ինչպե՞ս են տվյալների հավաքածուները օգտագործվում մեքենայական ուսուցման մեջ:
Տվյալների սկզբնական հավաքածուն (ԳԲ-ների նույն հսկայական ֆայլերը, որոնց ներբեռնումը շատ ժամանակ է պահանջում...😆) բաժանված է 3 տարբեր կատեգորիաների:
1. Ուսուցման տվյալների հավաքածու։
2. Վավերացման տվյալների հավաքածու։
3. Փորձարկման տվյալների հավաքածու։
Մեքենայի ուսուցման ալգորիթմներ + Ուսուցման տվյալների հավաքածու = Մեքենայի ուսուցման մոդել։
Վերջնական կատարողականի գնահատումները կատարվում են թեստային տվյալների հավաքածուների վրա:

Դուք կարող եք ստանալ տվյալների հավաքածուներ ձեր մոդելի համար հետևյալ եղանակներով.
1. DataSet Repositories
2. Տվյալների հավաքածուների առբերում scikit-learn-ում
3. Տվյալների հավաքածուների առբերում TensorFlow-ում:

Տվյալների հավաքածուի պահեստներ

Kaggle Datasets
Kaggle-ը տվյալների հավաքածուները հեշտ եղանակով գտնելու, ներբեռնելու և հրապարակելու լավագույն աղբյուրներից մեկն է: Այն նաև տրամադրում է տվյալների հավաքածուներ տարբեր ձևաչափերով (CSV, XML, JSON…): Դուք կարող եք նաև գտնել տվյալների հավաքածուների հետ կապված միջուկներ, որտեղ նոթատետրեր են տրամադրվում տվյալների հավաքածուները վերլուծելու համար:
Հղում՝ https://www.kaggle.com/datasets

2.UCI Machine Learning Repository
Այս հիանալի պահոցը պարունակում է տվյալների տարբեր հավաքածուներ Կալիֆորնիայի համալսարանի տեղեկատվական և համակարգչային գիտության դպրոցից: Այն դասակարգում է տվյալների շտեմարանները ըստ մեքենայական ուսուցման խնդրի տեսակի, ինչը այն դարձնում է բարեկամական սկսնակների համար: Այստեղ առկա տվյալների հավաքածուները մաքուր են, ուստի կարելի է դրանք ուղղակիորեն օգտագործել :)
Հղում՝ https://archive.ics.uci.edu/ml/index.php

3. Amazon Datasets
Այն պարունակում է տվյալների հավաքածուներ տարբեր ոլորտներից, ինչպիսիք են արբանյակային պատկերները, բնական ռեսուրսները և այլն: Կարելի է հեշտությամբ ստանալ տվյալների հավաքածուի ընդհանուր պատկերը, քանի որ այն միշտ տալիս է տվյալների բազայի նկարագրություն և օգտագործման օրինակ: բոլոր տվյալների հավաքածուների համար:
Եթե դուք օգտագործում եք AWS-ը մեքենայական ուսուցման զարգացման համար, տվյալների հավաքածուների փոխանցումը իսկապես արագ կլինի, քանի որ այն տեղական է AWS ցանցին:
Հղում՝ https:// registry.opendata.aws/

4. Google's DataSets Search Engine
Google-ի տվյալների բազայի որոնման համակարգը գործարկվել է Google-ի կողմից 2018 թվականին: Դա գործիքակազմ է, որը կարող է որոնել տվյալների հավաքածուները անունով: Նրանց նպատակն է միավորել հազարավոր տարբեր շտեմարաններ տվյալների հավաքածուների համար:
Հղում՝ https://toolbox.google.com/datasetsearch

5. Microsoft Datasets
Այս պահոցը պարունակում է անվճար տվյալների հավաքածուներ տարբեր ոլորտներում, ինչպիսիք են բնական լեզվի մշակումը, համակարգչային տեսլականը և տիրույթի հատուկ գիտությունները: Կարելի է ներբեռնել այն սարքում կամ օգտագործել անմիջապես ամպային ենթակառուցվածքում:
Հղում՝ https://msropendata.com/

6. Հրաշալի հանրային տվյալների հավաքածու
Այս պահոցը պարունակում է բարձրորակ տվյալների հավաքածուներ, որոնք դասավորված են լավ կազմակերպված ձևով, ինչպիսիք են գյուղատնտեսությունը, կենսաբանությունը, կլիման, բարդ ցանցերը և այլն: Ցանկալի է ստուգել լիցենզիան որպես բոլոր տվյալների հավաքածուները հասանելի չեն անվճար :(
Հղում: https://github.com/awesomedata/awesome-public-datasets

7. Կառավարության տվյալների հավաքածուներ
Այստեղից հեշտ է գտնել կառավարությանն առնչվող տվյալների հավաքածուներ: Այն պարունակում է տվյալների բազմաթիվ հավաքածուներ, ինչպիսիք են ԱՄՆ կառավարության տվյալները, ԵՄ բաց տվյալների, Նոր Զելանդիայի տվյալների հավաքածուները և Հնդկաստանի կառավարության տվյալների հավաքածուները:
Հղումներ. https://data.europa.eu/ euodp/data/dataset, https://catalogue.data.govt.nz/dataset, https://data.gov.in/, https://www.data.gov/ և այլն: .

OpenML-ը բաց հարթակ է՝ համօգտագործելու տվյալների հավաքածուներ, ալգորիթմներ և փորձեր՝ սովորելու, թե ինչպես ավելի լավ սովորել միասին:
Հղում` https://www. openml.org/

Տվյալների հավաքածուների առբերում Scikit Learn-ում

Կարելի է ներբեռնել տվյալների հավաքածուներ անմիջապես զննարկիչից: Սակայն տվյալների հավաքածուներից մի քանիսը դարձել են չափանիշ, և մեքենայական ուսուցման գրադարաններից ոմանք ստեղծել են գործառույթներ, որոնք կօգնեն վերականգնել դրանք: Կարելի է տվյալների հավաքածուներ ստանալ scikit Learn-ից՝ օգտագործելով իր API-ն:

Կարելի է նույնիսկ տվյալների հավաքածուներ ստանալ OpenML-ից 😃

Տվյալների հավաքագրում TensorFlow-ից

Բացի scikit-learn-ից, TensorFlow-ը ևս մեկ գործիք է, որը մենք կարող ենք օգտագործել մեքենայական ուսուցման նախագծերի համար: Նմանատիպ պատճառներով կա նաև TensorFlow-ի տվյալների API, որը ձեզ տալիս է տվյալների հավաքածուն այնպիսի ձևաչափով, որը լավագույնս աշխատում է TensorFlow-ի հետ:

Այո, այո, ես գիտեմ, որ ես բազմիցս կրկնել եմ բառերի տվյալների հավաքածուները… Ես պատրաստվում եմ միայն…..😄
Այսպիսով, սրանք որոշ ուղիներ էին, որոնց միջոցով դուք կարող եք ստանալ տվյալների հավաքածուներ, այնուհետև կարող եք սկսել խաղալ դրանց հետ :)))
Եթե ինչ-որ բան սովորել եք, մի մոռացեք արձագանքել….:
Եթե ունեք տվյալների բազայի այլ անուններ, մի մոռացեք կիսվել դրանցով:

Ուրախ ընթերցում:😃🚀

թեմայի վերաբերյալ նյութեր:

Նոր նյութեր

Օգտագործելով Fetch Vs Axios.Js-ը՝ HTTP հարցումներ կատարելու համար

JavaScript-ը կարող է ցանցային հարցումներ ուղարկել սերվեր և բեռնել նոր տեղեկատվություն, երբ դա անհրաժեշտ լինի: Օրինակ, մենք կարող ենք օգտագործել ցանցային հարցումը պատվեր ներկայացնելու,..

Տիրապետել հանգստության արվեստին. մշակողի ուղեցույց՝ ճնշման տակ ծաղկելու համար

Տիրապետել հանգստության արվեստին. մշակողի ուղեցույց՝ ճնշման տակ ծաղկելու համար Ինչպե՞ս հանգստացնել ձեր միտքը և աշխատեցնել ձեր պրոցեսորը: Ինչպես մնալ հանգիստ և զարգանալ ճնշման տակ...

Մեքենայի ուսուցում բանկային և ֆինանսների ոլորտում

Բարդ, խելացի անվտանգության համակարգերը և հաճախորդների սպասարկման պարզեցված ծառայությունները բիզնեսի հաջողության բանալին են: Ֆինանսական հաստատությունները, մասնավորապես, պետք է առաջ մնան կորի..

Ես AI-ին հարցրի կյանքի իմաստը, այն ինչ ասում էր, ցնցող էր:

Այն պահից ի վեր, երբ ես իմացա Արհեստական ինտելեկտի մասին, ես հիացած էի այն բանով, թե ինչպես է այն կարողանում հասկանալ մարդկային նորմալ տեքստը, և այն կարող է առաջացնել իր սեփական արձագանքը դրա..

Ինչպես սովորել կոդավորումը Python-ում վագրի պես:

Սովորելու համար ծրագրավորման նոր լեզու ընտրելը բարդ է: Անկախ նրանից, թե դուք սկսնակ եք, թե առաջադեմ, դա օգնում է իմանալ, թե ինչ թեմաներ պետք է սովորել: Ծրագրավորման լեզվի հիմունքները, դրա..

C++-ի օրական բիթ(ե) | Ամենաերկար պալինդրոմային ենթաշարը

C++ #198-ի ամենօրյա բիթ(ե), Ընդհանուր հարցազրույցի խնդիր. Ամենաերկար պալինդրոմային ենթատող: Այսօր մենք կանդրադառնանք հարցազրույցի ընդհանուր խնդրին. Ամենաերկար palindromic substring...

Kydavra ICAReducer՝ ձեր տվյալների ծավալայինությունը նվազեցնելու համար

Ի՞նչ է ICAReducer-ը: ICAReducer-ն աշխատում է հետևյալ կերպ. այն նվազեցնում է նրանց միջև բարձր փոխկապակցված հատկանիշները մինչև մեկ սյունակ: Բավականին նման է PCAreducer-ին, չնայած այն..

Պիտակներ

Machine Learning JavaScript Data Science Artificial Intelligence Python Software Development Web Development Coding Deep Learning React AI Software Engineering Nodejs Typescript Java Javascript Tips Tech Algorithms Front End Development Programming Languages iOS Data Business NLP Development Reactjs Tutorial CSS Learning Swift Angular API Javascript Development Startup Android Computer Science Learning To Code Reinforcement Learning