Տվյալների որակը բիզնեսի խնդիր է, ինչպես նաև տեխնոլոգիական խնդիր: Դա տվյալների վրա հիմնված բիզնեսի և մեքենայական ուսուցման ամենամեծ թշնամին է: Վատ որակի տվյալները կարող են արգելափակել կամ անօգտագործելի դարձնել տվյալների նախագիծը կամ մեքենայական ուսուցման գործը և, հետևաբար, ծախսել գումար, մարդկային ռեսուրսներ և ժամանակ: Տվյալների որակի հետ կապված խնդիրները պետք է լինեն նպատակային, համակարգային և շարունակական, այլ ոչ թե հսկայական, մեկանգամյա կատարողական իրադարձություն:

Հրապարակված է D3M Labs Elizabeth Press-ի կողմից / հունվարի 16, 2023

Ինչպե՞ս եք կրքոտվել տվյալների որակով:

Տվյալների վատ որակը մեքենայական ուսուցման համար թիվ մեկ թշնամին է:

Իմ կարիերայի ընթացքում ես միշտ աշխատել եմ տվյալների հետ: Թեև տվյալների որակը միշտ չէ, որ իմ պարտականությունների մեջ է մտնում, տվյալների որակը խանգարում է ինձ հաջողությամբ ավարտել նախագծերը իմ կարիերայի շատ փուլերում:

Տվյալների որակի թեման ինձ հետաքրքիր է, քանի որ այն մարտահրավեր է: Ես հաճույք եմ ստանում բարդ խնդիրներից և լուծումներ գտնելուց:

Հիմնական պատճառը բացահայտելը, նախագիծը սկսելը և ավարտին հասցնելը հեշտ գործ չեն: Ինձ համար շատ կարեւոր ու հաճելի է նաեւ շփման տարրը։ Դուք պետք է շփվեք խնդրի, մարտահրավերների մասին, թարմացրեք շահագրգիռ կողմերին կարգավիճակի մասին:

Ձեր PhD-ն՝ «Անհատականացման և գիտելիքի հասանելիության մետատվյալները» հետաքրքրաշարժ է: Ձեր հետազոտության ո՞ր պատկերացումներն են դեռ կարևոր օգտագործման դեպքերի համար, որոնք արտադրություն կդրվեն 2023 թվականին:

Ունենալով մաթեմատիկական կրթություն՝ ես նաև կրքոտ եմ մեքենայական ուսուցման և ալգորիթմների նկատմամբ: Կարողանալը տեքստերից իմաստաբանություն, իմաստալից տեղեկատվություն կորզել, գոյաբանություններ և տաքսոնոմիաներ ստեղծելը և օգտագործողի ակնկալիքներին համապատասխանող արդյունքներ ստանալու տեխնիկաներ օգտագործելը ինձ հետաքրքրող մարտահրավեր է:

Ես PhD-ն ավարտել եմ ավելի քան 10 տարի առաջ: Ասպիրանտուրայի ընթացքում ես կենտրոնացած էի այն բանի վրա, թե ինչպես ինքնաբերաբար արժեքավոր տեղեկատվություն կորզել չկառուցված տվյալներից, մասնավորապես փաստաթղթերից: Ես օգտագործեցի տեքստի մայնինգի տեխնիկան՝ տեքստային տվյալներից տեղեկատվություն ստանալու համար և օգտագործեցի NLP տեխնիկան՝ տվյալները օգտագործելի ձևաչափով մաքրելու համար:

Ասպիրանտուրայի ընթացքում մարտահրավերներից մեկը եղել է տվյալներ գտնելը և նաև լավ որակի տվյալները: Ի՞նչ է որակը: Ես գործ էի ունենում մեքենայական ուսուցման տեխնիկայի հետ, ուստի ինձ պետք են ծանոթագրված տվյալներ: Վերահսկվող ուսուցման ժամանակ ինձ անհրաժեշտ են տվյալներ, որոնք արդեն դասակարգված են, ծանոթագրված:

Ես մեծ ժամանակ ծախսեցի ձեռքով աշխատելով տվյալների հետ, որպեսզի դրանք լավ որակի լինեն: Տվյալները բավարար որակ ստանալուց հետո ես կարող էի կենտրոնանալ իմ ասպիրանտուրայի սրտի վրա, որն ընտրում էր, թե որ ալգորիթմն օգտագործել և ինչ մեթոդ կիրառել:

Տվյալների ցանկացած գիտնականի համար խնդիր է ունենալ լավ որակի տվյալներ, որպեսզի կարողանաք լուծել խնդիրը:

Սա ցանկացած տվյալների, հատկապես տեքստի հետ կապված խնդիր է: Ես պետք է հասկանայի բովանդակությունը և իմաստ կորզեի տեքստից: Ես ուզում էի համոզվել, որ իմ աշխատանքը հիմնված է լավ որակի տվյալների վրա: Վերջին տասնամյակի ընթացքում տեքստային վերլուծությունը մեծ նշանակություն է ունեցել: Կազմակերպությունների տվյալների մոտ 80%-ը սովորաբար կազմված է չկառուցված տեքստից: Խնդիրներից մեկն այն է, թե ինչպես կարելի է իմաստ հանել հսկայական քանակությամբ տեքստից: Ներկայիս հրամայական է ավելի լավ ծանոթանալ տեքստի հուսալի վերլուծությունը հնարավոր դարձնելու համար:

Ինչո՞ւ էիք ձեզ հետաքրքրում տվյալների որակը, նախքան այն կարժանանար ուշադրության կենտրոնում:

Տվյալների որակը մեքենայական ուսուցման թիվ 1 թշնամին է: Մեքենայական ուսուցումը կարող է լինել միայն այնքան լավ, որքան ձեր մուտքագրած տվյալները: Անկախ նրանից, թե որքան ժամանակ եք դնում ալգորիթմի մեջ, եթե աղբը մտնում է, աղբը դուրս է գալիս:

Այն փաստը, որ ես մեքենայական ուսուցման մասնագետ եմ, ինձ շատ զգայուն դարձրեց վատ որակի տվյալների նկատմամբ: Որպես տվյալների գիտնականներ, մենք պետք է անդրադառնանք անորակ տվյալներին: Չի կարելի հեռու գնալ մեքենայական ուսուցմամբ՝ վատ որակի տվյալներով:

Առաջին մղումը հաճախ տվյալների գիտնականներ վարձելն է բարդ խնդիրներ լուծելու համար: Իրականությունն այն է, որ շատ տվյալների գիտնականներ պետք է զբաղվեն տվյալների որակով: Դա հիասթափեցնող է:

Տվյալների որակը պետք է դիտարկվի որպես առանձին առարկա, ոչ թե որպես խնդիր, որը պետք է կատարվի ամիսը մեկ անգամ:

Ինչո՞ւ պետք է տվյալների որակը լինի կազմակերպչական առաջնահերթություն տվյալների գիտության թիմից դուրս:

Վատ որակի տվյալները ոչ միայն ազդում են մեքենայական ուսուցման վրա, այլև ազդում են մեր որոշումների վրա: Տվյալների վրա հիմնված աշխարհում մենք ավելի ու ավելի շատ ենք կախված տվյալներից՝ որոշումներ կայացնելու համար:

Եթե ​​տվյալները որակյալ չեն, մենք սխալ որոշումներ ենք կայացնում։

Ինչո՞ւ են այդքան շատ կազմակերպություններ պայքարում տվյալների որակի հետ:

Մեծ ջանքեր են գործադրվել տվյալների վրա հիմնված լինելու, բիզնեսի արդյունավետությունը բարելավելու և ավելի մրցունակ լինելու համար: Քանի որ տվյալները դառնում են ավելի արժեքավոր, վատ տվյալների ազդեցությունն ավելի մեծ է, քան նախկինում:

Մեծ գումարներ են ներդրվել ամպային հաշվարկների և այլ տեխնոլոգիաների մեջ, որոնք ընկերություններին հնարավորություն են տալիս ավելի շատ տվյալների վրա հիմնված լինել: Այժմ տվյալների որակի մեջ ներդրումների կարիք կա։

Ինչո՞ւ են այդքան շատերն այդքան երկար ժամանակ համակերպվում վատ տվյալների հետ:

30 տարի առաջ տվյալների ազդեցությունը այնքան էլ չէր, որքան ազդեցությունը տվյալների վրա այսօր: Մենք տվյալներ ենք պահում ամպի վրա, որպեսզի ցանկանում ենք վարձել որակյալ մարդկանց՝ տեխնոլոգիան լավագույնս օգտագործելու համար: Երբ այս բարձր որակավորում ունեցող մարդիկ ցանկանում են օգտագործել տվյալները, նրանք հասկանում են, որ տվյալները որակյալ չեն:

Տվյալների ծավալն ավելացել է ժամանակի ընթացքում։ Քանի որ ընկերությունները գնալով ավելի շատ են ապավինում տվյալներին՝ օգնելու կատարել բիզնես որոշումները, վատ տվյալների ազդեցությունն ավելի մեծ է, քան նախկինում:

Եթե ընկերությունը ամանորյա որոշում կայացնի, որ 2023 թվականն այն տարին է, որ նրանք լավ տվյալներ կունենան: Ինչպե՞ս են դրանք սկսվում

Կարդացեք ավելին D3M Labs-ի մասին՝ սեղմելով այստեղhttps://d3mlabs.de/?p=790

Ո՞վ է Սահար Չանգելը, բ.գ.թ.

Սահար Չանգուելը մեքենայական ուսուցման և բնական լեզվի մշակման (NLP) ասպիրանտ է և վերջին 10 տարվա փորձը չի դադարել աշխատել տվյալների հետ՝ կառուցվածքային և չկառուցված տարբեր օգտագործման դեպքերում և տարբեր ծառայությունների համար՝ կրթություն, լրատվամիջոցներ, աուդիտ, ֆինանս…. Նրա մանդատը ամեն անգամ գրեթե նույնն էր, այն բաղկացած է տվյալների օգտագործման և շահագործումից լավագույն ձևով, որը համապատասխանում է բիզնեսի կարիքներին:

Տվյալները լավագույնս օգտագործելու համար կա մեկ հիմնարար պահանջ՝ տվյալները պետք է լինեն լավ որակի, ինչը կարող է իրական մարտահրավեր լինել որոշ իրավիճակներում: Այսօր Սահարը տվյալների ավագ մենեջեր է և որպես տվյալների մասնագետ, նա պարտավոր է ապահովել հնարավորինս բարձրորակ տվյալներ և խրախուսել դրանց նկատմամբ վստահությունը: