NeurIPS 2021 Սեմինարի պաստառ

Տեսանյութի քննարկումները հիմնված են Tabular Engineering with Automunge թղթի ամփոփման վրա, որը կներկայացվի Data-Centric AI աշխատաժողովում NeurIPS 2021-ում: Ստորագրությունը հաջորդում է.



Տառագրություն

Ողջույն. Ես Նիկոլաս Թիգն եմ՝ Automunge-ի հիմնադիրը: Մենք առաջարկում ենք python գրադարան, որն ավտոմատացնում է աղյուսակային տվյալների պատրաստումը մեքենայական ուսուցման համար:

Ինտերֆեյսը փոխանցվում է երկու հիմնական գործառույթների միջոցով: Automunge(.) ֆունկցիան ընդունում է չմշակված աղյուսակային տվյալներ և թարգմանում է թվային կոդավորումներ՝ լրացնելով բացակայող տվյալներին: Կոդավորված տվյալների շրջանակների հետ մեկտեղ automunge(.)-ը նաև վերադարձնում է բառարան՝ ձայնագրող պարամետրեր և ածանցյալ քայլեր:

Այս բառարանը կարող է օգտագործվել որպես բանալի՝ հետևողական հիմունքներով լրացուցիչ համապատասխան տվյալներ պատրաստելու համար: Ընդհանուր օգտագործման համար մենք ակնկալում ենք, որ automunge(.)-ից վերադարձված տվյալները կօգտագործվեն մոդելի պատրաստման և վավերացման համար, իսկ postmunge(.)-ից վերադարձված տվյալները կօգտագործվեն եզրակացության համար:

Ավտոմատացման պայմաններում առանձնահատկությունները գնահատվում են կոդավորման տեսակների միջև ընտրության համար: Թվային տվյալները նորմալացված են, Կատեգորիաները՝ երկուականացված, High Cardinality-ը հեշացված է, Datetime-ի տվյալները տարանջատված են ըստ ժամանակի սանդղակների, իսկ Բացակայող տվյալները ունեն ML լրացում և բացակայող նշիչների ագրեգացիա:

Automunge-ը կարող է նաև ծառայել որպես ինժեներական տվյալների խողովակաշարերի հարթակ: Կոդավորման ներքին գրադարանը ներառում է այնպիսի տարբերակներ, ինչպիսիք են վերլուծված կատեգորիայի կոդավորումները և աղմուկի ներարկումները, որոնք կարող են խառնվել հատուկ սահմանված գործողությունների հետ՝ ածանցյալների հավաքածուներում, որոնք ուղղված են մի հատկանիշի: Inversion-ը կարող է վերականգնել մուտքագրման ձևը:

Automunge տոհմածառի պրիմիտիվները կարող են օգտագործվել փոխակերպման հավաքածուների հրամանի տողի ճշգրտման համար, ներառյալ ածանցյալների սերունդները և ճյուղերը: Վերին հոսանքի պրիմիտիվների մուտքերը կիրառվում են որպես ածանցյալների առաջին սերունդ, իսկ ներքևի պրիմիտիվները դիտարկվում են որպես հաջորդ սերնդի վերին պրիմիտիվներ:

Մեր աշխատությունը ցույց տվեց գրադարանում պիտակների հավաքածուների դասակարգային համախմբման նոր առանձնահատկություն: Համախմբելով բազմաթիվ պիտակներ մեկ ներկայացման մեջ automunge(.)-ով, մեկ դասակարգման մոդելը կարող է վերապատրաստվել, և այնուհետև եզրակացությունից հետո postmunge(.) ինվերսիան կարող է վերականգնել բազմակի պիտակի սկզբնական ձևը:

Լրացուցիչ տեղեկություններ, ներառյալ փաստաթղթերի, ձեռնարկների և էսսեների հղումները, հասանելի են automunge.com-ում:

Հետագա ընթերցումների համար խնդրում ենք ստուգել Բովանդակության աղյուսակը, Գրքի առաջարկությունները և Երաժշտական ​​առաջարկությունները: Automunge-ի մասին լրացուցիչ տեղեկությունների համար՝ automunge.com

* պատկերների հեղինակային իրավունք 2021