NeurIPS 2021 Սեմինարի պաստառ
Տեսանյութի քննարկումները հիմնված են Tabular Engineering with Automunge թղթի ամփոփման վրա, որը կներկայացվի Data-Centric AI աշխատաժողովում NeurIPS 2021-ում: Ստորագրությունը հաջորդում է.
Տառագրություն
Ողջույն. Ես Նիկոլաս Թիգն եմ՝ Automunge-ի հիմնադիրը: Մենք առաջարկում ենք python գրադարան, որն ավտոմատացնում է աղյուսակային տվյալների պատրաստումը մեքենայական ուսուցման համար:
Ինտերֆեյսը փոխանցվում է երկու հիմնական գործառույթների միջոցով: Automunge(.) ֆունկցիան ընդունում է չմշակված աղյուսակային տվյալներ և թարգմանում է թվային կոդավորումներ՝ լրացնելով բացակայող տվյալներին: Կոդավորված տվյալների շրջանակների հետ մեկտեղ automunge(.)-ը նաև վերադարձնում է բառարան՝ ձայնագրող պարամետրեր և ածանցյալ քայլեր:
Այս բառարանը կարող է օգտագործվել որպես բանալի՝ հետևողական հիմունքներով լրացուցիչ համապատասխան տվյալներ պատրաստելու համար: Ընդհանուր օգտագործման համար մենք ակնկալում ենք, որ automunge(.)-ից վերադարձված տվյալները կօգտագործվեն մոդելի պատրաստման և վավերացման համար, իսկ postmunge(.)-ից վերադարձված տվյալները կօգտագործվեն եզրակացության համար:
Ավտոմատացման պայմաններում առանձնահատկությունները գնահատվում են կոդավորման տեսակների միջև ընտրության համար: Թվային տվյալները նորմալացված են, Կատեգորիաները՝ երկուականացված, High Cardinality-ը հեշացված է, Datetime-ի տվյալները տարանջատված են ըստ ժամանակի սանդղակների, իսկ Բացակայող տվյալները ունեն ML լրացում և բացակայող նշիչների ագրեգացիա:
Automunge-ը կարող է նաև ծառայել որպես ինժեներական տվյալների խողովակաշարերի հարթակ: Կոդավորման ներքին գրադարանը ներառում է այնպիսի տարբերակներ, ինչպիսիք են վերլուծված կատեգորիայի կոդավորումները և աղմուկի ներարկումները, որոնք կարող են խառնվել հատուկ սահմանված գործողությունների հետ՝ ածանցյալների հավաքածուներում, որոնք ուղղված են մի հատկանիշի: Inversion-ը կարող է վերականգնել մուտքագրման ձևը:
Automunge տոհմածառի պրիմիտիվները կարող են օգտագործվել փոխակերպման հավաքածուների հրամանի տողի ճշգրտման համար, ներառյալ ածանցյալների սերունդները և ճյուղերը: Վերին հոսանքի պրիմիտիվների մուտքերը կիրառվում են որպես ածանցյալների առաջին սերունդ, իսկ ներքևի պրիմիտիվները դիտարկվում են որպես հաջորդ սերնդի վերին պրիմիտիվներ:
Մեր աշխատությունը ցույց տվեց գրադարանում պիտակների հավաքածուների դասակարգային համախմբման նոր առանձնահատկություն: Համախմբելով բազմաթիվ պիտակներ մեկ ներկայացման մեջ automunge(.)-ով, մեկ դասակարգման մոդելը կարող է վերապատրաստվել, և այնուհետև եզրակացությունից հետո postmunge(.) ինվերսիան կարող է վերականգնել բազմակի պիտակի սկզբնական ձևը:
Լրացուցիչ տեղեկություններ, ներառյալ փաստաթղթերի, ձեռնարկների և էսսեների հղումները, հասանելի են automunge.com-ում:
Հետագա ընթերցումների համար խնդրում ենք ստուգել Բովանդակության աղյուսակը, Գրքի առաջարկությունները և Երաժշտական առաջարկությունները: Automunge-ի մասին լրացուցիչ տեղեկությունների համար՝ automunge.com
* պատկերների հեղինակային իրավունք 2021