Մեքենայական ուսուցման և հարակից ոլորտների վրա աշխատելիս մենք հաճախ հանդիպում ենք հսկայական տվյալների հավաքածուների: Որպեսզի այս տվյալները արդյունավետ օգտագործվեն մոդելի կողմից, պահանջվում է մի փոքր նախամշակում, որը թույլ է տալիս տվյալների ավելի կառուցվածքային լինել: Այս գործընթացի իրականացումը տվյալների բազայի վրա հանգեցնում է ավելի բարձր ճշգրտության:
Տվյալների նախնական մշակումը ներառում է հետևյալ քայլերը.
- Տվյալների տվյալների ստացում
- Պահանջվող գրադարանների ներմուծում
- Տվյալների հավաքածուի ներմուծում
- Հոգ տանել բացակայող տվյալների մասին
- Կատեգորիկ տվյալների կոդավորում (պիտակի կոդավորում և մեկ տաք կոդավորում)
- Տվյալների տվյալների բաժանումը վերապատրաստման և թեստային հավաքածուի
- Առանձնահատկությունների մասշտաբավորում (Ստանդարտացում և նորմալացում)
ՆՇՈՒՄ. կարող են ներառվել մի քանի լրացուցիչ քայլեր՝ ելնելով տվյալների բազայի բարդությունից, սակայն այստեղ նշված քայլերը ստանդարտ են գրեթե ցանկացած տվյալների բազայի համար: