Մեքենայական ուսուցման և հարակից ոլորտների վրա աշխատելիս մենք հաճախ հանդիպում ենք հսկայական տվյալների հավաքածուների: Որպեսզի այս տվյալները արդյունավետ օգտագործվեն մոդելի կողմից, պահանջվում է մի փոքր նախամշակում, որը թույլ է տալիս տվյալների ավելի կառուցվածքային լինել: Այս գործընթացի իրականացումը տվյալների բազայի վրա հանգեցնում է ավելի բարձր ճշգրտության:

Տվյալների նախնական մշակումը ներառում է հետևյալ քայլերը.

  1. Տվյալների տվյալների ստացում
  2. Պահանջվող գրադարանների ներմուծում
  3. Տվյալների հավաքածուի ներմուծում
  4. Հոգ տանել բացակայող տվյալների մասին
  5. Կատեգորիկ տվյալների կոդավորում (պիտակի կոդավորում և մեկ տաք կոդավորում)
  6. Տվյալների տվյալների բաժանումը վերապատրաստման և թեստային հավաքածուի
  7. Առանձնահատկությունների մասշտաբավորում (Ստանդարտացում և նորմալացում)

ՆՇՈՒՄ. կարող են ներառվել մի քանի լրացուցիչ քայլեր՝ ելնելով տվյալների բազայի բարդությունից, սակայն այստեղ նշված քայլերը ստանդարտ են գրեթե ցանկացած տվյալների բազայի համար: