Ինչպես կարդալ աղյուսակների / excel-ի ցանկացած ձևաչափեր՝ օգտագործելով Pandas [CSV, XLSX, XLS, TXT…]

Այս բլոգում ես ցանկանում եմ օգնել ձեզ հեշտությամբ ներմուծել excel ֆայլեր ցանկացած ֆայլի ընդարձակմամբ: Ավելի կոնկրետ, օգտագործեք միայն մեկ գործառույթ՝ ցանկացած excel ձևաչափ կարդալու համար (ներառյալ ավտոմատ կերպով ստանալ անջատիչ/սահմանազատիչ, որն օգտագործվում է ներսում):

Պահանջվող փաթեթներ՝

պանդաներ՝ python բաց կոդով տվյալների վերլուծության և մանիպուլյացիայի գործիք: https://pandas.pydata.org/
xlrd. գրադարան՝ Excel ֆայլերից տվյալների ընթերցման և ֆորմատավորման համար պատմական .xls ձևաչափով: https://xlrd.readthedocs.io/en/latest/
openpyxl՝ Python գրադարան՝ Excel 2010 xlsx/xlsm ֆայլերը կարդալու/գրելու համար: https://pypi.org/project/openpyxl/
Pathlib (արդեն տեղադրված է python-ով). Այն առաջարկում է դասեր, որոնք ներկայացնում են ֆայլային համակարգի ուղիները տարբեր օպերացիոն համակարգերի համար համապատասխան իմաստաբանությամբ: https://docs.python.org/3/library/pathlib.html
csv (արդեն տեղադրված է python-ով). Այն իրականացնում է դասեր՝ CSV ձևաչափով աղյուսակային տվյալները կարդալու և գրելու համար:

csv - CSV ֆայլի ընթերցում և գրում
Այսպես կոչված CSV (ստորակետերով առանձնացված արժեքներ) ձևաչափը աղյուսակների և…փաստաթղթերի ներմուծման և արտահանման ամենատարածված ձևաչափն է: .python.org

Բացատրություններ:

.csv և .txt ֆայլերի համար այստեղ օգտագործվում է «read_csv()» ֆունկցիան: Հարկ է նշել, որ մենք օգտագործել ենք «csv.Sniffer()»՝ սկզբում ներսից անջատիչ/սահմանազատիչը ավտոմատ կերպով ստանալու համար։
.xlsx / .xlsm / .xltx / .xltm ֆայլի համար «read_excel()» ֆունկցիան օգտագործվում է openpyxl շարժիչի հետ միասին:
.xlsֆայլի համար օգտագործվում է «read_excel()» ֆունկցիան:

Կոդ:

import pandas as pd
from pathlib import Path
import csv

def import_spreadsheet(file_path,**kwargs):
    """
    import a spreadsheet/excel with any extension.
    Parameters
    ----------
    file_path: string
        file path of the spreadsheet/ excel file (relative or absolute).
    **kwargs:
        shared arguments of read_csv and read_excel 
    
    Returns
    -------
    df: pandas Dataframe
        dataframe of the spreadsheet.
    """

    file_path = Path(file_path) 

    # Path.suffix return the extension of a file
    if file_path.suffix == '.csv' or file_path.suffix == '.txt':      

        # check the deliminiter
        with open(file_path, 'r', encoding='utf8') as csvfile:
            dialect = csv.Sniffer().sniff(csvfile.readline())

        df = pd.read_csv(file_path, sep=str(dialect.delimiter),**kwargs)

    elif file_path.suffix in ['.xlsx', '.xlsm', '.xltx', '.xltm']:
        df = pd.read_excel(file_path, engine='openpyxl',**kwargs)

    # be cafefull that xlrd has explicitly removed support for anything other than xls files.
    else:
        df = pd.read_excel(file_path,**kwargs)

    return df

Խորհուրդներ.

Եթե աղյուսակը և ձեր python ֆայլը գտնվում են նույն թղթապանակում, «file_path» մուտքային փաստարկը ձեր աղյուսակի ֆայլի անունն է, օրինակ. «XXX.csv»

Հիշեցում.

Շնորհիվ **kwargsարգումենտների՝ մենք կարող ենք լրացուցիչ արգումենտներ փոխանցել այս ֆունկցիաներում։ Օրինակ՝ աղյուսակ ներմուծելիս առավել հաճախ օգտագործվող 2 փաստարկները.

վերնագիր՝ int, int-ի ցանկ կամ None: Տող (0-ինդեքսավորված)՝ օգտագործելու վերլուծված DataFrame-ի սյունակների պիտակների համար:
index_col : int, int ցուցակ կամ None: Սյունակ (0-ինդեքսավորված)՝ որպես DataFrame-ի տողերի պիտակներ օգտագործելու համար:

Այս ֆունկցիան օգտագործելիս կարող ենք արգումենտներում գրել.

# using default arguments
df = import_spreadsheet(file_path='YourSpreadSheet.csv') 
# define arguments yourself
df = import_spreadsheet(file_path='YourSpreadSheet.csv', header = 1, index_col=1)

Դիտեք աղյուսակների ընթերցման ավելի շատ մուտքային արգումենտներ՝-ում

https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

https://pandas.pydata.org/pandasdocs/stable/reference/api/pandas.read_excel.html

— — — — — — — — — -

Շնորհակալ եմ շատ իմ բլոգը կարդալու համար: Եթե դուք ունեք մտքեր կամ կարծիքներ թեմայի վերաբերյալ, ես կցանկանայի լսել ձեզնից ստորև ներկայացված մեկնաբանություններում: Կհանդիպենք շուտով:

Իմ բլոգի կայքը՝https://technodatascience.blogspot.com/2022/12/how-to-import-any-formats-of.html

Github. https://github.com/TianyiDataScience

Linkedin՝ https://www.linkedin.com/in/tianyi-li-v

թեմայի վերաբերյալ նյութեր:

Նոր նյութեր

Օգտագործելով Fetch Vs Axios.Js-ը՝ HTTP հարցումներ կատարելու համար

JavaScript-ը կարող է ցանցային հարցումներ ուղարկել սերվեր և բեռնել նոր տեղեկատվություն, երբ դա անհրաժեշտ լինի: Օրինակ, մենք կարող ենք օգտագործել ցանցային հարցումը պատվեր ներկայացնելու,..

Տիրապետել հանգստության արվեստին. մշակողի ուղեցույց՝ ճնշման տակ ծաղկելու համար

Տիրապետել հանգստության արվեստին. մշակողի ուղեցույց՝ ճնշման տակ ծաղկելու համար Ինչպե՞ս հանգստացնել ձեր միտքը և աշխատեցնել ձեր պրոցեսորը: Ինչպես մնալ հանգիստ և զարգանալ ճնշման տակ...

Մեքենայի ուսուցում բանկային և ֆինանսների ոլորտում

Բարդ, խելացի անվտանգության համակարգերը և հաճախորդների սպասարկման պարզեցված ծառայությունները բիզնեսի հաջողության բանալին են: Ֆինանսական հաստատությունները, մասնավորապես, պետք է առաջ մնան կորի..

Ես AI-ին հարցրի կյանքի իմաստը, այն ինչ ասում էր, ցնցող էր:

Այն պահից ի վեր, երբ ես իմացա Արհեստական ինտելեկտի մասին, ես հիացած էի այն բանով, թե ինչպես է այն կարողանում հասկանալ մարդկային նորմալ տեքստը, և այն կարող է առաջացնել իր սեփական արձագանքը դրա..

Ինչպես սովորել կոդավորումը Python-ում վագրի պես:

Սովորելու համար ծրագրավորման նոր լեզու ընտրելը բարդ է: Անկախ նրանից, թե դուք սկսնակ եք, թե առաջադեմ, դա օգնում է իմանալ, թե ինչ թեմաներ պետք է սովորել: Ծրագրավորման լեզվի հիմունքները, դրա..

C++-ի օրական բիթ(ե) | Ամենաերկար պալինդրոմային ենթաշարը

C++ #198-ի ամենօրյա բիթ(ե), Ընդհանուր հարցազրույցի խնդիր. Ամենաերկար պալինդրոմային ենթատող: Այսօր մենք կանդրադառնանք հարցազրույցի ընդհանուր խնդրին. Ամենաերկար palindromic substring...

Kydavra ICAReducer՝ ձեր տվյալների ծավալայինությունը նվազեցնելու համար

Ի՞նչ է ICAReducer-ը: ICAReducer-ն աշխատում է հետևյալ կերպ. այն նվազեցնում է նրանց միջև բարձր փոխկապակցված հատկանիշները մինչև մեկ սյունակ: Բավականին նման է PCAreducer-ին, չնայած այն..

Պիտակներ

Machine Learning JavaScript Data Science Artificial Intelligence Python Software Development Web Development Coding Deep Learning React AI Software Engineering Nodejs Typescript Java Javascript Tips Tech Algorithms Front End Development Programming Languages iOS Data Business NLP Development Reactjs Tutorial CSS Learning Swift Angular API Javascript Development Startup Android Computer Science Learning To Code Reinforcement Learning