For avansert dataanalyse er Python bedre enn Excel.  Slik importerer du Excel-dataene dine til et Python-skript ved hjelp av Pandas!

Slik importerer du Excel-data til Python-skript ved hjelp av Pandaer

Annonse Microsoft Excel er den mest brukte regnearkprogramvaren i verden, og med god grunn: det brukervennlige grensesnittet og kraftige innebygde verktøy gjør det enkelt å jobbe med data. Men hvis du vil gjøre mer avansert databehandling, må du gå utover Excel sine muligheter og begynne å bruke et skript / programmeringsspråk som Python. I sted

Annonse

Microsoft Excel er den mest brukte regnearkprogramvaren i verden, og med god grunn: det brukervennlige grensesnittet og kraftige innebygde verktøy gjør det enkelt å jobbe med data.

Men hvis du vil gjøre mer avansert databehandling, må du gå utover Excel sine muligheter og begynne å bruke et skript / programmeringsspråk som Python. I stedet for å manuelt kopiere dataene dine i databaser, er her en rask tutorial om hvordan du laster inn Excel-dataene dine i Python ved hjelp av Pandas.

Merk: Hvis du aldri har brukt Python før, kan denne opplæringen være litt vanskelig. Vi anbefaler å starte med disse nettstedene for å lære Python De 5 beste nettstedene for å lære Python-programmering De 5 beste nettstedene å lære Python-programmering Vil du lære Python-programmering? Her er de beste måtene å lære Python online, hvorav mange er helt gratis. Les mer og disse grunnleggende Python-eksemplene for å komme i gang. 10 grunnleggende Python-eksempler som vil hjelpe deg å lære raskt 10 grunnleggende Python-eksempler som vil hjelpe deg å lære raskt Denne artikkelen med grunnleggende python-eksempler er for de som allerede har litt programmeringserfaring og bare vil overgang til Python så raskt som mulig. Les mer .

Hva er Pandaer?

Python Data Analysis Library ("Pandas") er et åpen kildekodebibliotek for Python-programmeringsspråket som brukes til dataanalyse og datamanipulering.

Pandas laster inn data i Python-objekter kjent som Dataframes, som lagrer data i rader og kolonner akkurat som en tradisjonell database. Når et Dataframe er opprettet, kan det manipuleres ved hjelp av Python, slik at det åpnes for en verden av muligheter.

Installere Pandaer

Merk: Du må ha Python 2.7 eller nyere for å installere Pandaer.

For å begynne å jobbe med Pandas på maskinen din, må du importere Pandas-biblioteket. Hvis du er på jakt etter en tungvektsløsning, kan du laste ned Anaconda Python Distribution, som har Pandas innebygd. Hvis du ikke bruker Anaconda, er Pandas enkelt å installere i terminalen.

Pandas er en PyPI-pakke, som betyr at du kan installere ved hjelp av PIP for Python via kommandolinjen. Moderne Mac-systemer leveres med PIP. For andre Windows, Linux og eldre systemer er det enkelt å lære seg hvordan du installerer PIP for Python Hvordan installere Python PIP på Windows, Mac og Linux Hvordan installere Python PIP på Windows, Mac og Linux Mange Python-utviklere er avhengige av et verktøy kalt PIP for Python for å gjøre alt enklere og raskere. Slik installerer du Python PIP. Les mer .

Når du har åpnet terminalen din, kan den nyeste versjonen av Pandas installeres ved å bruke kommandoen:

 >> pip install pandas 

Pandas krever også NumPy-biblioteket, la oss også installere dette på kommandolinjen:

 >> pip install numpy 

Du har nå Pandas installert og klar til å lage din første DataFrame!

Prepping av Excel-data

For dette eksempelet, la oss bruke et eksempeldatasett: en Excel-arbeidsbok med tittelen Cars.xlsx .

Excel-tabell for Python-pandaer

Dette datasettet viser merke, modell, farge og årstall på biler som er lagt inn i tabellen. Tabellen vises som et Excel-område. Pandas er smart nok til å lese dataene på riktig måte.

Denne arbeidsboken er lagret i Desktop-katalogen, her er filstien som brukes:

 /Users/grant/Desktop/Cars.xlsx 

Du må kjenne filstien til arbeidsboken for å bruke Pandaer. La oss begynne med å åpne Visual Studio Code for å skrive manuset. Hvis du ikke har en tekstredigerer, anbefaler vi enten Visual Studio Code eller Atom Editor Visual Studio Code vs. Atom: Hvilken tekstredigerer er riktig for deg? Visual Studio Code vs. Atom: Hvilken tekstredigerer er riktig for deg? Ser du etter en gratis og åpen kildekodeeditor? Visual Studio Code og Atom er de to sterkeste kandidatene. Les mer .

Skrive Python-manuset

Nå som du har valgt tekstredigerer, begynner den virkelige moroa. Vi kommer til å samle Python og vår arbeidsbok for Cars for å lage en Pandas DataFrame.

Importerer Python-bibliotekene

Åpne teksteditoren din og lag en ny Python-fil. La oss kalle det Script.py .

For å jobbe med Pandas i skriptet ditt, må du importere det til koden din. Dette gjøres med en kodelinje:

 import pandas as pd 

Her laster vi Pandas-biblioteket og knytter det til en variabel "pd". Du kan bruke hvilket som helst navn du ønsker, vi bruker “pd” som kort for Pandaer.

For å jobbe med Excel ved hjelp av Pandas, trenger du et tilleggsobjekt som heter ExcelFile . ExcelFile er innebygd i Pandas-økosystemet, så du importerer direkte fra Pandas:

 from pandas import ExcelFile 

Arbeide med filstien

For å gi Pandas tilgang til arbeidsboken din, må du rette skriptet til filens plassering. Den enkleste måten å gjøre dette på er å gi skriptet hele veien til arbeidsboken.

Husk banen vår i dette eksemplet: /Users/grant/Desktop/Cars.xlsx

Du trenger denne filstien som er referert til i skriptet ditt for å trekke ut dataene. I stedet for å henvise til banen inni Read_Excel-funksjonen, må du holde koden ren ved å lagre banen i en variabel:

 Cars_Path = '/Users/grant/Desktop/Cars.xlsx' 

Du er nå klar til å trekke ut dataene ved hjelp av en Pandas-funksjon!

Pakk ut Excel-data ved hjelp av Pandas.Read_Excel ()

Med Pandas importert og banevariabelen din kan du nå bruke funksjoner i Pandas-objektet for å utføre oppgaven vår.

Funksjonen du trenger å bruke heter passende Read_Excel . Read_Excel-funksjonen tar filstien til en Excel-arbeidsbok og returnerer et DataFrame-objekt med innholdet i arbeidsboka. Pandaer koder denne funksjonen som:

 pandas.read_excel(path) 

"Stien" -argumentet kommer til å være banen til Cars.xlsx-arbeidsboka, og vi har allerede satt banestrengen til variabelen Cars_Path.

Du er klar til å opprette DataFrame-objektet! La oss sette det hele sammen og sette DataFrame-objektet til en variabel som heter "DF":

 DF = pd.read_excel(Cars_Path) 

Til slutt vil du vise DataFrame, så la oss skrive ut resultatet. Legg til en utskriftserklæring på slutten av skriptet ditt, og bruker variabelen DataFrame som argument:

 print(DF) 

På tide å kjøre skriptet i terminalen din!

Kjører Python Script

Åpne terminalen eller kommandolinjen, og naviger til katalogen som inneholder skriptet. I dette tilfellet har jeg “Script.py” plassert på skrivebordet. For å utføre skriptet, bruk python-kommandoen etterfulgt av skriptfilen:

Python-manus i terminal

Python vil trekke dataene fra “Cars.xlsx” inn i din nye DataFrame, og skrive ut DataFrame til terminalen!

Python DataFrame In Terminal

En nærmere titt på DataFrame-objektet

Ved første øyekast ser DataFrame veldig lik en vanlig Excel-tabell. Pandas DataFrames er enkle å tolke som et resultat.

Overskriftene dine er merket øverst i datasettet, og Python har fylt ut radene med all informasjonen din lest fra “Cars.xlsx” arbeidsbok.

Legg merke til den venstre kolonnen, en indeks som starter på 0 og nummererer kolonnene. Pandas vil bruke denne indeksen på DataFrame som standard, noe som kan være nyttig i noen tilfeller. Hvis du ikke vil at denne indeksen skal genereres, kan du legge til et ekstra argument i koden:

 DF = pd.read_excel(Cars_Path, index=False) 

Hvis du setter argumentet "indeks" til usann, vil du fjerne indekskolonnen, og bare ha Excel-dataene dine.

Gjør du mer med Python

Nå som du har muligheten til å lese data fra Excel-regneark, kan du bruke Python-programmering uansett hva du velger. Å jobbe med Pandas er en enkel måte for erfarne Python-programmerere å jobbe med data lagret i Excel-arbeidsbøker.

Det enkle Python kan brukes til å analysere og manipulere data er en av de mange grunnene til at Python er fremtidens programmeringsspråk 6 grunner til at Python er fremtidens programmeringsspråk 6 grunner til at Python er fremtidens programmeringsspråk Vil du lære eller utvide programmeringsferdighetene dine? Her er grunnen til at Python er det beste programmeringsspråket å lære i år. Les mer .

Bildekreditt: Rawpixel / Depositphotos

Utforsk mer om: Dataanalyse, Microsoft Excel, Python, Scripting.