Vad är pandas DataFrame-metoden describe()?

Innehåll

Python -funktionen pandas DataFrame.describe() används för att generera en statistisk sammanfattning av de numeriska kolumnerna i en DataFrame. Denna sammanfattning innehåller viktiga statistiska mått som medelvärde, standardavvikelse, minimum, maximum och olika percentiler.

Vad är syntaxen för pandas `describe()` -funktion?

Den grundläggande syntaxen för describe() för DataFrames är enkel. Den ser ut så här:

DataFrame.describe(percentiles=None, include=None, exclude=None)

python

Viktiga parametrar för pandas `DataFrame.describe()`

Med hjälp av följande parametrar kan du justera utgången på describe():

Parameter	Beskrivning	Standardvärde
`percentiles`	Listar de percentiler som ska inkluderas i sammanfattningen.	`[.25, .5, .75]`
`include`	Anger vilka datatyper som ska inkluderas i beskrivningen; möjliga värden är `numpy.number`, `numpy.object`, `all` eller `None`.	`None`
`exclude`	Anger vilka datatyper som ska uteslutas från beskrivningen; fungerar som parametern `include`.	`None`

Exempel på hur man använder pandas `describe()`

Om du behöver en snabb översikt över de viktigaste statistiska måtten för en dataset är funktionen pandas DataFrame.describe() extremt användbar.

Exempel 1: Statistisk sammanfattning av numeriska data

I följande exempel tittar vi på DataFrame df, som innehåller olika typer av försäljningsdata.

import pandas as pd
import numpy as np
# Example DataFrame with sales data
data = {
    'Product': ['A', 'B', 'C', 'D', 'E'],
    'Quantity': [10, 20, 15, 5, 30],
    'Price': [100, 150, 200, 80, 120],
    'Revenue': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)

python

Nu kan du använda pandas describe() för att få en statistisk sammanfattning av de numeriska uppgifterna i kolumnerna:

summary = df.describe()
print(summary)

python

Resultatet av funktionen pandas DataFrame.describe() är följande:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
25%    10.000000  100.000000  1000.000000
50%    15.000000  120.000000  3000.000000
75%    20.000000  150.000000  3000.000000
max    30.000000  200.000000  3600.000000

De viktigaste mätvärdena som visas i resultatet är:

count: Antal icke-NaN-poster (Not a Number)
mean: Genomsnittet av värdena (även tillgängligt via DataFrame.mean())
std: Standardavvikelsen för värdena
min, 25%, 50%, 75%, max: Minsta, 25:e percentilen, median (50:e percentilen), 75:e percentilen och maximala värden

Exempel 2: Anpassa percentiler

Du kan anpassa percentilerna i pandas DataFrame.describe() -utdata med parametern percentiles:

# Statistical summary with custom percentiles
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)

python

Detta funktionsanrop ger följande utdata:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
10%     7.000000   88.000000   640.000000
50%    15.000000  120.000000  3000.000000
90%    26.000000  180.000000  3360.000000
max    30.000000  200.000000  3600.000000

I resultatet ingår 10%, 50 % och 90 % istället för de standardprocentvärden som anges i föregående exempel.

Relaterade artiklar

Hur man laddar filer i Python med pandas read_csv()

Python pandas read_csv() är en kraftfull funktion för att snabbt och effektivt komma åt innehållet i CSV-filer i Python. Funktionen är flexibel och erbjuder många parametrar så att du kan anpassa laddningsprocessen efter dina behov. Att förstå pandas read_csv() är viktigt för att…

Läs mer

Mr. Kosalshutterstock

Hur man indexerar pandas DataFrames

Pandas DataFrame-indexering är ett kraftfullt verktyg för effektiv och ändamålsenlig datahantering. Med olika metoder kan du rikta in dig på specifika data och delmängder i din DataFrame. I den här artikeln ska vi undersöka vad pandas DataFrame-index är, hur man får åtkomst till…

Läs mer

BEST-BACKGROUNDSShutterstock

Hur man rensar data i pandas med dropna()

Pandas-funktionen DataFrame.dropna() är ett kraftfullt verktyg för att rensa datamängder. Funktionen tar effektivt bort saknade värden och kan användas med olika parametrar, vilket gör det möjligt för programmerare att ange olika krav för datarensning. Lär dig mer om syntaxen,…

Läs mer

ESB Professionalshutterstock

Hur man använder Pandas DataFrame för att snabbt manipulera tabeller i Python

Pandas-modulen är ett av de mest kraftfulla verktygen för datahantering i Python. En av de centrala datastrukturerna i Pandas är DataFrame. DataFrames kan användas för att hantera tvådimensionella, strukturerade data på ett effektivt sätt. Vi förklarar datastrukturens uppbyggnad…

Läs mer

BEST-BACKGROUNDSShutterstock

Hur man loopar genom DataFrames med pandas iterrows()

Pandas DataFrame.iterrows() är en användbar funktion för att loopa igenom rader i en DataFrame, särskilt när du behöver bearbeta data rad för rad. Detta är särskilt användbart för beräkningar eller villkorslogik. I den här artikeln går vi igenom syntaxen för panda iterrows() och…

Läs mer

Vad är Python pandas-egenskapen iloc[]?

När man arbetar med DataFrames i Python pandas är inte alla rader eller kolumner i en DataFrame alltid relevanta för dataanalys. Pandas DataFrame-egenskapen iloc[] är ett användbart verktyg för att välja rader eller kolumner med hjälp av deras index. I den här artikeln tittar vi…

Läs mer

Vad är pandas DataFrame-metoden describe()?

Vad är syntaxen för pandas describe() -funktion?

Viktiga parametrar för pandas DataFrame.describe()

Exempel på hur man använder pandas describe()

Exempel 1: Statistisk sammanfattning av numeriska data

Exempel 2: Anpassa percentiler

Vad är syntaxen för pandas `describe()` -funktion?

Viktiga parametrar för pandas `DataFrame.describe()`

Exempel på hur man använder pandas `describe()`