Python -funktionen pandas DataFrame.describe() används för att generera en statistisk sammanfattning av de numeriska kolumnerna i en DataFrame. Denna sammanfattning innehåller viktiga statistiska mått som medelvärde, standardavvikelse, minimum, maximum och olika percentiler.

Vad är syntaxen för pandas describe() -funktion?

Den grundläggande syntaxen för describe() för DataFrames är enkel. Den ser ut så här:

DataFrame.describe(percentiles=None, include=None, exclude=None)
python

Viktiga parametrar för pandas DataFrame.describe()

Med hjälp av följande parametrar kan du justera utgången på describe():

Parameter Beskrivning Standardvärde
percentiles Listar de percentiler som ska inkluderas i sammanfattningen. [.25, .5, .75]
include Anger vilka datatyper som ska inkluderas i beskrivningen; möjliga värden är numpy.number, numpy.object, all eller None. None
exclude Anger vilka datatyper som ska uteslutas från beskrivningen; fungerar som parametern include. None

Exempel på hur man använder pandas describe()

Om du behöver en snabb översikt över de viktigaste statistiska måtten för en dataset är funktionen pandas DataFrame.describe() extremt användbar.

Exempel 1: Statistisk sammanfattning av numeriska data

I följande exempel tittar vi på DataFrame df, som innehåller olika typer av försäljningsdata.

import pandas as pd
import numpy as np
# Example DataFrame with sales data
data = {
    'Product': ['A', 'B', 'C', 'D', 'E'],
    'Quantity': [10, 20, 15, 5, 30],
    'Price': [100, 150, 200, 80, 120],
    'Revenue': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)
python

Nu kan du använda pandas describe() för att få en statistisk sammanfattning av de numeriska uppgifterna i kolumnerna:

summary = df.describe()
print(summary)
python

Resultatet av funktionen pandas DataFrame.describe() är följande:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
25%    10.000000  100.000000  1000.000000
50%    15.000000  120.000000  3000.000000
75%    20.000000  150.000000  3000.000000
max    30.000000  200.000000  3600.000000

De viktigaste mätvärdena som visas i resultatet är:

  • count: Antal icke-NaN-poster (Not a Number)
  • mean: Genomsnittet av värdena (även tillgängligt via DataFrame.mean())
  • std: Standardavvikelsen för värdena
  • min, 25%, 50%, 75%, max: Minsta, 25:e percentilen, median (50:e percentilen), 75:e percentilen och maximala värden

Exempel 2: Anpassa percentiler

Du kan anpassa percentilerna i pandas DataFrame.describe() -utdata med parametern percentiles:

# Statistical summary with custom percentiles
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)
python

Detta funktionsanrop ger följande utdata:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
10%     7.000000   88.000000   640.000000
50%    15.000000  120.000000  3000.000000
90%    26.000000  180.000000  3360.000000
max    30.000000  200.000000  3600.000000

I resultatet ingår 10%, 50 % och 90 % istället för de standardprocentvärden som anges i föregående exempel.

Gå till huvudmeny