Vad är pandas DataFrame-metoden describe()?
Python -funktionen pandas DataFrame.describe() används för att generera en statistisk sammanfattning av de numeriska kolumnerna i en DataFrame. Denna sammanfattning innehåller viktiga statistiska mått som medelvärde, standardavvikelse, minimum, maximum och olika percentiler.
Vad är syntaxen för pandas describe() -funktion?
Den grundläggande syntaxen för describe() för DataFrames är enkel. Den ser ut så här:
DataFrame.describe(percentiles=None, include=None, exclude=None)pythonViktiga parametrar för pandas DataFrame.describe()
Med hjälp av följande parametrar kan du justera utgången på describe():
| Parameter | Beskrivning | Standardvärde |
|---|---|---|
percentiles
|
Listar de percentiler som ska inkluderas i sammanfattningen. | [.25, .5, .75]
|
include
|
Anger vilka datatyper som ska inkluderas i beskrivningen; möjliga värden är numpy.number, numpy.object, all eller None.
|
None
|
exclude
|
Anger vilka datatyper som ska uteslutas från beskrivningen; fungerar som parametern include.
|
None
|
Exempel på hur man använder pandas describe()
Om du behöver en snabb översikt över de viktigaste statistiska måtten för en dataset är funktionen pandas DataFrame.describe() extremt användbar.
Exempel 1: Statistisk sammanfattning av numeriska data
I följande exempel tittar vi på DataFrame df, som innehåller olika typer av försäljningsdata.
import pandas as pd
import numpy as np
# Example DataFrame with sales data
data = {
'Product': ['A', 'B', 'C', 'D', 'E'],
'Quantity': [10, 20, 15, 5, 30],
'Price': [100, 150, 200, 80, 120],
'Revenue': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)pythonNu kan du använda pandas describe() för att få en statistisk sammanfattning av de numeriska uppgifterna i kolumnerna:
summary = df.describe()
print(summary)pythonResultatet av funktionen pandas DataFrame.describe() är följande:
Quantity Price Revenue
count 5.000000 5.000000 5.000000
mean 16.000000 130.000000 2200.000000
std 9.617692 46.904158 1407.124728
min 5.000000 80.000000 400.000000
25% 10.000000 100.000000 1000.000000
50% 15.000000 120.000000 3000.000000
75% 20.000000 150.000000 3000.000000
max 30.000000 200.000000 3600.000000De viktigaste mätvärdena som visas i resultatet är:
count: Antal icke-NaN-poster (Not a Number)mean: Genomsnittet av värdena (även tillgängligt via DataFrame.mean())std: Standardavvikelsen för värdenamin,25%,50%,75%,max: Minsta, 25:e percentilen, median (50:e percentilen), 75:e percentilen och maximala värden
Exempel 2: Anpassa percentiler
Du kan anpassa percentilerna i pandas DataFrame.describe() -utdata med parametern percentiles:
# Statistical summary with custom percentiles
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)pythonDetta funktionsanrop ger följande utdata:
Quantity Price Revenue
count 5.000000 5.000000 5.000000
mean 16.000000 130.000000 2200.000000
std 9.617692 46.904158 1407.124728
min 5.000000 80.000000 400.000000
10% 7.000000 88.000000 640.000000
50% 15.000000 120.000000 3000.000000
90% 26.000000 180.000000 3360.000000
max 30.000000 200.000000 3600.000000I resultatet ingår 10%, 50 % och 90 % istället för de standardprocentvärden som anges i föregående exempel.