Python -funk­tio­nen pandas DataFrame.describe() används för att generera en sta­tis­tisk sam­man­fatt­ning av de numeriska ko­lum­ner­na i en DataFrame. Denna sam­man­fatt­ning in­ne­hål­ler viktiga sta­tis­tis­ka mått som me­del­vär­de, stan­dar­dav­vi­kel­se, minimum, maximum och olika per­cen­ti­ler.

Vad är syntaxen för pandas describe() -funktion?

Den grund­läg­gan­de syntaxen för describe() för Da­taFrames är enkel. Den ser ut så här:

DataFrame.describe(percentiles=None, include=None, exclude=None)
python

Viktiga pa­ra­met­rar för pandas DataFrame.describe()

Med hjälp av följande pa­ra­met­rar kan du justera utgången på describe():

Parameter Be­skriv­ning Stan­dard­vär­de
percentiles Listar de per­cen­ti­ler som ska in­klu­de­ras i sam­man­fatt­ning­en. [.25, .5, .75]
include Anger vilka datatyper som ska in­klu­de­ras i be­skriv­ning­en; möjliga värden är numpy.number, numpy.object, all eller None. None
exclude Anger vilka datatyper som ska uteslutas från be­skriv­ning­en; fungerar som pa­ra­me­tern include. None

Exempel på hur man använder pandas describe()

Om du behöver en snabb översikt över de vik­ti­gas­te sta­tis­tis­ka måtten för en dataset är funk­tio­nen pandas DataFrame.describe() extremt användbar.

Exempel 1: Sta­tis­tisk sam­man­fatt­ning av numeriska data

I följande exempel tittar vi på DataFrame df, som in­ne­hål­ler olika typer av för­sälj­nings­da­ta.

import pandas as pd
import numpy as np
# Example DataFrame with sales data
data = {
    'Product': ['A', 'B', 'C', 'D', 'E'],
    'Quantity': [10, 20, 15, 5, 30],
    'Price': [100, 150, 200, 80, 120],
    'Revenue': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)
python

Nu kan du använda pandas describe() för att få en sta­tis­tisk sam­man­fatt­ning av de numeriska upp­gif­ter­na i ko­lum­ner­na:

summary = df.describe()
print(summary)
python

Re­sul­ta­tet av funk­tio­nen pandas DataFrame.describe() är följande:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
25%    10.000000  100.000000  1000.000000
50%    15.000000  120.000000  3000.000000
75%    20.000000  150.000000  3000.000000
max    30.000000  200.000000  3600.000000

De vik­ti­gas­te mät­vär­de­na som visas i re­sul­ta­tet är:

  • count: Antal icke-NaN-poster (Not a Number)
  • mean: Ge­nom­snit­tet av värdena (även till­gäng­ligt via DataFrame.mean())
  • std: Stan­dar­dav­vi­kel­sen för värdena
  • min, 25%, 50%, 75%, max: Minsta, 25:e per­cen­ti­len, median (50:e per­cen­ti­len), 75:e per­cen­ti­len och maximala värden

Exempel 2: Anpassa per­cen­ti­ler

Du kan anpassa per­cen­ti­ler­na i pandas DataFrame.describe() -utdata med pa­ra­me­tern percentiles:

# Statistical summary with custom percentiles
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)
python

Detta funk­tions­an­rop ger följande utdata:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
10%     7.000000   88.000000   640.000000
50%    15.000000  120.000000  3000.000000
90%    26.000000  180.000000  3360.000000
max    30.000000  200.000000  3600.000000

I re­sul­ta­tet ingår 10%, 50 % och 90 % istället för de stan­dard­pro­cent­vär­den som anges i fö­re­gå­en­de exempel.

Gå till huvudmeny