Operações estatíticas com a biblioteca Pandas

O Pandas é uma das bibliotecas mais poderosas do Python para manipulação e análise de dados. Ele oferece diversas funções estatísticas prontas, que permitem entender melhor os seus dados sem precisar de cálculos manuais ou uso de planilhas.

Nesta postagem, vamos explorar as principais operações estatísticas que você pode realizar com o Pandas.


Importando a biblioteca Pandas:


import pandas as pd
        

Criando um DataFrame.

Antes de começar, precisamos criar um pequeno conjunto de dados (DataFrame):


dados = pd.DataFrame(
    { "idade": [23, 25, 31, 35, 40, 29, 23, 37, 41, 30], 
     "salario": [2500, 2700, 3200, 4000, 5000, 3100, 2600, 4500, 5200, 3300], 
     "departamento": ["RH", "RH", "TI", "TI", "Financeiro", "TI", "RH", "Financeiro", "Financeiro", "TI"] }
)
        


print(dados)

   idade  salario departamento
0     23     2500           RH
1     25     2700           RH
2     31     3200           TI
3     35     4000           TI
4     40     5000   Financeiro
5     29     3100           TI
6     23     2600           RH
7     37     4500   Financeiro
8     41     5200   Financeiro
9     30     3300           TI
        

Estatísticas Descritivas

Com o método describe(), é possível visualizar rapidamente algumas medidas de posição e dispersão:


print(dados.describe())

# count: quantidade de observações
# mean: média aritmética
# std: desvio padrão
# min: valor menos
# 25%: primeiro quartil
# 50%: segundo quartil ou mediana
# 75%: terceiro quartil
# max: valor máximo
        
           idade      salario
count  10.000000    10.000000
mean   31.400000  3610.000000
std     6.669999  1000.499875
min    23.000000  2500.000000
25%    26.000000  2800.000000
50%    30.500000  3250.000000
75%    36.500000  4375.000000
max    41.000000  5200.000000


Medidas de Tendência Central

Essas medidas ajudam a entender o comportamento médio dos dados:


# Média → soma de todos os valores dividida pela quantidade.
print("Média:", dados["idade"].mean()) 

# Mediana → valor central da amostra ordenada.
print("Mediana:", dados["idade"].median()) 

# Moda → valor mais frequente.
print("Moda:", dados["idade"].mode().values[0])

Média: 31.4
Mediana: 30.5
Moda: 23
        

Medidas de Dispersão

Essas medidas indicam o quanto os dados estão espalhados:

Quanto maior o desvio padrão, mais os valores se afastam da média.


# Desvio padrão:
print("Desvio padrão:", dados["salario"].std()) 

# Variância:
print("Variância:", dados["salario"].var())

Desvio padrão: 1000.499875062461
Variância: 1001000.0
        

Estatísticas por Grupo

O método groupby() é essencial para comparar grupos dentro dos dados:

Esse exemplo mostra a média salarial por departamento, algo muito útil em relatórios corporativos e análises financeiras.


# Média de salário por departamento:
print(dados.groupby("departamento")["salario"].mean())
        
departamento
Financeiro    4900.0
RH            2600.0
TI            3400.0
Name: salario, dtype: float64   


Correlação

Para verificar se duas variáveis estão relacionadas, usamos:

Uma correlação próxima de 1 indica relação positiva forte, enquanto próxima de -1 indica relação negativa.


# Correlação entre as variáveis idade e salário:
print(dados[["idade", "salario"]].corr())

           idade  salario
idade    1.00000  0.98335
salario  0.98335  1.00000


Frequência e Percentuais

Para entender a distribuição de categorias, use:

Esses comandos mostram a contagem e o percentual de cada departamento.


# Frequência:
print(dados["departamento"].value_counts())

# Percentual:
print(dados["departamento"].value_counts(normalize=True) * 100)

departamento
TI            4
RH            3
Financeiro    3
Name: count, dtype: int64

departamento
TI            40.0
RH            30.0
Financeiro    30.0
Name: proportion, dtype: float64


Conclusão

O Pandas facilita muito o trabalho com estatísticas em Python. Com poucos comandos, você pode obter informações valiosas sobre médias, dispersões, correlações e muito mais — tudo de forma rápida e intuitiva.

Essas ferramentas são a base para análises exploratórias, relatórios de negócios e até para preparar dados antes de aplicar algoritmos de machine learning. Muito obrigado e até a próxima.

Repositório de exemplo: https://github.com/jcarlossc/statistics-pandas

Comentários

Postagens mais visitadas deste blog