Operações estatíticas com a biblioteca Pandas
O Pandas é uma das bibliotecas mais poderosas do Python para manipulação e análise de dados. Ele oferece diversas funções estatísticas prontas, que permitem entender melhor os seus dados sem precisar de cálculos manuais ou uso de planilhas.
Nesta postagem, vamos explorar as principais operações estatísticas que você pode realizar com o Pandas.
Importando a biblioteca Pandas:
import pandas as pd
Criando um DataFrame.
Antes de começar, precisamos criar um pequeno conjunto de dados (DataFrame):
dados = pd.DataFrame(
{ "idade": [23, 25, 31, 35, 40, 29, 23, 37, 41, 30],
"salario": [2500, 2700, 3200, 4000, 5000, 3100, 2600, 4500, 5200, 3300],
"departamento": ["RH", "RH", "TI", "TI", "Financeiro", "TI", "RH", "Financeiro", "Financeiro", "TI"] }
)
print(dados)
idade salario departamento
0 23 2500 RH
1 25 2700 RH
2 31 3200 TI
3 35 4000 TI
4 40 5000 Financeiro
5 29 3100 TI
6 23 2600 RH
7 37 4500 Financeiro
8 41 5200 Financeiro
9 30 3300 TI
Estatísticas Descritivas
Com o método describe(), é possível visualizar rapidamente algumas medidas de posição e dispersão:
print(dados.describe())
# count: quantidade de observações
# mean: média aritmética
# std: desvio padrão
# min: valor menos
# 25%: primeiro quartil
# 50%: segundo quartil ou mediana
# 75%: terceiro quartil
# max: valor máximo
idade salario
count 10.000000 10.000000
mean 31.400000 3610.000000
std 6.669999 1000.499875
min 23.000000 2500.000000
25% 26.000000 2800.000000
50% 30.500000 3250.000000
75% 36.500000 4375.000000
max 41.000000 5200.000000
Medidas de Tendência Central
Essas medidas ajudam a entender o comportamento médio dos dados:
# Média → soma de todos os valores dividida pela quantidade.
print("Média:", dados["idade"].mean())
# Mediana → valor central da amostra ordenada.
print("Mediana:", dados["idade"].median())
# Moda → valor mais frequente.
print("Moda:", dados["idade"].mode().values[0])
Média: 31.4
Mediana: 30.5
Moda: 23
Medidas de Dispersão
Essas medidas indicam o quanto os dados estão espalhados:
Quanto maior o desvio padrão, mais os valores se afastam da média.
# Desvio padrão:
print("Desvio padrão:", dados["salario"].std())
# Variância:
print("Variância:", dados["salario"].var())
Desvio padrão: 1000.499875062461
Variância: 1001000.0
Estatísticas por Grupo
O método groupby() é essencial para comparar grupos dentro dos dados:
Esse exemplo mostra a média salarial por departamento, algo muito útil em relatórios corporativos e análises financeiras.
# Média de salário por departamento:
print(dados.groupby("departamento")["salario"].mean())
departamento
Financeiro 4900.0
RH 2600.0
TI 3400.0
Name: salario, dtype: float64
Correlação
Para verificar se duas variáveis estão relacionadas, usamos:
Uma correlação próxima de 1 indica relação positiva forte, enquanto próxima de -1 indica relação negativa.
# Correlação entre as variáveis idade e salário:
print(dados[["idade", "salario"]].corr())
idade salario
idade 1.00000 0.98335
salario 0.98335 1.00000
Frequência e Percentuais
Para entender a distribuição de categorias, use:
Esses comandos mostram a contagem e o percentual de cada departamento.
# Frequência:
print(dados["departamento"].value_counts())
# Percentual:
print(dados["departamento"].value_counts(normalize=True) * 100)
departamento
TI 4
RH 3
Financeiro 3
Name: count, dtype: int64
departamento
TI 40.0
RH 30.0
Financeiro 30.0
Name: proportion, dtype: float64
Conclusão
O Pandas facilita muito o trabalho com estatísticas em Python. Com poucos comandos, você pode obter informações valiosas sobre médias, dispersões, correlações e muito mais — tudo de forma rápida e intuitiva.
Essas ferramentas são a base para análises exploratórias, relatórios de negócios e até para preparar dados antes de aplicar algoritmos de machine learning. Muito obrigado e até a próxima.
Repositório de exemplo: https://github.com/jcarlossc/statistics-pandas

Comentários
Postar um comentário