Explorando a Biblioteca Pandas no Python

Seleção de dados: um Guia Prático para Iniciantes

A biblioteca Pandas é uma das ferramentas mais poderosas e populares da linguagem Python para análise e manipulação de dados. Criada por Wes McKinney, ela se tornou essencial para cientistas de dados, analistas e desenvolvedores que trabalham com grandes volumes de informações.

O Pandas (derivado de Panel Data) é uma biblioteca de código aberto voltada para trabalhar com dados estruturados, ou seja, dados organizados em tabelas.


Seleção de dados

A seleção de dados é uma das tarefas mais importantes no uso do Pandas, pois permite acessar informações de forma flexível. No Pandas, a seleção é feita principalmente por indexação (usando colchetes [] - operador de indexação), usando os métodos .loc (para rótulos) e .iloc (para índices numéricos), entre outras formas. Você pode selecionar colunas específicas, múltiplas colunas, linhas baseadas em condições ou por posição, e até subconjuntos que combinam linhas e colunas.


Seleção de colunas


# Selecionar uma única coluna.
dados['nome']
        

# Selecionar multiplas colunas.
dados[['nome', 'idade']]
        

Seleção por índices e posições com iloc


# Seleciona a primeira linha.
dados.iloc[0] 
        

# Seleciona da 1ª à 3ª linha.
dados.iloc[0:3] 
        

# Seleciona a primeira coluna.
dados.iloc[:, 0]
        

# Seleciona as duas primeiras colunas.
dados.iloc[:, 0:2] 
        

# Seleciona elemento linha 2, coluna 3
dados.iloc[1, 2]     
        

Seleção por rótulo(label) com loc


# Seleciona linhas com íntervalo de índices e nomes de colunas.
dados.loc[0:2, ['nome', 'cidade']]      
        

# Definindo a coluna "name" como índice (rótulo das linhas).
dados_loc = pd.DataFrame(dados).set_index('nome')     
        

# Seleciona uma linha pelo rótulo.
dados_loc.loc['Teresa']  
        

# Seleciona uma linha pelo rótulo.
dados_loc.loc[['Carlos', 'Teresa']]
        

# Seleciona linha e coluna.
dados_loc.loc['Soares', 'salario']
        

# Seleciona linhas e colunas específicas.
dados_loc.loc['Soares':'Jose', ['idade', 'cidade']]
        

Seleção por valores nulos, não nulo ou duplicados


# Seleção por dados nulos.
dados[dados['idade'].isna()] 
        

# Seleciona linhas sem valores nulos.
dados[dados['idade'].notna()]
        

# Seleciona valores duplicados.
dados[dados.duplicated('nome', keep=False)]
        

Seleção e ordenação de dados


# Seleciona e ordena por idade.
dados.sort_values('idade', ascending=True)
        

Seleção com amostragem e limites


# Seleciona as 3 primeiras linhas
dados.head(3)
        

# Seleciona as 2 últimas linhas.
dados.tail(2) 
        

# Seleciona 2 linhas aleatórias.
dados.sample(2) 
        

Seleção de célula única com .at[] e .iat[]


# Seleciona Valor da coluna da terceira linha. 
dados.at[2, 'cidade']
        

# Seleciona o valor da terceira linha da terceira coluna.
dados.iat[2, 2]
        

Conclusão

O Pandas é muito mais do que uma simples biblioteca: ele é a espinha dorsal da análise de dados em Python. Com ele, é possível transformar dados brutos em informações valiosas em poucos minutos.

Se você deseja se aprofundar em ciência de dados, estatística ou machine learning, dominar o Pandas é um passo essencial. Muito obrigado e até a próxima.

Repositório de exemplo: https://github.com/jcarlossc/pandas-selection-features

Comentários

Postagens mais visitadas deste blog