- outubro 20, 2025

Explorando a Biblioteca Pandas no Python

Seleção de dados: um Guia Prático para Iniciantes

A biblioteca Pandas é uma das ferramentas mais poderosas e populares da linguagem Python para análise e manipulação de dados. Criada por Wes McKinney, ela se tornou essencial para cientistas de dados, analistas e desenvolvedores que trabalham com grandes volumes de informações.

O Pandas (derivado de Panel Data) é uma biblioteca de código aberto voltada para trabalhar com dados estruturados, ou seja, dados organizados em tabelas.

Seleção de dados

A seleção de dados é uma das tarefas mais importantes no uso do Pandas, pois permite acessar informações de forma flexível. No Pandas, a seleção é feita principalmente por indexação (usando colchetes [] - operador de indexação), usando os métodos .loc (para rótulos) e .iloc (para índices numéricos), entre outras formas. Você pode selecionar colunas específicas, múltiplas colunas, linhas baseadas em condições ou por posição, e até subconjuntos que combinam linhas e colunas.

Seleção de colunas


# Selecionar uma única coluna.
dados['nome']


# Selecionar multiplas colunas.
dados[['nome', 'idade']]

Seleção por índices e posições com iloc


# Seleciona a primeira linha.
dados.iloc[0]


# Seleciona da 1ª à 3ª linha.
dados.iloc[0:3]


# Seleciona a primeira coluna.
dados.iloc[:, 0]


# Seleciona as duas primeiras colunas.
dados.iloc[:, 0:2]


# Seleciona elemento linha 2, coluna 3
dados.iloc[1, 2]

Seleção por rótulo(label) com loc


# Seleciona linhas com íntervalo de índices e nomes de colunas.
dados.loc[0:2, ['nome', 'cidade']]


# Definindo a coluna "name" como índice (rótulo das linhas).
dados_loc = pd.DataFrame(dados).set_index('nome')


# Seleciona uma linha pelo rótulo.
dados_loc.loc['Teresa']


# Seleciona uma linha pelo rótulo.
dados_loc.loc[['Carlos', 'Teresa']]


# Seleciona linha e coluna.
dados_loc.loc['Soares', 'salario']


# Seleciona linhas e colunas específicas.
dados_loc.loc['Soares':'Jose', ['idade', 'cidade']]

Seleção por valores nulos, não nulo ou duplicados


# Seleção por dados nulos.
dados[dados['idade'].isna()]


# Seleciona linhas sem valores nulos.
dados[dados['idade'].notna()]


# Seleciona valores duplicados.
dados[dados.duplicated('nome', keep=False)]

Seleção e ordenação de dados


# Seleciona e ordena por idade.
dados.sort_values('idade', ascending=True)

Seleção com amostragem e limites


# Seleciona as 3 primeiras linhas
dados.head(3)


# Seleciona as 2 últimas linhas.
dados.tail(2)


# Seleciona 2 linhas aleatórias.
dados.sample(2)

Seleção de célula única com .at[] e .iat[]


# Seleciona Valor da coluna da terceira linha. 
dados.at[2, 'cidade']


# Seleciona o valor da terceira linha da terceira coluna.
dados.iat[2, 2]

Conclusão

O Pandas é muito mais do que uma simples biblioteca: ele é a espinha dorsal da análise de dados em Python. Com ele, é possível transformar dados brutos em informações valiosas em poucos minutos.

Se você deseja se aprofundar em ciência de dados, estatística ou machine learning, dominar o Pandas é um passo essencial. Muito obrigado e até a próxima.

Repositório de exemplo: https://github.com/jcarlossc/pandas-selection-features

Pesquisar este blog

Informaticus77 - Python