Explorando a Biblioteca Pandas no Python
Seleção de dados: um Guia Prático para Iniciantes
A biblioteca Pandas é uma das ferramentas mais poderosas e populares da linguagem Python para análise e manipulação de dados. Criada por Wes McKinney, ela se tornou essencial para cientistas de dados, analistas e desenvolvedores que trabalham com grandes volumes de informações.
O Pandas (derivado de Panel Data) é uma biblioteca de código aberto voltada para trabalhar com dados estruturados, ou seja, dados organizados em tabelas.
Seleção de dados
A seleção de dados é uma das tarefas mais importantes no uso do Pandas, pois permite acessar informações de forma flexível. No Pandas, a seleção é feita principalmente por indexação (usando colchetes [] - operador de indexação), usando os métodos .loc (para rótulos) e .iloc (para índices numéricos), entre outras formas. Você pode selecionar colunas específicas, múltiplas colunas, linhas baseadas em condições ou por posição, e até subconjuntos que combinam linhas e colunas.
Seleção de colunas
# Selecionar uma única coluna.
dados['nome']
# Selecionar multiplas colunas.
dados[['nome', 'idade']]
Seleção por índices e posições com iloc
# Seleciona a primeira linha.
dados.iloc[0]
# Seleciona da 1ª à 3ª linha.
dados.iloc[0:3]
# Seleciona a primeira coluna.
dados.iloc[:, 0]
# Seleciona as duas primeiras colunas.
dados.iloc[:, 0:2]
# Seleciona elemento linha 2, coluna 3
dados.iloc[1, 2]
Seleção por rótulo(label) com loc
# Seleciona linhas com íntervalo de índices e nomes de colunas.
dados.loc[0:2, ['nome', 'cidade']]
# Definindo a coluna "name" como índice (rótulo das linhas).
dados_loc = pd.DataFrame(dados).set_index('nome')
# Seleciona uma linha pelo rótulo.
dados_loc.loc['Teresa']
# Seleciona uma linha pelo rótulo.
dados_loc.loc[['Carlos', 'Teresa']]
# Seleciona linha e coluna.
dados_loc.loc['Soares', 'salario']
# Seleciona linhas e colunas específicas.
dados_loc.loc['Soares':'Jose', ['idade', 'cidade']]
Seleção por valores nulos, não nulo ou duplicados
# Seleção por dados nulos.
dados[dados['idade'].isna()]
# Seleciona linhas sem valores nulos.
dados[dados['idade'].notna()]
# Seleciona valores duplicados.
dados[dados.duplicated('nome', keep=False)]
Seleção e ordenação de dados
# Seleciona e ordena por idade.
dados.sort_values('idade', ascending=True)
Seleção com amostragem e limites
# Seleciona as 3 primeiras linhas
dados.head(3)
# Seleciona as 2 últimas linhas.
dados.tail(2)
# Seleciona 2 linhas aleatórias.
dados.sample(2)
Seleção de célula única com .at[] e .iat[]
# Seleciona Valor da coluna da terceira linha.
dados.at[2, 'cidade']
# Seleciona o valor da terceira linha da terceira coluna.
dados.iat[2, 2]
Conclusão
O Pandas é muito mais do que uma simples biblioteca: ele é a espinha dorsal da análise de dados em Python. Com ele, é possível transformar dados brutos em informações valiosas em poucos minutos.
Se você deseja se aprofundar em ciência de dados, estatística ou machine learning, dominar o Pandas é um passo essencial. Muito obrigado e até a próxima.
Repositório de exemplo: https://github.com/jcarlossc/pandas-selection-features

Comentários
Postar um comentário