O pandas é uma biblioteca do Python que dá a possibilidade de manipular séries e dataframes (vetores e matrizes) de forma muito mais eficiente. O pandas permite que operações que tomariam seu tempo e várias linhas de código sejam feitas em 1 ou 2 linhas.
Nesse artigo você encontra funcionalidades de uma ferramenta incrível do python. Se você quiser saber mais sobre outras ferramentas acesse nossos conteúdos gratuitos.
Importando o pandas no Python
Para importar o pandas é necessário instalar a biblioteca via pip:
pip install pandas
Após a instalação apenas importe:
import pandas as pd
Criando uma série simples
Uma série pode ser comparada a um vetor do python nativo. No entanto, ao declarar uma série você estará utilizando o pandas para controlar seus dados.
x = pd.Series([1,2,3,4,5])
Realizando operações em séries
Operações matemáticas simples
O pandas permite realizar operações em todos os elementos de uma série utilizando uma sintaxe bastante resumida:
print (x + 100)
Nesse caso o resultado seria:
0 101
1 102
2 103
3 104
4 105
Isso faz sentido, pois o pandas adicionou 100 a cada elemento da série
Operações booleanas
É possível ainda realizar operações booleanas em uma série e verificar o resultado para cada linha.
print (x > 2)
Nesse caso o resultado seria
0 False
1 False
2 True
3 True
4 True
Isso faz sentido, sabendo que os dois primeiros elementos (1,2) são realmente menores que 2. Para uma série de valores booleanos é possível verificar se todos os valores são TRUE pelo método all:
maior_que_2 = x > 2
maior_que_2.all()
ou se algum valor é TRUE:
maior_que_2.any()
Copiando uma série
Quando desejamos copiar uma série do pandas, é necessário recordar que estamos lidando com um objeto. Logo realizar uma operação simples de atribuição apenas criará uma cópia da referência. Sendo assim, se você deseja criar séries iguais em objetos diferentes.
y = x.copy()
Criando um dataframe
Resumidamente um dataframe é um conjunto de séries:
data = [1,2,3,4,5,6,7,8,9]
df= pd.DataFrame(data,columns=["x"])
Adicionando mais colunas
A adição de mais colunas a um dataframe é bastante simples e pode ser feita com uma operação de atribuição:
df["x_mais_2"] = df["x"] + 2
Removendo colunas
Para remover colunas utilize o método drop:
df = df.drop("x_mais_2",1)
Lendo arquivos CSV
Para ler arquivos CSV e transforma-los automaticamente em DataFrames utilize o método read_csv.
dataset = pd.read_csv('nome.csv')
Lembre-se de sempre acessar a documentação oficial da ferramenta. Isso é importante para você melhorar sua capacidade de leitura desse tipo de documento e também descobrir todas as suas funcionalidades.