Pandas Python: o que é, para que serve e como instalar

Pandas Python: o que é, para que serve e como instalar
Marcus Almeida
Marcus Almeida

Compartilhe

Introdução

A Ciência de Dados é um ramo que vem ganhando cada vez mais notoriedade, várias empresas de pequeno a grande porte, como a Netflix, Airbnb e Google já possuem atividades de tomada de decisão baseadas em dados. Nesse cenário, a linguagem Python é bastante utilizada devido a sua versatilidade e simplicidade, contando com uma vasta quantidade de bibliotecas, e entre elas, o Pandas, uma das ferramentas essenciais quando se fala em Ciência de Dados.

Neste artigo, vamos conhecer a biblioteca Pandas, entender sobre as suas estruturas básicas, e também como instalar a ferramenta.

Mas o que exatamente é Pandas?

Gif animado de um urso panda rolando ladeira abaixo sobre um gramado enquanto está abraçado a um objeto. No centro inferior da imagem, o texto “Vamos lá”. Banner da promoção da black friday, com os dizeres: A Black Friday Alura está chegando. Faça parte da Lista VIP, receba o maior desconto do ano em primeira mão e garanta bônus exclusivos. Quero ser VIP

O que é Pandas?

Logotipo da biblioteca Pandas.

Pandas é uma biblioteca para Ciência de Dados de código aberto (open source), construída sobre a linguagem Python, e que providencia uma abordagem rápida e flexível, com estruturas robustas para se trabalhar com dados relacionais (ou rotulados), e tudo isso de maneira simples e intuitiva.

Apesar do nome da biblioteca ser associado ao mamífero da família de ursos, tal qual o Python é associado com a espécie de cobra erroneamente, o nome da biblioteca Pandas é derivado do termo Panel Data, um conceito em inglês relacionado ao campo de estudo da econometria.

De maneira geral, o Pandas pode ser utilizado para várias atividades e processos, entre eles: limpeza e tratamento de dados, análise exploratória de dados (EDA), suporte em atividades de Machine Learning, consultas e queries em bancos de dados relacionais, visualização de dados, webscraping e muito mais. E além disso, também possui ótima integração com várias outras bibliotecas muito utilizadas em Ciência de Dados, tais como: Numpy, Scikit-Learn, Seaborn, Altair, Matplotlib, Plotly, Scipy e outros.

Como funciona o Pandas?

Dentro do pacote Pandas, temos dois objetos primários importantes: as Series e os DataFrames. E para entender um pouco melhor sobre essas estruturas, vamos utilizar como exemplo um conjunto de dados chamado Iris, que traz algumas informações a respeito de características de espécies das flores de Íris.

Series

As Series são objetos de tipo array unidimensional, com um eixo de rótulos, também chamado de index, que é responsável por identificar cada registro. Um exemplo de Series no Pandas é encontrado no dataset Iris quando isolamos uma das variáveis para exibição, por exemplo o comprimento da pétala (PetalLengthCm), onde podemos observar o seguinte formato:

0      1.4
1      1.4
2      1.3
3      1.5
4      1.4
      ... 
145    5.2
146    5.0
147    5.2
148    5.4
149    5.1
Name: PetalLengthCm, Length: 150, dtype: float64

A coluna de números antes dos espaços à esquerda é o index, e os dados são apresentados à direita. No final da apresentação, há uma pequena descrição de nome, formato e tipo de dados presentes na Series.

DataFrame

Os DataFrames são objetos bidimensionais, de tamanho variável. O seu formato é de uma tabela, onde os dados são organizados em linhas e colunas. Além disso, enquanto podemos pensar a Series como uma única coluna, o DataFrame seria uma união de várias Series sob um mesmo index. A estrutura do DataFrame é apresentada na seguinte imagem:

Tabela com informações do dataset Iris. Na imagem, é possível observar as colunas de índice, e as características numéricas: SepalLengthCm, SepalWidthCm, PetalLengthCm e PetalWidthCme, e a última coluna, Species, com dados categóricos.

Nós podemos trabalhar com a criação de cada uma dessas estruturas usando os métodos do Pandas (pandas.DataFrame e pandas.Series) sobre estruturas nativas do Python (como listas, arrays e dicionários). Também podemos trabalhar com a leitura e escrita de vários tipos de arquivos de dados, tais como:

Pandas e o Excel

Logotipos da biblioteca pandas e do software Microsoft Office Excel, em um fundo verde, unidos por um sinal em preto de adição.

Devido a adesão do mercado ao pacote Office da Microsoft, que oferece o editor de planilhas Excel, surgem discussões de porque utilizar o Pandas. Existem diferenças na proposta de cada software. Além do Pandas ser uma solução de código aberto e não proprietária, ao contrário do Excel, também é possível observar diferenças na quantidade de informação que cada um pode portar.

No Excel, o limite de construção das tabelas é de 1.048.576 linhas por 16.384 colunas. Já no Pandas, a limitação é baseada na quantidade de memória disponível, então podemos ter uma grande variedade de linhas e colunas desde que a memória alocada não ultrapasse a quantidade disponível na sua máquina.

Conhecer os limites de cada ferramenta passa a ser interessante quando surge a necessidade de trabalhar com ambientes com maior quantidade de dados, e até mesmo em casos extremos, que ultrapassam facilmente os milhões de registros, como o cenário de Big Data.

Mas, ao mesmo tempo que esses softwares apresentam propostas diferentes, eles também podem ser trabalhados de maneira conjunta, já que o Pandas oferece compatibilidade com os arquivos do Excel, tanto em criação, em leitura, como também em escrita.

Como o Pandas é utilizado?

No dia a dia de um cientista de Dados, o Pandas é bastante utilizado em conjunto a notebooks interativos Python (arquivos com extensão .ipynb), tais como o Jupyter Notebook, no qual o Google Colab também é baseado. A ideia principal é aproveitar a boa apresentação do código e as suas saídas, explorando a praticidade do modo interativo, enquanto se escreve código e já observa prontamente a sua saída, conforme a seguinte imagem:

Captura de tela do Jupyter Notebook com o arquivo nomeado “Artigo Pandas” aberto, exibindo um código de entrada em “In [1]” e sua saída em “Out [1]”. Também é possível ver uma segunda entrada de código em “In [2]”. No código, na primeira célula, são mostradas as 5 primeiras linhas do Dataset Iris, e na segunda, é exibida a Series da variável PetalLengthCm.

Além dos Jupyter Notebooks, também é possível trabalhar com scripts Python comuns (arquivos .py). A diferença é que a saída de todos os fragmentos de código é colocada no terminal sem distinção, uma após a outra, e em formato raw (cru). O exemplo abaixo mostra como seria a mesma saída, em um script equivalente, no terminal:

Captura de tela exibindo o terminal, em fundo preto, com letras brancas. No topo centralizado, temos o caminho que leva até a pasta que possui o script artigo_pandas.py, e utilizamos o comando “python artigo_pandas.py”. Abaixo da primeira linha, é mostrada a saída do código, mostrando as primeiras linhas do dataset Iris e a variável PetalLengthCm, com texto monoespaçado.

Nesse episódio do Hipsters Ponto Tube, a cientista de dados Mikaeri Ohana conversa com o Paulo Silveira, CEO da Alura, sobre como uma pessoa Cientista de Dados utiliza a ferramenta Jupyter Notebook no dia a dia.

Instalação do Pandas

A maneira mais fácil e simples de instalar, segundo a própria documentação do Pandas, é instalando a distribuição do Anaconda.

Logotipo do Anaconda.

O Anaconda é um ambiente de desenvolvimento voltado para Ciência de Dados com Python e R, que trás instaladas várias bibliotecas e softwares de uso popular no ramo. Dentre as bibliotecas instaladas, temos também o Pandas. Você pode aprender como instalar o Anaconda no Windows através da documentação oficial do Anaconda.

Uma outra maneira comum de instalar o Pandas é utilizando o PIP, o sistema de gerenciamento de pacotes do Python.

Desde que você tenha feito o download do Python a partir do site oficial, podemos utilizar o seguinte procedimento:

Atenção: Caso você tenha mais de um disco rígido na sua máquina, é preciso garantir que a instalação está sendo feita no mesmo disco onde o Python foi instalado.

1) Para começar, devemos abrir o Prompt de Comando do seu sistema operacional. No Windows, pressione as teclas de atalho Windows + R, digite “Prompt de Comando”, e clique na opção “Executar como administrador”:

Captura de tela em recorte. Na imagem, é mostrado o buscador do Windows com o texto “Prompt de Comando” no campo de busca no canto superior. Na lateral direita, é mostrado um quadro com o aplicativo do Prompt de Comando, onde aparecem as opções “Abrir”, “Executar como administrador”, “Abrir local do arquivo”, “Fixar em iniciar” e “Fixar na barra de tarefas”. A segunda opção, “Executar como administrador” é destacada com um quadro retangular vermelho.

2) O Prompt de Comando será aberto e surgirá a tela preta do terminal. Nesse momento, podemos verificar a versão do Python instalada na máquina com o comando python --version e garantir que podemos continuar:

python --version
Python 3.9.7

3) Caso você ainda não tenha o PIP instalado na máquina, pode instalá-lo utilizando um módulo nativo do Python para isso, com o comando:

python -m ensurepip --upgrade

4) E, agora que já temos o PIP instalado na máquina, podemos utilizá-lo para instalar o Pandas, com o comando:

pip install pandas

5) Pronto, agora nós já temos o Pandas instalado na máquina.

Conclusão

Se você deseja mergulhar ainda mais nos conteúdos de Pandas e Ciência de Dados, aqui na Alura nós temos a Formação Python para Data Science. A formação aborda as principais ferramentas utilizadas em Ciência de Dados com Python, tais como Pandas, Numpy, Matplotlib, Seaborn, e muito mais. Nela, construímos vários projetos práticos para compor o seu portfólio como profissional de dados.

E se você já deu seus primeiros passos nessa ferramenta, te convidamos a participar dos Challenges de Data Science. Neles, você pode trabalhar na construção de um portfólio de projetos, desenvolvendo habilidades em limpeza, tratamento e visualização de dados, e também competências em Machine Learning.


Créditos:

Conteúdo: Marcus Almeida

Produção técnica: Rodrigo Dias

Produção didática: Thaís de Faria

Designer gráfico: Alysson Manso

Marcus Almeida
Marcus Almeida

Bacharelando em Engenharia Elétrica pelo Instituto Federal do Maranhão. Atuou como parte do Scuba Team da Escola de Dados na Alura, trabalhando com conteúdos voltados a Data Science, Machine Learning, Python e SQL. Adora conversar tecnologia, universo geek, games e também aprender coisas novas.

Veja outros artigos sobre Data Science