Alura > Cursos de Data Science > Cursos de Engenharia de Dados > Conteúdos de Engenharia de Dados > Primeiras aulas do curso Governança de dados: usando metadados para compreender dados

Governança de dados: usando metadados para compreender dados

O que são metadados - Apresentação

Olá! Sou o Pedro Moura e serei seu instrutor neste curso sobre Metadados!

Audiodescrição: Pedro é uma pessoa de pele clara, olhos e cabelos castanhos escuros e cabelo bastante curto. Usa óculos de grau quadrados e uma camiseta verde-escura básica. Ao fundo, um ambiente iluminado por uma luz esverdeada, com armários e mesas com enfeites e decorações.

Este curso é voltado para pessoas que desejam saber mais sobre a disciplina de governança de dados.

Vamos aprender o que são metadados, quais são os tipos de metadados e para que eles servem.

Além disso, vamos aprender a gerir metadados na prática com a linguagem de programação Python.

Por isso, recomendamos que você tenha conhecimentos básicos em Python e manipulação de dados.

Então, vamos aprender sobre metadados?!

O que são metadados - Trabalhando com dados de um laboratório de pesquisa

Para este curso, vamos imaginar um cenário em que somos responsáveis pelo Laboratório de Tecnologia da Informação de uma universidade. Nosso principal papel é receber dados de diversas pessoas pesquisadoras e professoras dessa universidade e trazê-los para dentro do laboratório, garantindo que eles sejam facilmente encontrados, acessados e interpretados pelas pessoas pesquisadoras que vão utilizá-los em suas pesquisas e trabalhos acadêmicos.

Mas, o que isso tem a ver com metadados, objeto central do nosso curso?

Vamos entender de forma mais prática. Para isso, vamos para o nosso ambiente de desenvolvimento.

Subindo os dados para o Colab

Para este curso, usaremos o Google Colaboratory como ambiente de desenvolvimento, porque ele nos permite trabalhar com dados de forma interativa, utilizando a linguagem Python, sem a necessidade de grandes configurações.

Na atividade Preparando o Ambiente desta aula, você encontrará a versão de um arquivo do Colab (também chamado de notebook) com as instruções que vamos seguir ao longo do curso, onde colocaremos nossos códigos a cada aula. Você também encontrara alguns outros arquivos importantes para o desenvolvimento do nosso projeto.

Já com o nosso notebook do curso de metadados aberto, a primeira coisa que precisamos fazer é trazer os dados que vamos usar no decorrer do curso para esse arquivo.

Para isso, vamos expandir aba "Arquivos" no menu lateral de ferramentas, à esquerda da tela. Aberta a aba de arquivos, vamos clicar no primeiro ícone no canto superior esquerdo, "Fazer upload para o armazenamento da sessão".

Quando trabalhamos com o Google Colaboratory, utilizamos o espaço de armazenamento da nuvem do Google, e por isso não trabalhamos com arquivos de forma permanente. Dessa forma, toda vez que você abrir o Colab ou interromper o seu funcionamento, será necessário subir novamente os dados. Mas não se preocupe, porque eles não são muito pesados, então isso não será um problema!

Aberto o explorador de arquivos da máquina, vamos selecionar os três arquivos com que trabalharemos nesse curso (e que você deve ter baixado na sua máquina na atividade Preparando o Ambiente):

Com os três selecionados, clicamos em "Abrir".

Com isso, o upload dos nossos dados para o nosso ambiente de desenvolvimento será feito. Assim que esse processo acabar, vamos poder interagir com esses dados por meio de código.

Antes de seguir adiante, vamos voltar para a questão que nos trouxe até aqui: o que metadados têm a ver com esse trabalho que vamos desenvolver no laboratório? Vamos descobrir no próximo vídeo!

O que são metadados - Para que metadados existem

No último vídeo, entendemos qual será a nossa preocupação durante o curso como responsáveis de TI de um laboratório de uma faculdade. Nosso principal objetivo é garantir que os dados utilizados pelas pessoas pesquisadoras dentro do laboratório serão facilmente encontrados e acessíveis. A pergunta que ficou para ser respondida neste vídeo é: o que esse objetivo tem a ver com metadados?

Para abordar isso de uma forma um pouco mais prática, primeiro vamos analisar um conjunto de dados sem nenhum metadado. Para isso, vamos ao código.

Subindo nossos dados no Colab

A primeira coisa que faremos no código será importar a biblioteca Pandas, que será usada para manipularmos os dados. Para isso, escrevemos o seguinte código na primeira célula do nosso notebook:

# Importando bibliotecas

import pandas as pd

Para rodar a linha de código, pressionamos "Enter".

Feito isso, vamos trabalhar primeiramente com o nosso arquivo PARQUET. Vamos usar o seguinte código para lê-lo: df = pd.read_parque(). Entre os parênteses, precisamos passar o caminho do nosso arquivo entre aspas simples.

Isso é algo bastante simples de fazer no Google Colab. Basta retornar à aba de Arquivos no canto esquerdo e, passando o cursor por cima do arquivo desejado (results.parquet), clicaremos no menu de três pontos à direita do nome do arquivo. Depois clicamos em "Copiar caminho".

Com isso, trouxemos para a nossa área de transferência o caminho para o nosso arquivo dentro dessa sessão. Dessa forma, garantimos que não teremos problemas em relação a caminhos. Vamos colar essa informação entre os parênteses e aspas usando o atalho "Ctrl + V".

# Lendo o arquivo PARQUET

df = pd.read_parquet('/content/results.parquet')

Podemos executar o código acima para atribuir nossos dados ao dataframe df.

Dataframe sem metadados

Antes de consultar esses dados, vamos retirar toda a informação de metadados deles. Para isso, atribuímos a df.columns um array de sete aspas vazias, separadas por vírgulas:

# Removendo os nomes das colunas do dataframe

df.columns = ['','','','','','','']

Com o código acima, zeramos as colunas do nosso dataframe, porque isso também é uma informação de metadado.

Também vamos remover o índice das linhas do nosso dataframe. Para isso, executamos:

# Removendo o índice das linhas do dataframe

df.head(15).style.hide(axis='index')

Rodando o código acima, visualizamos os dados sem os seus metadados no dataframe:

Resultado (parcialmente transcrito)

.......
20122012-03-10 05:00:00+00:00Gamba OsakaVissel Kobe23A
20122012-03-10 05:00:00+00:00Sanfrecce HiroshimaUrawa Reds10H
20122012-03-10 05:00:00+00:00Nagoya GrampusShimizu S-Pulse10H
20122012-03-10 05:00:00+00:00Sagan TosuCerezo Osaka00D
20122012-03-10 05:00:00+00:00Hokkaido Consadole SapporoIwata00D
.....................

É difícil entender do que se tratam esses dados sem uma referência. A primeira coluna parece ser de ano, porque temos um número inteiro, 2012, repetido muitas vezes. Logo depois temos o que parece ser uma data exata com hora.

Depois temos duas colunas bastante interessantes. Elas são strings (cadeias de caracteres), ou seja, são informações de texto. Temos várias informações que, a princípio, não dizem nada para nós. O que conseguimos identificar é que elas parecem ter alguma relação com cidades do Japão, porque temos Osaka, Hiroshima, Tóquio, Yokohama, Kawasaki, etc.

Depois temos duas colunas com números, dessa vez números baixos, que também podem ser zero. A última coluna tem algumas letras e parece que elas se repetem bastante. variando entre A, H e D.

Temos os dados, de fato, eles estão no nosso ambiente de desenvolvimento, mas não conseguimos dizer nada sobre eles sem os metadados.

Isso nos diz muito sobre a função dos metadados: são informações que nos ajudam a interpretar os dados com que estamos trabalhando.

No próximo vídeo, vamos explorar isso mais a fundo e entender o que são metadados, afinal.

Sobre o curso Governança de dados: usando metadados para compreender dados

O curso Governança de dados: usando metadados para compreender dados possui 89 minutos de vídeos, em um total de 43 atividades. Gostou? Conheça nossos outros cursos de Engenharia de Dados em Data Science, ou leia nossos artigos de Data Science.

Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:

Aprenda Engenharia de Dados acessando integralmente esse e outros cursos, comece hoje!

Conheça os Planos para Empresas