Alura > Cursos de Data Science > Cursos de Engenharia de Dados > Conteúdos de Engenharia de Dados > Primeiras aulas do curso Governança de dados: mapeando a origem e o destino com linhagem de dados

Governança de dados: mapeando a origem e o destino com linhagem de dados

O que é linhagem de dados - Apresentação

Olá! Meu nome é Pedro Moura e serei seu instrutor neste curso sobre Linhagem de Dados.

Audiodescrição: Pedro é um homem de pele clara, olhos castanho-escuros e cabelo curto, também castanho-escuro. Usa um óculos de grau com armação quadrada e preta. Veste uma camiseta verde-escura básica. Ao fundo, um ambiente de iluminação verde com armários e uma mesa com livros e itens de decoração.

Este curto é ideal para quem busca aprender o que é a linhagem de dados, por que ela é importante e como aplicá-la no dia a dia da sua organização.

Mais especificamente, vamos discutir os tipos de linhagem de dados, como realizar a linhagem de dados na prática e quais os benefícios de uma organização ao praticar a linhagem de dados.

Para aproveitar melhor este curso, recomendamos que você tenha conhecimentos básicos sobre governança de dados, a grande área da qual a linhagem é uma disciplina.

Vamos lá?!

O que é linhagem de dados - Conhecendo a linhagem de dados

Imagine que estamos trabalhando em uma empresa de avaliação de ativos financeiros. Nossa principal atividade é coletar dados sobre esses ativos, analisá-los e recomendar ou não para nossos clientes.

Para fundos de investimento imobiliário, por exemplo, fazemos isso tanto usando dados internos quanto dados externos.

Para os Fundos de Investimento (FI), essa classe de ativos de investimento, utilizamos uma informação de preço por metro quadrado dos imóveis em todas as cidades do Brasil e a quantidade de vendas e compras de imóveis, uma base que obtemos a partir de cartórios de diversas regiões. Também precisamos considerar nossas análises anteriores desse ativo para concluir se vamos recomendá-lo ou não.

Essas três informações vão resultar em uma base que terá informações sobre um ativo e a nossa recomendação (ou não) para os diferentes perfis de investimento que temos dentro da empresa.

Mas o que isso tem a ver com a linhagem de dados? Tudo! A linhagem de dados, por definição, é a identificação e a gestão das origens e transformações que geram um novo ativo de dados.

Isso significa que, se tratarmos o processo do nosso projeto partindo da visão da linhagem de dados, teremos três origens:

Diagrama de banco de dados com três entidades nomeadas como 'Origem 1', 'Origem 2' e 'Origem 3'. Cada entidade possui duas colunas, denominadas 'PK' e 'UniqueID'. Abaixo dessas colunas, estão listadas três linhas, identificadas como 'Row 1', 'Row 2' e 'Row 3'. Cada entidade também possui um título de coluna específico: 'precos_de_imoveis_por_m2' na Origem 1, 'compras_e_vendas_de_imoveis' na Origem 2 e 'analises_anteriores' na Origem 3. O esquema é apresentado em estilização com linhas e retângulos sem preenchimento ou cor, sugerindo a organização de uma estrutura de dados.

Essas três origens sofrem transformações e junções nos dados, o que gera uma nova base de dados contendo a informação de recomendação ou não.

Outro ponto importante é que podemos, muitas vezes, nos deparar com outro nome para a linhagem de dados — que, em linhas gerais, significa a mesma coisa: Data Provenance ("proveniência dos dados", em português).

Agora, conhecendo melhor o seu conceito, podemos começar a entender um pouco mais sobre a própria linhagem de dados e suas aplicações.

O que é linhagem de dados - Exemplo matemático

No último vídeo, começamos a entender melhor o que é a linhagem de dados: uma disciplina da área de governança de dados que se preocupa com as origens e transformações que os dados sofrem para gerar outros dados. Mas o que seriam exatamente essas origens e transformações?

Uma boa forma de entender isso é a partir da seguinte equação:

V = Q(D)

Se você já trabalhou com SQL, sabe que é muito comum criarmos visões a partir de uma base de dados. Essas visões são nada mais do que transformações temporárias que os dados sofrem para gerar dados nos quais temos interesse. Essas transformações são compostas por JOINs, GROUP BYs, ORDER BYs e SELECTs, de maneira geral.

E, se voltarmos para a nossa equação, podemos lê-la como uma view (ou visão), representada pelo V, que vai ser igual ao resultado das queries Q, ou transformações, realizadas no conjunto de dados D.

Ou seja, é uma forma visual de representação bastante eficiente para quando pensamos em origens e transformações — principalmente quando não temos tanto interesse em quais transformações foram feitas, mas apenas saber que existiram transformações, informação importante para a ótica da linhagem de dados.

Se voltarmos para o nosso exemplo da base de recomendação de ativos financeiros, mais especificamente de fundos imobiliários, teremos a seguinte equação:

V = Q1(D1) + Q2(D2) + Q3(D3)

Nessa equação, temos:

Com essa equação, temos uma forma simples e genérica de linhagem de dados que podemos encaixar qualquer tipo de processo em que um ou mais dados, a partir de transformações, geram uma nova base de dados.

Entretanto, será que isso é comum nas organizações? É disso que vamos falar um pouco melhor no próximo vídeo!

Sobre o curso Governança de dados: mapeando a origem e o destino com linhagem de dados

O curso Governança de dados: mapeando a origem e o destino com linhagem de dados possui 58 minutos de vídeos, em um total de 33 atividades. Gostou? Conheça nossos outros cursos de Engenharia de Dados em Data Science, ou leia nossos artigos de Data Science.

Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:

Aprenda Engenharia de Dados acessando integralmente esse e outros cursos, comece hoje!

Conheça os Planos para Empresas