Olá! Meu nome é Pedro Moura e serei seu instrutor neste curso sobre Linhagem de Dados.
Audiodescrição: Pedro é um homem de pele clara, olhos castanho-escuros e cabelo curto, também castanho-escuro. Usa um óculos de grau com armação quadrada e preta. Veste uma camiseta verde-escura básica. Ao fundo, um ambiente de iluminação verde com armários e uma mesa com livros e itens de decoração.
Este curto é ideal para quem busca aprender o que é a linhagem de dados, por que ela é importante e como aplicá-la no dia a dia da sua organização.
Mais especificamente, vamos discutir os tipos de linhagem de dados, como realizar a linhagem de dados na prática e quais os benefícios de uma organização ao praticar a linhagem de dados.
Para aproveitar melhor este curso, recomendamos que você tenha conhecimentos básicos sobre governança de dados, a grande área da qual a linhagem é uma disciplina.
Vamos lá?!
Imagine que estamos trabalhando em uma empresa de avaliação de ativos financeiros. Nossa principal atividade é coletar dados sobre esses ativos, analisá-los e recomendar ou não para nossos clientes.
Para fundos de investimento imobiliário, por exemplo, fazemos isso tanto usando dados internos quanto dados externos.
Para os Fundos de Investimento (FI), essa classe de ativos de investimento, utilizamos uma informação de preço por metro quadrado dos imóveis em todas as cidades do Brasil e a quantidade de vendas e compras de imóveis, uma base que obtemos a partir de cartórios de diversas regiões. Também precisamos considerar nossas análises anteriores desse ativo para concluir se vamos recomendá-lo ou não.
Essas três informações vão resultar em uma base que terá informações sobre um ativo e a nossa recomendação (ou não) para os diferentes perfis de investimento que temos dentro da empresa.
Mas o que isso tem a ver com a linhagem de dados? Tudo! A linhagem de dados, por definição, é a identificação e a gestão das origens e transformações que geram um novo ativo de dados.
Isso significa que, se tratarmos o processo do nosso projeto partindo da visão da linhagem de dados, teremos três origens:
Essas três origens sofrem transformações e junções nos dados, o que gera uma nova base de dados contendo a informação de recomendação ou não.
Outro ponto importante é que podemos, muitas vezes, nos deparar com outro nome para a linhagem de dados — que, em linhas gerais, significa a mesma coisa: Data Provenance ("proveniência dos dados", em português).
Agora, conhecendo melhor o seu conceito, podemos começar a entender um pouco mais sobre a própria linhagem de dados e suas aplicações.
No último vídeo, começamos a entender melhor o que é a linhagem de dados: uma disciplina da área de governança de dados que se preocupa com as origens e transformações que os dados sofrem para gerar outros dados. Mas o que seriam exatamente essas origens e transformações?
Uma boa forma de entender isso é a partir da seguinte equação:
V = Q(D)
Se você já trabalhou com SQL, sabe que é muito comum criarmos visões a partir de uma base de dados. Essas visões são nada mais do que transformações temporárias que os dados sofrem para gerar dados nos quais temos interesse. Essas transformações são compostas por JOINs, GROUP BYs, ORDER BYs e SELECTs, de maneira geral.
E, se voltarmos para a nossa equação, podemos lê-la como uma view (ou visão), representada pelo V
, que vai ser igual ao resultado das queries Q
, ou transformações, realizadas no conjunto de dados D
.
Ou seja, é uma forma visual de representação bastante eficiente para quando pensamos em origens e transformações — principalmente quando não temos tanto interesse em quais transformações foram feitas, mas apenas saber que existiram transformações, informação importante para a ótica da linhagem de dados.
Se voltarmos para o nosso exemplo da base de recomendação de ativos financeiros, mais especificamente de fundos imobiliários, teremos a seguinte equação:
V = Q1(D1) + Q2(D2) + Q3(D3)
Nessa equação, temos:
V
: nossa base resultante, contendo a indicação de fundos imobiliários;Q1(D1)
: transformações sobre a base de valor por metro quadrado dos imóveis;Q2(D2)
: transformações sobre a base de quantidade de vendas e compras advinda dos cartórios;Q3(D3)
: transformações sobre a base de análises anteriores.Com essa equação, temos uma forma simples e genérica de linhagem de dados que podemos encaixar qualquer tipo de processo em que um ou mais dados, a partir de transformações, geram uma nova base de dados.
Entretanto, será que isso é comum nas organizações? É disso que vamos falar um pouco melhor no próximo vídeo!
O curso Governança de dados: mapeando a origem e o destino com linhagem de dados possui 58 minutos de vídeos, em um total de 33 atividades. Gostou? Conheça nossos outros cursos de Engenharia de Dados em Data Science, ou leia nossos artigos de Data Science.
Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:
Impulsione a sua carreira com os melhores cursos e faça parte da maior comunidade tech.
1 ano de Alura
Assine o PLUS e garanta:
Formações com mais de 1500 cursos atualizados e novos lançamentos semanais, em Programação, Inteligência Artificial, Front-end, UX & Design, Data Science, Mobile, DevOps e Inovação & Gestão.
A cada curso ou formação concluído, um novo certificado para turbinar seu currículo e LinkedIn.
No Discord, você tem acesso a eventos exclusivos, grupos de estudos e mentorias com especialistas de diferentes áreas.
Faça parte da maior comunidade Dev do país e crie conexões com mais de 120 mil pessoas no Discord.
Acesso ilimitado ao catálogo de Imersões da Alura para praticar conhecimentos em diferentes áreas.
Explore um universo de possibilidades na palma da sua mão. Baixe as aulas para assistir offline, onde e quando quiser.
Acelere o seu aprendizado com a IA da Alura e prepare-se para o mercado internacional.
1 ano de Alura
Todos os benefícios do PLUS e mais vantagens exclusivas:
Luri é nossa inteligência artificial que tira dúvidas, dá exemplos práticos, corrige exercícios e ajuda a mergulhar ainda mais durante as aulas. Você pode conversar com a Luri até 100 mensagens por semana.
Aprenda um novo idioma e expanda seus horizontes profissionais. Cursos de Inglês, Espanhol e Inglês para Devs, 100% focado em tecnologia.
Transforme a sua jornada com benefícios exclusivos e evolua ainda mais na sua carreira.
1 ano de Alura
Todos os benefícios do PRO e mais vantagens exclusivas:
Mensagens ilimitadas para estudar com a Luri, a IA da Alura, disponível 24hs para tirar suas dúvidas, dar exemplos práticos, corrigir exercícios e impulsionar seus estudos.
Envie imagens para a Luri e ela te ajuda a solucionar problemas, identificar erros, esclarecer gráficos, analisar design e muito mais.
Escolha os ebooks da Casa do Código, a editora da Alura, que apoiarão a sua jornada de aprendizado para sempre.