Alura > Cursos de Data Science > Cursos de Engenharia de Dados > Conteúdos de Engenharia de Dados > Primeiras aulas do curso Governança de dados: garantindo a qualidade de dados com a biblioteca Pydeequ

Governança de dados: garantindo a qualidade de dados com a biblioteca Pydeequ

O que é qualidade de dados? - Apresentação

Boas-vindas! Meu nome é Pedro Moura. Vamos acompanhar juntos este curso de qualidade de dados para pessoas que desejam entender o que é qualidade e por que ela é tão importante quando trabalhamos com dados.

Audiodescrição: Pedro moura se identifica como um homem de pele clara. Possui olhos e cabelos castanho-escuros. Nos olhos, há um óculos de grau quadrado. No corpo, veste uma camiseta verde escura básica. Ao fundo, um ambiente com vários quadros e estantes com objetos, iluminado na cor verde.

O que aprenderemos?

Neste curso, vamos aprender definições importantes sobre qualidade, explorar as cinco dimensões de qualidade pelo framework DAMA e conhecer outros frameworks que nos auxiliam a garantir a qualidade quando trabalhamos com dados.

Além disso, teremos uma parte prática na qual criaremos um check para aferir a qualidade de dados em um dataset. Isso será feito com a biblioteca PyDeequ, do Python.

Pré-requisitos

Para aproveitar melhor este curso, recomendamos que você tenha alguma familiaridade com a linguagem de programação Python, pois vamos usar uma de suas bibliotecas para criar os testes de qualidade de forma prática.

Além disso, é importante que você tenha algum conhecimento básico sobre governança de dados.

Vamos aprender sobre qualidade de dados?

O que é qualidade de dados? - Entenda a relevância da qualidade de dados

Imagine que somos pessoas diretoras de vendas de uma distribuidora de filmes. Nossa clientela são as grandes redes de cinema do Brasil, e as vendas dessa empresa acontecem por três canais:

Uma de nossas atribuições como pessoa diretora de vendas é pegar os dados dos três canais e somá-los. Uma vez que isso está feito, ainda precisamos conversar com o pessoal do financeiro para verificar se o número de vendas está correspondendo ao valor que a empresa recebeu.

Entretanto, neste mês, os números não batem. Isso é um problema de qualidade de dados, algo mais comum do que podemos imaginar.

É isso que vamos estudar neste curso: princípios, processos, técnicas e padrões que nos ajudam a garantir a qualidade dos dados.

Entendendo a qualidade de dados

Se lembrarmos da roda de disciplinas da DAMA (Data Management Association), uma forma de verificar quais áreas ou sub-áreas estão relacionadas com governança de dados, a área de qualidade de dados é uma dessas sub-áreas.

Mas, afinal, o que é qualidade de dados?

A resposta é relativamente simples. Dados de qualidade são aqueles que representam de forma fiel a realidade e também estão disponíveis quando são necessários.

Nesse caso, quando tivemos um problema e os dados não bateram, duas coisas podem ter acontecido. Uma é que esses dados podem não representar a realidade. Por exemplo, algumas vendas podem ter sido duplicadas e essas vendas duplicadas não aconteceram de fato quando batemos com o faturamento.

Outra possibilidade é que os dados ainda não tenham sido consolidados. Por exemplo, as equipes dos canais não terminaram de inserir os dados corretos nos bancos de dados e, dessa forma, eles não estavam disponíveis quando precisamos deles. Essa disponibilidade é a segunda questão importante quando pensamos em qualidade de dados.

Por isso, é muito importante implementar ações de qualidade de dados.

Vamos imaginar que estamos fazendo esse relatório deste mês e, por uma questão de corte de custos, estamos avaliando se vamos fechar um dos canais para diminuir o custo da operação. Se os dados não refletirem a realidade, poderíamos excluir um canal que, na verdade, está performando muito bem, e essa decisão seria terrível para a empresa.

Além disso, como os dados estão incorretos, vamos precisar refazer o nosso relatório depois que as equipes corrigirem os dados, o que traz retrabalho, que é sempre muito ineficiente.

Dessa forma, um dos objetivos da qualidade de dados é justamente tornar as operações eficientes.

No próximo vídeo, vamos discutir quem são as pessoas responsáveis pela qualidade de dados.

O que é qualidade de dados? - Identificando o responsável pela qualidade de dados

No último vídeo, discutimos sobre a qualidade de dados e a importância de implementar essas técnicas para o negócio. Tudo isso para entender como podemos resolver o problema que a nossa empresa de distribuição de filmes está enfrentando, onde a quantidade de vendas não está correspondendo ao relatório de faturamento mensal.

Isso nos leva a uma pergunta: Quem é responsável pela qualidade dos dados dentro da organização?

Entendendo a responsabilidade pelos dados

Vamos a um exemplo. Poderíamos supor que nós, como pessoas diretoras de vendas, gostaríamos de delegar toda a responsabilidade para a área de governança de dados. Afinal, é uma equipe que deveria se preocupar com a qualidade, já que é uma das subdivisões de governança de dados e esse time tem bastante conhecimento específico da área.

No entanto, suponhamos que existem regras de negócio específicas sobre aqueles dados que só uma pessoa com conhecimento de negócio entenderia. Por exemplo, quando uma compra é feita via telefone, sempre temos o DDD do número que fez a compra, e precisamos que ele seja do mesmo estado da pessoa que afirmou ser compradora.

Esta é uma regra de negócio, e como a governança não tem tantas informações sobre vendas, esse tipo de regra de qualidade poderia passar despercebido.

Por isso, quando pensamos em quem é responsável pela governança de dados, temos sempre uma tríade: a governança, a entidade proprietária e a pessoa usuária dos dados.

A governança tem responsabilidade, pois é a área que mais conhece essa disciplina de qualidade. Já a entidade owner (proprietária) daquele dado é extremamente importante, pois é quem tem mais conhecimento de negócio para propor boas regras de qualidade para aquela base em específico.

Além disso, a pessoa usuária dos dados é muito importante, pois, no final das contas, é a maior interessada na qualidade dos dados. Afinal, ao usar os dados, quanto mais qualidade eles tiverem, menos tempo a pessoa usuária vai investir em resolver problemas de qualidade para que as análises sejam mais eficientes.

Se já tivéssemos várias regras de qualidade, todo o processo de análise ficaria mais eficiente. Além disso, a própria pessoa usuária também conhece os dados, porque trabalha com eles no dia a dia.

Nesse exemplo, como pessoas diretoras de vendas, conhecemos bem as características das vendas de cada um dos canais e poderíamos até contribuir com as regras de qualidade.

Por exemplo, para nós, como pessoas usuárias, é importante que as bases dos três canais tenham uma coluna com o canal de onde saiu a venda, além do ID específico de cada uma das vendas, por exemplo. Isso facilitaria muito a nossa análise.

Com base nessa regra, poderíamos até estipular uma regra de qualidade: a coluna de canais nunca deve vir vazia.

Dessa forma, entendemos que a responsabilidade pela qualidade dos dados não é de uma única área, e sim dessa tríade entre a área detentora e proprietária dos dados, a governança de dados - que ajuda a definir processos, ferramentas e o número de regras necessárias para cada base - e também a pessoa usuária, que vai contribuir com regras importantes para o seu consumo.

Sobre o curso Governança de dados: garantindo a qualidade de dados com a biblioteca Pydeequ

O curso Governança de dados: garantindo a qualidade de dados com a biblioteca Pydeequ possui 117 minutos de vídeos, em um total de 39 atividades. Gostou? Conheça nossos outros cursos de Engenharia de Dados em Data Science, ou leia nossos artigos de Data Science.

Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:

Aprenda Engenharia de Dados acessando integralmente esse e outros cursos, comece hoje!

Conheça os Planos para Empresas