Alura > Cursos de Data Science > Cursos de Data Science > Conteúdos de Data Science > Primeiras aulas do curso Clustering: extraindo padrões de dados

Clustering: extraindo padrões de dados

Entendendo a dificuldade do aprendizado não-supervisionado - Introdução

Boas vindas ao curso de Clustering: extraindo padrões de dados. Sou a instrutora Thainá Mariani e acompanharei vocês ao longo das aulas.

Começaremos com o seguinte questionamento: imaginemos que possuímos uma empresa de cartão de crédito, e qual seria o risco que clientes têm de atrasar o pagamento da fatura?

Podemos utilizar esta informação para futuras decisões de negócios, por exemplo. Para sabermos sobre este risco, temos três categorias: baixo, médio e alto.

No contexto de aprendizado de máquina, usamos algumas técnicas de classificação que irão dizer qual categoria um cliente específico se encaixa e resolver este problema para nós.

Faremos outra pergunta: Qual o comportamento dos clientes com o cartão de crédito? Não somente o risco de atrasar a fatura.

Antes tínhamos três opções, o risco baixo, o médio e o baixo. Agora queremos saber sobre o comportamento, e neste caso não temos categorias. Poderíamos classificar como "ruim" ou "bom", porém mesmo assim não seria interessante o suficiente.

Obviamente, não podemos analisar cada um dos clientes separadamente, afinal a ideia é que saibamos que um grupo específico de clientes possui um determinado comportamento, e com base nisso poderemos tomar decisões e aplicar algumas regras de negócios.

Então queremos saber este comportamento baseado nos dados dos clientes em relação ao uso do cartão de crédito. Portanto não é algo tão específico e pontual quanto saber o risco de atrasar uma fatura, e sim algo mais genérico.

Por isso a proposta é agrupar os clientes com características similares, de modo que os membros de um mesmo grupo possuem comportamentos parecidos no uso do cartão de crédito, mesmo que ainda não saibamos quais são.

Para fazermos isso, usaremos cluster no Jupyter Notebook no decorrer do curso que construíremos juntos.

Utilizaremos algumas bibliotecas, em especial o pandas. Em seguida, para gerarmos os clusters como o primeiro passo, usaremos a sklearn.

É necessário ter alguma noção de Python para este curso, mas não precisa especialmente saber sobre essas bibliotecas. Caso tenha interesse em se aprofundar, busque pelos cursos de pandas oferecidos aqui na Plataforma Alura.

Também é interessante ter uma ideia sobre o conceito de cluster, afinal a proposta deste curso não é aprender a gerar, e sim a interpretar os clusters.

De volta ao nosso problema de agrupamento de clientes, depois de darmos o primeiro passo com os grupos com características similares, teremos vários clusters. Eles não querem dizer nada por si só, então precisamos interepretá-los e entender o que representam.

Este é o nosso segundo passo, portanto interpretar um cluster é crucial para o nosso curso e para compreendermos o que dizem sobre os nossos clientes.

Com isso, extraíremos informações e teremos uma boa base para tomarmos decisões em nosso negócio. Isso já passa para a nossa próxima tarefa: como iremos utilizar estes clusters para de fato tomarmos decisões, como por exemplo, aumentar o limite da fatura de clientes que pagam sua fatura em dia?

Então, vamos lá!

Entendendo a dificuldade do aprendizado não-supervisionado - Revisando a classificação

Antes de discutirmos sobre os problemas de aprendizado não supervisionado, aprenderemos sobre o supervisionado e entender suas diferenças.

Relembremos a questão da empresa de cartões de crédito: Qual o risco de os clientes atrasarem o pagamento de faturas?

Pensaremos em um cliente em específico que chamaremos de Pedro Lauro e queremos classificá-lo em alguma categoria de risco, que são: baixo, alto ou médio.

Podemos utilizar uma técnica de aprendizado de máquina, em que a partir de uma base de dados de clientes que já conhecemos o risco, conseguiremos encaixar Pedro Lauro em alguma dessas categorias.

Essa técnica é o aprendizado supervisionado de classificação. Mas como podemos validar se essa classificação está de fato correta?

Não podemos validar ainda a categoria do Pedro Lauro porque não temos dados o suficiente.

Vejamos um grupo de clientes em que já sabemos o risco de atrasarem a fatura. Maria da Silva, por exemplo, possui um risco baixo, essa informação é chamada de rótulo ou label. Teremos mais alguns clientes: João de Cruz, risco alto e Amadeu Romeu, risco médio.

Rótulos (Labels)

ClienteRisco
Maria da SilvaBaixo
João da CruzAlto
Amadeu RomeuMédio

Se utilizarmos a mesma técnica de aprendizado de máquina para descobrir o risco do Pedro Lauro, teríamos um resultado incorreto: Amadeu Romeu sairia como risco alto, e na verdade ele possui risco médio. A taxa de acerto foi de apenas 66%.

Classificação

ClienteRisco
Maria da SilvaBaixo
João da CruzAlto
Amadeu RomeuAlto

Passemos para outra situação a ser estudada: qual o comportamento dos clientes com o cartão de crédito, e isso inclui .

No próximo vídeo analisaremos as respostas.

Entendendo a dificuldade do aprendizado não-supervisionado - Problema da falta de rótulos

Queremos saber o comportamento dos clientes em relação ao uso de cartão de crédito, isto é:

Trata-se de uma pergunta abrangente, diferente de classificar o risco dos clientes em três categorias, isto é, os labels.

Neste caso, não temos labels, então não podemos usar o método de classificar os clientes em categorias distintas de comportamento.

Voltaremos ao exemplo de Pedro Lauro. Suponhamos que o risco de Pedro Laura atrasar o pagamento da fatura é baixo, e queremos descobrir seu comportamento.

É neste ponto que utilizamos a clusterização, que faz parte do aprendizado não supervisionado. Neste ponto poderíamos executar um algoritmo de clusterização e criar grupos. Faríamos de maneira que cada cluster possua clientes com padrões de comportamento similares.

Suponhamos que depois da execução do algoritmo tenhamos chegado a duas categorias, cada uma abarca diferentes clientes. Essas categorias são "comportamento 1" e "comportamento 2", e Pedro Lauro teria ficado nesta última.

Mas como podemos saber as características desses dois comportamentos? E como, ainda, podemos saber se as informações fazem sentido real e como validar a técnica que utilizamos?

É justamente a interpretação de clusters que iremos analisar ao longo deste curso.

Sobre o curso Clustering: extraindo padrões de dados

O curso Clustering: extraindo padrões de dados possui 201 minutos de vídeos, em um total de 84 atividades. Gostou? Conheça nossos outros cursos de Data Science em Data Science, ou leia nossos artigos de Data Science.

Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:

Aprenda Data Science acessando integralmente esse e outros cursos, comece hoje!

Conheça os Planos para Empresas