Boas vindas ao curso de Clustering: extraindo padrões de dados. Sou a instrutora Thainá Mariani e acompanharei vocês ao longo das aulas.
Começaremos com o seguinte questionamento: imaginemos que possuímos uma empresa de cartão de crédito, e qual seria o risco que clientes têm de atrasar o pagamento da fatura?
Podemos utilizar esta informação para futuras decisões de negócios, por exemplo. Para sabermos sobre este risco, temos três categorias: baixo, médio e alto.
No contexto de aprendizado de máquina, usamos algumas técnicas de classificação que irão dizer qual categoria um cliente específico se encaixa e resolver este problema para nós.
Faremos outra pergunta: Qual o comportamento dos clientes com o cartão de crédito? Não somente o risco de atrasar a fatura.
Antes tínhamos três opções, o risco baixo, o médio e o baixo. Agora queremos saber sobre o comportamento, e neste caso não temos categorias. Poderíamos classificar como "ruim" ou "bom", porém mesmo assim não seria interessante o suficiente.
Obviamente, não podemos analisar cada um dos clientes separadamente, afinal a ideia é que saibamos que um grupo específico de clientes possui um determinado comportamento, e com base nisso poderemos tomar decisões e aplicar algumas regras de negócios.
Então queremos saber este comportamento baseado nos dados dos clientes em relação ao uso do cartão de crédito. Portanto não é algo tão específico e pontual quanto saber o risco de atrasar uma fatura, e sim algo mais genérico.
Por isso a proposta é agrupar os clientes com características similares, de modo que os membros de um mesmo grupo possuem comportamentos parecidos no uso do cartão de crédito, mesmo que ainda não saibamos quais são.
Para fazermos isso, usaremos cluster no Jupyter Notebook no decorrer do curso que construíremos juntos.
Utilizaremos algumas bibliotecas, em especial o pandas
. Em seguida, para gerarmos os clusters como o primeiro passo, usaremos a sklearn
.
É necessário ter alguma noção de Python para este curso, mas não precisa especialmente saber sobre essas bibliotecas. Caso tenha interesse em se aprofundar, busque pelos cursos de pandas
oferecidos aqui na Plataforma Alura.
Também é interessante ter uma ideia sobre o conceito de cluster, afinal a proposta deste curso não é aprender a gerar, e sim a interpretar os clusters.
De volta ao nosso problema de agrupamento de clientes, depois de darmos o primeiro passo com os grupos com características similares, teremos vários clusters. Eles não querem dizer nada por si só, então precisamos interepretá-los e entender o que representam.
Este é o nosso segundo passo, portanto interpretar um cluster é crucial para o nosso curso e para compreendermos o que dizem sobre os nossos clientes.
Com isso, extraíremos informações e teremos uma boa base para tomarmos decisões em nosso negócio. Isso já passa para a nossa próxima tarefa: como iremos utilizar estes clusters para de fato tomarmos decisões, como por exemplo, aumentar o limite da fatura de clientes que pagam sua fatura em dia?
Então, vamos lá!
Antes de discutirmos sobre os problemas de aprendizado não supervisionado, aprenderemos sobre o supervisionado e entender suas diferenças.
Relembremos a questão da empresa de cartões de crédito: Qual o risco de os clientes atrasarem o pagamento de faturas?
Pensaremos em um cliente em específico que chamaremos de Pedro Lauro e queremos classificá-lo em alguma categoria de risco, que são: baixo, alto ou médio.
Podemos utilizar uma técnica de aprendizado de máquina, em que a partir de uma base de dados de clientes que já conhecemos o risco, conseguiremos encaixar Pedro Lauro em alguma dessas categorias.
Essa técnica é o aprendizado supervisionado de classificação. Mas como podemos validar se essa classificação está de fato correta?
Não podemos validar ainda a categoria do Pedro Lauro porque não temos dados o suficiente.
Vejamos um grupo de clientes em que já sabemos o risco de atrasarem a fatura. Maria da Silva, por exemplo, possui um risco baixo, essa informação é chamada de rótulo ou label. Teremos mais alguns clientes: João de Cruz, risco alto e Amadeu Romeu, risco médio.
Cliente | Risco |
---|---|
Maria da Silva | Baixo |
João da Cruz | Alto |
Amadeu Romeu | Médio |
Se utilizarmos a mesma técnica de aprendizado de máquina para descobrir o risco do Pedro Lauro, teríamos um resultado incorreto: Amadeu Romeu sairia como risco alto, e na verdade ele possui risco médio. A taxa de acerto foi de apenas 66%.
Cliente | Risco |
---|---|
Maria da Silva | Baixo |
João da Cruz | Alto |
Amadeu Romeu | Alto |
Passemos para outra situação a ser estudada: qual o comportamento dos clientes com o cartão de crédito, e isso inclui .
No próximo vídeo analisaremos as respostas.
Queremos saber o comportamento dos clientes em relação ao uso de cartão de crédito, isto é:
Trata-se de uma pergunta abrangente, diferente de classificar o risco dos clientes em três categorias, isto é, os labels.
Neste caso, não temos labels, então não podemos usar o método de classificar os clientes em categorias distintas de comportamento.
Voltaremos ao exemplo de Pedro Lauro. Suponhamos que o risco de Pedro Laura atrasar o pagamento da fatura é baixo, e queremos descobrir seu comportamento.
É neste ponto que utilizamos a clusterização, que faz parte do aprendizado não supervisionado. Neste ponto poderíamos executar um algoritmo de clusterização e criar grupos. Faríamos de maneira que cada cluster possua clientes com padrões de comportamento similares.
Suponhamos que depois da execução do algoritmo tenhamos chegado a duas categorias, cada uma abarca diferentes clientes. Essas categorias são "comportamento 1" e "comportamento 2", e Pedro Lauro teria ficado nesta última.
Mas como podemos saber as características desses dois comportamentos? E como, ainda, podemos saber se as informações fazem sentido real e como validar a técnica que utilizamos?
É justamente a interpretação de clusters que iremos analisar ao longo deste curso.
O curso Clustering: extraindo padrões de dados possui 201 minutos de vídeos, em um total de 84 atividades. Gostou? Conheça nossos outros cursos de Data Science em Data Science, ou leia nossos artigos de Data Science.
Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:
Impulsione a sua carreira com os melhores cursos e faça parte da maior comunidade tech.
1 ano de Alura
Assine o PLUS e garanta:
Formações com mais de 1500 cursos atualizados e novos lançamentos semanais, em Programação, Inteligência Artificial, Front-end, UX & Design, Data Science, Mobile, DevOps e Inovação & Gestão.
A cada curso ou formação concluído, um novo certificado para turbinar seu currículo e LinkedIn.
No Discord, você tem acesso a eventos exclusivos, grupos de estudos e mentorias com especialistas de diferentes áreas.
Faça parte da maior comunidade Dev do país e crie conexões com mais de 120 mil pessoas no Discord.
Acesso ilimitado ao catálogo de Imersões da Alura para praticar conhecimentos em diferentes áreas.
Explore um universo de possibilidades na palma da sua mão. Baixe as aulas para assistir offline, onde e quando quiser.
Acelere o seu aprendizado com a IA da Alura e prepare-se para o mercado internacional.
1 ano de Alura
Todos os benefícios do PLUS e mais vantagens exclusivas:
Luri é nossa inteligência artificial que tira dúvidas, dá exemplos práticos, corrige exercícios e ajuda a mergulhar ainda mais durante as aulas. Você pode conversar com a Luri até 100 mensagens por semana.
Aprenda um novo idioma e expanda seus horizontes profissionais. Cursos de Inglês, Espanhol e Inglês para Devs, 100% focado em tecnologia.
Transforme a sua jornada com benefícios exclusivos e evolua ainda mais na sua carreira.
1 ano de Alura
Todos os benefícios do PRO e mais vantagens exclusivas:
Mensagens ilimitadas para estudar com a Luri, a IA da Alura, disponível 24hs para tirar suas dúvidas, dar exemplos práticos, corrigir exercícios e impulsionar seus estudos.
Envie imagens para a Luri e ela te ajuda a solucionar problemas, identificar erros, esclarecer gráficos, analisar design e muito mais.
Escolha os ebooks da Casa do Código, a editora da Alura, que apoiarão a sua jornada de aprendizado para sempre.