Alura > Cursos de Data Science > Cursos de Machine Learning > Conteúdos de Machine Learning > Primeiras aulas do curso Data Analytics: Machine Learning no Marketing Digital

Data Analytics: Machine Learning no Marketing Digital

Preparação dos dados - Introdução

Olá. Seja bem-vindo ao curso de machine learning no marketing digital. Meu nome é Júlio, eu serei seu instrutor. Aqui neste curso vamos aprender a prever quanto um usuário que entra em um site vai gastar. E o legal é que vamos utilizar dados reais para isso, da Google Merchandising Store. Essa é a loja de brindes do Google. Um e-commerce onde você pode entrar e comprar brindes com a marca personalizada deles.

Uma forma bem simples de pensarmos como podemos aplicar o que vamos aprender aqui é imaginar que você é capaz de antecipar quanto um usuário vai gastar. Você pode aplicar isso diretamente no seu marketing digital. Logo, você é capaz de antecipar o retorno de uma campanha e movimentar de forma mais rápida, melhorando a performance.

Além disso, você será capaz de identificar usuários que estão tendo uma má experiência no seu site e melhorar a experiência dele antes mesmo dele decidir não fazer a compra no seu site. Ou o contrário, identificar o que tem de diferente nos usuários que estão comprando.

Falando em diferenciar usuários, você vai conseguir separar cluster de usuários e criar estratégias diferentes para usuários diferentes. Mas caso no seu dia a dia o marketing digital não seja uma realidade, tudo que você aprender neste curso você vai poder aplicar em outros negócios, porque um grande trabalho que vamos ter vai ser trabalhar com uma base de dados.

Iremos utilizar muito o Python e técnicas de preparação e criação de variáveis. Tudo que você aprender aqui você vai poder aplicar em diversos outros desafios de negócio. Mesmo que você não tenha uma experiência no dia a dia, mesmo que marketing digital não faça parte da sua rotina, este curso vai te trazer novas técnicas, ferramentas para você conseguir preparar a base de dados e melhorar seus modelos de machine learning.

Iremos aprender a trabalhar com bases no formato JSON, que é bem comum em diversos tipos de aplicação da web. Além disso, vamos verificar alguns tipos de variáveis que temos disponíveis de comportamento digital e criar novas variáveis. Vamos passar um bom tempo trabalhando em cima da nossa base de dados, que é a realidade de um cientista de dados, que gasta muito tempo na preparação para deixar a base o melhor possível para o modelo.

No final deste curso, você vai sair com um modelo pronto para entrar no seu portfólio. Vamos para o curso que o material está muito legal.

Preparação dos dados - Carregando a base de dados

Na última aula vimos que temos o site do Google Merchandising Store, e através do Google Analytics vamos captar as informações dos usuários que navegam nesse site. No caso da aula de hoje, já temos os dados extraídos e vamos explorar essa base para preparar para a modelagem.

Iremos trabalhar dentro do Jupyter notebook, com o Python 3. O primeiro passo vai ser importar a biblioteca pandas. Vamos chamá-la de pd. Depois, iremos trazer a base de dados, que está no mesmo diretório que este notebook. Vou utilizar o método read.csv.

Vemos já alguns tipos de informação, como o canal que o usuário usou, pesquisas orgânicas do Google, a data que o acesso ocorreu, informações de dispositivos, id do visitante, informações geográficas, entre outras. Para entender melhor essa base podemos dar uma olhada no tamanho dela. Ela tem 12.283 linhas e 12 colunas. Lembrando que é apenas uma amostra dos usuários que acessaram o site.

Como dissemos, cada linha dessa base de dados é uma seção, uma visita que o usuário fez. Podemos ter mais seções do que usuários. Para saber quantos usuários únicos temos, vou passar o método full visitor id dentro de uma função len. Tenho 9.966 usuários únicos.

Já demos uma olhada na nossa base de dados, vimos as primeiras linhas, sabemos o tamanho, quantas colunas, quantos usuários únicos, vamos dar uma olhada em como o pandas identificou as colunas do dataframe. Para isso, vamos usar a função dtypes.

A primeira coluna foi identificada como objeto. Podemos chamar de string. No caso da coluna date, ela foi identificada como inteiro. Isso pode ser um problema, porque não é um inteiro. Esses valores tem um significado a cada quantidade de caracteres. Caso queiramos extrair uma informação dessa coluna, precisaremos acessar os valores dela como uma string.

Vamos tentar separar o valor do ano. Seria do 0 ao 4. Vai dar um erro, porque não consigo fazer isso com valor inteiro. Vamos tentar passar a mesma variável data transformando numa string e iremos fazer a mesma execução. Agora consigo. Pode ser que isso seja importante lá na frente.

O full visitor id está sendo identificado como inteiro também. Se verificarmos, é um id, como o nome diz. Quando trabalhamos com ids e eles são identificados como inteiros temos um problema. Pode ser que esses ids tenham 0 na esquerda. Se identificarmos como inteiro, ele vai perder esse 0. Se ele é armazenado como string, mantenho o 0.

O totais é uma coluna que apesar do nome está com vários outros valores dentro dela. Vamos ter que extrair esses valores mais à frente. Visit id também está identificado como inteiro.

O visit start time é um time stamp. É uma conversão de segundos usada para calcular datas. Vamos ter que corrigir o data, o visit id e o full visitor id. Poderíamos simplesmente converter as informações que já lemos, mas como elas podem ter sido lidas e perdido o valor, é melhor lermos de novo passando as informações com o valor correto.

Conseguimos ler nossa base de dados e temos toda a base identificada com o formato de arquivos correto.

Preparação dos dados - Formato de dados

Durante nosso curso, vamos utilizar a Google Merchandising Store, a loja de brindes do Google. Escolhemos esse site porque os dados são abertos e eles recebem visitas do mundo inteiro todos os dias. Temos acesso a essas informações na conta do Google Analytics.

Podemos ver que é um site comum, com diversas categorias e você pode selecionar produtos. Basicamente, são brindes com a marca do Google. Você pode olhar o produto que você tem interesse, ver a descrição, valor, pedir e receber o produto.

Para este curso, já selecionamos uma base que veio do Google Analytics. Precisamos entender um pouco como essas informações são estruturadas. O Google Analytics é a ferramenta de web analytics do Google, talvez uma das principais usadas no mundo, em que você pode ver diversos tipos de métricas, informações sobre seu site e aplicativo.

Podemos ver quantos usuários acessaram o site, quantos são novos usuários, quantas seções o site tem, quantas páginas por seção, o tempo médio que os usuários gastam. Você tem filtros para saber o que aconteceu na última semana, no dia, pode selecionar o período.

Para este curso, já extraímos nossa base. Não é necessário ter o conhecimento para entrar no Google Analytics e baixar as informações que você precisa, mas é importante que você saiba como as informações são estruturadas e de onde elas vieram.

Para entender nossa base de dados e que tipo de informação temos lá, vamos ver um exemplo. Analisando o comportamento digital de um usuário que compra em e-commerce, vamos pegar o caso do nosso amigo João, que visitou um site de roupas. Podemos atribuir a ele um visitor id, que vai identificar o João dentre os outros usuários. O Google analytics faz isso para nós.

Também pode ser interessante armazenar quando ele começou a visita. Suponhamos que foi no dia 4 de fevereiro de 2018, às 7:33. Também podemos ver se é a primeira visita dele. Vamos supor que sim. Podemos ver o dispositivo que ele usou para acessar o site. O canal que ele utilizou. O tempo que ele gastou no site. E por fim, quanto ele gastou.

Trouxemos sete colunas com exemplos do que podemos trazer de informação quando um usuário acessa um site qualquer. Temos muitas coisas. Posso perguntar qual dispositivo gasta mais, os canais de acesso com maior gasto, quanto tempo o usuário leva para fazer uma compra. São algumas informações que podemos analisar.

Vamos imaginar que o João foi impactado por uma mídia e acessou o site novamente nesse mesmo dia mais tarde. O Google Analytics é capaz de identificar que nesse caso o João que acessou no celular é o mesmo do computador. Nem sempre o Google vai conseguir identificar, é um dos desafios. Mas neste caso conseguiu. Ainda assim, essa é a segunda visita do João. Ela durou 7 minutos e ele gastou 70 reais no site.

É um exemplo bem simples de um usuário que acessou o site uma vez e depois acessou de novo. Essa ferramenta não só é capaz de rastrear tudo que ele fez durante a sessão, como também manter o acompanhamento de outras seções que o usuário faça.

[05:5] Imaginemos um caso em que teremos esse desafio de acessar a ferramenta de olhar para o usuário e identificar vários tipos de acesso para ele. Nós que iremos analisar a informação devemos estar cientes. O João pode ter recebido um e-mail dizendo para verificar o status da compra. Imagine que ele acessou o e-mail do trabalho para isso. Mas nesse momento talvez a ferramenta não vai ser capaz de identificar que é o mesmo João e pode dar a ele um novo id.

O João verifica o status do pedido, fica cinco minutos e não compra nada. Esse é um desafio. Imagine que ele compartilha o computador com algum colega e ela acessa o site. Ela vai ser identificada pelo mesmo usuário do João.

As ferramentas de web analytics vão tentar extrair diversos tipos de informação sobre a navegação do usuário no site. Além disso, ela vai manter o rastreamento de várias visitas que possam ser feitas. Um dos desafios que temos é que nem sempre a informação que aquele usuário que fez o acesso é tão acurada.

Além disso, aprendemos que cada linha que traçamos aqui na tabela é uma visita. Essas visitas, ou sessões, estão relacionadas a um usuário. Quando falamos que iremos prever quanto um usuário vai gatar no site, essa informação está relacionada ao usuário, e não à visita. Quando formos preparar a base para o modelo, teremos que criar variáveis que falem sobre o usuário, e não sobre a visita. Vamos ter que trabalhar nossa base de dados para trazer informações sobre o usuário.

Sobre o curso Data Analytics: Machine Learning no Marketing Digital

O curso Data Analytics: Machine Learning no Marketing Digital possui 175 minutos de vídeos, em um total de 45 atividades. Gostou? Conheça nossos outros cursos de Machine Learning em Data Science, ou leia nossos artigos de Data Science.

Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:

Aprenda Machine Learning acessando integralmente esse e outros cursos, comece hoje!

Conheça os Planos para Empresas