Boas-vindas ao curso de Data Science para Marketing! Meu nome é Daniel Siqueira e serei seu instrutor.
Audiodescrição: Daniel é uma pessoa careca, usa óculos de armação retangular preta, e veste camiseta branca. Ao fundo, há uma iluminação verde e azul.
Neste curso, começaremos do zero. Vamos aprender como abrir um notebook, o que é um notebook, e como usá-lo para trabalhar com a linguagem Python.
Vamos aprender a escrever nossos primeiros códigos, realizar nossas primeiras contas e cálculos usando Python!
Também aprenderemos a importar arquivos .csv
, pois trabalharemos com um arquivo sobre campanhas de marketing, e utilizaremos uma das principais ferramentas do Python, que é o Pandas, para acessar esse arquivo CSV, analisá-lo e transformá-lo em uma tabela.
Vamos explorar o formato de tabela, com linhas e colunas, e manipular esses dados.
Aprenderemos a analisar o tamanho e o formato, segmentar colunas, criar colunas na tabela, examinar os valores, identificar os valores únicos e contar esses valores. Também criaremos novas colunas na tabela e geraremos gráficos. Inicialmente, os gráficos podem não ser os melhores, mas evoluiremos na construção deles.
Vamos aprender o que é um histograma, como trabalhar com distribuição e como criar um histograma usando a linguagem Python.
Faremos análise descritiva e estatísticas descritivas, observando a média, o desvio padrão, o que é o desvio padrão, a média, a mediana, os valores mínimos, máximos e os quartis. Também analisaremos esses dados em gráficos como o BoxPlot.
Aprenderemos a fazer consultas, segmentar nossos dados e realizar análises dessas consultas.
Também geraremos vários tipos de gráficos, como o gráfico de pizza, e avaliaremos se é o melhor tipo de gráfico ou não. Aprenderemos a estilizar nossos gráficos, ordenar as colunas, aplicar cores desejadas nas colunas e mostrar os resultados em porcentagem.
Além disso, vamos trabalhar com ROI (Retorno sobre Investimento). Embora não tenhamos ROI na nossa base de dados, criaremos essa coluna por meio de cálculos e faremos análises sobre o ROI. Compararemos, por exemplo, onde o ROI foi mais eficiente: no Google Ads, Meta Ads ou no canal de e-mail. Tudo isso será analisado com cálculos e gráficos.
Estamos muito animados para começar este projeto e aprender uma série de conceitos importantes que serão muito úteis e destacarão suas habilidades. Vamos começar?
Para analisar dados, utilizamos a linguagem Python, conhecida por sua eficiência em análise e exploração de dados.
Entre as várias possibilidades, utilizaremos o notebook ("caderno", em português), que permite anotações, inclusão de texto, imagens e código Python.
Usaremos o Google Colab, o acesso é online. Para usá-lo é necessário ter acesso à internet e uma conta Gmail.
Após acessar o Collab, clicamos em "novo notebook" no canto inferior esquerdo para iniciar um novo caderno.
Podemos nomeá-lo, por exemplo, como "Data Science para Marketing".
O notebook permite trabalhar com células de código e texto. O Collab conecta-se a um servidor do Google, disponibilizando um computador remoto para execução do código.
Podemos clicar em "Conectar" para ele fazer a conexão com o servidor do Google. Ao conectar, vai exibir informações de RAM e Disco.
No Python, podemos realizar cálculos diretamente no notebook. Por exemplo, ao inserir 2 + 2
e executar a célula, obtemos o resultado 4.
2 + 2
4
Para executar as células, podemos clicar no símbolo de play ou pressionar o atalho "Shift + Enter"
Para inserir uma nova célula, posicionamos o mouse abaixo do resultado, com opções de adicionar código ou texto.
Ao inserir 3 * 4
(asterisco representa multiplicação), o resultado é 12. Divisões, como 120 / 6
, também são possíveis.
Além de números, podemos trabalhar com textos, chamados de strings em Python.
Textos devem estar entre aspas para serem reconhecidos.
Podemos armazenar textos e números em variáveis, facilitando a automação de processos. Por exemplo, nome = "Daniel"
armazena o texto "Daniel" na variável nome
. O uso de variáveis permite que o código seja menos verboso e mais eficiente.
nome = "Daniel"
Para imprimir o conteúdo de uma variável, usamos a função print()
. Por exemplo, print(nome)
retorna "Daniel".
print(nome)
Daniel
Alterando o valor da variável nome
para "Dani" e rodando novamente a função print
, o resultado atualizado é exibido.
Variáveis são úteis em automação, como no envio de e-mails automáticos. Armazenamos informações como formacao = "Marketing"
. É uma boa prática não usar acentos nem caracteres especiais no nome das variáveis.
formacao = "Marketing"
Podemos inserir também curso = "Data Science para Marketing"
.
curso = "Data Science para Marketing"
Para automatizar um e-mail, em vez de escrever o nome de cada pessoa, seu curso e formação, podemos usar variáveis para automatizar. Por exemplo:
print(f"Olá, {nome}! Notamos que você é formado em {formacao}. Bem vindo(a) ao curso de {curso}.")
O
f
antes das aspas em indica que a string é uma f-string ou formatted string. As f-strings são uma maneira de incorporar expressões Python diretamente em strings, permitindo que você insira variáveis ou mesmo expressões dentro de uma string de forma mais direta e legível.
Este código retornará o seguinte texto:
"Olá, Dani. Notamos que você é formado em Marketing. Bem-vindo(a) ao curso de Data Science para Marketing."
Já entendemos como vamos acessar o notebook e trabalhar com conceitos de variáveis, funções e células. Estamos prontos para começar a analisar dados de campanhas geradas no Brasil.
No próximo vídeo, iniciaremos nosso projeto de fato!
Agora que já estamos com o nosso notebook pronto, vamos começar a analisar os dados.
Recebemos esses dados de campanhas no formato CSV. O arquivo foi disponibilizado na atividade "Preparando o ambiente”.
Fizemos o download e a questão agora é como colocar esse arquivo dentro do nosso notebook. Vamos aprender como fazer isso!
Para carregar um arquivo, uma das opções é fazer um upload diretamente para o notebook do Colab.
No canto esquerdo, há um símbolo de pasta ("Arquivos"). Ao clicar nele, abre-se uma aba de arquivos, onde podemos armazenar nossos arquivos para trabalhar.
Clicamos na primeira opção, que permite fazer o upload do arquivo. Após clicar, vamos encontrar o arquivo de campanha em nosso computador e clicar nele.
Surge um aviso informando que os arquivos desse ambiente de execução serão excluídos quando ele for encerrado.
Aviso
Confira se os arquivos foram salvos em outro lugar. Os arquivos deste ambiente de execução vão ser excluídos quando ele for encerrado.
Portanto, se o ambiente reiniciar ou desligar, será necessário fazer o upload novamente. Devemos estar cientes disso.
Após confirmar, percebemos que o arquivo campanha.csv
já está carregado e disponível para trabalho no Google Colab.
Agora, vamos criar uma nova célula de texto.
Nesta célula, podemos inserir texto, imagens e personalizar o notebook. Incentivamos a personalização própria. Ao inserir um #
e um espaço, o notebook entende como um título. Pois ele segue a linguagem Markdown.
Vamos inserir o título "# Analisando o Arquivo de Campanha" e executamos a célula com o atalho "Shift + Enter".
Para carregar o arquivo, utilizamos a biblioteca Pandas, uma ferramenta poderosa do Python para carregamento e análise de dados. Ela transforma os dados em uma tabela chamada DataFrame, permitindo visualização e manipulação. Importamos a biblioteca com:
import pandas as pd
Damos um apelido para a biblioteca para em vez de escrever o nome dela repetidas vezes, escrevermos essa abreviação. No caso, para "pandas" usaremos "pd".
Após a importação, a biblioteca está disponível para uso. Para leitura dos dados, utilizamos o Pandas, chamado como pd
, e a função read_csv()
. Passaremos o nome do arquivo que queremos utilizar como parâmetro:
Para copiar o caminho do arquivo no Google Colab:
- Encontre o arquivo no painel lateral de arquivos.
- Clique com o botão direito no arquivo desejado e selecione "Copy path" (Copiar caminho). Isso copiará o caminho completo do arquivo para a área de transferência.
pd.read_csv("caminho_do_arquivo_campanha.csv")
Ao executarmos esta célula, esse arquivo será carregado.
Em seguida, vamos fazer o que é considerado uma boa prática no Google Colab. Vamos guardar a leitura desse arquivo dentro de uma variável.
campanha = pd.read_csv("caminho_do_arquivo_campanha.csv")
Armazenamos a leitura na variável campanha
. Ao executar a célula, o arquivo é carregado. Para visualizar a tabela, chamamos a variável campanha
:
campanha
Os dados são carregados no formato de tabela, ou DataFrame, com 50 mil linhas e 8 colunas.
Para visualizar apenas algumas linhas, utilizamos a função head
, que traz as 5 primeiras linhas por padrão:
campanha.head()
Aqui está a tabela em formato Markdown:
Id_campanha | impressoes | cliques | canal | custo | receita | estado | pais |
---|---|---|---|---|---|---|---|
1 | 152431 | 9462 | 13258 | 32309 | MG | Brasil | |
1 | 39688 | 3218 | PPC | 16391 | 16568 | BA | Brasil |
1 | 104506 | 4756 | Google Ads | 6189 | 19029 | AL | Brasil |
1 | 80768 | 3566 | Google Ads | 5215 | 0 | PI | Brasil |
1 | 54932 | 3645 | Google Ads | 16767 | 8825 | RJ | Brasil |
Com isso, podemos fazer uma análise inicial dos dados, que incluem as colunas de ID da campanha, impressões, cliques, canal, custo, receita, estado e país (Brasil).
Para saber o tamanho do DataFrame, podemos utilizar o método shape
:
campanha.shape
(50000, 8)
O shape
retorna o número de linhas e colunas. A informação retornada indica que são 50 mil linhas por 8 colunas.
Para analisar uma coluna específica, como "canal", podemos fazer uma segmentação do DataFrame usando o colchetes:
campanha['canal']
Com o código acima, essa operação retorna uma Series, que é uma única coluna do DataFrame.
Para saber os valores únicos da coluna "canal", podemos utilizar a função unique
:
campanha['canal'].unique()
array(['Email', 'PPC', 'Google Ads', 'Meta Ads', 'Social Media'], dtype=object)
Foi retornado um array (lista) com os valores únicos, que são: e-mail, PPC, Google Ads, Meta Ads e Social Media. Então, foram esses 5 canais que foram utilizados em todas as campanhas.
Estamos começando a aprofundar nossa análise!
Vejamos outras questões para descobrirmos em nossos dados.
E se quisermos saber quantas campanhas foram feitas para cada canal?
Para isso, precisamos fazer uma contagem de valores por canais, utilizamos value_counts()
:
campanha['canal'].value_counts()
Aqui está a tabela em formato Markdown:
canal | |
---|---|
Google Ads | 25146 |
Meta Ads | 15009 |
Social Media | 4874 |
PPC | 2526 |
2445 |
Isso fornece uma contagem de valores por canal. Observamos que a maioria das ações foram feitas no Google Ads, seguidas por Meta Ads.
Viu só o poder do Pandas?
O Pandas já nos permite realizar análises iniciais, mas queremos gerar visualizações para aprofundar ainda mais nas análises dos dados. No próximo vídeo, criaremos nossos primeiros gráficos!
O curso Data Science para Marketing: analisando e explorando dados possui 109 minutos de vídeos, em um total de 53 atividades. Gostou? Conheça nossos outros cursos de Data Science em Data Science, ou leia nossos artigos de Data Science.
Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:
Impulsione a sua carreira com os melhores cursos e faça parte da maior comunidade tech.
1 ano de Alura
Assine o PLUS e garanta:
Formações com mais de 1500 cursos atualizados e novos lançamentos semanais, em Programação, Inteligência Artificial, Front-end, UX & Design, Data Science, Mobile, DevOps e Inovação & Gestão.
A cada curso ou formação concluído, um novo certificado para turbinar seu currículo e LinkedIn.
No Discord, você tem acesso a eventos exclusivos, grupos de estudos e mentorias com especialistas de diferentes áreas.
Faça parte da maior comunidade Dev do país e crie conexões com mais de 120 mil pessoas no Discord.
Acesso ilimitado ao catálogo de Imersões da Alura para praticar conhecimentos em diferentes áreas.
Explore um universo de possibilidades na palma da sua mão. Baixe as aulas para assistir offline, onde e quando quiser.
Acelere o seu aprendizado com a IA da Alura e prepare-se para o mercado internacional.
1 ano de Alura
Todos os benefícios do PLUS e mais vantagens exclusivas:
Luri é nossa inteligência artificial que tira dúvidas, dá exemplos práticos, corrige exercícios e ajuda a mergulhar ainda mais durante as aulas. Você pode conversar com a Luri até 100 mensagens por semana.
Aprenda um novo idioma e expanda seus horizontes profissionais. Cursos de Inglês, Espanhol e Inglês para Devs, 100% focado em tecnologia.
Transforme a sua jornada com benefícios exclusivos e evolua ainda mais na sua carreira.
1 ano de Alura
Todos os benefícios do PRO e mais vantagens exclusivas:
Mensagens ilimitadas para estudar com a Luri, a IA da Alura, disponível 24hs para tirar suas dúvidas, dar exemplos práticos, corrigir exercícios e impulsionar seus estudos.
Envie imagens para a Luri e ela te ajuda a solucionar problemas, identificar erros, esclarecer gráficos, analisar design e muito mais.
Escolha os ebooks da Casa do Código, a editora da Alura, que apoiarão a sua jornada de aprendizado para sempre.