Alura > Cursos de Data Science > Cursos de Estatística > Conteúdos de Estatística > Primeiras aulas do curso Estatística com R: crie e compare modelos estatísticos

Estatística com R: crie e compare modelos estatísticos

Projeto e Banco de Dados - Introdução

Fala, galera da Alura, beleza? Hoje eu vou falar um pouco do nosso curso de modelagem estatística com R e vou te mostrar porque que você deve fazer esse curso. No nosso projeto de curso, nós iremos trabalhar pra uma empresa de mobilidade urbana e essa empresa quer saber o que afeta a qualidade do ar nas cidades.

Por quê? A empresa, ela quer criar novos serviços e ela precisa saber o que que tá acontecendo nessas cidades, o que que afeta a qualidade do ar e onde ela pode atuar, oferecendo novos serviços.

E durante esse projeto, nós vamos aprender primeiro o R, que é uma das linguagens mais interessantes para análises estatísticas que nós temos, nós vamos aprender Scripts do R, como criar diferentes modelos estatísticos com diferentes variáveis, nós vamos também aprender como fazer uma análise exploratória dos dados.

Isso é: que tipo de dado você tem? Como que esses dados se comportam em relação à sua variável (no nosso caso, a qualidade do ar)? - nós vamos aprender um pouco sobre gráficos e retas, justamente pra expor os seus resultados pros seus clientes e, por fim, a modelagem em si, que é a construção de modelos e o contraste entre esses modelos.

Buscando sempre encontrar o melhor modelo pros seus dados, quais variáveis devem sair e quais devem ficar no seu modelo, e é isso que nós vamos ver no decorrer do nosso curso. Aqui nós temos um script final do R, que nós vamos trabalhar.

Então nós vamos ver gráficos com diferentes retas, com três variáveis, vamos ver como personalizar esses gráficos dentro do R e aqui nós temos o nosso script que será trabalhado ao longo do curso - desde carregar o banco de dados até a construção de modelos e como as retas se comportam, como as variáveis se comportam em relação à outra. Espero que vocês gostem e aguardo vocês do curso! Um abraço.

Projeto e Banco de Dados - Projeto e Banco de Dados

Bem-vindo ao nosso curso de modelagem estatística com R aqui na Alura. Nessa primeira aula, nós vamos planejar o nosso projeto de curso e esse projeto, ele será desenvolvido ao longo das aulas e através dele que nós vamos aprender a analisar, a desenvolver o nosso conhecimento estatístico.

Então, a primeira coisa que nós devemos definir no nosso projeto é saber qual pergunta nós queremos responder. Isso é importante pra que o seu projeto tenha uma direção, um objetivo concreto.

A dica que eu dou é: jamais saia analisando os dados sem um planejamento prévio. Por quê? Um bom planejamento, ele evita que você encontre algumas correlações espúrias, correlações ao acaso e acaba perdendo tempo com algumas análises que são até desnecessárias. Então a primeira coisa é: planejar. Principalmente, planeje a pergunta de trabalho.

Bom, vamos imaginar que você foi contratado como analista de dados em uma Startup de mobilidade urbana e o interesse dessa empresa é saber o que afeta a qualidade do ar nas cidades, pra desenvolver novos projetos de mobilidade e redução da poluição. Então esse que é o grande objetivo dessa Startup.

E essa empresa, ela disponibilizou pra você um banco de dados da qualidade do ar de algumas cidades do país, e a pergunta que eles querem responder é: o que afeta a qualidade do ar nas cidades? Então é justamente esse o problema que nós iremos trabalhar ao longo do nosso curso. [01:43] Então, com essa pergunta em mente, vamos abrir o R. Então aqui com o RStudio aberto, que é a interface pro R, nós vamos criar um novo Script. O Script é uma maneira interessante de você organizar os seus dados pra que no futuro você possa reanalisar ou modificar, ou até mesmo colocar novos dados em cima das suas análises iniciais.

Então vamos clicar em File, New File, R Script, ou você também pode clicar aqui no canto esquerdo, nesse pequeno ícone, e clicar em R Script. No R Script, funciona da seguinte maneira, pra quem ainda não tem familiaridade: a Forquilha é um comentário, ou seja, não será lido pelo R, e qualquer outro comando que você colocar aqui em cima será lido e será rodado aonde? No console aqui embaixo.

Então, aqui o Script, a nossa janela de baixo, o console. Então a primeira coisa que nós vamos fazer é (digitando) "definindo o projeto de curso", a nossa pergunta, que vai direcionar o nosso projeto.

Então a pergunta é: "o que afeta a qualidade do ar? E como isso afeta?" Porque uma coisa é "o que" afeta, nós saberemos quais variáveis irão afetar, e "como" é: como que é a relação entre essas variáveis - aumenta uma, diminui a outra? Aumenta uma, também aumenta a outra? - então por isso nós adicionamos o "como" aqui, pra deixar claro que a gente quer saber como elas se comportam uma relação à outra.

Pro banco de dados, nós vamos utilizar um pacote chamado Ecdat - no meu caso, eu já tenho ele instalado. Caso você ainda não tenha esse pacote instalado, você pode clicar nessa aba aqui de Pacotes, clicar no ícone de Install e buscar por esse pacote aqui, "Ecdat". No meu caso, eu já tenho ele instalado, então não vou instalar.

De qualquer forma, vou deixar o comentário no Script e é sempre bom que você faça o mesmo, pra que, no futuro, quem foi utilizar o Script, saiba que você utilizou esse pacote. O Ecdat vai ser apenas pra gente extrair o banco de dados da empresa, que contém as informações sobre a poluição nas cidades.

Uma outra forma de você instalar é com o comando Install.packages. E aqui nós vamos colocar "Ecdat". Então aqui, deixando o comentário - o comentário também pode ficar na frente, tá?, da linha, não tem problema, na frente do comando, se necessário. Vou colocar um comentário aqui também, porque no meu caso ele já está instalado.

Uma vez instalado, você deve chamar esse pacote pra, pro nosso programa, pro nosso script. Uma forma é: Library e o nome do pacote, "Ecdat". E aqui se eu clicar em Run, ou apertar Ctrl + Enter, ele vai rodar aqui no nosso console.

Olha só, ele carregou o pacote Ecdat. Uma outra forma é, ainda aqui na aba de pacotes, você buscar pelo pacote que você quer e ticar ele.

Pronto, ele também será carregado, é uma forma mais visual de fazer isso. Pro Script eu recomendo deixar em forma de linha de comando. Então aqui, carregando o pacote que nós instalamos em cima, e agora nós vamos buscar o banco de dados que nós vamos utilizar.

Pra isso, nós vamos utilizar o comando Data e Airq, que é o banco de dados que está disponível nesse pacote. Ctrl + Enter, pronto: o nosso banco de dados foi carregado, ele até apareceu aqui no nosso environment.

Todos os objetos, todos os bancos de dados, todas as funções que nós criarmos durante o, a nossa análise irá aparecer aqui, nesse ambiente aqui, nosso environment. Existem várias formas de você acessar esse banco de dados e ver o nome das variáveis.

Uma forma é com o comando Names. É o Names, Airq, olha só, ele nos exibe o nome de cada uma dessas variáveis que eu já vou entrar em detalhes, cada uma delas.

Uma outra forma é clicar aqui, ó: Data, ele vai abrir o banco de dados, e aqui nós podemos observar os valores e as variáveis - cada linha é uma amostra, uma cidade, e cada coluna é uma variável.

Lembrando: não esqueça de colocar os comentários, tá? Carregando o banco de dados do pacote, e aqui exibe os nomes das variáveis. Vamos então descrever as variáveis.

É sempre interessante você fazer isso com qualquer análise, descrever aquelas variáveis, pra uma pessoa no futuro que for ler o seu Script saber o que significa cada uma daquelas variáveis, porque na grande maioria dos casos esses nomes estarão simplificados, então sempre descreva esses nomes, descreva as variáveis.

A nossa primeira variável é Airq, que é justamente o índice de qualidade do ar que foi medido nessas cidades e, nesse caso, quanto menor, melhor, ou seja, índices muito altos indicam com a poluição muito alta também.

Nós temos a variável vala, que é o valor das empresas nas cidades, (digitando) "valor das empresas nas cidades" - no caso, em milhares de dólares -, nós temos a variável Rain, que é chuva, então é a quantidade de chuva - no caso, em polegadas -, nós temos também a variável coas, que é a posição costeira da cidade - isso é, ela tá próximo ou não ao mar? - (digitando) "posição costeira da cidade". Nesse caso, será "sim" ou "não" - ou seja, uma variável binária.

Nós temos a variável dens, que é a densidade populacional - no caso, em milha quadrada - e, por fim, nós temos med, que é a renda média per capita - no caso, também em dólares. [09:01] Então a nossa pergunta é: Qual ou quais dessas variáveis afetam a qualidade do ar nas cidades, afetam a nossa variável Airq? Então a nossa variável Airq é a nossa variável-resposta, é aquela que vai sofrer os efeitos das demais variáveis.

Então a variável resposta e as demais nós chamamos de variáveis explicativas - ela ajuda a, elas ajudam a explicar a variação na variável-resposta. Com os dados em mãos, a primeira coisa que eu recomendo sempre fazer é uma análise descritiva ou exploratória desses dados, então (digitando) "análise descritiva ou exploratória".

Uma forma simples de se fazer isso é com comando Summary, Summary e o banco de dados. Olha só, ele mostra cada uma das variáveis, os valores mínimos, os valores máximos, a média, a mediana, o primeiro e o terceiro quartil de cada uma das variáveis.

Olha só, nossa variável coas, opa, desculpa, a nossa variável coas, que é uma variável binária, ela tem nove cidades que não são costeiras e vinte e uma cidades que são costeiras, então aqui é "sim" ou "não", uma variável binária; as demais, elas são variáveis contínuas.

Na variável coas, nós também podemos ver como uma variável, podemos dizer que ela é uma variável categórica né, porque ela é dividida só em duas categorias, "sim" ou "não". Então é interessante nós fazermos um comentário acerca disso. Então, (digitando) "sumário das variáveis" e "as variáveis podem ser contínuas ou categóricas" né, "(divididas em categorias).

A variável-resposta é a qualidade do ar (Airq)" e as demais são variáveis explicativas, que vão ajudar a explicar essa variação na qualidade do ar. Nós podemos fazer também gráficos com esses dados, gráficos simples, só pra nós termos uma ideia de como elas se comportam - e pra gráfico no R, o comando é Plot.

Então, Plot, abriu parênteses, eu coloco primeiro a variável-resposta (então, Airq) em função - esse til significa "em função de" - então, qualidade do ar em função da variável vala, por exemplo, só pra gente fazer uma exploração inicial, e informar também o banco de dados, Airq. Ctrl + Enter, olha só: nós temos uma variável contínua explicativa, aqui no eixo x, chamada vala, que chega até 20000, e nós temos a nossa variável-resposta, também contínua, Airq.

Lembrando que quanto menor, melhor a qualidade do ar na cidade; quanto maior, pior a qualidade do ar. Mas um gráfico, ele não implica necessariamente na significância daquele, daquela variável. Isso é: isso aqui não está mostrando efeito ainda, nós não temos as informações estatísticas ainda, que nós vamos aprender nas próximas aulas.

Modelos Estatísticos Simples - Modelos Estatísticos

Então agora nós devemos montar o nosso modelo estatístico justamente pra começar a analisar esses dados, pra saber qual ou quais variáveis influenciam na qualidade do ar. Então, fazendo um comentário aqui: (digitando) "criando um modelo estatístico".

Um modelo estatístico básico, ele é dado por y em função de x. "Como assim?", y em função de x. Esse tilzinho, nós lemos "em função de". Por exemplo: esse gráfico que tá aberto aqui, nós temos a qualidade do ar em função da posição costeira da cidade, porque o y é a nossa variável-resposta - no caso, qualidade do ar - e o x é a nossa variável explicativa - e aqui no nosso exemplo, a posição costeira da cidade.

Então, pra montar um modelo simples, é sempre y, que é a variável-resposta - nós sempre teremos uma única variável-resposta por modelo. Claro que você pode trabalhar com mais de um modelo com diferentes variáveis-resposta, mas no geral é sempre uma variável-resposta, uma variável que sofre o efeito e outras que podem influenciar nesse efeito.

Então x é justamente a explicativa. A variável-resposta e uma variável explicativa. Uma explica a variação da outra. A variável Coas explica a variável Airq ou, aqui no nosso outro exemplo, a variável vala explica ou não a variável Airq.

Então você tem que ter isso em mente pra entender qual que influencia qual. Imagine, por exemplo, quando você for colocar adubo em uma planta.

Qual que é a variável explicativa e qual que é a variável-resposta? É o crescimento da planta que influencia na quantidade de adubo ou a quantidade de adubo que influencia no crescimento da planta? É claro que é a quantidade de adubo que vai influenciar no crescimento da planta, então só pra ficar em um exemplo, a nossa variável x seria o crescimento da planta e a nossa variável y seria o quê? A quantidade de adubo colocado.

A princípio, pode parecer um pouco óbvio, mas quando você for receber uma grande quantidade de dados, uma grande quantidade de variáveis, pode ser que esse limiar entre a variável-resposta e a variável explicativa não seja tão claro. Por isso é interessante você ter em mente - aqui é só um exemplo, é bem didático, mas lembre-se disso.

Por vezes é interessante você conversar direto com seu cliente pra entender exatamente o que ele quer, qual que é a resposta que ele quer. E no caso se nós formos trabalhar com outras variáveis no nosso modelo, nós utilizamos o comando Mais, o sinal de "+".

Então um terceiro modelo seria y em função de x1 (uma variável) + x2 m+ x3. E por aí vai. Você adiciona essas variáveis, a princípio, com o comando de "+". Aqui na nossa, nosso exemplo de adubo, a gente pode colocar também a quantidade de luz que ela recebeu durante esse período, por exemplo, então nós teríamos uma outra variável x aqui.

E no nosso exemplo, como que seriam essas variáveis? Como que seria esse modelo? Então seria Airq em função de quê? Vala + Coas + Rain, enfim: nós vamos adicionando ao modelo com o comando Mais. Então vamos começar a desenvolver os nossos modelos.

Sobre o curso Estatística com R: crie e compare modelos estatísticos

O curso Estatística com R: crie e compare modelos estatísticos possui 99 minutos de vídeos, em um total de 30 atividades. Gostou? Conheça nossos outros cursos de Estatística em Data Science, ou leia nossos artigos de Data Science.

Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:

Aprenda Estatística acessando integralmente esse e outros cursos, comece hoje!

Conheça os Planos para Empresas