Entre para a LISTA VIP da Black Friday

00

DIAS

00

HORAS

00

MIN

00

SEG

Clique para saber mais
Alura > Cursos de Data Science > Cursos de Estatística > Conteúdos de Estatística > Primeiras aulas do curso Estatística com R: correlação e regressão

Estatística com R: correlação e regressão

Introdução à correlação e regressão linear - Introdução

Bem-vindos a mais um curso da Alura. Eu sou o Rodrigo e vou ser seu instrutor nesse último módulo do nosso curso de estatística, que utiliza a linguagem R como ferramenta. Essa é a parte 4 e a partir de agora vamos falar sobre correlação e regressão linear.

Neste curso vamos ver uma aplicação de boa parte do que já vimos nos cursos anteriores. Vamos ver estatística descritiva, testes de hipótese, estimação. Tudo isso vimos nos três cursos que tivemos antes deste. É um treinamento com bastante conteúdo novo, mas sempre se alimentando dos conteúdos dos cursos anteriores. Você vai começar a entender por que é tão importante ter uma boa base em qualquer conhecimento.

Nosso notebook vem com bastante conteúdo, conceitos, fórmulas, tudo para facilitar o entendimento e para ficar como material de estudo para vocês, como fiz também nos primeiros cursos.

Já no próximo vídeo vamos preparar nosso ambiente de trabalho e começar nosso curso.

Introdução à correlação e regressão linear - Preparando o ambiente e dataset

Como nos cursos anteriores, antes da gente iniciar o treinamento precisamos configurar o ambiente. Eu escolhi como ferramenta o Microsoft Azure Notebooks. É um serviço de nuvem que oferece acesso online e gratuito para podermos desenvolver e rodar notebooks. Você só vai precisar de acesso à internet, um navegador e uma conta da Microsoft. Se você não tem uma conta, crie uma.

Feito isso, ele vai te jogar para uma janela onde você tem a visualização dos seus projetos. Se você vem acompanhando os cursos desde o primeiro, você já vai ter a pasta pronta. Se você começou agora, vou mostrar como criar um novo projeto.

Você vai em my projects, new project, ele vai pedir um nome. Marquei a minha como public e desmarquei o arquivo README. Clico em create e ele já cria o novo projeto.

Se eu quiser criar um notebook dentro do projeto, venho no símbolo de mais e clico em notebook. Ele vai pedir para escolher um nome e a linguagem. Escolhi o R. Clico em new e ele vai criar o novo notebook.

Vou apagar esses exemplos que eu criei, porque não vamos usar, e vou clicar em curso de estatística em R. Vou criar uma nova pasta, da parte quatro, clicando no mais, e vou entrar nessa pasta.

Deixei quatro arquivos para você fazer o download. No botão de seta para cima, vou navegar até a pasta onde estão os arquivos que eu criei. Seleciono tudo, abro. Ele vai mostrar todo mundo e marco que confio nesses arquivos. Ele vai liberar o upload. Quando tudo estiver verde é porque terminou.

Nosso arquivo de aula é o curso de estatística parte 4. Clico nele, vai abrir uma janela. Não vamos usar tanto o dataset neste curso, mas como já vínhamos usando ele também serve para fazer algumas brincadeiras. Tenho variáveis de renda, idade, altura, UF, sexo, anos de estudo, cor, raça.

Deixei algumas observações e as configurações. Também deixei uma configuração para os gráficos que vou usar no nosso curso. Ali embaixo tenho um espaço para ler o dataset. Vou chamar de dados, com a função read.csv. Passo a raiz do projeto.

Uma coisa que vou pedir no final do projeto é o parâmetro sep, de separador. Você pode configurar aqui para ponto e vírgula. Assim ele vai ler o arquivo com separador ponto e vírgula.

No próximo vídeo vamos rodar uma primeira versão só para tomarmos um susto do conteúdo que vamos aprender neste curso.

Introdução à correlação e regressão linear - Rodando uma regressão linear

O ambiente de desenvolvimento já está preparado. Vamos começar realmente nosso curso de estatística falando de correlações e regressões lineares simples. Assim como no curso anterior, de teste de hipótese, já começamos de cara rodando um teste, sem falar de teoria nem nada, que foi um teste de normalidade.

Agora vamos fazer a mesma coisa, vamos rodar uma regressão e ver de forma rápida boa parte do que vamos aprender neste curso. Depois, logicamente, vamos ver cada ponto com calma e detalhes.

Deixei um dataset pronto que eu mesmo criei para facilitar nosso aprendizado. Eu não vou usar dados reais como nosso dataset da PNAD, isso porque com dados reais geralmente surgem problemas que temos que resolver, coisas que vão nos fazer perder o foco, que é aprender a técnica de regressão pura e simplesmente.

Esse dataset tem somente duas variáveis, isso porque neste curso vamos aprender o modelo de regressão linear simples. Esse tipo de modelo tem apenas uma variável explicativa, que aqui é representada pela variável x do nosso dataset, que é a renda da famílias. A variável y, também conhecida como dependente, vai ser o gasto das famílias.

O modelo que quero estimar aqui é baseado na simplificação de uma teoria que diz que o gasto das famílias é uma função da renda dessas famílias. Vamos rodar o modelo. Primeiro quero visualizar o dataset. Para fazer isso posso pegar os primeiros registros e passar o dataset. Eu quero saber também quantos registros tem no meu dataset. Para isso uso nrow.

O primeiro passo quando estou rodando o modelo de regressão é conhecer as variáveis que estou trabalhando. Quero ver como elas se comportam, se preciso de algum tipo de tratamento. Aquelas coisas que não vamos ter que fazer aqui, mas pode acontecer. Para isso, primeiro dou uma olhada nas estatísticas descritivas dessas variáveis.

Tenho a função summary, que passo meu dataset. Ele vai rodar as estatísticas para a variável y e para a variável x. Temos mínimo e máximo, primeiro quartil, mediana, média, terceiro quartil. Coisas que vimos nos treinamentos anteriores.

Usando a função apply, passo o meu dataset, digo que quero que ele crie as estatísticas para colunas ou linhas. Como tenho um dataset com colunas, vou colocar o número 2. Vendo a ajuda você entende melhor como isso funciona.

No final passo uma função que quero que ele me retorne dessas colunas, que é o SD, desvio padrão. Agora, uma coisa interessante também é fazer uma análise gráfica desses dados, um boxplot. Para criar um boxplot para as duas variáveis, uso uma funcionalidade chamada stack, passando o dataset. Ele vai empilhar as informações para eu passar para o ggplot. Ele cria uma coluna chamada int e coloca os nomes das variáveis. Ele faz a mesma coisa para x.

Passando esse cara para a função que eu já deixei pronta, e passando também o que quero no eixo x e y, que são as variáveis int e values respectivamente, vamos ter os nomes das variáveis como x e y. Isso aconteceu porque ele plotou o gráfico em pé. Eu vou usar o coord flip para inverter.

Reparem que ele não mostra aqueles pontinhos extras que ficam para fora, está bem comportado, apesar de não ser perfeito. Outro passo que vamos começar a perceber é que estamos rodando modelos lineares. É interessante ter uma relação linear entre as variáveis que estamos trabalhando.

Uma forma de visualizar isso é graficamente. Vou plotar um gráfico com o dataset e as variáveis que quero rodar, que são x e y. Ele me dá um gráfico de dispersão. Repare na tendência. Ele plota inclusive uma reta de ajuste que vamos ver neste curso.

Tem uma relação bem forte entre as duas variáveis. Isso já me dá uma primeira impressão. Posso querer uma informação numérica sobre esse tipo de relação entre as duas variáveis. Quero um número e vou buscar essa informação com o coeficiente de relação.

O R tem uma funcionalidade para isso, que é o cor, passando o dataset. Ele vai criar uma matriz de correlação. A diagonal principal vai ser sempre 1 e esses outros pontos são iguais porque estamos fazendo a correlação de x contra y e de y contra x.

Vamos falar dessa medida de correlação. Ela é um número que varia de -1 a 1. Quanto mais próximo dos extremos, mais forte a relação linear entre as variáveis. Quanto mais próximo de 0, menos intensa é a relação.

Vimos pelo número que a relação aqui é bem forte, o gráfico também indica isso. Vamos rodar nosso modelo de regressão. O R tem uma função simples para isso, que é a LM, onde passo dois parâmetros. Vamos escrever como se fosse uma fórmula. Vai ser y, coloco til e x. É como se fosse y igual a x.

A próxima informação é o data, que vai ser dataset. Ele vai armazenar tudo isso dentro da variável regressão. Ele me passa os coeficientes estimados. Vamos falar disso com calma depois.

Uma forma de visualizar mais informações do resultado é usando uma função semelhante a que fizemos lá, chamada summary, colocando a variável que criamos dentro dessa summary. Como você está passando um objeto que vem de uma função de estimação, ele vai entender o que é e vai rodar do jeito que precisamos.

Ele já me reporta mais informações, os coeficientes estimados, o T valor. Estamos testando uma hipótese em cima de cada parâmetro estimado. Temos outro teste de hipótese. Iremos ver com calma. Temos o R2, que você deve ter ouvido falar. É uma saída um pouco mais completa.

O próximo passo é criar previsões dentro da amostra do meu modelo, para testar e ver se está funcionando mesmo. Para fazer isso, pego o resultado da regressão, coloco um til, chamo a variável, que é o fitted.values. Ele vai criar uma nova variável para mim dentro do dataset com os valores previstos dentro da amostra. Depois vamos aprender como prever fora da amostra, que é geralmente nosso objetivo.

Esse era só um susto que eu queria dar, mostrar mais ou menos tudo que vamos ver. Daqui para a frente vamos ver passo a passo com calma cada uma dessas coisas. No próximo vídeo falamos de correlação.

Sobre o curso Estatística com R: correlação e regressão

O curso Estatística com R: correlação e regressão possui 153 minutos de vídeos, em um total de 63 atividades. Gostou? Conheça nossos outros cursos de Estatística em Data Science, ou leia nossos artigos de Data Science.

Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:

Aprenda Estatística acessando integralmente esse e outros cursos, comece hoje!

Conheça os Planos para Empresas