Sejam bem-vindos a mais um treinamento da Alura. Meu nome é Rodrigo e vou ser seu instrutor neste treinamento de Estatística, que faz parte de um conjunto de treinamentos de estatística. Estamos na primeira parte, ainda tem mais três por vir.
Nessa parte vamos aprender a fazer uma análise descritiva de um conjunto de dados e aqui vamos conhecer as ferramentas para realizar esse tipo de análise descritiva.
Vamos conhecer como classificar variáveis em estatística. Vamos conhecer as medidas de tendência central, que são a média, a mediana e a moda; vamos falar das medidas separatrizes das medidas de dispersão, onde entra a variância e o desvio padrão, que você já deve ter ouvido falar.
Vamos aprender a construir histogramas, box-plots, tabelas de distribuição de frequência, enfim, um conjunto bem amplo de ferramentas de estatísticas que vão nos ajudar nesse treinamento mas também vão nos seguir para os próximos treinamentos.
Eu deixei aqui um notebook com todo o material de estudo para você. As células dele estão vazias, vamos preenchendo essas células durante o nosso treinamento e vamos aprendendo e deixando isso como material de estudo também, material de referência para você.
Nós já temos um curso de estatística aqui na Alura que tem mais ou menos o mesmo conteúdo desse, só que lá nós usamos a linguagem Python como ferramenta para desenvolver os nossos projetos.
Aqui vamos estar utilizando a linguagem “R”, mas não se preocupe, você não precisa saber “R” para realizar esse treinamento. Eu vou acompanhar você, vou mostrando como realizar as etapas aqui no treinamento. Então pode vir tranquilo, vai dar para fazer, mesmo sem conhecer o “R”.
Eu espero que esse treinamento te ajude bastante. Já no próximo vídeo, vamos configurar o ambiente que vamos estar trabalhando aqui no nosso projeto. Vejo você no próximo vídeo, até lá!
Antes de iniciarmos o nosso treinamento, precisamos configurar o ambiente que vamos desenvolver o nosso projeto.
Se você já acompanha os treinamentos de Data Science aqui da Alura, você já deve conhecer o CoLab, já deve saber utilizar o CoLab. Nesse treinamento eu não vou utilizá-lo. Por quê? Porque até a data de gravação desse vídeo não era possível criar notebooks utilizando linguagem “R” no CoLab, pelo menos de forma simples.
Se você pegar esse notebook que eu deixei para você fazer download e tentar abri-lo no CoLab, você vai conseguir rodá-lo com a linguagem “R” lá dentro. O que indica que eles já estão começando alguma iniciativa para dar suporte à linguagem “R”.
Mas como não é muito simples, eu não quero complicar o nosso treinamento. Eu vou usar outra ferramenta para trabalharmos o nosso projeto. Vamos usar a Azure Notebooks.
Aqui no Google você digita “azure notebooks” e vai ter o link que vai direcionar para essa página inicial. Você precisa criar uma conta aqui na Microsoft para ter acesso aos projetos da Azure Notebooks.
Eu não vou cobrir isso porque é uma coisa bem simples. Só criar uma conta, você vem aqui em “Sign In” e vai no procedimento, e-mail e senha. Criada a conta e feito o login, você vai cair em uma janela como essa, do seu perfil, onde você vai conseguir visualizar seus projetos, as configurações, enfim.
Eu estou na minha, não tem nenhum projeto aqui ainda, deixei vazio para fazermos isso juntos. Eu venho em “My Projects”. Clique aí. Como eu disse agora há pouco, eu deixei o material para você fazer download, onde tem os notebooks e o Dataset que vamos utilizar no nosso treinamento. Então pegue ele, salve em algum lugar porque vamos precisar dele agora.
Primeira coisa: vamos criar um projeto novo, não tem projeto nenhum. Eu venho nesse botãozinho, “New Project”. Ele vai pedir um nome, eu vou chamar de “Curso de Estatistica em R”, sem acento mesmo, porque se não ele vai começar a dar alguns probleminhas. Botei esse nome. Coloque o nome que você quiser.
Ele criou um ID, bonitinho. Eu vou marcar como público, vou deixar isso aqui se você quiser acessar. Não precisa acessar porque eu vou deixar o conteúdo para você fazer o download, mas se você acessar o meu aqui, não tem o menor problema.
Aqui está perguntando se quer inicializar o projeto com o “README”, eu não vou colocar. O “README” é um arquivo texto, onde você coloca informações sobre o seu projeto. Se você quiser também deixar, fique à vontade, não tem o menor problema. Clico em “Create”. Ele criou o meu projeto, está aqui, já entrou no projeto, “Curso de Estatistica em R”. Está com o status parado.
Como eu disse na introdução, esse curso faz parte de um conjunto de cursos de estatística, temos a parte 1, 2, 3 e 4. Então eu vou criar uma pasta aqui, estou criando a pasta porque não dá para pegarmos a pasta e fazermos o upload de uma pasta com arquivos de dentro para cá. Então preste atenção nisso, por isso eu estou criando uma pasta.
Venho nesse botão com “+”, “Folder”, e crio aqui chamando-a de “Parte 1”. Aperto a tecla “Enter”, nós entramos nessa pasta agora. Aqui dentro eu vou jogar os arquivos que eu deixei para você fazer download.
Vindo nesse botãozinho com a seta para cima, eu clico nesse botão e venho em “From Computer”. Vou puxar os arquivos para fazer upload e jogá-los dentro do meu projeto. “Choose files”, já está na pasta que eu criei, os dados estão aqui.
“Análise_Descritiva” é o notebook. “Curso_de_Estatística_Parte_1”, que também é o notebook, que é justamente o notebook que está nossa aula, e “dados.csv”, que é o conteúdo Dataset que vamos trabalhar no nosso treinamento.
Selecionei todo mundo e abri. Bem simples, está todo mundo aqui, eu clico no botãozinho aqui embaixo, “Upload”. Ele vai fazer o upload, dependendo da sua conexão se é rápida ou devagar. Vai demorar um pouquinho na minha. Principalmente o “dados”, que tem um tamanho um pouco maior, mas ele está aqui fazendo, vamos aguardar. Está fazendo o upload.
Fez o upload, o botãozinho ficou azul, e eu clico em “Done”. Pronto! Puxou todo mundo aqui para dentro, é isso que eu queria. Eles são quem eu vou trabalhar. Eu clico no “Curso_de_Estatística_Parte_1”, que é o notebook de aula. Ele vai carregar esse aqui para mim. Olhe que fácil! E já tem o Jupyter aqui todo configurado, certinho.
Vai demorar um pouquinho porque está carregando. O notebook tem o conteúdo já todo prontinho para trabalharmos. As células estão em branco para irmos preenchendo ao longo do treinamento com a documentação, com tudo que é necessário para você acompanhar o curso e guardar isso como material de estudo.
Aqui ele está “Kernel starting [...]”, então espere isso antes de você iniciar a brincadeira, ele está fazendo aqui. Conectado, está tudo certo. Isso aqui indica que ele está com a linguagem “R”, o [KERNEL R] carregado. Quando digitarmos código na célula, o código “R”, e executarmos, ele vai entender e vai gerar resultado para nós.
O que eu quero mostrar também, só para finalizar, é como criamos um notebook aqui, sem trazê-lo de fora. Eu venho no “+”, mesma coisa do folder, “Notebook”. Para fazer isso, eu preciso dar um nome para ele. Vou dar um “Aula”, só uma coisa de exemplo. Preciso escolher a linguagem que eu quero utilizar nesse notebook.
Eu tenho aqui as opções de “Python”, “R” e “F#”. Como estamos trabalhando com “R”, eu vou escolher o “R”. Botão “New” e ele vai criar o notebook para nós. Para utilizar eu clico nele, entro ali e espero o Kernel carregar. Tudo certinho, a partir de agora eu já posso digitar aqui código “R”, apertar as teclas “Shift + Enter”, ele vai executar isso e me gerar os resultados.
É isso que eu queria mostrar antes de iniciarmos realmente o nosso treinamento. Agora, no próximo vídeo nós já começamos a colocar a mão na massa. Eu vou mostrar para vocês algumas ferramentas com “R” e vamos conhecer o nosso Dataset de trabalho nesse projeto. Até lá, então!
Agora que já estamos com nosso ambiente preparado, vamos começar o nosso curso de estatística. A primeira coisa que eu quero mostrar nesse vídeo é o Dataset que vamos utilizar nesse treinamento e nos próximos também.
Eu escolhi um Dataset público, peguei-o no site do IBGE, o Instituto Brasileiro de Geografia e Estatística, que é o instituto oficial de estatística do nosso país. Lá eu peguei os dados da Pesquisa Nacional por Amostra de Domicílios do ano de 2015. Deixei aqui uma descrição básica da pesquisa, é uma pesquisa anual que investiga características básicas da população.
Você que está mexendo estatística, o pessoal do Data Science, vai precisar sempre de um Dataset. E geralmente, os Datasets hoje em dia são volumosos. Esse aqui tem um pouco mais de 70 mil registros. Eu achei legal um Dataset desse tamanho para ilustrar o nosso curso e ver como o “R” trabalha com essa quantidade de dados de forma rápida e simples.
Deixei aqui o link da fonte dos dados. Clicando aqui você vai direto para o site do IBGE, onde eu fui lá e capturei os dados, peguei os microdados dessa pesquisa, que é a forma mais desagregada de acessarmos o Dataset no IBGE. É como se estivéssemos acessando os dados do questionário da pesquisa.
Lá tem muitas mais variáveis do que vamos estar utilizando no nosso treinamento. Eu fiz uma seleção de algumas variáveis que eu acho importantes para ilustrar o nosso treinamento aqui, as técnicas de estatísticas que vamos utilizar, o formato dos dados e os problemas que podem acontecer. Então fiz essa seleção dos dados aqui.
Eu vou usar a renda, que é a renda mensal do trabalho principal para pessoas de 10 anos ou mais de idade. A idade do morador também. Essa variável “Altura” é uma elaboração minha.
Eu criei essa variável para nos ajudar a entendermos também alguns conceitos estatísticos, ela tem uma característica especial que depois nós vamos ver, ao longo do treinamento. Vamos usar também a variável “UF”, que é Unidade da Federação, que são os estados do Brasil.
Lá no nosso Dataset, que fizemos o upload no vídeo anterior, não vai estar o nome do estado, vai estar o código do estado. Depois, com “R”, eu vou mostrar para você como “linkar” essa descrição aqui, mas deixei o dicionário aqui para ficar mais fácil de entender.
Mesma coisa para o “Sexo”, vai estar também o código, “0 e 1”. “0” significa masculino, e “1”, feminino. “Anos de Estudo” também, o código e o que significa o código também. E a “Cor” da pele, também o código e a descrição, o que significam. Esses códigos já vieram prontos do IBGE, eu não criei nenhum deles.
Nós que vamos mexer com estatística e Dataset, sempre que fizermos uma elaboração, é bom documentarmos isso, até mesmo para lembrarmos no futuro o que está acontecendo, quais informações foram eliminadas ou adicionadas e por aí vai.
Esse aqui eu fiz três manipulações, onde os registros tinham renda inválida, que apresentaram esse código aqui, um monte de 9, eu tirei fora todo mundo. Onde não tinha renda, era “missing”, também cortei e só considerei as informações das pessoas de referência, que são as pessoas que respondem o questionário.
Feitas essas considerações, antes de colocarmos a mão na massa realmente no dado e trazê-lo para dentro do nosso notebook, eu vou mostrar alguns macetes de “R” com as coisas básicas para ajudar você a começar a se ambientar com “R” e alguns comandos, coisas simples.
O primeiro deles é o “sessionInfo()”. Lembra do “I” maiúsculo ali, “()”. Lembrando que estamos com o notebook rodando com o Kernel “R”, código “R”, que você digitar dentro da célula você aperta as teclas “Shift + Enter” e ele vai executar esse código.
Esse comando, especificamente, mostra características da máquina que estamos rodando, qual é a versão do “R” e qual a versão do sistema operacional que estamos rodando. Lembra que estamos rodando uma máquina na nuvem, na Azure? É uma máquina Linux com Ubuntu instalado. A versão do “R” é 3.5.3.
Aqui tem características básicas do próprio “R”. Aqui os pacotes básicos já estão disponíveis facilmente para nós, é só digitarmos o comando da funcionalidade de cada pacote desse e já vai ter disponível, não precisamos importar nada.
Mas eu vou mostrar para você, caso você precise de funcionalidades extras que vêm de outros pacotes, temos como importar esses pacotes, com essas funcionalidades específicas, carregar no nosso notebook e utilizá-lo no nosso projeto. Como eu faço isso?
Primeiro: um dos pacotes que vamos utilizar muito no nosso treinamento é esse “dplyr”. Eu vou mostrar para vocês como fazer o carregamento, porque reparem, ele não está aparecendo aqui, nem básico, nem nenhuma informação do “dplyr”. Eu quero tornar ele disponível no meu projeto para eu usar as funcionalidades dele. Como eu faço isso? Com o comando “library()”.
Fazendo pura e simplesmente isso - “()”, teclas “Shift + Enter” - eu vou ter uma lista dos pacotes que estão disponíveis para eu importar rapidamente, sem ter que fazer instalações extras, porque ainda tem isso.
Se você tem algum pacote específico que você quer utilizar e não o encontra nessa listagem, você pode utilizá-lo. Você vai precisar fazer a instalação desse pacote, descobrir como fazer essa instalação e depois fazer o “import” dele com essa função “library()”.
Aqui está a lista de todos, vou tentar achar o “dplyr”, mostrar para você que ele está disponível aqui, só que ele não está disponível no nosso projeto. É “dplyr”. Cadê? Está aqui! Ele está disponível aqui, então é bem simples. Eu venho e fecho essa ajudinha.
Para torná-lo disponível no meu projeto, eu faço da seguinte forma: “library(dplyr)”. Teclas “Shift + Enter” e ele vai rodar. Ele deu esse código, essa coisinha que parece um erro, mas não, ele está dizendo que tornou disponível o pacote aqui.
Agora repare: não tem “dplyr”. Se eu rodar isso aqui de novo, “sessionInfo”, vamos ver o que acontece. Olhe aqui, outros pacotes, que estão “atachados” aqui. O “dplyr” nessa versão 0.8.1, que é versão que ele está usando agora. Já conseguimos fazer isso.
Uma outra coisa que é interessante, quando estamos usando uma linguagem, é sempre conseguir acessar a ajuda dessa linguagem. No nosso notebook gentilmente eu deixei aqui, sempre que eu vou utilizar um comando, eu deixo esse link para você clicar e ir direto para a documentação do “R”, onde está a informação toda da funcionalidade que estamos utilizando, até mesmo do pacote.
É bem simples utilizar, é só vir aqui. Em alguns casos você, no final, tem alguns exemplos, nesse caso aqui não tem. Exemplos até que você pode executar aqui mesmo. Quando tiver algum eu vou mostrando para vocês.
Outra forma de você acessar a ajuda e aqui, do nosso próprio notebook – vou apertar o a tecla “F11” para tornar isso aqui maior – é fazendo o seguinte: eu coloco aqui uma tecla “?” e digito o comando “select”, por exemplo, que é o que acabamos de ver ali, que é uma funcionalidade dessa biblioteca “dplyr”.
Repare: “select” aqui e dentro das chaves, tem a biblioteca que ela pertence, “dplyr”. E aqui você tem acesso a realmente aquela ajuda que estávamos vendo já no nosso notebook, fácil de acessar. Simples, só a tecla “?” e o nome do comando.
Vou fazer de novo aqui. Vou usar o “arrange” que eu deixei ali em cima, que é outra funcionalidade que vamos ver nos próximos vídeos, então não se preocupe, eu estou só mostrando como acessar a ajuda aqui. “arrange (dplyr)” também, já está tudo disponível. Já conseguimos acessar, inclusive, as ajudas desses caras.
Nesse básico de “R” vamos fazer o seguinte: vamos criar nosso primeiro Data Frame, utilizando os dados do nosso - vou voltar aqui - Dataset que fizemos o upload, que é esse “dados”. Como fazemos isso?
Primeiro: eu vou criar uma variável “dados” no “R”. Tem duas formas de atribuirmos o valor à variável. A tecla “=”, qualquer um conhece esse aqui, e no “R” tem essa “<-”. Eu vou usar a “<-” ao longo do nosso treinamento, porque é o padrão do “R”, mas o “=” tem o mesmo resultado. Você pode usar “=” se você achar mais fácil ou usar essa “<-”, não tem o menor problema.
O que eu estou dizendo é que eu quero atribuir uma coisa que eu vou digitar aqui a esta variável que eu estou chamando de “dados”.
E o que eu quero atribuir? Eu quero ler aquele Dataset e transformá-lo em uma estrutura que o “R” entenda, que é o Data Frame, que é uma estrutura tabular. É semelhante a uma tabela, que tem colunas ou linhas, e que nós conseguimos trabalhar de forma simples e rápida, com diversas funcionalidades aqui dentro do “R”.
Para fazer isso, lendo o nossos CSV, que é um arquivo “.csv”, eu tenho uma funcionalidade no “R”, que é o “read.csv”. Eu abro “()”, venho em uma aspas simples e passo o nome do meu arquivo “.csv”. Como ele está na raiz, junto com meu notebook, eu não preciso de endereço, não preciso de nada. É só passar o nome do arquivo e pronto. Teclas “Shift + Enter” e rodou.
Para visualizar dentro do notebook é só digitar o nome da variável que eu acabei de adicionar isso aqui. Coloquei esse Data Frame dentro dessa variável “dados” e perceba, a “<-” que está dizendo isso. Aqui você está lendo e ao mesmo tempo criando o Data Frame, e jogando essa informação dentro de “dados”.
Agora, o meu “dados” é isso, é toda informação desse aqui, que estava lá. Olhe o formato que ele vem, ele vai mostrar aqui rapidamente, está carregando. Ele vem, está separado pela tecla “,”.
Uma confusão, aqui não conseguimos ler nada. O “R” conseguiu entender isso aqui fácil e simplesmente, sem passar parâmetro nenhum, já dividiu nas variáveis. Aqui é um Data Frame, “data.frame”, com 76840 linhas e sete variáveis, sete colunas.
Como eu disse, o “R” fala tudo em código. Sexo, idade, cor e anos de estudo, também em código. A renda e a altura, que é aquela variável que eu criei.
Se você não quiser ver tudo isso, se quiser só uma visualização da ponta, é bem simples, basta você digitar “head” (cabeça), “(dados,” e botar aqui quantos registros você quer ver. Eu quero ver “5” registros, para ficar mais fácil.
Vou botar a visualização desse tamanho, eu não quero uma coisa dessa, eu quero só visualizar o início dos meus dados. Está aqui, bem simples. O tipo do dado, inteiro, double, depois vamos ver tudo isso com mais calma.
No próximo vídeo já vamos começar a trabalhar com conceitos estatísticos, justamente essa coisa que eu estou falando. O tipo do dado que estamos trabalhando, que tipo de variável é essa e por que classificar dessa forma. Próximo vídeo nós vemos isso.
O curso Estatística com R: frequências e medidas possui 182 minutos de vídeos, em um total de 70 atividades. Gostou? Conheça nossos outros cursos de Estatística em Data Science, ou leia nossos artigos de Data Science.
Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:
Impulsione a sua carreira com os melhores cursos e faça parte da maior comunidade tech.
1 ano de Alura
Assine o PLUS e garanta:
Formações com mais de 1500 cursos atualizados e novos lançamentos semanais, em Programação, Inteligência Artificial, Front-end, UX & Design, Data Science, Mobile, DevOps e Inovação & Gestão.
A cada curso ou formação concluído, um novo certificado para turbinar seu currículo e LinkedIn.
No Discord, você tem acesso a eventos exclusivos, grupos de estudos e mentorias com especialistas de diferentes áreas.
Faça parte da maior comunidade Dev do país e crie conexões com mais de 120 mil pessoas no Discord.
Acesso ilimitado ao catálogo de Imersões da Alura para praticar conhecimentos em diferentes áreas.
Explore um universo de possibilidades na palma da sua mão. Baixe as aulas para assistir offline, onde e quando quiser.
Acelere o seu aprendizado com a IA da Alura e prepare-se para o mercado internacional.
1 ano de Alura
Todos os benefícios do PLUS e mais vantagens exclusivas:
Luri é nossa inteligência artificial que tira dúvidas, dá exemplos práticos, corrige exercícios e ajuda a mergulhar ainda mais durante as aulas. Você pode conversar com a Luri até 100 mensagens por semana.
Aprenda um novo idioma e expanda seus horizontes profissionais. Cursos de Inglês, Espanhol e Inglês para Devs, 100% focado em tecnologia.
Transforme a sua jornada com benefícios exclusivos e evolua ainda mais na sua carreira.
1 ano de Alura
Todos os benefícios do PRO e mais vantagens exclusivas:
Mensagens ilimitadas para estudar com a Luri, a IA da Alura, disponível 24hs para tirar suas dúvidas, dar exemplos práticos, corrigir exercícios e impulsionar seus estudos.
Envie imagens para a Luri e ela te ajuda a solucionar problemas, identificar erros, esclarecer gráficos, analisar design e muito mais.
Escolha os ebooks da Casa do Código, a editora da Alura, que apoiarão a sua jornada de aprendizado para sempre.