Alura > Cursos de Data Science > Cursos de Estatística > Conteúdos de Estatística > Primeiras aulas do curso Estatística com R: probabilidade e amostragem

Estatística com R: probabilidade e amostragem

Distribuição binomial - Introdução

Sejam bem-vindos a mais este treinamento aqui da Alura. Eu sou o Rodrigo e vou ser seu instrutor neste curso de estatística, que faz parte de um conjunto de treinamentos de estatística. Estamos agora na segunda parte dele. Na primeira aprendemos como fazer uma análise descritiva de um conjunto de dados usando a linguagem R. Aqui vamos continuar usando a linguagem R, mas vendo coisas mais interessantes, como distribuição de probabilidade, distribuições binomial, Poisson, normal.

Vamos também falar de amostragem, estimação, vamos aprender a calcular um tamanho de amostra, como obter intervalos de confiança. O curso está bem legal. Tem muito conteúdo. No próximo vídeo já começamos colocando a mão na massa, preparando o ambiente.

Distribuição binomial - Conhecendo o ambiente e o dataset

Antes de iniciar nosso treinamento, precisamos configurar o ambiente para desenvolver o projeto. Escolhi como ferramenta o Microsoft Azure Notebooks. O primeiro link que aparece no Google leva para a página inicial dele. Você precisa de uma conta na Microsoft para usar a ferramenta, criar projetos, salvar arquivos, etc. Você vai fazer o login no botão sign in ali em cima.

Ele vai te jogar para um página onde você vai poder visualizar seus projetos. Vou mostrar rapidamente como criar um. Você clica em my projects, new project, você coloca o nome, posso marcar como public. Não inicializei o reading, que é um arquivo de texto onde você pode documentar seu projeto. Clica em create.

Seu projeto vai ser aberto. Também vou mostrar como criar um notebook. você clica no símbolo de mais, vai em notebook. Ele vai te dar uma série de opções. Vou marcar o R. Dou um nome e clico em criar. Para abrir, basta clicar nele. A partir de agora, você pode digitar R Shift enter.

Vou entrar no meu curso de estatística em R. Temos a parte 1, que é o material do curso anterior. Vou criar uma nova pasta, chamar de parte 2 e entrar nela. Eu deixei para você aí nos recursos os notebooks e arquivos que precisamos fazer upload. Faz o download, coloca no seu computador e vem nessa seta para cima para fazer o upload. Depois você escolhe os arquivos que salvou.

É isso que temos que fazer para ficar com o ambiente preparado. Temos o arquivo do curso, o dados, que é o mesmo do curso anterior, e o estimativa vamos usar no fim do treinamento. Talvez demore para abrir o notebook, porque ele tem muita informação, muitas células. Mas vai abrir.

Embaixo, começamos a ver células. Já deixei algumas carregadas, configuradas. Essa de gráfico vou usar no fim do treinamento, mas já fiz o import para vermos o pacote. Também tenho os options, que são as dimensões do gráfico

Para finalizarmos, vou trazer meu dataset. Para isso, pego uma variável e atribuo a ela um dataframe que o R consegue entender e trabalhar, usando o read.csv, e passo o endereço. Rodo isso e posso visualizar para ver se ele fez o import.

Nosso dataframe está carregado. Podemos começar a trabalhar. No próximo vídeo já entramos no primeiro assunto do curso, distribuições de probabilidade.

Distribuição binomial - Conhecendo a distribuição

Agora que estamos com nosso ambiente preparado, vamos começar nosso curso de estatística falando sobre as distribuições de probabilidade. Quando avaliamos a forma como uma variável aleatória se distribui, conseguimos definir diferentes tipos de distribuição de frequência ou probabilidade. Distribuição de frequência vimos no treinamento anterior. Aqui vamos conhecer três tipos diferentes de distribuição de probabilidade, que são muito utilizados em estatística. São a distribuição binominal, depois a Poisson e por último a normal.

Antes de falar de cada uma, vou pensar em um problema solucionado usando cada uma dessas distribuições. O primeiro é: Em um concurso para preencher uma vaga de cientista de dados temos um total de 10 questões de múltipla escolha com três alternativas possíveis em cada questão. Cada questão tem o mesmo valor. Suponha que o candidato resolva se aventura ser ter estudado absolutamente nada. Ele resolve fazer a prova de olhos vendados e chutar todas as respostas. Assumindo que a prova vale 10 pontos e a nota de corta seja 5, obtenha a probabilidade desse candidato acertar 5 questões e também a probabilidade dele passar para a próxima etapa do processo seletivo.

No próximo vídeo vamos solucionar esse problema com o material que vamos aprender a partir de agora. O evento binominal é caracterizado pela possibilidade de ocorrência de apenas duas categorias, que somadas representam todo o espaço amostral. Espaço amostral é o número de eventos possíveis de um experimento.

Um exemplo prática é o lançamento de uma moeda. Temos duas possibilidades, cara ou coroa. Meu espaço amostral é dois. Outro exemplo é de um dado. Temos seis possibilidades de ocorrência.

Deixei uma documentação sobre distribuição binominal para ajudar nos seus estudos. Temos a fórmula que vamos aplicar nas probabilidades. Não se preocupe em entender tudo agora. Iremos aprender passo a passo.

A primeira combinação é n e k, vezes pk, em que p é a probabilidade de sucesso, k é o número de eventos desejados em que se tenha sucesso. Depois, fazemos vezes qn-k, sendo que n é o número de eventos estudados no nosso problema.

Vamos aplicar essa fórmula. O experimento binominal tem algumas características que o definem. Eu deixei um checklist para que possamos identificar cada ponto. Se identificarmos todos, estamos diante de um experimento binominal.

O primeiro é a realização de n ensaios idênticos. Voltando ao exemplo da moeda, que é clássico, conseguimos realizar ensaios idênticos no lançamento de uma moeda. O segundo passo é que os ensaios são independentes. Isso quer dizer que o lançamento da moeda não é influenciado pelo ensaio anterior ou influencia o próximo. São independentes.

Terceiro, somente dois resultados são possíveis. É o que caracteriza um experimento binominal. Acertar ou errar uma questão, verdadeiro ou falso, cara ou coroa. Quarto, a probabilidade de sucesso é representada por p e a de fracasso por 1-p. Como só temos duas possibilidades, temos sucesso e fracasso. Somando as duas, tenho 1, que são todas as possibilidades que tenho no experimento.

Essas probabilidades não se modificam de ensaio para ensaio. Ou seja, é sempre constante. Quando lanço uma moeda, como tenho duas possibilidades, fracasso ou sucesso, tenho 50% de cada lado. E sempre tenho a mesma probabilidade.

Também temos a definição de média e desvio padrão da distribuição binominal. Agora, falando da combinação de n e k, vamos resolver um problema que já deixei a fórmula pronta, em que n com um ponto de exclamação é um n fatorial. É o produtório de uma contagem regressiva. Por exemplo, se eu disser para você organizar quatro amigos em pares. Quantas possibilidades tenho de organizar esses amigos? Utilizando essa fórmula você consegue responder a pergunta. Por definição, 0 fatorial é igual a 1.

Para encontrar o espaço amostral de um experimento, posso usar esse conceito de combinação. Vamos usar o exemplo da Mega Sena. É aquele jogo em que você marca seis números e vê se ganha milhões. Em um volante de loteria da Mega Sena temos um total de 60 números para escolher, com aposta mínima de 6 números. Você que é curioso resolve calcular a probabilidade de acertar na Mega Sena jogando um jogo. Para isso precisamos saber quantas combinações de seis números podem ser formadas com 60 números disponíveis.

Já deixei pronta a combinação de 60 seis a seis. É isso que temos que descobrir para saber o espaço amostral do jogo da Mega Sena. Quantas combinações consigo fazer?

Temos uma funcionalidade que nos ajuda a resolver esse problema, que é a choose. Passo para ela o 60 seis a seis. Ele vai calcular a quantidade de variáveis existentes nesse jogo. Tenho 50.063.860 combinações possíveis. É bastante coisa, e por isso geralmente você não consegue acertar.

Probabilidade é pegar meu bilhete e dividir por essas combinações. Ou seja, -0.8%. É uma chance muito pequena. É muito difícil ganhar.

Neste vídeo, é isso que eu queria mostrar. No próximo, vamos solucionar o nosso problema utilizando distribuição binominal.

Sobre o curso Estatística com R: probabilidade e amostragem

O curso Estatística com R: probabilidade e amostragem possui 175 minutos de vídeos, em um total de 82 atividades. Gostou? Conheça nossos outros cursos de Estatística em Data Science, ou leia nossos artigos de Data Science.

Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:

Aprenda Estatística acessando integralmente esse e outros cursos, comece hoje!

Conheça os Planos para Empresas