Formações Data Science Apache Spark com Python

Formação Apache Spark com Python

Entre para o universo Big Data e aprenda a criar projetos utilizando o Apache Spark e a linguagem Python

* Esta formação faz parte dos nossos cursos de Data Science

Quero Estudar na Alura

49h

Para conclusão

Cursos

Vídeos extras

Artigos

Conheça a formação Apache Spark com Python

A formação Apache Spark com Python da Alura tem como objetivo preparar o(a) aluno(a) para trabalhar com Engenharia de Dados, Data Science e Machine Learning em um contexto de Big Data.

Funciona como um guia de aprendizado para auxiliar pessoas interessadas em entrar no mercado de trabalho e também como mecanismo de consulta para profissionais experientes.

O QUE É O APACHE SPARK?

O Apache Spark é um framework para computação distribuída que dá suporte para mais de uma linguagem de programação (Python, SQL, Scala, Java e R). Ele é utilizado para executar Engenharia de Dados, Data Science e Machine Learning em apenas um computador ou em um cluster. É uma ferramenta muito aplicada no contexto Big Data.

O QUE VAMOS APRENDER?

Nessa formação, vamos aprender a lidar com diferentes conjuntos de dados utilizando SQL de duas maneiras. Primeiro, fazendo uso de métodos específicos dos DataFrames Spark e, em um segundo momento, utilizando comandos SQL puros.

Por fim, vamos focar nossos estudos em modelos de Machine Learning com o uso do MLlib do Spark.

Por que estudar esta formação?

Guia de aprendizado
Conteúdos pensados para facilitar seu estudo
Do básico ao avançado
Formação completa para o mercado
Você dentro do mercado
Do zero ao sonhado emprego em sua área de interesse

Comece essa formação agora mesmo e capacite-se para seu próximo projeto!

Conheça os planos

Com quem você vai aprender?

Rodrigo Fernando Dias
Rodrigo é estatístico e especialista em Big Data com forte interesse em inteligência artificial, ferramentas de automação, geoprocessamento, desenvolvimento web, web scraping, machine learning e Data Science. É instrutor e coordenados da Escola de Dados da Alura.
Rodrigo Fernando Dias
Rodrigo é estatístico e especialista em Big Data com forte interesse em inteligência artificial, ferramentas de automação, geoprocessamento, desenvolvimento web, web scraping, machine learning e Data Science. É instrutor e coordenados da Escola de Dados da Alura.
Pedro Henrique Campagna Moura da Silva
Técnico em Informática e Analista de Relações Internacionais, trabalhou com desenvolvimento de software e ciência de dados voltados para pesquisa. Atualmente estuda governança de dados e tenta sempre construir pontes entre a tecnologia e o internacional.
Pedro Henrique Campagna Moura da Silva
Técnico em Informática e Analista de Relações Internacionais, trabalhou com desenvolvimento de software e ciência de dados voltados para pesquisa. Atualmente estuda governança de dados e tenta sempre construir pontes entre a tecnologia e o internacional.
Ana Duarte
Sou bacharela em Estatística e atualmente curso Ciência da Computação. Já atuei como cientista de dados no ramo educacional e financeiro e hoje sou instrutora na Escola de Dados da Alura e voluntária na equipe de projetos do grupo Data Girls. Sou apaixonada por transformar dados em informação inteligente usando a ciência de dados em diversos tipos de aplicação. Fora isso, sempre estou acompanhando alguma série e procurando novas rotas para andar de bike.
Ana Duarte
Sou bacharela em Estatística e atualmente curso Ciência da Computação. Já atuei como cientista de dados no ramo educacional e financeiro e hoje sou instrutora na Escola de Dados da Alura e voluntária na equipe de projetos do grupo Data Girls. Sou apaixonada por transformar dados em informação inteligente usando a ciência de dados em diversos tipos de aplicação. Fora isso, sempre estou acompanhando alguma série e procurando novas rotas para andar de bike.
Igor Nascimento Alves
Sou graduado em Ciência da Computação. Atuo como instrutor de Data Science e Machine Learning no Grupo Alura, tendo como principais interesses na tecnologia: criação de modelos e análise de dados. Nas horas vagas assisto e analiso dados de basquete e adoro ouvir podcasts de humor como Nerdcast e Jujubacast.
Igor Nascimento Alves
Sou graduado em Ciência da Computação. Atuo como instrutor de Data Science e Machine Learning no Grupo Alura, tendo como principais interesses na tecnologia: criação de modelos e análise de dados. Nas horas vagas assisto e analiso dados de basquete e adoro ouvir podcasts de humor como Nerdcast e Jujubacast.
Bruno Raphaell
Bruno é um instrutor de Data Science e Engenheiro Eletricista pela Universidade Federal do Piauí. Se dedica em áreas como Data Science, Machine Learning e Deep Learning, e possui grande interesse em engenharia de dados e engenharia de machine learning. Além disso, em seu tempo livre, ele gosta de jogar xadrez, tocar instrumentos musicais e jogar League of Legends.
Bruno Raphaell
Bruno é um instrutor de Data Science e Engenheiro Eletricista pela Universidade Federal do Piauí. Se dedica em áreas como Data Science, Machine Learning e Deep Learning, e possui grande interesse em engenharia de dados e engenharia de machine learning. Além disso, em seu tempo livre, ele gosta de jogar xadrez, tocar instrumentos musicais e jogar League of Legends.

Passo a passo

1 Spark SQL
Neste passo inicial, preparamos um conteúdo para ajudar você a conhecer melhor o Apache Spark e como iniciar um projeto com esta ferramenta.
No primeiro curso dessa jornada, você vai aprender a trabalhar com dados no Spark utilizando instruções SQL com a linguagem Python através da biblioteca PySpark.
- Alura+ Apache Spark: a história do Big Data
- Artigo Iniciando um projeto Spark no Colab | Alura
- Curso Spark: apresentando a ferramenta
  10h
- Alura+ Spark: RDD
- Artigo Arquivos Parquet
2 Machine Learning com Spark
Com foco maior na construção de modelos de Machine Learning, esta etapa mostra como utilizar as ferramentas nativas do Spark para implementação de projetos de aprendizagem supervisionados e não supervisionados.
Vamos trabalhar com o MLlib do Spark e desenvolver projetos com modelos de regressão, classificação, clusterização e problemas que envolvem processamento de linguagem natural. Tudo isso acompanhado de alguns artigos para complementar os seus estudos.
- Artigo Machine learning com Apache Spark
- Curso Spark: trabalhando com regressão
  08h
- Curso Spark: criando modelos de classificação
  10h
- Curso Spark: processamento de linguagem natural
  08h
- Artigo Spark NLP: trabalhando linguagem natural de forma mais otimizada
- Curso Spark: sistema de recomendação
  10h