Google I/O, Dev. responsável e modelos multimodais

Introdução

Quer ficar por dentro das novidades mais quentes da área de Inteligência Artificial? Então não deixe de conferir o nosso novo episódio Hipsters.tech!

Com o Marcus Mendes, nosso host fora de controle e também host do Bolha DEV, à frente do bate-papo empolgante e atual, você terá a oportunidade de participar de uma discussão imperdível. Ao lado dele, estarão Sérgio Lopes, CTO da Alura; Guilherme Silveira, CINO da Alura; Giulia Bordignon, Desenvolvedora Backend Sênior e criadora de conteúdo na Space Coding; André Cunha, Instrutor Mobile e Engenheiro de Prompt na Alura; e Fabricio Carraro, PO da Alura e host do Dev Sem Fronteiras.

Juntos, eles mergulharão no tema do 5º episódio do podcast "Hipsters Fora de Controle": Google I/O, desenvolvimento responsável e modelos multimodais. Prepare-se para um debate sobre inteligência artificial e as ferramentas de IA que estão moldando o nosso dia a dia.

Então, se você deseja se manter em dia sobre as últimas tendências desse universo, mergulhe na transcrição completa abaixo.

Google I/O, desenvolvimento responsável e modelos multimodais — Episódio 05

Paulo Silveira

Oi, você está no Hipsters Fora de Controle, o podcast spin-off que finalmente foca em apenas uma única modinha, inteligência artificial e suas aplicações.

Marcus Mendes

E nesse episódio de hoje, a casa está cheíssima, acho que é o que tem a maior quantidade de pessoas participando aqui desde que a gente começou a fazer o Hipsters Fora de Controle, bastante coisa aconteceu nessa última semana, incluindo, claro, todo mundo já deve saber a essa altura ter se informado sobre a Google I/O, que teve lá o saleiro de IAs, foi IAs 150 vezes citados ao longo de toda a apresentação. Então, vamos lá, vamos ver o que a gente vai falar.

Marcus Mendes

Bom, hoje temos aqui a Giulia Bordignon, que é do Space Coding. Temos também o André Cunha, que é instrutor mobile e trabalha com IA na Alura, liderando o mercado de engenharia de ponta. Temos ainda o Fabrício Carraro, PO da Alura e host do Dev em Fronteiras, além do Sérgio Lopes, CTO da Alura, e o Guilherme Silveira, CIO da Alura. Eu não sei o quanto vocês querem falar aqui, mas foi impressionante do ponto de vista técnico, assim como para o público mais leigo, a Google I/O com aquele monte de anúncios relacionados à IA. Não foi surpresa para ninguém o quanto de IA está sendo desenvolvida atualmente.

Sérgio Lopes

Se você se impressionar fácil, hein, Marcus? Porque eu não estou impressionado não.

Marcus Mendes

Então, né? Porque quem vai se lembrar, há alguns meses aconteceu aquele evento meio improvisado pelo Google como resposta às iniciativas da Microsoft em IA, e a reação foi péssima. Eles perderam bilhões de dólares em valor de mercado e tudo foi muito ruim. No entanto, nesta semana, com mais tempo para se prepararem e aprimorarem as demonstrações, eles chamaram mais atenção com ferramentas tanto para o público em geral quanto para os desenvolvedores.

Eles lançaram, anunciaram basicamente, um concorrente do GitHub Copilot e outras aplicações semelhantes para o dia a dia. Mas para quem é mais técnico, isso foi menos impressionante, certo?

Sérgio Lopes

Não sei, eles lançaram uma nova API deles, que agora é o GPT deles, o Bison, sei lá. Enquanto eu assistia ao keynote, acabei brincando um pouco com a API. Ela é interessante, mas sabe aquele momento do GPT-3 que tivemos no passado? Foi legal, mas, cara, já estamos no momento do GPT-4, entende? As coisas estão em outro nível.

Sérgio Lopes

[risos] Não sei, pelo que ouvi agora, vasculhando as fofocas do Twitter, acho que a reação geral das pessoas que acompanham de perto esses modelos foi de que é interessante, o Google está na corrida, mas a OpenAI está na frente. Essa parece ser a avaliação geral, sabe? Eles lançaram de uma forma diferente também, então talvez a inovação do Google seja menos em relação ao modelo em si ser melhor ou pior, porque nesse ponto parece ser pior ainda, e mais em relação à forma como eles estão utilizando. Eles mencionaram que vão lançar uma série de modelos de tamanhos diferentes, inclusive modelos que podem ser executados diretamente no seu celular, sem a necessidade de uso em nuvem. Isso é algo que a OpenAI nunca falou até agora. Eles também falaram um pouco sobre geração de imagens e fine-tuning, o que é interessante. Eu ainda não tive a oportunidade de testar, não sei se alguém aqui brincou com isso, mas eles disponibilizaram uma API no Google Cloud para fazer o fine-tuning do novo modelo deles, algo que a OpenAI não oferece desde o GPT-2. O GPT-3 também tinha essa possibilidade, mas o 3.5 e o 4 não têm, até hoje. Então, há algumas coisas interessantes.

Quanto à parte do produto, não tenho muita opinião, mas é interessante ver como eles estão inserindo a IA em diferentes aspectos do Chrome, do G Suite, do Workspace, e ver o que as pessoas vão fazer com isso. Estou falando principalmente dos modelos fundamentais para ver até onde isso pode chegar.

Fabrício Carraro

Uma coisa que você comentou, que tem aquela sensação de GPT-3 ainda, que eu experimentei E também foi, depois de ver, eu fui tentar usar o Bard, né. Fui tentar fazer o teste, já que eles abriram, tiraram a waitlist. Tive que usar um VPN, na verdade. Porque é só alguns países específicos que tá aberto ainda.

Sérgio Lopes

Eu acho que eles estão trolando o pessoal. Porque eles falaram assim, a gente abriu em 180 países, o Bard.

Fabrício Carraro

A Espanha não é um deles, aparentemente. E o Brasil também não. [ri]

Sérgio Lopes

Mas pega as discussões no Twitter. Porque assim, eu já encontrei mais de 20 países e todo mundo fala "olha, aparentemente aqui também não é" e eu acho que eles estão trollando a galera, porque eles... no Brasil não é, eu vi o pessoal na Europa falando um monte "ah, a Alemanha também não conseguia acessar, a Canadá não conseguia acessar"

Fabrício Carraro

É, eu tô na Espanha, nada.

Sérgio Lopes

É, eu não sei também, eu também brinquei com VPN, com o Bard.

Fabrício Carraro

É, eles mencionaram que inicialmente está disponível em inglês, japonês e coreano. Foi algo que eles destacaram durante a apresentação. Mas quando fui testar, tive uma experiência engraçada. Atualmente, estou brincando com o Flutter e estudando. Então, decidi perguntar como criar uma barra de navegação inferior, conhecida como bot navigation bar, no Flutter. A resposta do modelo foi: "Eu sou apenas um modelo de linguagem, não posso te responder isso". Em seguida, perguntei: "Por que não?". E a resposta foi confusa: "Por que não é uma pergunta muito básica. Por que não o quê? Por que você não quer fazer isso? Por que não sair hoje à noite?". Ele começou a ficar confuso.

Sérgio Lopes

Ele perdeu o contexto rapidinho, né?

Fabrício Carraro

É, ele perdeu, e foi a segunda pergunta que eu fiz, então ele perdeu muito rápido. Tem essa sensação bem... que tá muito ultrapassada se você tá usando o GPT-4, ou mesmo o ChatGPT normalzão, que ele ainda age... Acho que às vezes ele usa o 3.5, né, se você não tá pagando.

Sérgio Lopes

É.

Fabrício Carraro

É. Então ainda tem essa pegada.

Sérgio Lopes

Eu fiz o exercício de pegar tudo que eu tinha... o meu histórico no ChatGPT, sabe? Aí eu falei "Cara, deixa eu fazer um replay dela no Bard". Aí eu peguei umas 5, 10, cara, e assim, sei lá, não rolava.

Fabrício Carraro

Uma coisa interessante que você mencionou foi em relação ao produto. Estou atualmente em Barcelona e participei de um Google Developer Group, um desses eventos que a Google organiza em várias cidades ao redor do mundo. Também ocorreu em São Paulo, na Turquia e em outras partes do mundo. Basicamente, eles instalaram algumas telas de TV para que as pessoas de TI da mesma cidade pudessem assistir juntas. A transmissão ao vivo no YouTube estava sendo exibida nessas telas. Ao assistir com o pessoal, pude perceber que todos estavam empolgados com as novidades de produtos que foram apresentadas. Por exemplo, eles mencionaram que você poderá utilizar a IA, chamada de Duet AI, no Gmail. Dentro dessa funcionalidade, há recursos como "Help Me Write" (Me ajude a escrever) e "Help Me Visualize" (Me ajude a visualizar). Durante a apresentação, eles deram um exemplo: "Você deseja solicitar o reembolso de uma passagem aérea para a qual recebeu um voucher. Você insere a opção 'usar IA', digita o comando 'pedir reembolso' e a própria IA irá ler toda a conversa de e-mails que você teve com a companhia aérea, procurar o número da sua passagem, o número do voucher e criar automaticamente o e-mail". São coisas que facilitam o dia a dia, não é mesmo? No entanto, é mais voltado para o usuário final.

André Cunha

Eu acredito que o grande diferencial deles é a integração de todas as coisas do Google com a IA. O que mais me chamou a atenção foi o tal do Tailwind que eles mencionaram, onde você pode pesquisar diretamente em vários arquivos armazenados no seu Drive. É como se fosse uma base de chat, onde você faz o upload dos PDFs e tem o seu próprio ChatGPT que responde. Mas ter tudo integrado diretamente no Drive facilita muito. Agora precisamos verificar se é eficiente.

Guilherme Silveira

O que mais se destacou pra mim foi de que eu não posso usar porque tô no Brasil.

Giulia Bordignon Eu também não testei a ferramenta, estou por fora da discussão. No entanto, vejo um grande potencial para a Google utilizar as IAs. Entendo que eles têm receio de perder espaço no mercado e desvalorizar o mecanismo de busca, mas pense só nos e-mails, que são amplamente utilizados. Isso otimizaria muito as ferramentas, seja no Google Docs ou em todas as outras oferecidas pela Google. Estou ansiosa, porque ainda há muitas tarefas que realizamos manualmente e um gerador de texto seria de grande ajuda. Portanto, estou otimista em relação a essas IAs do Google.

Marcus Mendes

E no seu dia a dia aí, no Space Coding, que ferramentas de IA, como é que você tem aplicado isso no seu dia a dia? O que está sendo útil para você? Coisas que você tem usado essa semana, por exemplo, que há um ou dois meses você falou "Nossa, como é que eu vivi sem isso até hoje?" Como é que está para você?

Giulia Bordignon

Bem, eu utilizo estritamente no universo da programação, né? Portanto, tenho dado atenção às IAs que estão sendo treinadas com foco em linguagens de programação. E aí entra bastante o Copilot, que já é uma IA que vem sendo utilizada há algum tempo. Atualmente, tenho usado muito mais o Copilot, pois ele foi aprimorado e tem me ajudado bastante com a automação de códigos e a documentação de funções do cliente. Cada empresa tem seu formato de trabalho, mas é meio que padrão ter que comentar classes e explicar tudo. Com o Copilot, não preciso mais explicar uma função. Basta selecionar o bloco de texto e ele explica para mim no próprio código. Consigo gerar conteúdo para programar, solucionar dúvidas e percorrer arrays, que são tarefas mais chatas e monótonas do dia a dia. Já entendemos por que usamos, o que usamos e como usamos, mas ainda teríamos que escrever toda a estrutura, todo o processo de percorrer aquela lista e tudo mais. O Copilot tem me ajudado muito em termos de produtividade e escrita de código.

Também tenho testado outras IAs constantemente, pois adoro otimizar meu trabalho e aumentar a agilidade. Tenho utilizado o Git Fluence, que é específico para comandos do Git. É uma IA altamente especializada e todas são open source, baseadas no GPT-3 e GPT-4, se não me engano. Tem também a Refraction, que é um projeto open source com uma versão paga apenas para testes. Ela gera testes unitários para várias linguagens de programação e diferentes frameworks, além de ter extensões do ChatGPT. Porém, quando se trata do Copilot, já levanto a mão, porque não temos políticas claras sobre o tratamento dos dados e de onde eles passam. Precisamos ter cuidado com fontes privadas de empresas, saber para onde estão sendo enviados esses dados, credenciais e como estão sendo tratados. Portanto, sempre destaco esse ponto de atenção, principalmente quando estou recomendando essas ferramentas para o público. Fique atento, não sabemos exatamente o que está sendo feito com os dados.

Marcus Mendes

Minha próxima pergunta seria exatamente essa. Como é que está essa questão de o possível tratamento de dados sensíveis, de projetos com clientes reais, aquela coisa toda. Se existe já, se você vê, ou aí no seu dia a dia, ou no mercado mesmo, movimentação para... Existe um guideline, existem só recomendações, vai de cada um ali, da sensibilidade de cada um na hora de enviar. Como é que isso está sendo percebido no dia a dia?

Giulia Bordignon

Ainda está muito nas mãos dos desenvolvedores. Nem todas as empresas estão se organizando para fornecer diretrizes claras do tipo "não faça isso, não faça aquilo". Sempre recomendo que você evite utilizar credenciais dentro do ChatGPT e do Copilot, pois expor credenciais é algo que deve ser evitado a todo custo. Hoje em dia, dentro do ChatGPT, há um risco interessante: não é tanto o risco de o ChatGPT aprender suas credenciais e recomendá-las para outras pessoas, mas sim o risco de você perder sua senha de acesso ao ChatGPT, ter sua conta hackeada e ter seus históricos visualizados. Esse é o meu ponto de atenção em relação ao ChatGPT. Já em relação às outras ferramentas, digo o seguinte: se você não sabe, se não há uma política de privacidade clara da ferramenta, evite utilizar os recursos da empresa, porque não sabemos o que estão fazendo. Isso vale especialmente para as extensões das ferramentas na IDE.

Existem algumas extensões do ChatGPT, extensões de chat, e essas extensões estão capturando os recursos que você envia a elas, processando-os e retornando uma resposta para você. É nesse processo que não sabemos o que estão fazendo, se estão armazenando, se estão expondo, se há segurança adequada.

Portanto, tenha cuidado, principalmente, com as extensões. Sempre levante a questão, se você não tem certeza do que fazer, e pergunte à gestão: "Posso usar essa ferramenta? A empresa permite? Posso conectar e expor os recursos? Quais são os pontos positivos e os benefícios?" Foi isso que fiz na minha empresa, cheguei e disse:

"Pessoal, o ChatGPT é muito bom, precisamos utilizá-lo, vai nos ajudar no nosso dia a dia. O Copilot também é excelente, precisamos utilizá-lo. Vamos tentar nos organizar para inserir essa ferramenta com segurança?". Porque às vezes é algo que parte de nós, os desenvolvedores, nem sempre a gestão está ciente de todas as possibilidades, é assim que estamos nos organizando no cliente em que estou atualmente. Mas percebo que muitas empresas não têm medo, mas também não fornecem orientações sobre como os desenvolvedores devem usar essas ferramentas.

Marcus Mendes

Legal, essa parte é muito importante mesmo, e todo mundo descobrindo junto e errando junto. A gente viu na Samsung, por exemplo, que já veio uma decisão de cima para baixo, ninguém usa, não pode, tinha uma limitação por enquanto de caracteres, depois agora virou uma limitação geral. E da parte de clientes, você vê os clientes comentarem sobre o uso disso ou ainda é uma coisa muito distante do dia a dia? Eles falaram "pode" ou "não pode", até contratualmente, se existe uma questão sobre isso ou ainda não? Ainda está muito longe ali de chegar no cliente para poder discutir sobre esse uso do dia a dia mesmo para codar com a ajuda da IA.

Giulia Bordignon

Contratualmente, ainda não enfrentei nenhuma cláusula que proíba o uso do ChatGPT ou outras IAs. É mais uma questão de bom senso na hora de utilizar. No entanto, quando sugerimos resolver um problema com o ChatGPT, gera-se um desconforto. Percebo que as pessoas ficam desconfortáveis. Eles pensam: "Estou pagando a ela para entregar algo que o ChatGPT está fazendo. Qual é o valor do meu trabalho?". Esse é um dos problemas que entra na discussão sobre se as IAs vão substituir os desenvolvedores, o que preocupa especialmente os desenvolvedores juniores.

Também quero chamar atenção para o fato de que não é necessário que a IA seja capaz de fazer tudo o que fazemos para nos substituir. Minha preocupação está no ponto em que uma pessoa se torna muito mais produtiva do que dez ao utilizar uma IA. Será que teremos a capacidade de trabalhar menos ou as empresas vão sobrecarregar ainda mais essa pessoa produtiva e demitir as outras? No sistema capitalista em que trabalhamos atualmente, voltado para a produtividade, acredito que o caminho da IA é nos sobrecarregar cada vez mais em vez de nos proporcionar menos carga de trabalho para focar na criatividade.

Através das perguntas que as IAs nos ajudam a responder, elas estão produzindo para nós. Portanto, acho que esse pode ser um caminho negativo da utilização da IA na programação e na otimização do trabalho. Espero ter expressado claramente minhas reflexões aqui.

Fabrício Carraro

Eu queria perguntar na verdade para a Giulia, já que ela está usando o Copilot, para quem que você nem usa dentro da empresa, que é uma coisa fornecida pela empresa. Você acha que está valendo a pena pagar os nove dólares lá no final das contas?

Giulia Bordignon

Para mim, tem valido a pena utilizar a IA, principalmente porque ela automatiza a documentação do projeto. Passo muito tempo documentando, então essa é a principal utilidade para mim. Como trabalho mais com arquitetura, ela não é tão útil para construir arquiteturas, mas me ajuda em tarefas básicas como percorrer listas e manipular estruturas de dados. Talvez para um desenvolvedor iniciante não seja tão interessante investir nessa ferramenta, mas para mim tem valido a pena. Inclusive, esta semana eu até cancelei o serviço para testar, mas após sete dias percebi que ela estava me ajudando bastante na geração de código mecânico, então decidi assinar novamente.

No entanto, é importante ter um senso crítico ao utilizar essa IA. Eu sei o que preciso e como aplicá-lo, mas para um desenvolvedor júnior, ela pode sugerir algo errado sem fornecer uma explicação clara. Isso pode resultar na construção de códigos que não são compreendidos. Para mim, a IA está funcionando bem, pois consigo entender o que ela escreve. Conforme fui utilizando, percebi que ela foi melhorando. Estou gostando da experiência e acho que vale a pena, mas talvez isso seja mais relevante em um determinado momento da carreira.

André Cunha

Eu concordo muito com o que a Giulia falou. Para quem está começando, pode ser um problema. Mas é interessante mencionar que o Copilot tem uma versão para estudantes, certo? Então, se você está na faculdade ou algo assim, não precisa pagar os nove dólares. Isso é ótimo. Ainda estou usando a minha versão de estudante, que vai expirar em alguns dias. [risos] Além disso, há outro lançamento da Amazon, chamado Code Whisperer, que testei. A ideia é muito parecida com o Copilot do GitHub, e para tarefas mecânicas, parece sensacional, como criar listas, como a Giulia mencionou.

Fabrício Carraro

É que é uma tentativa também do Google, né, voltando o assunto para o Google I/O, do Android Studio Bot, né, que eles estão tentando lançar, que pelo que eu tinha visto lá nas imagens que eles disponibilizaram, ele é meio que um ChatGPT mesmo, né, você escreve lá um prompt e ele te dá dentro mesmo do Android Studio. Vocês chegaram a testar?

Guilherme Silveira

Acho que existem diversas alternativas nesse instante, né? Tem o Fauxpilot, tem o Tabnine, tem diversas, cada uma tentando uma abordagem um pouco diferente para puxar a sardinha pro seu lado, né? Então, umas foram treinadas com código open source com certas licenças, outras com código fechado, outras com não sei o quê. Cada uma tem uma abordagem um pouco diferente de como vai trabalhar aquelas questões que a Giulia levantou.

Eu acho que vale a pena experimentar e escolher uma para experimentar. Só queria adicionar a questão de quem está no começo de carreira. Acho que todos nós, quando começamos, em duas formas que a gente trabalha e até mesmo mais para frente, uma que é fazendo copy-paste e a outra que é tentando resolver o problema em mãos.

Então, quando é dada uma função que a gente precisa implementar, a gente percebe que precisa escrever um trecho de código, cinco linhas de código. Então, ou a gente quebra a cabeça e começa a escrever essas cinco linhas e isso é natural, vai continuar acontecendo, a gente vai pensar qual é a próxima linha ou a gente busca e dá um copy-paste.

E aí, quando a gente dá o copy-paste, a gente tem a opção de pensar sobre o copy-paste que a gente fez ou não. Vai continuar sendo da mesma forma, o copy-paste ficou mais fácil. Então, esse é o perigo, né? Esse copy pode ser realmente um copy e aí você tem um problema de licença grave.

Mas se não é um copy, você ainda vai ter a oportunidade. Então, mesmo quem está começando ainda levanta a questão. Escrevi o nome de uma função e agora eu implemento ou não? O copy-paste vai estar mais fácil. E, dado o copy-paste, agora vai da pessoa que está começando de novo tomar a decisão.

Eu paro para pensar o que foi colado aqui ou eu assumo como verdadeiro e a vida segue. Então, as mesmas decisões que a gente tomava são agora mais rápidas. Então, eu acho que mesmo para quem está começando tem um benefício. É claro que é dinheiro, né? Tudo é dinheiro. Então, é dinheiro sendo gasto aí, né?

Fabrício Carraro

Teve outra coisa que o Google falou lá na Google I/O, que foi toda essa questão de multimodal que a gente mencionou e tudo mais, de integrar não só com as ferramentas próprias do Google, como o Google Maps, Google Images e tudo mais, mas também com parceiros. Então, eles estão integrando para criar imagens com a Adobe Firefly, com a ferramenta lá. Assim, você vai poder fazer essas coisas dentro do PowerPoint, ou melhor, do Google Slides, e tudo mais, o que é bem interessante.

Marcus Mendes

Essa parceria talvez estratégica chamou mesmo a atenção, não esperava ver eles já de cara fazer essa parceria com o Firefly.

Fabrício Carraro

Tem outras né?

Marcus Mendes

Sim, sim.

Fabrício Carraro

Com a Khan Academy, eles mencionaram que iriam fazer parcerias também com várias outras empresas, o que mostra um posicionamento diferente do que vemos em outros players. Além disso, houve outra coisa que eu comentei brevemente com o Sérgio, e que também foi mencionada pela Giulia neste episódio, que é a questão da busca e como eles vão implementar o prompt e tudo mais. Pelo que eles mostraram lá, inclusive com um screenshot, o prompt do LLM ficaria sobreposto aos resultados normais do site, incluindo os resultados de patrocinadores e tudo mais. Essa é uma questão interessante para discutirmos, o que vocês acham que isso significará no futuro?

Marcus Mendes

É, durante a apresentação eles disseram: "ó, temos aqui os resultados, embaixo, em cima, não sei, temos propagandas, estamos investigando os jeitos dessas coisas interagirem". E não foi surpresa que o Google começaria a integrar isso. Eles seguiram o caminho que já sabíamos que seguiriam, no começo falando "não, não, IA conversacional é uma coisa, buscar é outra". Mas claro, vamos passar por todos os estágios da negação até chegarmos à conclusão que já sabemos, né? Agora que eles têm algo mais estruturado, faz sentido. Pensando na comunicação, primeiro eles negam, depois eles fazem, e agora dizem "ah, é isso, mas é o meu, usei o meu". Porque esse é o "jeito certo", entre aspas. Então, é natural que eles já tenham mostrado.

A Microsoft também havia mencionado que o Bing Chat iria mostrar anúncios. O Bing Chat? Eu confundo com o Bard. Mas isso não surpreende, eles vão integrar aos poucos, de forma cuidadosa e seguindo todas as precauções necessárias ao anunciar algo assim. Zero surpresa que tenham mostrado isso. E se pensarmos nos negócios deles, faz sentido, né? Não dava para iludirmos que poderíamos usar todas essas ferramentas de graça e para sempre. Agora que as possibilidades estão se tornando mais acessíveis, dominar isso e disponibilizar no Google ou em aplicativos de desenvolvedores independentes se torna uma ferramenta para aumentar o faturamento, e não há nada de errado com isso, desde que seja feito de maneira responsável, privada, como esperamos.

Fabrício Carraro

O que achei interessante foi o posicionamento do resultado da IA. Não sei se vocês chegaram a usar o Bing recentemente, mas ele abre ao lado se você quiser. Se você apenas digitar algo na busca, ele oferece a busca normal, como sempre, e então há uma opção ali ao lado, especialmente se você usa o Edge, que é abrir uma aba com a possibilidade de usar o Bing Chat. Pelo que a Google mostrou, parece que seria incluído quando você faz a busca, até mesmo sobre os anúncios pagos. Porém, não sei se isso vai continuar assim por muito tempo.

Marcus Mendes

Não, certamente não. Mas daqui a uns 15 Hipsters Fora de Controle a gente discute sobre isso. [risos] Quando tiver acessível pra todo mundo.

Guilherme Silveira

É, eu tenho uma conversa que acho que ainda não tive com vocês aqui no grupo, que é sobre como os anúncios vão entrar. Acredito que no GPT, os anúncios vão entrar através dos plugins. Os plugins. Por que vou usar o plugin A ou o plugin B? Você vai usar o plugin A ou o plugin B porque eles pagaram para aparecer.

Por exemplo, se você está procurando por passagens aéreas, pode ser que a empresa A tenha pago para aparecer em vez da empresa B. Aí está o anúncio. Parece que o GPT está indo nessa direção. Os anúncios serão das empresas que estendem seus serviços através do GPT. O GPT passa a ser o... Estou usando o GPT, mas o ChatGPT, o ChatGPT passa a ser o buscador. Você encontra as coisas através dos plugins e escolhe os plugins de acordo com quem pagou para aparecer como opção. Então, quando você faz uma busca sobre o Japão, a empresa A e B vão oferecer seus serviços e você escolhe o serviço que deseja, e através disso você vai pagar, ou a empresa vai pagar, para o ChatGPT.

Fabrício Carraro

Mas isso aí vai ser um contrato de uma empresa com outra ou será que vai ter um esquema de bidding como tem atualmente? Então a empresa vai dar tantos porcento para uma empresa, tantos porcento para outra?

Guilherme Silveira

Pera, acho que o esquema de bidding é natural nessa estrutura. Isso é feito rapidamente, você tem o prompt da pessoa que fez a pergunta, tem o texto da resposta que ela vai dar, faz o bidding com base nos termos-chave dessas perguntas e respostas, envia para os biders dos plugins e vê quem está mais interessado em pagar mais por isso. Então, mostra o anúncio da pessoa. Por exemplo, "quer saber mais sobre viagens para o Japão? Use o plugin da empresa X". Parece ser o caminho natural para a OpenAI trazer o mundo para o ChatGPT, tornar o ChatGPT a nossa base.

Em vez de termos a barra do navegador onde pesquisamos algo no Google, Naver ou qualquer outra ferramenta de busca, dependendo do país, agora a barra é uma conversa com o GPT, onde você encontrará os plugins que pagaram. Claro, imagino que o Google também siga caminhos semelhantes, não necessariamente com os anúncios pré-... Aquilo ali é uma mistura de busca e conversação. Se a conversação for o caminho para buscar informações, parece natural que o Edge seja injetado através da extração do que foi feito no prompt.

Marcus Mendes

Uma coisa que eu vejo já acontecer aos poucos é o Evernote, por exemplo, que na última semana anunciou novidades em IA. Especialmente o projeto Tailwind, que o Google apresentou na Google I/O, visa aplicar as IAs e tornar isso mais acessível e rápido dentro do nosso pacote de dados e contexto.

A partir disso, conseguimos tirar proveito, como no Google Docs, por exemplo, onde podemos criar um modelo de estudos com tudo armazenado no Google Drive. Ele gera uma resposta com referências aos documentos salvos ali. Isso pareceu bem promissor e o caminho para treinar esses modelos, interagir com eles e encontrar formas de empacotá-los para utilizar nosso contexto e dados, mesmo que em um volume limitado.

Assim, podemos criar um novo documento, um plano de negócios e aplicar em diversas áreas, incluindo a saúde. No evento, eles deram bastante destaque ao Palm2, treinado com dados médicos, análise de raio-x e diagnósticos mais rápidos. É bacana ver diversos novos exemplos a cada semana e como isso pode influenciar e melhorar nosso dia a dia, agilizando as tarefas.

Giulia Bordignon

É que o ChatGPT é uma IA generalista, então ele aborda vários assuntos. No entanto, algo que tem se tornado muito interessante é treinar essas IAs para se tornarem especialistas em áreas específicas, como saúde, jornalismo, ficção, entre outros.

Na empresa em que estou trabalhando, estamos desenvolvendo um projeto em que treinamos um GPT com as regras de negócio da empresa. Dessa forma, ele é capaz de fornecer respostas assertivas para os desenvolvedores, dentro do contexto de desenvolvimento, nos programas da empresa. Essa abordagem tem sido extremamente interessante.

Eu acredito que esse seja um caminho promissor. Se as empresas de desenvolvimento ou aquelas que possuem setores de tecnologia se atentarem para isso, poderão ter uma ferramenta interna exclusiva para disponibilizar aos desenvolvedores. Essa ferramenta pode servir para treinamento e como fonte de conhecimento para a equipe.

A capacidade do GPT de sintetizar textos é um dos pontos que mais agrega valor ao negócio. É realmente impressionante.

Fabrício Carraro

O que o Marcus mencionou sobre a aplicação na área médica realmente me impressionou. Era algo esperado e já está em andamento há algum tempo. Não é o primeiro sistema de análise de imagens, mas eles deram dados de que já cobre cerca de 85% dos exames médicos nos Estados Unidos. Portanto, está bastante avançado, não é mesmo?

Por um lado, podemos pensar que os médicos podem parar de examinar visualmente as imagens e simplesmente confiar nos resultados do Palm 2, do MedPalm 2 do Google. No entanto, por outro lado, um bom médico usará essas informações como complemento ao seu trabalho. Talvez eles possam identificar algum detalhe pequeno em um osso ou um cisto que tenha passado despercebido. Portanto, acredito que seja uma evolução positiva.

Além disso, o uso dessas ferramentas no dia a dia, como reunir arquivos ou fazer um resumo de um texto já existente, será muito útil e interessante. No entanto, precisaremos acompanhar como esses modelos de linguagem vão lidar com o problema das alucinações que eles apresentam. Às vezes, eles fornecem informações incorretas. Já aconteceu comigo e também com coisas que estávamos usando na empresa para criar artigos, conteúdos para redes sociais. Ele acabou fornecendo uma informação completamente errada.

Então, embora ele possa resumir seu texto, há o risco de inserir algo incorreto no meio, e isso pode ter um impacto negativo caso você esteja confiando que ele está capturando tudo do texto corretamente.

Guilherme Silveira

Existe uma aplicação interessante na área da Medicina, que destaca a importância das boas práticas no uso de modelos de linguagem. Na medicina, é comum a utilização de comitês para discutir casos. Isso acontece em diversas áreas, incluindo a psicologia e outras relacionadas à saúde. Nessas discussões, são estabelecidas boas práticas para o uso de modelos gigantescos, esqueço o termo exato, mas que se refere à geração de mais de uma resposta para uma determinada análise. A ideia é simular o trabalho de um comitê, onde a própria linguagem discute essas respostas.

Pense da seguinte forma: a primeira palavra escolhida para descrever um texto é um fator aleatório que pode determinar se algo é um câncer ou não. Não se baseia apenas na imagem, mas também no CID (Classificação Internacional de Doenças) junto com a imagem. Portanto, você pode ter tido azar na escolha inicial. A questão é quão comum é esse azar. É aí que entra a utilização do comitê, rodando o processo várias vezes. É como se fosse uma cadeia de Markov ou uma distribuição de probabilidades para determinar se algo é ou não um câncer. O comitê decide qual é a resposta correta, seja por meio de estatísticas, seja pela própria discussão da linguagem.

Essas boas práticas são importantes e em breve pode ser oferecido um curso sobre o assunto em uma das plataformas de ensino online em que trabalho. Esse curso abordará como utilizar essas práticas para obter informações confiáveis, de forma a executar o processo várias vezes, com a garantia de que os resultados terão a qualidade esperada. Não se trata apenas de uma única vez de sorte, onde o seed, neste caso representado pela primeira palavra, tenha sido apropriado.

André Cunha

O Gui mencionou que no GPT-4, durante a apresentação, eles mostraram recursos de reconhecimento de imagem. Basicamente, você envia uma imagem e ele te fornece informações sobre o que há nela, além de permitir interagir por meio de código. Recentemente, vi um projeto interessante chamado MiniGPT4, que foi desenvolvido pela comunidade de código aberto. Vou compartilhar o link aqui. Ele utiliza o sistema Vicuna, que é open source e funciona de maneira mais eficiente, algo próximo do GPT-3.5. Com o MiniGPT4, é possível enviar uma imagem e fazer perguntas sobre seu conteúdo, bem como iniciar uma conversa sobre ela. Os testes que realizei mostraram um bom desempenho. Assim, temos a comunidade testando e explorando esses recursos também.

Marcus Mendes

Bom, pra essa segunda parte, a parte de estudos, o que a gente viu que nos cutucou a cabeça, nos empolgou nesses últimos dias, desde a última gravação. A gente, semana passada, trouxe, por exemplo, aquele estudo sobre extrair os pensamentos de forma linear, como fala mesmo o texto, na verdade, né? Para essa semana, o que vocês viram aí que chamou a atenção de vocês?

André Cunha

Vou comentar rapidamente sobre o lançamento da Meta, né? Eles lançaram um modelo multimodal, e vou compartilhar o link aqui para quem quiser conferir mais tarde. A ideia por trás desse modelo é conseguir analisar diferentes tipos de arquivos de entrada, como imagens e áudio, e fornecer diferentes tipos de saída. Isso segue a linha do que o Google fez, em que você envia uma imagem e recebe um texto como resposta. No caso da Meta, você pode enviar uma imagem e receber um áudio ou um vídeo como resposta. Sendo open source, acredito que a comunidade também poderá encontrar e corrigir mais facilmente eventuais erros, já que não é um sistema tão fechado como o do Google.

Guilherme Silveira

Precisamos ter cuidado para que não caiamos na armadilha das pessoas e de seus estilos de aprendizagem. Talvez essa seja uma das maiores falácias pseudo-científicas da humanidade no campo da educação - e aí está o gancho para uma discussão acalorada. Quando o assunto é multimodalidade e inteligência artificial, é comum ouvir que agora, finalmente, as pessoas que aprendem melhor através de áudio poderão aprender utilizando esse formato, e por aí vai. Essa história existe há décadas, com todas as discussões e polêmicas envolvidas.

Fabrício Carraro

Eu quero ter essa discussão com você um dia.

Guilherme Silveira

Podemos ter, primeiro a gente abre o Wikipedia e lê lá as referências científicas,

Marcus Mendes

Vamos voltar rapidinho para essa conversa, não sei se foi um estudo ou uma ferramenta, mas me lembrei do ImageBind que o Facebook divulgou sobre treinamento multimodal. Havia alguns aspectos interessantes nele, como a criação de vídeos a partir de áudio. Isso me lembrou de um estudo que vi há uns 10 ou 15 anos, acho que foi do MIT, mas não tenho certeza. Posso deixar o link na descrição, era o oposto, você tinha um vídeo e aplicava um modelo para adicionar som a ele. Era em situações "fáceis", como um líquido caindo, e o modelo adicionava o som do líquido derramando, com diferentes materiais e intensidades. Pareceu interessante essa volta. Era meio inevitável também a ideia de usar diferentes modelos, costurando tudo isso para derivar de um para o outro.

Eles mostram, por exemplo, que a partir de um som, geraram uma imagem de um cachorro. Com essa imagem, é possível gerar um vídeo e, a partir do vídeo, criar um mapa tridimensional com profundidade, entre outras coisas. Eles até mencionam, em certo momento, diferentes tipos de entradas que podem ser utilizadas, como térmicas e radiação infravermelha, além de mencionarem "unidades de medida inerciais". Então, não é apenas texto, imagem, vídeo e áudio, mas também outros sensores. É claro que isso pode se relacionar um pouco com o metaverso, e sabemos que o Facebook tem explorado bastante esse conceito. Mas esse modelo multimodal, já estruturado para essas aplicações desde o início, parece ser algo realmente promissor e empolgante. Era meio inevitável, mas ainda assim é bem empolgante.

André Cunha

Eu acho que esse modelo pode ajudar até no desenvolvimento de ferramentas, igual o robô do Elon Musk lá, que ele anunciou. Para mim ainda está bem no comecinho, mas imagina colocar um sistema desse que reconhece mesmo o mundo por fora e consiga trazer maior experiência, reconhecer a profundidade ou algo termal assim, entender o que está acontecendo no ambiente. Acho que isso vai dar um avanço legal nessa parte.

Giulia Bordignon

Eu já pensei nessa possibilidade de aliar isso à acessibilidade, inclusão de pessoas no universo digital, pessoas com deficiência. Eu acho que já viajei aqui pensando em várias aplicações para essa IA. Ainda não tinha ouvido falar mas já vou acessar o link para saber mais.

Guilherme Silveira

Eu acho que essa questão do multimodal quem trouxe primeiro primeiro com barulho acho que foi o GP o próprio GPT 4. Só que está lá né. Ele está lá a gente está aqui né. Ninguém consegue acessar. Está lá só com o paper que hoje lembra do bafafá daquele paper deles.

Sérgio Lopes

Você está muito ressentido para conseguir um convite para essas coisas aí.

Guilherme Silveira

Alguém recebeu, não fui eu. Alguém recebeu, eu tô aí esperando.

Sérgio Lopes

Inclusive, se alguém da OpenAI estiver ouvindo, eu tô na waitlist do plugin, do browser, do code interpreter e nada ainda.

Guilherme Silveira

Isso aí, estamos aqui falando, discutindo, tentando e explorando todas as ferramentas, correndo atrás. Mas é justo, não é? Falam sobre o multimodal, mostram coisas incríveis, resultados melhores que os da humanidade, falam sobre AGI e tudo mais. Sabe, tem aquele paper que eles publicaram há mais de um mês, o próprio OpenAI, discutimos sobre ele aqui. O acesso legal está lá. E acho que essas novas ferramentas ou alternativas que disponibilizam o acesso vão permitir que testemos e realmente entendamos o potencial real dessas promessas.

Porque enquanto essas promessas estiverem trancadas a sete chaves para certas pessoas, etc., nós que as utilizamos no dia a dia, sentimos com nossos clientes e pessoas com quem trabalhamos, enfrentamos os desafios e problemas. Como todos mencionaram, as ferramentas que usamos são teoricamente inteligências artificiais genéricas, mas elas não resolvem nossos problemas específicos. Então, a solução é transformá-las em soluções específicas. Estamos lidando com esses problemas no dia a dia e tentando resolvê-los. Gostaríamos de ter acesso a essas ferramentas que prometem isso, assim como antes prometeram, mas ainda não conseguimos. No entanto, estamos obtendo resultados interessantes. É muito bom ver isso novamente, mesmo que seja através de concorrentes da OpenAI, vou usar esse termo.

Mas o mais importante é poder aplicar isso hoje para vermos. Nossa discussão é sobre o futuro, mas também é sobre o presente. Queremos usar isso hoje.

Fabrício Carraro

A gente está mal acostumado mesmo, né? Um mês atrás publicaram e ainda não está no ar, ainda não tem acesso.

Guilherme Silveira

Mas o que me incomoda é quando publicam, é como se dissessem: "Olhem o que essa ferramenta faz hoje!", mas na verdade é "Olhem o que essa ferramenta faz hoje, aqui no meu demo fechado interno, do qual nenhum de vocês terá acesso". Acredito que o Google I/O teve frases muito mais precisas nesse sentido, dizendo que as pessoas terão acesso. As palavras eram no futuro, então, quando falam que você poderá retocar imagens no Google Fotos, como já foi prometido várias vezes no passado, promessas desse tipo foram feitas e não foram cumpridas. Agora, estão sendo prometidas novamente, mas ao menos usaram o verbo no futuro, entendeu?

Quando vêm esses papers e dizem "olhem o que somos capazes de fazer", quem são esses "somos capazes de fazer"? São vocês, os donos da ferramenta? Não sei se "donos" é o termo adequado, talvez "quatro portas" seja mais apropriado.

Sérgio Lopes

Essa semana, um estudo da própria OpenAI chamou minha atenção. Embora eu não tenha capacidade para explicá-lo tecnicamente, vou deixar o link para quem quiser ler. O que eles fizeram foi pegar o GPT-2, um modelo antigo, mas já baseado em redes neurais, que é o mesmo algoritmo utilizado no GPT-4 atualmente. Uma crítica comum aos modelos de LLM, em geral, especialmente entre aqueles que temem que isso leve ao fim do mundo e à destruição da humanidade, é que eles são uma "black box", ou seja, não sabemos o que acontece internamente.

Então, o que eles fizeram? Pediram para o GPT-4 explicar cada um dos neurônios da rede neural do GPT-2. Assim, eles usaram um modelo mais avançado para explicar o modelo menor. Apesar de eu não conseguir julgar tecnicamente, parece que chegaram a resultados interessantes. Aparentemente, a coisa ficou menos "black box" do que se pensava. Em um dos episódios anteriores, o Paulo trouxe um exemplo de alguém que encontrou uma alteração em um pedacinho da rede neural, o que resultou em um comportamento diferente.

Acredito que esse estudo seja mais um indício de que talvez nós, seres humanos, simplesmente não possamos olhar internamente e entender tudo o que está acontecendo. É um domínio muito grande. No entanto, não é tão inacessível assim em termos de ciência por trás disso. Achei interessante porque eles lançaram um paper inicial, mas ele consegue explicar os conceitos representados por cada neurônio. Ou seja, aquilo que era uma "black box" com 300 mil neurônios no caso do GPT-2, que é um modelo menor, passou a ser um pouco mais visível em relação ao que está sendo feito.

O que me chamou a atenção foi o comentário de Joukowsky, também conhecido como Eliezer Yudkowsky, um filósofo muito ligado à IA, que já discutimos aqui várias vezes. Ele é famoso por suas polêmicas e frases impactantes. Ele analisou o estudo e gostou, resumindo ao dizer: "A probabilidade do fim do mundo, na minha opinião, diminuiu depois desse estudo da OpenAI". É interessante porque ele é uma das pessoas mais inclinadas a acreditar que o mundo vai acabar. Para ele, o grande argumento é que não conseguimos alinhar as IAs se não entendermos o que elas estão fazendo. Então, em sua opinião, demos um passo significativo no sentido de entender o que essas coisas estão fazendo. Portanto, segundo Yudkowsky, talvez hoje tenhamos uma chance ligeiramente menor de o mundo acabar devido às IAs. Achei interessante compartilhar essa notícia para acalmar um pouco as pessoas.

Marcus Mendes

Dentro de um certo pessimismo, podemos ser um pouco mais otimistas, não é mesmo? Esse paper é interessante, durante o processo de investigação eles mostram um exemplo em que pediram ao GPT-4 para se comportar como o GPT-2 e produzir uma saída semelhante à do GPT-2. Eles compararam as saídas reais do GPT-2 com as geradas pelo GPT-4, e encontraram resultados surpreendentemente próximos. Algumas coisas eram um pouco diferentes, mas é fascinante ver como ele está compreendendo uma versão anterior de si mesmo, quase como uma terapia, não é?

Portanto, vale a pena dar uma olhada neste paper, porque se eles conseguirem... vamos projetar isso para o futuro, certo? Imagine um GPT-5 capaz de explicar um GPT-4, talvez o GPT-6 possa se explicar a si mesmo, ou talvez o GPT-7, não sei, estamos apenas especulando aqui. Essa ideia, que sempre foi colocada com certa razão, de que ninguém sabe como isso funciona, está em consonância com algo que ocorreu esta semana. Lex Fridman fez um episódio super longo de 4 horas em seu podcast com Wolfram.

Sérgio Lopes

Vai dizer que você ouviu, Marcus? Porque eu não consegui ouvir inteiro, não.

Marcus Mendes

É, eu escutei com diferentes níveis de atenção, mas eu tinha bastante coisa pra fazer ontem.

Sérgio Lopes

Mas conta aí, porque eu gostei bastante dos trechos que eu ouvi.

Marcus Mendes

Durante um dos momentos da discussão, Wolfram aborda como compreendemos o funcionamento do cérebro tanto em nível micro quanto macro, mas existe um espaço intermediário que permanece inexplicado. Podemos fazer um paralelo com os modelos de IA, onde também existe uma área oculta que esperamos compreender melhor no futuro, já que as IAs funcionam em termos de neurônios e nós. Ele estabelece um paralelo interessante, e vou disponibilizar o link na descrição.

No episódio, há timestamps para quem não deseja ouvir as 4 horas completas e prefere ir diretamente para essa parte específica. Abrindo para interpretações mais ousadas, é possível ouvir esse episódio e encontrar pontos muito interessantes que são ótimos para reflexão durante o fim de semana.

Fabrício Carraro

Eu estava prestes a mencionar esse episódio, Marcus, que também estive ouvindo nos últimos dias. Além do ponto que você trouxe, ele também aborda a ideia de como conseguimos criar esses LLMs usando redes neurais, neurônios e afins.

Isso sugere que, provavelmente, o caminho do meio que imaginávamos há 10 ou mesmo 50 anos atrás, em relação ao nosso cérebro, como pensamos e desenvolvemos linguagem como seres humanos, pode ser mais simples do que o que considerávamos anteriormente como algo sobrenatural ou completamente misterioso, algo que nem conseguíamos começar a compreender. Se conseguimos treinar um sistema, mesmo sem entender completamente seu funcionamento interno, mas alcançamos esse nível em que estamos hoje, então o que ocorre em nosso cérebro também pode ser mais simples do que imaginávamos.

Foi algo muito interessante que ele compartilhou, não é? Ele também faz comparações com animais, como isso funciona para um gato, por exemplo. Qual é o xadrez para um gato? Algo em que ele talvez seja muito melhor do que os seres humanos.

Se jogássemos xadrez com um gato, ele ganharia. Em uma parte mais técnica, ele fala sobre o sistema que desenvolveu, a tentativa de criar uma linguagem computacional básica, algo que estamos buscando, simplificando em termos computacionais, por assim dizer.

Mas depois ele entra em uma parte mais abstrata, o que é bastante interessante. É um episódio que eu recomendo.

Marcus Mendes

Bom, mais uma semana se passou e é interessante ver como estamos constantemente reunindo links e assuntos para debater. É legal notar como o mercado está repleto de coisas interessantes acontecendo, e ao longo desta semana também teremos vários links na descrição para aqueles que desejam explorar as ferramentas, estudos, plugins, entre outros que mencionamos.

Além disso, gostaríamos de receber também as contribuições de vocês, nos contando sobre o que estão fazendo e usando. É sempre empolgante ter contato com as experiências de todos, pois no nosso dia a dia estamos constantemente utilizando essas IAs aplicadas no trabalho, e não param de surgir novas opções, ferramentas, plugins e maneiras de interagir com elas.

Na próxima semana, certamente teremos muitas novidades para comentar aqui. A parte interessante é que ainda não sabemos quais serão os estudos empolgantes que vou compartilhar, mas daqui a uma semana estarei aqui para discutir, refletir e debater. Por enquanto, é isso. Muito obrigado a todos, hipsters! Um abraço e até logo!

Este podcast foi produzido pela Alura, mergulhe em tecnologia. E Faculdade FIAP, Let's Rock the Future.

Edição Rede Gigahertz de Podcasts.

Google I/O, desenvolvimento responsável e modelos multimodais – Hipsters: Fora de Controle #05

Introdução

Google I/O, desenvolvimento responsável e modelos multimodais — Episódio 05

Cursos

Cursos universitários FIAP

Google I/O, desenvolvimento responsável e modelos multimodais – Hipsters: Fora de Controle #05

Introdução

Google I/O, desenvolvimento responsável e modelos multimodais — Episódio 05

Leia também:

Cursos

Cursos universitários FIAP