Tecnologia

Data Science e Machine Learning: especialistas compartilham tendências e técnicas

Redação, do Na Prática

Publicado em 3 de maio de 2021 às 20:26h.

Muito se fala porém pouco se explica sobre a carreira em Data Science e Machine Learning. Afinal, tanto a academia quanto a indústria no Brasil ainda estão se desenvolvendo, seguindo grandes polos tecnológicos internacionais. Por isso, para quem ainda não atua na área, pode parecer difícil entender um pouco mais sobre o que se faz na prática.

Não por acaso, o assunto foi tema do painel de encerramento do Brazil Tech Trends, promovido pela Fundação Estudar. Três líderes da nossa rede, especialistas em Data Science e Machine Learning, compartilharam tendências e técnicas que estão ajudando grandes empresas e startups a alavancarem seus resultados.

Faça o curso de Ciência da Computação mais popular de Harvard em versão traduzida e gratuita

Conheça os nossos especialistas:

André Mendes: Ph.D. em Ciência da Computação pela New York University (NYU) e com mais de cinco de experiência atuando na indústria em projetos de Machine Learning, atualmente é vice-presidente da Pistil Data, startup do Vale do Silício que utiliza dados para ajudar equipes de vendas de Cannabis da Califórnia a prospectar clientes e aumentar vendas.

Gabriel Bayomi: Mestre em Ciência da Computação pela Carnegie Mellon Univesity, trabalhou em grandes empresas como Amazon, Sales Force e Kraft Heinz. Recentemente atuou como Machine Learning Engineer na Apple, com pesquisa e desenvolvimento para a assistente de voz inteligente Siri.

Rogério Bonatti: estudante de PhD na Carnegie Mellon Univesity e com experiência em empresas como Microsoft, McKinsey & Company e Itaú BBA, atua como Artificial Intelligence Reserach Intern no Faebook.

Aos que não puderam participar do evento, o Na Prática compilou as principais perguntas e respostas feitas durante o painel sobre Data Science e Machine Learning. Confira!

Como o Data Science o Machine Learning é aplicado na rotina? Quais são os desafios?

André: “quando entrei na Pistil Data, apesar de estar na gerência, era a quarta pessoa contratada. Por isso, eu tinha que fazer tudo em termos de dados. Então, basicamente, era o core da empresa, responsável por resolver o problema que tínhamos, sobretudo de product matching.

Por exemplo, se você entra na Amazon e ver que diferentes vendedores comercializam a mesma camiseta, como você sabe que aquela camiseta é a mesma ou não? Pois eles vêm de fontes diferentes e tudo mais. A gente tinha um problema bem parecido. Então, foi um trabalho de realmente colocar a mão na massa, entender os nossos produtos e dados e o que a Amazon faz para resolver esse problema. Era muito código o tempo todo, resolvendo o problema, e ao mesmo tempo muito próximo do business – pois eu tinha que entregar uma solução que fizesse sentido para os nossos negócios.

Leia também: O que todo profissional deveria saber sobre dados, segundo estatístico

Hoje a empresa cresceu e temos seis pessoas na área de Data Science e estamos crescendo mais. A rotina é muito mais organizar quais são as demandas, entender quais são os projetos que cada data scientist pode fazer. Se uma pessoa que é mais especializada em devOps, é ela quem irá entender como fazemos o pipeline melhor e como estruturar isso. Se houver outro que é especialista em NLP, irá entender como desenvolver algoritmo naquela área.

E mesmo gerenciando, eu gosto muito de desenvolver e de estar próximo do produto. Então, os meus desafios são muito mais de usar o meu conhecimento para entender quais são os produtos que a empresa pode lançar e como gerenciar pessoas em diferentes posições na mesma área.”

Gabriel: “quando comecei a minha carreira na Apple, eu fiquei codando em times diferentes. Havia duas possibilidades: ou você ia para um time específico ou realmente rodava entre eles – e eu achei essa última bastante interessante. Afinal, entender como áreas diferentes se conectam e quais são os produtos que são mais importantes para times diferentes, por exemplo, é muito bom para o começo da carreira.

Eu fiz rotações em cinco ou seis equipes, cada um deles trabalhando em projetos bem diferentes entre si. Eles iam desde a análise de imagens ao processamento de linguagem e até engenharia pura. Foi uma experiência muito boa, pois a minha rotina variou muito.

Mais para o final, no último ano, eu entrei para o time que mais me identifiquei e gostei durante o projeto. Infelizmente não posso falar nada sobre, mas trabalhamos bastante com processamento natural de imagem para produtos que não foram usados ainda. Por causa das políticas da empresa, não posso falar especificamente sobre.”

Leia também: 10 opções de carreira em tecnologia para quem quer trabalhar na área

Rogério: “atualmente tenho desenvolvido projetos de pesquisa e, para isso, usamos vários tipos de algoritmos de machine learning e de vários domínios. Quando ainda estava na Poli (USP), durante a graduação, usávamos ferramentas um pouco mais básicas, como o NLP.

Já durante o PhD, em um dos meus projetos, por exemplo, era um drone capaz de filmar e detectar pessoas, carros, bicicletas etc. Nele, usamos algoritmos de processamento de imagem, predição de trajetória, Supervised Learning (SL) e Reinforce Learning. Além disso, nós também automatizamos a tomada de decisão artística – criando interface intuitiva entre o operador e o robô.”

Confira um dos projetos de machine learning do Rogério:

Quais resultados os algoritmos trazem às empresas?

André: “um dos projetos que mais gostei de fazer era, basicamente, usar os dados da empresa para tentar prever quais pessoas não estavam tão felizes com o trabalho e possivelmente pensando em sair. Mas não apenas isso, o projeto também deveria propor soluções para reverter esse cenário.

Por isso, foi um projeto que não apenas demandou a análise de dados, mas também a necessidade de conversar com pessoas de diferentes setores. Assim, o ponto principal é que você consegue usar dados, estatísticas e machine learning em diferentes processos, mas o mais importante é pensar quais são os dados que estão disponíveis, como eles são coletados e como conseguir usá-los.

Na nossa área se você não tem dados, não tem nada.

A gente brinca que o modelo no final não importa tanto se os seus dados não forem bons. Afinal, qualquer modelo tende a ser resolvível se os dados forem bons, mas se os dados forem ruins talvez nem um modelo bom resolva.”

Gabriel: “eu acredito que 80% do trabalho do machine learning são dados – isso se não for mais. Querendo ou não, o modelo não será mais importante do que os dados. Durante um estágio de verão que fiz, a empresa estava em uma situação de ter bons dados, mas eles ainda não tinham modelos para alguns dos produtos. O meu projeto, aliás, era conseguir fazer o matching de produtos. Então, por exemplo, em uma planilha estava escrito “Coca-Cola”, do jeito normal, na outra, tudo junto, e numa terceira, com erro. Como saber que se trata da mesma coisa e não diferentes?

Leia também: Confira as vagas abertas em startups e empresas de tecnologia

Existem milhares de formas de fazer isso e a empresa contratava uma licença externa para realizar esse tipo de tarefa – que não era manual, mas apesar de automático o algoritmo não aprendia. O meu projeto, porém, justamente visava fazer o processamento natural de linguagem, realizando o matching desses dados. O resultado passou de 70% obtido pela licença para mais de 90% com o meu projeto. Com bons dados, foi possível em três meses (durante o verão) realizar esse projeto.”

Rogério: “os meus estágios na Microsoft e no Facebook foram de pesquisa, então o resultado deveria ser uma aplicação nova. Apesar disso, vejo duas aplicações importantes do machine learning dentro das empresas. A primeira delas não é substituir pessoas, mas tarefas que as pessoas fazem – especialmente as mais repetitivas e que não exijam criatividade. Já a segunda é formalizar decisões que as pessoas normalmente tomam no ‘feeling’.

Usando o exemplo que o André trouxe, sem o machine learning o profissional de gestão e recursos humanos deve fazer sozinho a análise de fatores explícitos e implícitos sobre a retenção de funcionários e propor soluções, nem sempre com os dados necessários. Com algoritmos, é possível prover mais dados e informações, inclusive com pesos diferentes em cada variável, facilitando a análise e tomada de decisão.”

O que muda no trabalho prático para a academia?

Rogério: “em relação a pessoas, há gente de qualidade em ambas as partes. Aliás, é bastante comum alunos de PhD irem para a indústria sem necessariamente virarem professores. Em termos das atividades, a indústria tem muito dinheiro e isso influencia nos tipos de modelos, na qualidade dos dados e até no tipo de impacto que será causado.

Na universidade, o objetivo é criar ideias, algoritmos e aplicações novas. Na indústria isso também acontece, há laboratórios como Microsoft Research e Facebook iResearch que realizam pesquisas básicas e invenções de algoritmos. Porém há também dentro da indústria o R.A.D. (Research And Development), onde também é feito a pesquisa, porém aplicado aos produtos.”

André: “quando você está no doutorado, a forma como você resolve um problema é o que importa. Então, você não está simplesmente tentando resolver um problema, mas também buscando uma solução melhor e um método novo. É realmente tentar avançar o estado da ciência.

Já na indústria, a forma como o problema é resolvido nem sempre importa – a maioria das empresas deseja a solução, não um método inédito. Se o problema é resolvível com um sistema simples, modelo de regras ou uma regressão linear, é exatamente isso o que a maioria das empresas precisam.”

Quais conhecimentos são importantes para quem deseja começar na área de Data Science e Machine Learning?

Gabriel: “é claro que varia muito de projeto para projeto, mas acredito que aprender Python e estatística é um bom começo. Pois, como é uma combinação dos dois, é preciso entender bem pelo menos uma dessas duas linguagens e as demais virão naturalmente. Além disso, como o Python tem muitas bibliotecas para fazer estatística, cálculos de matrizes, por exemplo, é um ótimo começo.

Já em relação a cursos, a minha primeira exposição ao machine learning foi no Coursera com o Andrew Ng. Há muito material disponível de qualidade, a dificuldade é encontrar aquilo que faça sentido para o que você está buscando.”

André: “quando as pessoas me perguntam qual linguagem aprender primeiro, respondo que é o inglês. Querendo ou não, a computação é algo universal. Não é necessário ser fluente, mas a compreensão da língua irá ampliar bastante o horizonte para aprender coisas novas – pois há um leque maior de oportunidades.

Leia também: Diretor da XP Inc. conta como fez a transição de carreira do financeiro para a tecnologia

Há também uma comunidade muito forte na área, seja acadêmica ou mesmo profissionais em fóruns, mas que também se comunica apenas em inglês. Por isso, para quem deseja aprender mais e usufruir de uma comunidade muito grande, aprender inglês faz muita diferença.”

Rogério: “Também é importante ter os fundamentos da matemática, cálculo e estatística, pois muitos métodos avançados de machine learning são baseados nisso. Por exemplo, se você não sabe o conceito do que é uma variância, talvez seja difícil entender o que é o dropout (normalização de uma camada da rede neural).

Em termos de linguagem, Python é uma ótima, pois é fácil de começar e tem muitos libraries. Geralmente, os modelos que rodam em produção (coisas reais) são feitos em C++, na robótica para tempo real ou até para código de produção para o Google. Já linguagens de deep learning, as mais faladas são o TensorFlow, do Google, e PyTorch, do Facebook – sendo ambas bastante usadas pela indústria.”