Classificação de dados usando machine learning

Ilustração sobre blockchain IA, contratos inteligentes, descentralização

Você já se viu diante de uma planilha do Google Sheets com centenas, talvez milhares de linhas de dados textuais – como feedback de cliente, descrições de produtos ou tickets de suporte – e pensando: "Será que não existe uma maneira de categorizar isso automaticamente? As regras complexas baseadas em IF e REGEXMATCH já se tornaram um labirinto inviável!"

A questão persistente, tanto minha quanto de colegas, era se seria viável aplicar machine learning para classificar esses dados sem ter que se tornar um cientista de dados com doutorado da noite para o dia, ou contratar uma equipe inteira para tal. Afinal, para quem lida com automações e planilhas diariamente, o objetivo é solucionar a questão e avançar para o próximo desafio. A boa notícia é que sim, é possível. Contudo, como de praxe, não há soluções mágicas, e cada método apresenta suas particularidades.

Classificação de Dados: As Ferramentas que Uso no Dia a Dia

Na minha rotina profissional, alterno entre Google Sheets, Apps Script, Python e diversas APIs, de forma ágil e constante. No contexto da classificação de dados, em particular texto, destaco três estratégias principais, cada qual com seus desafios e benefícios inerentes.

1. Classificação com IA Generativa (LLMs) via API: Agilidade no Apps Script

Esta é minha escolha inicial para cenários inovadores ou quando o texto é complexo e rico em nuances. Imagine-se com um assistente excepcionalmente inteligente, pronto para ser instruído. O processo envolve enviar o dado para uma API de LLM (como Gemini ou OpenAI), solicitar a classificação e aguardar o retorno. Frequentemente, essa orquestração ocorre diretamente do Google Sheets, por meio de um script em Apps Script.

Minha Experiência na Prática:

Recordo-me de um projeto que exigia a categorização de aproximadamente 500 descrições de produtos distintas que estavam em uma planilha. O cenário era desafiador: textos em português e inglês, repletos de gírias e jargões técnicos. A tentativa de empregar fórmulas elaboradas no Sheets ou expressões regulares para discernir categorias como "Eletrônicos", "Vestuário" ou "Alimentos" revelou-se extremamente frustrante. A cada nova descrição, as regras preestabelecidas falhavam.

A dúvida surgiu: "Um LLM seria capaz de organizar essa confusão?". Desenvolvi rapidamente um script no Apps Script. O conceito era direto: extrair o texto da célula, enviá-lo à API do Gemini acompanhado de um prompt, e registrar a categoria resultante. Inicialmente, meu prompt era bastante genérico, por exemplo, "Classifique o texto: [TEXTO]". Os resultados eram inconsistentes; por vezes, o modelo criava categorias inexistentes ou cometia erros grosseiros. A frustração era palpável.

Nesse ponto, compreendi que a chave para o sucesso residia no prompt. Passei horas aprimorando-o: "Você é um especialista em e-commerce. Classifique a descrição de produto a seguir em uma das categorias: 'Eletrônicos', 'Vestuário', 'Alimentos', 'Decoração'. Se não se encaixar em nenhuma, use 'Outros'. Responda APENAS com o nome da categoria. O texto é: '[TEXTO]'." Integrei exemplos diretamente no prompt. Solicitei que a resposta fosse formatada de maneira específica, como JSON, otimizando sua interpretação no Apps Script.

O resultado foi um sucesso! A qualidade da classificação teve uma melhora drástica, e todo o processamento foi concluído. Qual seria o ônus? O custo por token pode acumular-se rapidamente, em particular com textos extensos, e a latência de cada requisição é capaz de desacelerar a automação em grandes volumes. Adicionalmente, os limites de execução do Apps Script representam um fator crucial. Com 10.000 linhas, será necessário fracionar o processamento, pausar, retomar... É um procedimento tedioso, porém necessário na atualidade.

Vantagens: Agilidade na prototipagem; ideal para lidar com textos complexos e maleáveis; dispensa o treinamento de um modelo do zero (o modelo já possui vasto conhecimento prévio); a alteração do prompt permite um ajuste simplificado das categorias.
Desvantagens: Custo por token (potencialmente elevado em escala); latência das requisições; risco de "alucinações" (informações inventadas) caso o prompt não seja suficientemente explícito; inconsistência se o prompt não for suficientemente robusto; restrições de execução em ambientes como o Apps Script.

2. Classificação com Python e Modelos Clássicos de Machine Learning: O Poder do Controle

Quando o volume de dados se torna financeiramente insustentável para a API de LLM, ou quando exijo maior controle sobre o modelo e seu desempenho, o Python se torna indispensável. Nessa abordagem, a premissa é treinar um modelo clássico de machine learning (como Regressão Logística, SVM, Naive Bayes) utilizando bibliotecas como Scikit-learn, para então empregá-lo na classificação dos dados. Tipicamente, disponibilizo esse modelo por meio de uma API simplificada, desenvolvida com Flask ou FastAPI, apta a ser consumida por qualquer outro sistema, incluindo o Apps Script ou outras automações.

Minha Experiência na Prática:

Após a vivência com LLMs para descrições de produtos, deparei-me com um cenário distinto: classificar tickets de suporte. As categorias estavam muito mais bem delimitadas ("Problema de Login", "Erro de Pagamento", "Dúvida Geral"), e a empresa possuía um vasto histórico de tickets já classificados manualmente. Recorrer a um LLM para cada novo ticket seria financeiramente inviável, considerando o volume.

Chegou a hora do Python. Obtive os dados históricos do banco de dados (os quais, por vezes, vinham em um CSV desorganizado, que eu saneava no Google Sheets antes de exportar). Com o Pandas, organizei todo o material; realizei um pré-processamento textual elementar (remoção de stop words, pontuação, normalização); e converti o texto em vetores numéricos através de um TfidfVectorizer. Em seguida, treinei um modelo de Regressão Logística utilizando o Scikit-learn. O treinamento transcorreu rapidamente, e a acurácia foi satisfatória.

O verdadeiro desafio não residiu no treinamento em si, mas na operacionalização do modelo. Não era viável executar o script Python em minha máquina a cada uso. A alternativa foi desenvolver uma API com FastAPI. Armazenei o modelo treinado e o TfidfVectorizer (componentes interdependentes para a inferência) e configurei um endpoint que recebia um texto, efetuava o pré-processamento, aplicava o modelo para predizer a categoria e devolvia a resposta.

A implantação dessa API constituiu a etapa mais desafiadora. Foi preciso configurar um servidor virtual (em uma VM na Google Cloud, por exemplo), assegurar a presença de todas as dependências do Python, configurar o Nginx para hospedar a API e implementar monitoramento. Houve alguns percalços com variáveis de ambiente e portas, porém, uma vez operacional, a velocidade e o custo superaram significativamente qualquer API de LLM para aquele volume particular. Inclusive, consegui integrar o Apps Script para invocar essa minha API personalizada e classificar os novos tickets que surgiam nas planilhas.

Vantagens: Controle irrestrito sobre o modelo e o pré-processamento; modelos mais enxutos e velozes para inferência; mais econômico em escala, caso a infraestrutura seja autogerenciada; desempenho previsível e transparente; adequado para dados com categorias bem delimitadas e históricos.
Desvantagens: Maior complexidade na configuração e implantação (demanda ambiente Python, servidor); requer conhecimento aprofundado em machine learning e engenharia de software; demanda tempo para treinamento e validação do modelo; manutenção da infraestrutura e do código.

3. Classificação com Serviços de Cloud ML (AutoML, Natural Language API): "Mágica" na Nuvem

Para aqueles que buscam um equilíbrio entre a simplicidade do LLM via API e a solidez de um modelo treinado, mas sem a complexidade de configurar uma infraestrutura Python, os serviços de Machine Learning na nuvem representam uma excelente opção. Plataformas como o Google Cloud disponibilizam APIs pré-treinadas de Processamento de Linguagem Natural (PNL) e serviços como o AutoML, que permitem o treinamento de modelos personalizados por meio de uma interface intuitiva.

Minha Experiência na Prática:

Em uma ocasião, um cliente necessitava classificar comentários provenientes de uma pesquisa de satisfação. O desafio residia no fato de os comentários estarem em múltiplos idiomas e as categorias serem bastante específicas ao escopo do negócio. Minha intenção era evitar a preocupação de treinar modelos de PNL para cada língua ou de administrar a complexidade do Python para tal. Embora um LLM pudesse até solucionar o problema, o cliente buscava uma solução mais robusta e "pronta para produção", sem a dependência contínua de engenharia de prompts.

Inicialmente, para os comentários de natureza geral (como identificação de sentimento e extração de entidades), empreguei a Natural Language API do Google Cloud. Essa API é extraordinária para tarefas fundamentais de PNL, dispensando qualquer treinamento. Bastava enviar o texto, e ela fornecia o sentimento (positivo, negativo, neutro) e as entidades (pessoas, locais, produtos) com uma acurácia notável. O Apps Script realizava a chamada à API, e eu preenchia colunas extras na planilha com esses insights.

Para as categorias personalizadas, que representavam o cerne da demanda, experimentei o AutoML Text Classification. Sua interface é remarkably intuitiva. Essencialmente, carreguei um arquivo CSV contendo os textos e as categorias preexistentes do cliente. O AutoML encarregou-se de todo o processo de treinamento, seleção de modelo e ajuste de hiperparâmetros. É como se a parte mais laboriosa do trabalho de um cientista de dados fosse executada automaticamente. Decorridas algumas horas, o modelo estava pronto para ser utilizado.

Dali em diante, bastou consumir a API desse modelo já treinado. Novamente, um script em Apps Script serviu como elo entre o Google Sheets e a API do AutoML. A "magia" ocorre nos bastidores, o que é excelente para a celeridade, mas o custo é a opacidade sobre o funcionamento exato do modelo e a rápida acumulação de despesas por milhão de caracteres processados, caso o volume de requisições não seja bem planejado.

Vantagens: Redução no gerenciamento de infraestrutura (totalmente serverless); escalabilidade intrínseca; modelos pré-treinados acessíveis para situações comuns (sentimento, entidades); AutoML viabiliza a criação de modelos personalizados com mínimo esforço de codificação; fácil integração com outras ferramentas do ecossistema de nuvem.
Desvantagens: Custo potencialmente alto em escala (especialmente com grandes volumes); controle reduzido sobre o modelo (natureza de "caixa preta"); dependência de uma plataforma específica (vendor lock-in, mesmo que moderado); exige uma conta em provedor de nuvem.

Comparativo das Abordagens para Classificação de Dados

Visando auxiliar na tomada de decisão, elaborei uma tabela que sintetiza os critérios que habitualmente considero:

Critério	LLM via API (Apps Script)	Python + Modelos Clássicos	Cloud ML Services (AutoML/API)
Custo	Moderado a Elevado (por token/requisição, com escalabilidade)	Reduzido a Moderado (infraestrutura + tempo de desenvolvimento)	Moderado a Elevado (por utilização, modelo e inferência)
Curva de Aprendizagem	Baixa (ênfase em engenharia de prompt e Apps Script)	Elevada (Python, ML, MLOps, APIs)	Média (conceitos de ML, interface em nuvem, APIs)
Performance/Precisão	Boa a Excelente (fortemente dependente do prompt e do LLM)	Excelente (com dados e treinamento apropriados)	Boa a Excelente (modelos pré-treinados robustos, AutoML otimizado)
Escalabilidade	Moderada (devido a limites de API e Apps Script, com potencial lentidão)	Elevada (com infraestrutura cuidadosamente planejada)	Elevada (serviços gerenciados, com auto-escalabilidade)
Flexibilidade	Muito Elevada (alteração ágil de regras via prompt)	Elevada (controle absoluto sobre o modelo e pré-processamento)	Média (personalização restrita ao AutoML, APIs fixas)
Manutenção	Baixa (gestão de prompts e credenciais de API)	Elevada (código, dependências, servidor, retreinamento)	Baixa a Média (gestão de dados, retreinamento através de interface)
Melhor Para	Prototipagem ágil, textos complexos, categorias fixas em número reduzido, volume inicial modesto.	Grandes volumes, desempenho crítico, necessidade de controle, categorias estabelecidas e históricas.	Volume médio a elevado, pouca experiência em ML, praticidade, suporte multilíngue, escalabilidade.

Quando NÃO Vale a Pena Usar Machine Learning para Classificação

Esta é uma lição que absorvi da maneira mais árdua: desperdiçando tempo. Nem toda questão de classificação demanda machine learning. Por vezes, a abordagem mais direta é a mais eficaz.

Dados Muito Pequenos ou Não Representativos: Se o volume de dados é exíguo ou pouco representativo (por exemplo, 50 exemplos muito díspares para treinamento), o Machine Learning terá dificuldade em identificar padrões. Seria como tentar inferir a preferência musical de alguém com base em apenas duas canções.
Problema de Classificação Muito Simples com Regras Claras: Um erro comum foi tentar aplicar ML em classificações textuais que poderiam ser resolvidas de forma trivial com REGEXMATCH ou fórmulas IF eficazes no Google Sheets. Por exemplo, se a única necessidade é identificar se uma linha contém "NF" ou "nota fiscal" para categorizá-la como "Financeiro", o ML torna-se um exagero. Dediquei tempo ao treinamento e validação de algo que poderia ter sido solucionado em meros 5 minutos no Apps Script, com uma função elementar. Foi uma sensação de desperdício.
Custo-Benefício Não Compensa o Esforço: Se a classificação manual de poucos itens diários consome 10 minutos, e uma semana de implementação de uma solução de ML (ainda que "fácil") economizaria apenas 5 minutos por dia, o investimento em desenvolvimento não se justifica. A automação deve endereçar uma necessidade genuína e frequente.
Questões Éticas e Viés: A classificação de indivíduos, decisões delicadas ou qualquer elemento que possa perpetuar preconceitos exige cautela extrema. Modelos de ML são capazes de absorver e amplificar vieses contidos nos dados de treinamento. Caso o problema envolva um risco elevado de injustiça ou discriminação, a intervenção humana e a adoção de regras transparentes podem ser mais indicadas ou, no mínimo, essenciais para validar o sistema de ML.

FAQ - Perguntas Que Sempre Me Fazem Sobre Classificação com ML

1. Preciso de muitos dados para começar a classificar com Machine Learning?

A quantidade necessária de dados varia conforme a abordagem. Com LLMs via API, bastam poucos exemplos no prompt para o modelo compreender sua intenção, embora um prompt mais detalhado e com múltiplos exemplos sempre produza melhores resultados. Para modelos clássicos em Python ou AutoML, sim, a performance do aprendizado do modelo melhora diretamente com a disponibilidade de dados históricos e categorizados. Em linhas gerais, para modelos clássicos, centenas a milhares de exemplos por categoria são um bom ponto de partida, mas essa métrica é altamente influenciada pela complexidade específica do problema.

2. Qual a precisão esperada de um modelo de classificação?

Essa é uma questão complexa, mas com uma resposta realista. Nunca se deve esperar 100% de acerto. Modelos de ML, particularmente no processamento de texto, sempre operarão com uma margem de erro. A acurácia "esperada" deve alinhar-se ao que é tolerável para o seu fluxo de trabalho. Se um operador humano atinge 90% de precisão na classificação, e seu modelo alcança 85%, isso já representa um avanço considerável. Para tarefas críticas, pode ser que 95% ou mais sejam indispensáveis, o que implicaria em mais dados, maior refinamento do modelo ou até mesmo uma etapa de revisão humana para classificações de baixa confiança. Pessoalmente, sempre valido o modelo com uma amostra de dados inédita para obter uma noção fidedigna de seu desempenho.

3. Como faço para atualizar o modelo de classificação com novos dados?

No caso de LLMs, basta atualizar o prompt com novos exemplos ou instruções, caso as categorias sejam alteradas. Esta é a estratégia mais dinâmica. Para modelos clássicos ou AutoML, é necessário "retreinar" o modelo com um conjunto de dados atualizado, que inclua as novas informações e suas classificações correspondentes. Esse processo pode ser executado manualmente ou de forma automatizada (conhecido como MLOps). Se as categorias se modificam frequentemente ou os dados exibem comportamentos distintos ao longo do tempo (deriva de dados), o retreinamento regular é fundamental para preservar o desempenho do modelo. Em minha prática, costumo automatizar o retreinamento mensal ou trimestralmente, dependendo da criticidade e da volatilidade dos dados.

Conclusão: Minha Abordagem Favorita e Por Quê

Se a tarefa fosse iniciar um projeto de classificação de dados hoje, especialmente em fase de prototipagem ou com um volume de informações relativamente reduzido, minha escolha inicial seria a abordagem de IA Generativa (LLMs) via API, orquestrada por Apps Script no Google Sheets. A simplicidade e a celeridade para testar conceitos e confirmar a viabilidade da solução são incomparáveis. Ajustar um prompt é um processo significativamente mais rápido do que coletar, pré-processar e treinar um modelo.

Contudo, caso o projeto ganhasse escala, o volume de dados se expandisse e os custos das APIs de LLM se tornassem um impeditivo, ou se houvesse uma exigência superior de precisão e controle, eu faria a transição para uma solução em Python com modelos clássicos, disponibilizada por uma API personalizada. Esta abordagem oferece-me maior controle, desempenho e, a longo prazo, pode revelar-se mais econômica e resiliente para grandes volumes. A curva de aprendizado inicial é, de fato, mais acentuada, e o esforço de implantação é tedioso, mas os benefícios em escala compensam o investimento.

Os Serviços de Cloud ML surgiriam como uma solução intermediária em minha consideração, sobretudo se o cliente já possuísse infraestrutura na nuvem e buscasse algo "gerenciado", dispensando uma equipe de cientistas de dados dedicada. Representa um percurso mais rápido do que construir tudo em Python do zero, porém, ainda exige atenção aos custos e à curva de aprendizado da plataforma em nuvem.

Em última análise, a escolha se resume a um equilíbrio entre agilidade na prototipagem, custo, precisão e as demandas específicas de seu projeto. Fundamental é reconhecer a diversidade de opções e a capacidade de transcender as fórmulas de planilha no que tange à classificação de dados. Para quem atua na prática, isso representa um alívio considerável.

A Mente Vetorial

Pesquisar este blog