Construa um modelo de machine learning em 7 passos

Construa um modelo de machine learning em 7 passos

Construir um modelo de machine learning viável, confiável e ágil que simplifique as operações e reforce o planejamento de negócios exige paciência, preparação e perseverança. Então, aprenda como construir um que atenda às necessidades da sua empresa.

modelo machine learningAs organizações estão implementando projetos de IA para inúmeras aplicações em uma ampla gama de setores. Esses aplicativos incluem:

  • Análise preditiva;
  • Sistemas de reconhecimento de padrões;
  • Sistemas autônomos e conversacionais;
  • Atividades de hiperpersonalização;
  • Sistemas orientados a objetivos. 

Contudo, cada um desses projetos têm algo em comum: eles são baseados na compreensão do problema de negócios e que algoritmos de aprendizado de máquina e dados devem ser aplicados ao problema. Afinal, dessa forma, resultam em um modelo de machine learning que realmente atenda às necessidades do projeto.

A implantação e o gerenciamento de projetos de aprendizado de máquina geralmente seguem o mesmo padrão. Contudo, as metodologias de desenvolvimento de aplicativos existentes não se aplicam porque os projetos de IA são orientados por dados, não por código de programação. Ou seja, o aprendizado é derivado de dados. 

Portanto, a abordagem e as metodologias corretas de aprendizado de máquina resultam de necessidades centradas em dados. Então, resultam em projetos que se concentram em trabalhar nos estágios de descoberta de dados, limpeza, treinamento, construção de modelo e iteração.

7 passos para construir um modelo de machine learning

Para muitas organizações, o desenvolvimento de modelos de machine learning é uma atividade nova. Por isso, pode parecer muito intimidante. Mesmo para aqueles com experiência em aprendizado de máquina, construir um modelo de IA requer diligência, experimentação e criatividade. Entretanto, a metodologia para construir projetos centrados em dados já está um tanto estabelecida. Portanto, as etapas a seguir o ajudarão a orientar seu projeto.

Etapa 1. Compreenda o problema do negócio (e defina o sucesso)

A primeira fase de qualquer projeto de aprendizado de máquina é desenvolver uma compreensão dos requisitos de negócios. Ou seja, você precisa saber qual problema está tentando resolver antes de tentar resolvê-lo.

Então, para começar, trabalhe com o proprietário do projeto e certifique-se de entender os objetivos e requisitos do projeto. Seu intuito é converter esse conhecimento em uma definição de problema adequada para o projeto de machine learning e traçar um plano preliminar para atingir seus objetivos. Confira as principais perguntas sobre o assunto:

Qual é o objetivo do negócio que requer uma solução cognitiva?

Quais partes da solução são cognitivas e quais não são?

Tratamos todas as questões técnicas, comerciais e de implantação necessárias?

Quais são os critérios de “sucesso” definidos para o projeto?

Como o projeto pode ser encenado em sprints iterativos?

Existem requisitos especiais de transparência, explicabilidade ou redução de preconceito?

Quais são as considerações éticas?

E quanto aos parâmetros aceitáveis ​​para valores de matriz de exatidão, precisão e confusão?

Como são as entradas esperadas para o modelo e as saídas esperadas?

Quais são as características do problema? É um problema de classificação, regressão ou agrupamento?

Escolheu a “heurística” – a abordagem rápida e suja para resolver o problema que não requer aprendizado de máquina? Quão melhor do que a heurística o modelo precisa ser?

Como medir os benefícios do modelo?

 

Defina as metas

Embora haja muitas perguntas a serem respondidas durante a primeira etapa, respondê-las ou mesmo tentar respondê-las aumentará muito as chances de sucesso geral do projeto.

Definir metas específicas e quantificáveis ​​ajudará a obter um ROI mensurável do projeto de machine learning ao invés de simplesmente implementá-lo como uma prova de conceito que será descartada mais tarde. Contudo, as metas devem estar relacionadas aos objetivos de negócios e não apenas ao aprendizado de máquina. 

Embora as medidas específicas do aprendizado de máquina – como precisão, exatidão, recall e erro quadrático médio – possam ser incluídas nas métricas, os indicadores chave de desempenho (KPIs) mais específicos e relevantes para os negócios são melhores.

Etapa 2. Compreender e identificar os dados

Depois de ter um entendimento firme dos requisitos de negócios e receber a aprovação para o plano, você pode começar a construir um modelo de machine learning, certo? Errado. Estabelecer o caso de negócios não significa que você tem os dados necessários para criar o modelo de machine learning.

Afinal, um modelo de machine learning é construído aprendendo e generalizando a partir de dados de treinamento. Então, deve-se aplicar esse conhecimento adquirido a novos dados que ele nunca viu antes para fazer previsões e cumprir seu propósito. A falta de dados impedirá que você construa o modelo e o acesso aos dados não é suficiente. No entanto, os dados úteis precisam estar limpos e em bom estado.

Então, identifique suas necessidades de dados e determine se eles estão na forma adequada para o projeto de aprendizado de máquina. O foco deve estar na:

  • Identificação de dados;
  • Coleta inicial;
  • Requisitos;
  • Identificação de qualidade.

Isso tudo além de percepções e aspectos potencialmente interessantes que valham a pena uma investigação mais aprofundada. Aqui estão algumas questões-chave:

Onde estão as fontes dos dados necessários para treinar o modelo de machine learning?

Qual quantidade de dados é necessária para o projeto de aprendizado de máquina?

Qual é a quantidade e a qualidade atuais dos dados de treinamento?

Como os dados do conjunto de teste e os dados do conjunto de treinamento estão sendo divididos?

Para tarefas de aprendizagem supervisionada, há uma maneira de rotular esses dados?

Podem ser usados ​​modelos pré-treinados?

Onde estão localizados os dados operacionais e de treinamento?

Existem necessidades especiais para acessar dados em tempo real em dispositivos de ponta ou em locais mais difíceis de alcançar?

Tira teima

Responder a essas perguntas importantes ajuda a controlar a quantidade e a qualidade dos dados. Contudo, também ajuda a entender o tipo de dados necessários para fazer o modelo funcionar.

Além disso, você precisa saber como o modelo de machine learning funcionará nos dados do mundo real. Por exemplo, como o modelo será usado? Será usado offline? Ou operará em modo de lote em dados que são alimentados e processados ​​de forma assíncrona ou será usado em tempo real, operando com requisitos de alto desempenho para fornecer resultados instantâneos? Essas informações também determinarão o tipo de dados necessários e os requisitos de acesso aos dados.

No entanto, determine também se o modelo de machine learning será treinado uma vez, em iterações com versões dele implantadas periodicamente ou em tempo real. Afinal, o treinamento em tempo real impõe muitos requisitos aos dados que podem não ser viáveis ​​para algumas configurações.

Durante esta fase do projeto de IA, também é importante saber se existem diferenças entre os dados do mundo real e os dados de treinamento. Entretanto, o mesmo é válido para os dados de teste e os dados de treinamento e, portanto, qual abordagem você adotará para validar e avaliar o desempenho do modelo.

Etapa 3. Colete e prepare os dados

Depois de identificar seus dados de maneira adequada, você precisa moldá-los para que possam ser usados ​​para treinar seu modelo de machine learning. O foco deve estar em atividades centradas em dados necessárias para construir o conjunto de dados a ser usado para operações de modelagem. Então, as tarefas de preparação de dados incluem:

  • Coleta de dados;
  • Limpeza;
  • Agregação;
  • Aumento;
  • Rotulagem;
  • Normalização e transformação.

Isso, além de quaisquer outras atividades para dados estruturados, não estruturados e semiestruturados. Contudo, os procedimentos durante o processo de preparação, coleta e limpeza de dados incluem o seguinte:

  • Coleta de dados de várias fontes;
  • Padronização de formatos em diferentes fontes de dados;
  • Substituição dos dados incorretos;
  • Aprimoramento e aumento dos dados;
  • Adicionar mais dimensões com valores pré-calculados e agregar informações conforme necessário;
  • Aprimorar os dados com dados de terceiros;
  • “Multiplicar” conjuntos de dados baseados em imagens se eles não forem suficientes para o treinamento;
  • Remover informações estranhas e desduplicação, tal como dados irrelevantes do treinamento para melhorar os resultados;
  • Reduzir o ruído e remover a ambiguidade;
  • Considerar tornar os dados anônimos;
  • Normalizar ou padronizar os dados para colocá-los em intervalos formatados;
  • Contar com dados de amostra de grandes conjuntos de dados;
  • Selecionar recursos que identificam as dimensões mais importantes e, se necessário, reduzir as dimensões usando uma variedade de técnicas;
  • Dividir os dados em conjuntos de treinamento, teste e validação.

No entanto, vale ressaltar que as tarefas de preparação e limpeza de dados podem levar muito tempo. Pesquisas de desenvolvedores de aprendizado de máquina e cientistas de dados mostram que as etapas de coleta e preparação de dados podem levar até 80% do tempo de um projeto de aprendizado de máquina. Contudo, como os modelos de machine learning precisam aprender com os dados, o tempo gasto na preparação e na limpeza vale a pena.

Etapa 4. Determine as características do modelo de machine learning e treine-o

Depois que os dados estiverem em forma utilizável e você souber o problema que está tentando resolver, é finalmente hora de passar para a etapa que você deseja fazer: treinar o modelo de machine learning para aprender com os dados de boa qualidade que você preparou aplicando um intervalo de técnicas e algoritmos.

Entretanto, esta fase requer seleção e aplicação de:

  • Técnica do modelo;
  • Treinamento do modelo;
  • Configuração e ajuste do hiperparâmetro do modelo;
  • Validação do modelo;
  • Desenvolvimento e teste do modelo de conjunto;
  • Seleção do algoritmo;
  • Otimização do modelo. 

Contudo, para realizar tudo isso, são necessárias as seguintes ações:

  • Selecione o algoritmo certo com base no objetivo de aprendizagem e nos requisitos de dados;
  • Configure e ajuste os hiperparâmetros para um desempenho ideal e determine um método de iteração para obter os melhores hiperparâmetros;
  • Identifique os recursos que fornecem os melhores resultados;
  • Determine se a explicabilidade ou interpretabilidade do modelo é necessária;
  • Desenvolva modelos de conjunto para melhorar o desempenho;
  • Teste o desempenho de diferentes versões de modelos de machine learning;
  • Identifique os requisitos para a operação e implantação do modelo.

Então, o modelo resultante pode ser avaliado para determinar se ele atende aos requisitos de negócios e operacionais.

Etapa 5. Avalie o desempenho do modelo de machine learning e estabeleça benchmarks

De uma perspectiva de IA, a avaliação inclui:

  • Avaliação de métrica do modelo;
  • Cálculos de matriz de confusão;
  • KPIs;
  • Métricas de desempenho do modelo;
  • Medidas de qualidade do modelo.

Tudo isso para encontrar uma determinação final de se o modelo pode atender às metas de negócios estabelecidas. Então, durante o processo de avaliação do modelo, você deve fazer o seguinte:

  • Avalie os modelos usando um conjunto de dados de validação;
  • Determine os valores da matriz de confusão para problemas de classificação;
  • Identifique métodos para validação cruzada k-fold se essa abordagem for usada;
  • Ajuste ainda mais os hiperparâmetros para obter um desempenho ideal;
  • Compare o modelo de aprendizado de máquina com o modelo básico ou heurística;
  • Use a avaliação do modelo para garantir a qualidade do aprendizado de máquina.

Afinal, avaliar adequadamente o desempenho do modelo em relação às métricas e requisitos determina como o modelo funcionará no mundo real.

Etapa 6. Coloque o modelo em operação e verifique se ele funciona bem

Quando você tiver certeza de que o modelo de aprendizado de máquina pode funcionar no mundo real, é hora de ver como ele realmente funciona no mundo real. Esta etapa chama-se “operacionalização” do modelo:

  • Implante o modelo com um meio de medir e monitorar continuamente seu desempenho;
  • Desenvolva uma linha de base ou referência capazes de medir iterações futuras;
  • Repita continuamente em diferentes aspectos do modelo para melhorar o desempenho geral.

A operacionalização do modelo pode incluir cenários de implantação em um ambiente de nuvem, na borda, em um ambiente local ou fechado, ou dentro de um grupo fechado controlado. Contudo, entre as considerações de operacionalização estão a versão e iteração do modelo, implantação do modelo, monitoramento do modelo e preparação do modelo em ambientes de desenvolvimento e produção. Portanto, dependendo dos requisitos, a operacionalização do modelo pode variar desde a simples geração de um relatório até uma implantação mais complexa de vários terminais.

Etapa 7. Repita e ajuste o modelo de machine learning 

Mesmo que o modelo esteja operacional e você monitore continuamente seu desempenho, seu trabalho não terminou. Quando se trata de implementar tecnologias, costuma-se dizer que a fórmula do sucesso é começar pequeno, pensar grande e repetir com frequência.

Então, sempre repita o processo e faça melhorias a tempo para a próxima iteração. Afinal, os requisitos de negócios mudam, tal como as capacidades de tecnologia. Mas não é só isso! Os dados do mundo real também mudam de maneiras inesperadas e tudo isso pode criar novos requisitos para implantar o modelo em diferentes terminais ou em novos sistemas. E já que o fim pode ser apenas um novo começo, então é melhor determinar o seguinte:

  • Próximos requisitos para a funcionalidade do modelo;
  • Expansão do treinamento do modelo para abranger maiores capacidades;
  • Melhorias no desempenho e precisão do modelo;
  • Aprimorar o desempenho operacional do modelo;
  • Requisitos operacionais para implantações diferentes;
  • Soluções para “model drift” ou “data drift”, que podem causar alterações no desempenho devido a alterações nos dados do mundo real.

Portanto, reflita sobre o que funcionou em seu modelo de machine learning, o que precisa ser trabalhado e o que é um trabalho em andamento. Afinal, a maneira infalível de obter sucesso na construção de modelos de aprendizado de máquina é buscar continuamente melhorias e melhores maneiras de atender aos requisitos de negócios em evolução.

 

Fonte:

TechTarget

 

Facebook
Twitter
LinkedIn

posts relacionados

Perguntas
frequentes

Nós falamos com o seu fornecedor atual e colhemos todas as informações necessárias diretamente com eles. Também podemos fazer o mapeamento de todas as informações diretamente na sua empresa.

SIM, é possível melhorar a qualidade e o desempenho e ainda reduzir custos. Essa eficiência é possível graças ao sistema de melhoria contínua que aplicamos há anos.

SIM, o time interno pode ser absorvido, com os profissionais se tornando colaboradores da Infonova.

SIM. Em conjunto com seu departamento, ou consultoria jurídica, ajudamos a implantar as ações de TI necessárias para adequação da LGPD.

A transição pode ocorrer com ou sem o apoio do fornecedor atual. A Infonova vai mapear todas as informações, identificar os itens críticos e realizar a transição de forma segura, sempre em alinhamento com o cliente.

Em geral é rápida. O tempo exato depende de cada situação. O prazo mais comum de transição em paralelo é entre 1 semana e 15 dias.

NÃO. Temos soluções para empresas de 10 a 2.500 colaboradores. Desenvolvemos uma metodologia para atender empresas em diversos segmentos, em situações de crescimento ou retenção.

Temos diversas soluções para proteger o acesso de usuários que ficam externos ou em home office.

SIM, trabalhamos com os principais provedores de nuvem e possuímos um datacenter próprio.

Já vai?

Receba conteúdos exclusivos e gratuitos direto no seu e-mail, para ler sem pressa ;)

Receba Gratuitamente

Fique tranquilo, não compartilhamos suas informações.

Receba Gratuitamente

Fique tranquilo, não compartilhamos suas informações.

Receba Gratuitamente

Fique tranquilo, não compartilhamos suas informações.

Receba Gratuitamente

Fique tranquilo, não compartilhamos suas informações.

Receba Gratuitamente

Fique tranquilo, não compartilhamos suas informações.

Receba Gratuitamente

Fique tranquilo, não compartilhamos suas informações.

Receba Gratuitamente

Fique tranquilo, não compartilhamos suas informações.

Receba Gratuitamente

Fique tranquilo, não compartilhamos suas informações.

Receba Gratuitamente

Fique tranquilo, não compartilhamos suas informações.

Receba Gratuitamente

Fique tranquilo, não compartilhamos suas informações.

Receba Gratuitamente

Fique tranquilo, não compartilhamos suas informações.

Receba Gratuitamente

Fique tranquilo, não compartilhamos suas informações.

FALE
COM UM
ESPECIALISTA