A qualidade dos dados é mais importante do que nunca, e muitas equipes de operações de dados lutam para acompanhá-la. Aqui estão cinco maneiras de automatizar operações de dados com IA e aprendizado de máquina.
Organização de dados, operações de dados, preparação de dados, integração de dados – como quer que sua organização os chame, gerenciar as operações para integrar e limpar dados exige muito trabalho. Muitas empresas lutam para integrar novos conjuntos de dados de forma eficiente, melhorar a qualidade dos dados, centralizar registros de dados mestres e criar perfis de dados de clientes limpos.
Dataops não é um desafio novo, mas os riscos são maiores à medida que mais empresas querem se tornar organizações orientadas por dados e aproveitar a análise como uma vantagem competitiva. Os pioneiros digitais também estão ampliando as operações de dados em fontes de dados não estruturadas para criar recursos de pesquisa de IA e preparar dados para uso em grandes modelos de linguagem.
Aproveitando IA e aprendizado de mãquina para transformação de dados
Os Dataops devem se tornar mais eficientes, fornecer resultados de melhor qualidade, escalar para lidar com grandes volumes e velocidades de dados, trabalhar com fontes de dados mais díspares e melhorar a confiabilidade dos pipelines de dados.
“Os dados precisam passar por transformação e refinamento para liberar seu verdadeiro potencial, e dataops é a disciplina vital que revoluciona o gerenciamento de dados e maximiza seu valor por meio de processos eficientes e automação”, afirma o chefe de IA da Newgen Software, Rajan Nagina. “Dataops envolve a integração de pessoas, tecnologia e fluxos de trabalho para garantir que os dados sejam tratados de forma eficiente, com foco na melhoria da qualidade, acessibilidade e confiabilidade dos dados.”
As ferramentas para automatizar pipelines de dados estão melhorando e muitas aproveitam recursos de aprendizado de máquina e inteligência artificial. As técnicas de dataops de IA e aprendizado de máquina mudam as operações de dados de abordagens manuais e baseadas em regras para a automação inteligente
Sunil Senan, vice-presidente sênior e chefe global de dados, análises e IA da Infosys, acrescenta vários benefícios competitivos quando as empresas aproveitam o aprendizado de máquina e a IA em operações de dados. “As empresas podem implantar IA para descoberta rápida de dados, catalogação e criação rápida de perfis de dados, enquanto o ML pode detectar anomalias, identificar inconsistências e enriquecer dados. Juntos, IA, ML e automação podem ajudar a gerar melhor qualidade de dados, harmonizar dados mestres e criar a estrutura para a construção de produtos de dados e equipes de dados eficazes.
Onde as equipes de dataops podem ampliar a automação e usar o aprendizado de máquina e a IA como recursos revolucionários? Aqui estão cinco exemplos.
-
Reduza a preparação de dados para novos conjuntos de dados
“Os recursos avançados de IA/ML permitem uma mudança de paradigma para integração, transformação e observabilidade de dados”, afirma Will Freiberg, CEP do Crux. “Ao usar soluções automatizadas, as equipes de dataops podem mudar a proporção de 70% do tempo gasto na preparação de dados para 70% do tempo gasto em análises de alto valor.”
Aqui estão duas questões principais que as equipes de dataops devem considerar em relação ao impacto dos esforços manuais:
Qual é o tempo de ciclo medido desde a descoberta inicial de um novo conjunto de dados até quando ele é carregado, limpo e unido ao data lake da organização e listado no catálogo de dados?
Depois que houver um pipeline de dados, você estará usando monitoramento e automação para detectar e se ajustar às mudanças no formato dos dados?
Quando são necessárias etapas manuais de processamento de dados para carregar e dar suporte a pipelines de dados, as equipes de dataops podem aproveitar a oportunidade para melhorar os tempos de ciclo para novas fontes de dados e, enquanto isso, se recuperar de problemas de pipeline de dados.
Freiberg continua: “Depois que as equipes de dados definem padrões para a qualidade dos dados e os programam em IA, a tecnologia pode detectar e gerenciar alterações de esquema e anomalias de perfil de dados ao integrar conjuntos de dados externos, evitando pipelines de dados quebrados e a necessidade de intervenção manual”.
-
Dimensione a observabilidade dos dados e o monitoramento contínuo
Pipelines de dados quebrados ocorrem quando os engenheiros de operações de dados não usam monitoramento, alertas e automação para identificar problemas e implementar correções rapidamente. As correções proativas incluem ferramentas e práticas de observabilidade de dataops para registrar eventos de integração de dados e monitorar pipelines de dados.
“Encontrar e corrigir problemas manualmente consome muito tempo, dado o volume de dados com os quais as organizações precisam lidar hoje”, afirma Emily Washington, vice-presidente sênior de gerenciamento de produtos da Precisely. “Uma abordagem eficaz para garantir a qualidade dos dados é validá-los à medida que eles entram no ecossistema da organização e garantir o monitoramento contínuo, adotando a observabilidade dos dados como parte de uma estratégia geral de integridade de dados.”
A observabilidade de dados visa fornecer pipelines de dados consistentes e confiáveis para tomada de decisões em tempo real, atualização de painéis e uso em modelos de aprendizado de máquina. É uma forma de as equipes de dataops gerenciarem os objetivos de nível de serviço, um princípio introduzido na engenharia de confiabilidade de sites que se aplica igualmente aos pipelines de dados.
“A observabilidade dos dados ajuda as organizações a identificar e gerenciar proativamente a qualidade dos dados em escala, resultando em pipelines de dados mais saudáveis, equipes mais produtivas e clientes mais satisfeitos”, afirma Washington.
Olhando para o futuro, quando as capacidades de dataops em IA generativa se tornarem populares, elas terão:
- Potencial de permitir a observabilidade de dados em escala,
- Identificar padrões de problemas de dados e recomendar soluções ou acionar limpeza automatizada
- Recomendar correções de código e sugestões para pipelines de dados
- Documentar pipelines de dados e melhorar as informações capturadas para observação de dados
-
Melhorar a análise e classificação de dados
As equipes de Dataops também podem usar IA e aprendizado de máquina para analisar e classificar dados à medida que eles são transmitidos por meio de pipelines de dados.
“A captura de dados orientada por IA melhora a qualidade dos dados que fluem para o sistema antecipadamente, realizando detecção de anomalias, avaliação de relevância e correspondência de dados”, afirma Hillary Ashton, diretora de produtos da Teradata. “Os modelos de ML podem ser aproveitados para encontrar padrões ocultos nos dados, limpar e harmonizar para estar em conformidade com os padrões e classificar dados confidenciais para garantir uma governança apropriada.”
As classificações básicas incluem a identificação de informações de identificação pessoal (PII) e outros dados confidenciais em conjuntos de dados que não estão marcados para conter esse tipo de informação. Uma vez identificadas, as equipes de governança de dados podem definir regras de automação para reclassificar a origem e acionar outras regras de negócios.
Ashton acredita que a IA generativa gerará ferramentas de governança e qualidade de dados mais poderosas e afirma: “As equipes Dataops procurarão aproveitar o conhecimento do domínio de negócios e os dados de plataformas de colaboração para fornecer contexto e padrões mais ricos aos dados”.
Outro caso de uso de conformidade de dados está na segurança. Conversei com Tyler Johnson, cofundador e CTO da PrivOps, sobre como o gerenciamento de identidade e acesso é uma área frequentemente negligenciada, onde os dataops podem agregar valor com automação e IA. “A automação pode minimizar o risco de maus atores usarem permissões obsoletas para penetrar na organização, mas não faz nada para lidar com ameaças de usuários autorizados”, diz ele. “Ao estender os fluxos de trabalho do pipeline de dados para agregar e integrar dados de registro de acesso do usuário com IA, os dataops em parceria com a infosec podem minimizar ameaças de fora e de dentro da organização. A IA identifica padrões de acesso suspeitos e alerta o centro de operações de segurança (SOC) quando detectado.”
-
Forneça acesso mais rápido a dados limpos
Identificar informações confidenciais em um fluxo de dados e outras anomalias é um caso de uso fundamental de governança de dados, mas o que as equipes de negócios realmente desejam é um acesso mais rápido a dados limpos. Um caso de uso principal para equipes de marketing, vendas e atendimento ao cliente são as atualizações em tempo real dos registros de dados do cliente, e o streaming de dados em um banco de dados de perfil de dados do cliente (CDP) é uma abordagem para centralizar os registros do cliente.
“Aplicar as ferramentas certas para detectar e resolver problemas de qualidade de dados em todo o pipeline de processamento de dados é fundamental, começando com o agendamento de análise exploratória automatizada de dados, limpeza de dados e ferramentas determinísticas e probabilísticas de correspondência de ID de usuário para execução durante a ingestão de dados”, diz Karl Wirth, diretor de produtos e tecnologia da Treasure Data. “A junção de ID do usuário em tempo real pode ser combinada com segmentação automatizada (usando clustering e outros modelos de aprendizado de máquina) para permitir que insights e personalização sejam constantemente atualizados à medida que os dados se acumulam. Por fim, algoritmos automatizados de previsão e detecção de anomalias, combinados com detecção de desvio de dados, completam o quadro, garantindo que a qualidade permaneça intacta ao longo do tempo.”
Uma segunda abordagem para gerenciar dados de clientes é o gerenciamento de dados mestre (MDM), onde dataops define as regras para identificar os registros e campos principais do cliente de múltiplas fontes de dados.
Manish Sood, CEO, fundador e presidente da Reltio, afirma que o aprendizado de máquina ajuda a combinar informações de múltiplas fontes. “As abordagens modernas utilizam automação e técnicas baseadas em ML para unificar rapidamente dados de múltiplas fontes, afastando-se do escopo limitado dos sistemas MDM tradicionais”, diz ele.
O aprendizado de máquina também ajuda a reduzir o número e a complexidade das regras de negócios em sistemas MDM. “A automação tem sido usada há muito tempo por dataops para melhorar o gerenciamento de dados mestres, especialmente a qualidade dos dados, por exemplo, por meio da codificação de regras sobre metadados”, diz David Cox, gerente de produtos de saída da Semarchy. “A inteligência artificial e o aprendizado de máquina podem ajudar a automatizar a qualidade dos dados em escala, já que um número infinito de regras pode ser necessário para controlar a qualidade de dados grandes, complexos e de alta velocidade.”
Anthony Deighton, gerente geral de produtos de dados da Tamr, compartilha um exemplo de onde o aprendizado de máquina pode substituir regras de negócios difíceis de manter. Ele diz: “A IA e o aprendizado de máquina são ferramentas poderosas que podem fazer uma diferença real nas operações de dados. Por exemplo, registros duplicados de clientes podem ser mesclados em um único registro abrangente, resultando em maior precisão dos dados e melhores insights.”
Espere recursos de IA mais generativos em soluções CDP e MDM, especialmente em torno do enriquecimento de registros de clientes com informações extraídas de documentos e outras fontes de dados não estruturados.
-
Reduza os custos e aumente os benefícios da limpeza de dados
Os Dataops têm a oportunidade de usar a IA e o aprendizado de máquina para transferir suas responsabilidades principais da limpeza de dados e correção de pipeline para o fornecimento de serviços de valor agregado, como o enriquecimento de dados.
“À medida que os volumes e a complexidade dos dados aumentam, o estabelecimento manual de regras de qualidade de dados não se mostra mais escalonável, e a IA/ML oferece uma abordagem promissora para lidar com a escalabilidade”, afirma Satish Jayanthi, cofundador e CTO da Coalesce. “Essas tecnologias podem identificar e retificar com eficiência dados errados, aproveitando a automação, mitigando assim as consequências negativas.”
Ashwin Rajeeva, cofundador e CTO da Acceldata, compartilha exemplos de como o ML pode permitir melhorias contínuas na qualidade dos dados, aprendendo por meio de padrões. “Os aprendizados podem ser aplicados para corrigir erros, preencher dados ausentes, adicionar rótulos, realizar categorização inteligente e eliminar dados duplicados.”
Conclusão
Eswar Nagireddy, gerente sênior de produtos de ciência de dados da Exasol, observa a importância de aumentar a eficiência nas operações de dados. “Atualmente, a maioria das equipes de dados e análises não tem tempo e recursos para acompanhar as necessidades de integridade e monitoramento de dados, especialmente à medida que cresce a pressão para reduzir os custos operacionais e o número de funcionários. As equipes de dados que aproveitam o aprendizado de máquina automatizado (AutoML), no-code e low-code podem perceber mais rapidamente o valor do ML aplicado aos negócios, garantindo ao mesmo tempo a integridade de seus dados.”
As equipes de Dataops podem reduzir a carga de trabalho, melhorar a qualidade dos dados e aumentar a confiabilidade do pipeline de dados usando IA e técnicas de aprendizado de máquina e confiando menos em esforços manuais ou regras de negócios codificadas. Assim que essas mudanças forem implementadas, as equipes poderão usar a IA e o aprendizado de máquina para impulsionar valores de negócios competitivos, acelerando o tempo de integração de novos conjuntos de dados, bem como enriquecendo os registros dos clientes e melhorando a governança de dados.