Se você é um físico ou astrônomo (e no mundo de Analytics & Information Management existem alguns deles), você estará muito familiarizado com o desequilíbrio no universo entre a matéria visível. Ou seja, as estrelas e planetas que podemos ver e a ‘matéria escura’. A matéria escura parece constituir grande parte da massa do universo, mas é difícil descobrir como vê-la ou medi-la. E a dark data assemelha-se bastante a ela.
O fato é que muitos dos dados que temos são visíveis. É o caso, por exemplo, da maior parte do que você vê por meio da interface SAP ou do Salesforce, ou do aplicativo de mobile banking. Ou seja, nomes e IDs de clientes, valores de transação, códigos e descrições dos produtos, etc. Esses dados são importantes porque, uma vez analisados, pode-se obter insights que levem a ações de negócios.
Contudo, assim como a matéria escura, há muitos dados ocultos por aí, que podem não ser analisados tão facilmente. E o volume de dark data supera enormemente o volume de dados visíveis. Essa dark data é encontrada em logs, em metadados, em campos de texto e documentos, em vídeo, em áudio, em imagens. Embora os dados visíveis possam ser facilmente analisados em bancos de dados, a dark data demanda uma extração complicada antes de ser analisada.
Tipos de dark data
Existem diferentes tipos de dark data. Pegue uma mensagem, como um tweet. Um tweet é ‘obscuro’ porque precisa que a linguagem seja extraída para que um computador possa analisar o que está escrito nele. Os metadados em torno do tweet também são “obscuros”, ou seja, a hora do dia enviada, o @usuário, a #hashtag, o dispositivo, a localização. Analisar o texto no tweet dá-lhe uma ideia do que está a ser dito, quem o disse, quão feliz ou zangado o remetente está.
Entretanto, o tweet pode conter imagens ou áudio que, quando analisados por meio de ferramentas de reconhecimento de imagem, podem extrair conteúdo, como descrições ou termos. Portanto, os metadados do processo são ‘obscuros’. Em um sistema SAP, por exemplo, os registros dos metadados em torno das transações – quando os dados foram criados ou alterados (por exemplo, de ‘em andamento’ para ‘concluído’ ou ‘enviado de volta’) – podem fornecer insights usando o que chamamos de ‘processo de biônica’ para entender exatamente qual volume de transações não segue o processo projetado e por quê.
Então, assim como uma transação de vendas fornece um registro de um ponto no tempo e só fornece percepções reais quando coletadas, agregadas e analisadas junto com outros dados de transação, o mesmo é o caso com a dark data. Ou seja, não é a mensagem individual, transação ou documento que fornece uma visão específica, mas o que isso significa no contexto de padrões mais amplos.
Exemplo
Você tira uma foto com seu celular e posta no Facebook, compartilhando com seus amigos. Você, então, compartilhou dois tipos de dark data. Ou seja, a postagem e a própria foto e os metadados que os cercam – onde e quando a foto foi tirada e enviada, e por quem. Quando a foto é ‘curtida’, o Facebook sabe a quem estou conectado. Portanto, ele irá agregar este post com milhões de outros posts e fotos para obter insights que levam, no caso do Facebook, a publicidade direcionada ou vendas de insights para outras empresas.
Como extrair insights da dark data usando ML e IA?
O aprendizado de máquina e a IA podem transformar dark data não estruturada em valiosos insights de negócios. Basta saber como processar a dark data e usar as informações a seu favor.
Para competir em ambientes digitais modernos, o aprendizado de máquina, o aprendizado profundo e a IA estão cada vez mais acessíveis. Então, ao usar aprendizado de máquina e IA, as empresas podem usar dark data para adquirir insights de negócios mais competitivos.
Em suma, a dark data consiste em milhões de pontos de dados não estruturados que as empresas acumulam e armazenam em lagos de dados multiformatos. Até recentemente, havia poucas ferramentas disponíveis para extrair esses grandes volumes, contudo, isso está mudando.
Então, explore diferentes abordagens para processar dark data e descubra como a sua empresa pode aproveitar essas informações para fortalecer os resultados do aprendizado de máquina.
Defina a dark data
Dark datas são diferentes em cada setor. Afinal, são principalmente informações não estruturadas, não marcadas e não exploradas que fluem por todas as organizações. Dark data “clássicos”, enquanto capturados e armazenados, nunca são analisados. E ela inclui tudo, desde arquivos de log, documentos da empresa e e-mails até opiniões de mídia social, páginas da web, tabelas, números e imagens. Contudo, cada vez mais, as empresas estão implantando tecnologias sofisticadas para processar esses dados a fim de obter insights valiosos de negócios e conduzir a automação de sistemas com algoritmos de aprendizado profundo.
As empresas aplicam os três componentes que compõem o aprendizado de máquina:
- Modelos;
- Dados de treinamento;
- Hardware.
Os modelos se tornaram uma mercadoria devido à disponibilidade de estruturas amigáveis ao usuário, incluindo TensorFlow, PyTorch e Keras. Portanto, os desenvolvedores podem instalar facilmente os modelos de processamento de linguagem natural (NLP) mais recentes, implantá-los e começar a ver os resultados.
No entanto, mesmo com modelos e hardware padronizados, os técnicos ainda devem fornecer os dados de treinamento. E, além disso, os engenheiros devem estruturá-los. As informações costumam ser barulhentas e imprecisas, contudo, encontrar as conexões entre informações não relacionadas é a chave para descobrir o potencial da dark data.
Infelizmente, os processos manuais para rotular e gerenciar a dark data são ineficientes e consomem tempo e recursos valiosos. Contudo, ferramentas de análise específicas, como DeepDive, Snorkel e DarkVision, simplificam a categorização e ajudam os computadores a entender documentos gerados por humanos.
Abordagens para aproveitar a dark data
O aprendizado de máquina depende da adoção de IA para acelerar o aprendizado e permitir que os sistemas tomem decisões e executem certas ações automaticamente. Este processo de aquisição utiliza o reconhecimento de padrões de dados e metodologias de ensino específicas, como aprendizagem supervisionada, não supervisionada e por reforço.
Então, contando com regras de tomada de decisão e intervenção humana para resolver exceções, os sistemas de aprendizado de máquina internalizam reações e usam a repetição para responder corretamente a novos eventos. Portanto, ao combinar a análise de padrões com o aprendizado profundo, as máquinas adquirem incrementalmente recursos de nível superior para produzir as respostas corretas conforme as escolhas se tornam mais complexas.
Dessa forma, para empreender com sucesso iniciativas de aprendizado de máquina, as organizações devem priorizar e investir no aprendizado de como analisar sua dark data. Em seguida, cabe às empresas individuais desenvolver estratégias de tratamento e preparar suas informações não estruturadas para processamento.
Como fazer?
Primeiro, os técnicos garantem que os dados direcionados sejam confiáveis e possam fornecer percepções úteis. Por exemplo, dados não compatíveis ou imprecisos não são úteis para uma organização de acordo com requisitos regulamentares estritos, mesmo se existirem. Então, junto com processos automatizados para auditar dark data, os técnicos devem aplicar rótulos de metadados para dar suporte a projetos futuros de aprendizado de máquina e fornecer uma estrutura ordenada no futuro. O objetivo é automatizar a transformação de dados não estruturados em ativos compreensíveis e legíveis.
Os serviços em nuvem coletam e armazenam informações abrangentes, o que simplifica o acesso à dark data. Além disso, os serviços em nuvem são essenciais para capturar dados em tempo real e para atender data centers de ponta, ativos remotos e endpoints de IoT.
No entanto, os técnicos também podem usar o armazenamento de dados NoSQL para aplicar um esquema às informações. Afinal, NoSQL garante maior flexibilidade analítica, uma vez que as organizações aprendem como classificar dark data. Então, os líderes de negócios e de TI precisam de uma visão clara e unificada sobre como usar os resultados.
A PNL é outra ferramenta valiosa para ajudar a compreender dark data, bem como acelerar a preparação do aprendizado de máquina. Afinal, o NLP visualiza conexões sintáticas entre blocos de linguagem e permite que as máquinas processem e analisem rapidamente terabytes de informações. Então, combinado com IA para acelerar a preparação de dados, a PNL ajuda os administradores de TI a entender a vasta gama de documentos e registros gerados em sua organização.
Perigos inerentes da dark data
Conforme os modelos de aprendizado de máquina acessam grandes lagos de dados para ingerir e processar informações, eles se tornam vetores potenciais para vazamentos de dados ou alvos de ataques. Ou seja, as deficiências de segurança em torno dos modelos de acesso a dados permitem que os invasores obtenham insights operacionais ou deduzam estruturas de documentos dentro das organizações. Então, se uma empresa carece de inventário de dados adequado ou conhecimento sobre conteúdo de armazenamento, corre o risco de auditorias, multas regulamentares ou danos à marca se usarem os dados.
A integridade da informação é essencial
As empresas que não rastreiam seus dados até uma fonte confiável e estabelecida não devem usar esse conteúdo em busca de insights. Não obstante, os líderes de negócios e de TI devem restringir quem pode acessar certos dados, reforçar as diretrizes de uso e implementar criptografia e proteções de segurança.
As tecnologias cognitivas e as evoluções das técnicas analíticas estão abrindo dark datas para análises em grande escala, econômicas e automatizadas. Essas técnicas minimizam o número de recursos contribuídos para trabalhar com esse tipo de dado. Portanto, com as estratégias certas em vigor, os líderes de negócios e de TI podem agilizar a preparação dos dados e definir o valor ou uso das informações no futuro.
Quando a dark data constitui um risco real?
Perigos de segurança
Quanto mais dark data você retém, mais você tem a proteger. Contudo, consequentemente, maior é o risco caso ocorra uma violação. Afinal, arquivos antigos que podem não parecer muito importantes para você podem ser extremamente interessantes e valiosos para um funcionário interno da empresa ou um invasor externo que esteja procurando informações para obter ganhos pessoais, políticos ou monetários.
Ao contrário do ransomware, que torna sua presença conhecida, os invasores à espreita por conteúdo confidencial tentarão permanecer ocultos. Portanto, se a dark data se acumular e se tornar uma prioridade de baixa segurança, você está fornecendo aos invasores uma janela de oportunidade e colocando sua organização em risco.
Problemas de conformidade
Se sua dark data contiver, por exemplo, um documento Word com PII de funcionários ou um arquivo Excel com informações de pagamento do cliente, sua organização pode estar violando regulamentos como GDPR, HIPAA, SOX, PCI-DSS e outros. Infelizmente, muitas empresas não sabem que esses dados estão em suas redes e, portanto, não conseguem protegê-los. Em contrapartida, em caso de uma violação, os invasores se concentrarão nesse conteúdo e os reguladores exigirão respostas.
Então, caso você esteja se perguntando, você não precisa se preocupar só com a LGPD. Afinal, o GDPR pode impactar empresas fora da UE. Os regulamentos lançam uma rede ampla: prestadores de cuidados de saúde que tratam cidadãos da UE, municípios locais que distribuem multas por excesso de velocidade a turistas da UE, empresas com funcionários da UE e outros podem ser responsabilizados. Armazenar dados desnecessários para os negócios ou deixar de bloquear os dados necessários abre a porta para violações e multas.
Preocupações com a nuvem e o armazenamento híbrido
A maioria das empresas armazena dados no local e na nuvem. No entanto, isso pode dificultar a proteção de informações confidenciais com base na necessidade de conhecimento. Afinal, o armazenamento em nuvem é conveniente, contudo, muitas vezes carece dos controles de segurança que as organizações esperam em seus armazenamentos de dados locais.
Ao mesmo tempo, não se esqueça de seus dados locais. Muitas empresas que optam pela nuvem em primeiro lugar continuarão a armazenar informações em servidores físicos. Contudo, controles e medidas de segurança normalmente protegem o armazenamento de dados na nuvem ou no local, mas não ambos. Portanto, você precisa entender as limitações e recursos de ambos os ambientes, bloquear sua segurança e monitorar ambos os ambientes quanto as ameaças.
Embora a dark data represente sérios riscos para sua empresa, você pode começar a ter vantagens com ela. Comece com estas dicas:
- Remova ou arquive dados que não forneçam mais valor;
- Monitore e alerte quando as informações que você deve reter apresentarem sinais de acesso não autorizado;
- Priorize e reduza o acesso desnecessário aos dados;
- Dê uma olhada nos dados regulamentados e fora da política que se escondem nos arquivos e remova-os ou arquive-os de acordo;
- O armazenamento em nuvem não está configurado. Então, nunca assuma que seus dados estão seguros na nuvem;
- Mantenha e aplicar uma política de segurança forte para gerenciar o controle de acesso e a proteção de dados;
- Coloque sua organização no caminho para abraçar os princípios de privacidade desde o design (PbD).
Lembre-se que as organizações geralmente tendem a salvar tudo. E o armazenamento de dados local e na nuvem relativamente barato está enterrando as empresas em excesso de dados. Em paralelo, está aumentando os sinais de alerta de segurança no processo. Então, descubra onde a dark data está e recupere o controle.
Mitigação de riscos representados pela dark data
Dado que a dark data apresenta riscos que são possivelmente consideráveis e consequentes, o que sua empresa pode fazer para gerenciar esses riscos? Acontece que existem inúmeras estratégias e tecnologias úteis que podem fornecer algum grau de proteção contra esses riscos. Tanto para os conhecidos quanto para os desconhecidos.
Inventário e avaliação contínua
Os acervos de dark data devem ser reconhecidos e sujeitos a reconhecimentos periódicos. Contudo, você também deve conduzir pesquisas contínuas em novas ferramentas e tecnologias para ajudar a extrair valor de tais dados. Afinal, a dark data de ontem pode se tornar uma fonte brilhante de insights, graças a novas ferramentas ou técnicas analíticas. Portanto, alguém precisa ficar de olho nessas coisas e estar pronto para colocá-las para funcionar quando os benefícios de seu uso superarem seus custos. Além disso, a realização de um inventário regular requer a compreensão de onde a dark data reside, como é armazenada, como é protegida e que tipos de controles de acesso ajudam a manter sua segurança.
Criptografia onipresente
Qualquer ativo digital com valor potencial e possível risco deve ser armazenado de forma criptografada, seja nas instalações e equipamentos da organização ou em outro lugar na nuvem. Portanto, nenhum tipo de dark data deve estar prontamente acessível para inspeção casual, sob quaisquer circunstâncias. Na verdade, uma criptografia forte deve tornar extremamente difícil para aqueles que conseguem obter dados obscuros para desbloquear seu conteúdo, e controles de acesso e monitoramento igualmente fortes devem deixar claro quem pode (e tem) acesso a tais informações para quaisquer fins.
Políticas de retenção e descarte seguro
Sempre vale a pena considerar se e como a dark data deve ser retida ou descartada de maneira adequada. Ou seja, conforme os métodos de apagamento ou destruição aprovados pelo Departamento de Defesa, dependendo se apenas o conteúdo ou ambos os conteúdos e mídia devem ser eliminados. Portanto, a TI e o gerenciamento executivo devem trabalhar com unidades ou divisões organizacionais para decidir se a dark data deve ser retida e, em caso afirmativo, a melhor forma de manter a segurança e gerenciar os riscos. Políticas de retenção de dados cuidadosamente consideradas podem ajudar a orientar e conduzir tais decisões e devem ser formuladas, promulgadas e mantidas.
Auditar dark data para fins de segurança
A maioria das organizações de qualquer tamanho conduz auditorias de segurança periódicas, avaliando riscos, exposições, resposta a incidentes e políticas. Contudo, a dark data precisa ser incluída neste processo e visitada com frequência suficiente para gerenciar os riscos de exposição, bem como a perda ou dano potencial.
Consultoria especializada
Sabia que você pode contar com o apoio de uma empresa de TI especializada para ajudá-lo a inventariar seus ativos de TI e dados?
Sobre a Infonova
A Infonova já atendeu mais de 135 clientes dos mais diversos segmentos, desde corporate, governo, PME até indústria do entretenimento e saúde. Você pode conferir a lista completa de clientes satisfeitos da Infonova aqui.
A Infonova usa uma metodologia consolidada. Portanto, essa empresa de TI conta com depoimentos da maioria de seus clientes garantindo a qualidade do atendimento.
Em relação à confiança, a Infonova comprova sua transparência e seriedade logo no início do nosso contrato. Afinal, é quando realiza uma visita inicial de manutenção intensiva em todos os computadores da sua empresa e também servidores.
Inclusive, se você pedir, a Infonova oferece um mapeamento de todo seu ambiente de TI. Afinal, seu interesse é conhecer toda sua infraestrutura e, de cara, resolver todas as suas dores.
Resumindo, a Infonova faz um diagnóstico para identificar como está a sua TI. Então, avalia o que está bom, resolvemos o que está ruim e cria um projeto para o que é possível melhorar. Tudo isso sem custo. Ou seja, a Infonova conta com as melhores condições custo-benefício do mercado. Especialmente em relação a automação da infraestrutura em nuvem e outras inovações.
Perfil Infonova
A expertise da Infonova permite fornecer atendimento técnico local com escalas flexíveis definidas pelo cliente. Estas incluem:
- Atendimento por demanda;
- Disponibilização de equipes com 1 técnico local e retaguarda especializada;
- Equipes completas com até 200 profissionais qualificados para assumir parte ou toda a operação de TI.
Colaboradores
O trabalho executado pela equipe da Infonova é primoroso. Afinal, essa empresa de TI se preocupa com seus funcionários. Ou seja, a Infonova oferece participação nos lucros aos seus colaboradores a fim de mantê-los sempre motivados. Além disso, a contratação dos analistas é CLT Full, o que reduz o turnover e aumenta a confiança.
Soluções
A Infonova tem soluções voltadas para PMEs, Governo e Corporate. Contudo, todas essas soluções compreendem modelos flexíveis com início rápido e transição sem dor.
Confira a seguir:
Para saber mais sobre os serviços da Infonova e sinais de alerta sobre seu treinamento de TI, entre em contato pelo (11) 2246-2875 ou clique aqui.
Se quer saber mais sobre o que nossos clientes têm a dizer sobre nossos serviços, baixe gratuitamente nossos cases exclusivos.