A modelagem de dados consiste em criar um diagrama simplificado de um sistema de software e dos seus elementos de dados. Isso é feito usando texto e símbolos para representar os dados e como eles fluem. Portanto, os modelos de dados fornecem um plano para projetar um novo banco de dados ou fazer a reengenharia de um aplicativo legado. De modo geral, saber o que são modelos de dados ajuda uma organização a usar seus dados de maneira eficaz para atender às necessidades de negócios de informações.
Os modelos de dados são fluxograma que ilustram as entidades de dados, seus atributos e os relacionamentos entre as entidades. Ou seja, ele permite às equipes de gerenciamento e análise de dados documentar os requisitos de dados para aplicativos. Dessa forma, podem identificar erros nos planos de desenvolvimento antes que qualquer código seja escrito.
Como alternativa, pode-se criar modelos de dados por meio de esforços de engenharia reversa que os extraem dos sistemas existentes. Isso é feito para documentar a estrutura de bancos de dados relacionais que foram construídos em uma base ad hoc sem modelagem de dados inicial. Contudo, também visa definir esquemas para conjuntos de dados brutos armazenados em data lakes ou bancos de dados NoSQL para oferecer suporte a aplicativos analíticos específicos.
Para que serve a modelagem de dados?
A modelagem de dados é uma disciplina central de gerenciamento de dados. Afinal, ao fornecer uma representação visual de conjuntos de dados e seu contexto de negócios, ajuda a identificar as necessidades de informações para diferentes processos de negócios. Em seguida, especifica as características dos elementos de dados que serão incluídos nos aplicativos e nas estruturas de banco de dados ou sistema de arquivos usados para processar, armazenar e gerenciar os dados.
Entretanto, modelos de dados também podem ajudar a estabelecer definições de dados comuns e padrões de dados internos. Vale ressaltar que, muitas vezes, em conexão com programas de governança de dados. No entanto, além disso, ele desempenha um grande papel nos processos de arquitetura de dados que documentam ativos de dados, mapeiam como os dados se movem pelos sistemas de TI e criam uma estrutura conceitual de gerenciamento de dados. Portanto, os modelos de dados são um componente chave da arquitetura de dados. Isso, junto com diagramas de fluxo de dados, projetos arquitetônicos, um vocabulário de dados unificado e outros artefatos.
Tradicionalmente, os modelos de dados foram construídos por modeladores de dados, arquitetos de dados e outros profissionais de gerenciamento de dados com a entrada de analistas de negócios, executivos e usuários. No entanto, agora a modelagem de dados também é uma habilidade importante para cientistas e analistas de dados. Principalmente os envolvidos no desenvolvimento de aplicativos de inteligência de negócios e ciência de dados mais complexos e análises avançadas.
Quais são os diferentes tipos de modelos de dados?
Os modeladores de dados usam três tipos de modelos para representar separadamente:
- Conceitos de negócios e fluxos de trabalho;
- Entidades de dados relevantes e seus atributos e relacionamentos;
- Estruturas técnicas para gerenciar os dados.
Normalmente criam-se modelos de dados em uma progressão conforme as organizações planejam novos aplicativos e bancos de dados. Estes são os diferentes tipos de modelos de dados e o que eles incluem:
Modelo de dados conceituais
Essa abordagem é uma descrição de alto nível de um design de banco de dados que mostra como os dados se relacionam e que tipo de dados podem ser armazenados no banco de dados. O público-alvo da modelagem de dados conceituais é o lado comercial de uma organização. Afinal, o modelo de dados conceituais define a estrutura de dados que o negócio requer. Então, depois que o modelo de dados conceituais é criado, ele pode ser refinado e transferido para um modelo de dados lógico.
Modelo lógico de dados
Esses modelos criam a estrutura do banco de dados e descrever os dados de uma perspectiva técnica. O lado técnico de uma organização usa modelos de dados lógicos como representações detalhadas de designs de banco de dados. Portanto, este modelo de dados serve como base para a criação de um modelo de dados físico.
Modelo de dados físicos
Este modelo de dados é específico para o aplicativo e banco de dados a serem implementados. Portanto, ele é usado para criar as tabelas e campos que armazenam dados do banco de dados. Um modelo de dados físicos descreve um design de banco de dados para um sistema de gerenciamento de banco de dados específico (DBMS). Os lados técnico e comercial de uma organização usam esse tipo de modelo.
Detalhes sobre os três tipos de modelos de dados
Esses três tipos de modelos de dados se encaixam como parte do processo geral de modelagem.
Técnicas de modelagem de dados
Modelagem de dados hierárquica
Os modelos de dados hierárquicos organizam os dados em um arranjo semelhante a uma árvore, ou seja, de um para muitos. Este modelo substituiu originalmente os sistemas de arquivos em muitos casos de uso populares. O Information Management System da IBM é um exemplo de abordagem hierárquica, amplamente utilizada nas empresas, principalmente no setor bancário. Embora os modelos de dados hierárquicos tenham sido em sua maioria substituídos – começando na década de 1980 – por modelos de dados relacionais, o método hierárquico é usado hoje em Extensible Markup Language e sistemas de informações geográficas.
Modelagem de dados de rede
Modelos de dados de rede foram desenvolvidos como uma forma de fornecer aos designers de dados uma ampla visão conceitual de seus sistemas. Por exemplo, a Conferência sobre Linguagens de Sistemas de Dados, formada no final dos anos 1950, orientou o desenvolvimento de uma linguagem de programação padrão que poderia ser usada em vários tipos de computadores.
Modelagem de dados relacionais
O modelo de dados relacional foi proposto como uma alternativa ao modelo de dados hierárquico, que exigia um entendimento detalhado do armazenamento físico de dados empregado. Afinal, o modelo de dados relacional não requer que os desenvolvedores definam caminhos de dados.
A modelagem de dados relacionais foi descrita pela primeira vez em um artigo técnico de 1970 pelo pesquisador da IBM E.F. Codd. Portanto, o modelo relacional de Codd preparou o cenário para o uso de bancos de dados relacionais pela indústria, que usam tabelas para conectar segmentos de dados, em comparação com o modelo hierárquico em que os dados são implicitamente unidos. A modelagem de dados relacionais foi combinada com Structured Query Language, que ganhou uma posição na computação corporativa como um meio eficiente de processar dados.
Modelagem de relacionamento de entidade
A modelagem de dados relacionais deu mais um passo à medida que o uso de modelos de relacionamento de entidade (ER) se tornou popular. Os modelos ER usam diagramas para representar graficamente os elementos em um banco de dados e facilitar a compreensão dos modelos subjacentes.
Contudo, com a modelagem relacional, os tipos de dados são determinados e raramente alterados ao longo do tempo. Já entidades, ou objetos, consistem em atributos. Por exemplo, um atributo de entidade de funcionário pode incluir sobrenome, nome, anos de emprego e assim por diante. Então, os relacionamentos são mapeados visualmente, fornecendo uma maneira de comunicar os objetivos do design de dados aos participantes no desenvolvimento e manutenção de dados. Com o tempo, os arquitetos de dados adotaram ferramentas de modelagem, como ER / Studio da Idera, Erwin Data Modeler e SAP PowerDesigner, para projetar sistemas.
Modelagem orientada a objetos
Conforme a programação orientada a objetos avançou na década de 1990, a modelagem de dados orientada a objetos ganhou força como outra forma de projetar sistemas. As abordagens orientadas a objetos são semelhantes aos métodos ER, no entanto, diferem porque se concentram em abstrações de objetos de entidades do mundo real.
Os objetos são agrupados em hierarquias de classes e podem herdar atributos e métodos de classes pai. No entanto, esse traço de herança oferece algumas vantagens em comparação com a modelagem ER; ele garante a integridade dos dados e oferece suporte a relacionamentos de dados complexos. Contudo, ao mesmo tempo, surgiram modelos de dados para as necessidades de armazenamento de dados. Exemplos notáveis são o esquema em floco de neve e os modelos dimensionais do esquema em estrela.
Modelagem de dados gráficos
Um desdobramento da modelagem de dados hierárquica e de rede é o modelo de gráfico de propriedades. Junto com bancos de dados de gráficos, ele é cada vez mais usado para descrever relacionamentos complexos dentro de conjuntos de dados. É popular em aplicativos de mídia social, recomendação e detecção de fraude.
Usando o modelo de dados de gráfico, os designers descrevem seu sistema como um gráfico conectado de nós e relacionamentos. Portanto, modelos de dados gráficos podem ser usados para análise de texto e para criar modelos que revelam relacionamentos entre pontos de dados em documentos.
Qual é o processo de modelagem de dados?
Idealmente, modelos de dados conceituais, lógicos e físicos são criados em um processo sequencial. Este envolve membros da equipe de gerenciamento de dados e usuários de negócios. No entanto, a entrada de executivos e trabalhadores de negócios é especialmente importante durante as fases de modelagem conceitual e lógica. Caso contrário, os modelos de dados podem não capturar totalmente o contexto de dados de negócios ou atender às necessidades de informações de uma organização.
Normalmente, um modelador de dados ou arquiteto de dados inicia um projeto de modelagem entrevistando as partes interessadas de negócios. Afinal, assim reúne os requisitos e detalhes sobre processos de negócios. Contudo, os analistas de negócios também podem ajudar a projetar os modelos conceituais e lógicos. No final do projeto, o modelo físico de dados é usado para comunicar requisitos técnicos específicos aos projetistas de banco de dados.
Peter Aiken, consultor de gerenciamento de dados e professor associado de sistemas de informação da Virginia Commonwealth University, listou as seis etapas a seguir para projetar um modelo de dados durante um webinar Dataversity 2019:
- Identifique as entidades comerciais que são representadas no conjunto de dados;
- Determine as propriedades principais de cada entidade para diferenciá-las;
- Crie um modelo de relacionamento de entidade de rascunho para mostrar como as entidades estão conectadas;
- Identifique os atributos de dados para incorporar ao modelo;
- Mapeie os atributos para entidades para ilustrar o significado comercial dos dados;
- Finalize o modelo de dados e valide sua precisão.
Contudo, mesmo depois disso, o processo normalmente não termina. Afinal, deve-se atualizar e revisar os modelos de dados conforme os ativos de dados de uma organização e as necessidades de negócios mudam.
Benefícios e desafios da modelagem de dados
Modelos de dados bem projetados ajudam uma organização a desenvolver e implementar uma estratégia de dados que aproveite ao máximo seus dados. Não obstante, a modelagem de dados eficaz também ajuda a garantir que bancos de dados e aplicativos individuais incluam os dados certos e sejam projetados para atender aos requisitos de negócios em processamento e gerenciamento de dados.
Outros benefícios que a modelagem de dados oferece incluem o seguinte:
Acordo interno sobre definições e padrões de dados
A modelagem de dados apóia os esforços para padronizar as definições, terminologia, conceitos e formatos de dados em toda a empresa.
Maior envolvimento no gerenciamento de dados por usuários de negócios
A modelagem de dados requer entrada de negócios. Portanto, ela incentiva a colaboração entre as equipes de gerenciamento de dados e as partes interessadas do negócio. Idealmente, isso resulta em melhores sistemas.
Projeto de banco de dados mais eficiente a um custo menor
Ao fornecer aos designers de banco de dados um plano detalhado para trabalhar, a modelagem de dados agiliza seu trabalho e reduz o risco de erros de design que exigem revisões posteriores no processo.
Melhor uso dos ativos de dados disponíveis
Em última análise, uma boa modelagem de dados permite que as organizações usem seus dados de forma mais produtiva. Isso, por sua vez, pode levar a um melhor desempenho de negócios, novas oportunidades de negócios e vantagens competitivas em relação às empresas rivais.
No entanto, a modelagem de dados é um processo complicado que pode ser difícil de fazer com sucesso. Estes são alguns dos desafios comuns que podem tirar os projetos de modelagem de dados do caminho:
Falta de comprometimento organizacional e adesão ao negócio
Se os executivos corporativos e de negócios não concordarem com a necessidade de modelagem de dados, será difícil obter o nível necessário de participação nos negócios. Isso significa que as equipes de gerenciamento de dados devem garantir o suporte executivo antecipadamente.
A falta de compreensão por parte dos usuários de negócios
Mesmo que as partes interessadas de negócios estejam totalmente comprometidas, a modelagem de dados é um processo abstrato que pode ser difícil de entender. Então, baseie os modelos de dados conceituais e lógicos nos conceitos de negócios.
Complexidade da modelagem e aumento de escopo
Os modelos de dados geralmente são grandes e complexos. Portanto, os projetos de modelagem podem se tornar complicados se as equipes continuarem a criar novas iterações sem finalizar os projetos. Então, é importante definir prioridades e manter um escopo de projeto alcançável.
Requisitos de negócios indefinidos ou pouco claros
Particularmente com novos aplicativos, o lado comercial pode não ter necessidades de informações totalmente formadas. Portanto, os modeladores de dados geralmente devem fazer uma série de perguntas para reunir ou esclarecer requisitos e identificar os dados necessários.