A modelagem de dados é o processo de criação de um diagrama simples de um sistema de software complexo. Ele é feito usando texto e símbolos para representar a maneira como os dados fluirão. Então, esse diagrama pode ser usado para garantir o uso eficiente de dados como um modelo para a construção de um novo software ou para a reengenharia de um aplicativo legado.
Normalmente, um modelo de dados pode ser considerado um fluxograma que ilustra os relacionamentos entre as partes dos dados. Afinal, ele permite que as partes interessadas identifiquem erros e façam alterações antes que o código de programação seja escrito. Contudo, como alternativa, os modelos podem ser criados como parte dos esforços de engenharia reversa que extraem modelos de sistemas existentes, conforme visto com dados NoSQL.
Portanto, a modelagem de dados é uma habilidade importante para cientistas de dados e outros envolvidos com a análise de dados. Tradicionalmente, os modelos de dados eram construídos durante as fases de análise e design de um projeto. Seu intuito era garantir que os requisitos para um novo aplicativo fossem compreendidos. No entanto, um modelo de dados pode se tornar a base para a construção de um esquema de dados ainda mais detalhado. Além disso, os modelos de dados também podem ser usados posteriormente no ciclo de vida dos dados para racionalizar designs de dados que foram originalmente criados por programadores em uma base ad hoc.
Tipos de modelagem de dados
Os modeladores de dados costumam usar vários modelos para visualizar os mesmos dados e garantir que todos os processos, entidades, relacionamentos e fluxos de dados tenham sido identificados. Portanto, eles iniciam novos projetos de modelagem de dados reunindo requisitos das partes interessadas de negócios.
No entanto, é importante ressaltar que existem três tipos principais de modelos de dados:
Modelo de dados conceituais
Essa abordagem é uma descrição de alto nível de um design de banco de dados que mostra como os dados se relacionam e que tipo de dados podem ser armazenados no banco de dados. O público-alvo da modelagem de dados conceituais é o lado comercial de uma organização. Afinal, o modelo de dados conceituais define a estrutura de dados que o negócio requer. Então, depois que o modelo de dados conceituais é criado, ele pode ser refinado e transferido para um modelo de dados lógico.
Modelo lógico de dados
Esses modelos são usados para criar a estrutura do banco de dados e descrever os dados de uma perspectiva técnica. O lado técnico de uma organização usa modelos de dados lógicos como representações detalhadas de designs de banco de dados. Portanto, este modelo de dados serve como base para a criação de um modelo de dados físico.
Modelo de dados físicos
Este modelo de dados é específico para o aplicativo e banco de dados a serem implementados. Portanto, ele é usado para criar as tabelas e campos que armazenam dados do banco de dados. Um modelo de dados físicos descreve um design de banco de dados para um sistema de gerenciamento de banco de dados específico (DBMS). Os lados técnico e comercial de uma organização usam esse tipo de modelo.
Exemplos de modelagem de dados
A modelagem de dados surgiu na década de 1960, conforme os DBMSes se tornaram mais populares. Afinal, eles permitiram que as organizações trouxessem consistência, repetibilidade e desenvolvimento disciplinado ao processamento de dados. Então, os usuários e programadores do aplicativo usaram o modelo de dados como referência ao se comunicarem com os designers do banco de dados.
Alguns exemplos de abordagens de modelagem de dados incluem o seguinte:
Modelagem de dados hierárquica
Os modelos de dados hierárquicos organizam os dados em um arranjo semelhante a uma árvore, ou seja, de um para muitos. Este modelo substituiu originalmente os sistemas de arquivos em muitos casos de uso populares. O Information Management System da IBM é um exemplo de abordagem hierárquica, amplamente utilizada nas empresas, principalmente no setor bancário. Embora os modelos de dados hierárquicos tenham sido em sua maioria substituídos – começando na década de 1980 – por modelos de dados relacionais, o método hierárquico é usado hoje em Extensible Markup Language e sistemas de informações geográficas.
Modelagem de dados de rede
Modelos de dados de rede foram desenvolvidos como uma forma de fornecer aos designers de dados uma ampla visão conceitual de seus sistemas. Por exemplo, a Conferência sobre Linguagens de Sistemas de Dados, formada no final dos anos 1950, orientou o desenvolvimento de uma linguagem de programação padrão que poderia ser usada em vários tipos de computadores.
Modelagem de dados relacionais
O modelo de dados relacional foi proposto como uma alternativa ao modelo de dados hierárquico, que exigia um entendimento detalhado do armazenamento físico de dados empregado. Afinal, o modelo de dados relacional não requer que os desenvolvedores definam caminhos de dados.
A modelagem de dados relacionais foi descrita pela primeira vez em um artigo técnico de 1970 pelo pesquisador da IBM E.F. Codd. portanto, o modelo relacional de Codd preparou o cenário para o uso de bancos de dados relacionais pela indústria, que usam tabelas para conectar segmentos de dados, em comparação com o modelo hierárquico em que os dados são implicitamente unidos. A modelagem de dados relacionais foi combinada com Structured Query Language, que ganhou uma posição na computação corporativa como um meio eficiente de processar dados.
Modelagem de relacionamento de entidade
A modelagem de dados relacionais deu mais um passo à medida que o uso de modelos de relacionamento de entidade (ER) se tornou popular. Os modelos ER usam diagramas para representar graficamente os elementos em um banco de dados e facilitar a compreensão dos modelos subjacentes.
Contudo, com a modelagem relacional, os tipos de dados são determinados e raramente alterados ao longo do tempo. Já entidades, ou objetos, consistem em atributos. Por exemplo, um atributo de entidade de funcionário pode incluir sobrenome, nome, anos de emprego e assim por diante. Então, os relacionamentos são mapeados visualmente, fornecendo uma maneira de comunicar os objetivos do design de dados aos participantes no desenvolvimento e manutenção de dados. Com o tempo, os arquitetos de dados adotaram ferramentas de modelagem, como ER / Studio da Idera, Erwin Data Modeler e SAP PowerDesigner, para projetar sistemas.
Modelagem orientada a objetos
Conforme a programação orientada a objetos avançou na década de 1990, a modelagem de dados orientada a objetos ganhou força como outra forma de projetar sistemas. As abordagens orientadas a objetos são semelhantes aos métodos ER, no entanto, diferem porque se concentram em abstrações de objetos de entidades do mundo real.
Os objetos são agrupados em hierarquias de classes e podem herdar atributos e métodos de classes pai. No entanto, esse traço de herança oferece algumas vantagens em comparação com a modelagem ER; ele garante a integridade dos dados e oferece suporte a relacionamentos de dados complexos. Contudo, ao mesmo tempo, surgiram modelos de dados para as necessidades de armazenamento de dados. Exemplos notáveis são o esquema em floco de neve e os modelos dimensionais do esquema em estrela.
Modelagem de dados gráficos
Um desdobramento da modelagem de dados hierárquica e de rede é o modelo de gráfico de propriedades. Junto com bancos de dados de gráficos, ele é cada vez mais usado para descrever relacionamentos complexos dentro de conjuntos de dados. É popular em aplicativos de mídia social, recomendação e detecção de fraude.
Usando o modelo de dados de gráfico, os designers descrevem seu sistema como um gráfico conectado de nós e relacionamentos. Portanto, modelos de dados gráficos podem ser usados para análise de texto e para criar modelos que revelam relacionamentos entre pontos de dados em documentos.
Design de modelagem de dados para padronizar os dados de negócios
A modelagem de dados deve ser compreensível para os usuários de negócios e mantidos em um escopo razoável. A Agência Ambiental da Inglaterra tinha um grande problema: a falta de padrões de dados internos que tornava difícil reunir informações de diferentes partes da organização. Afinal, as definições e terminologia de dados variaram de sistema para sistema, sobrecarregando a agência com silos de dados incompatíveis. Então, a modelagem de dados foi usada para ajudar a harmonizar as coisas.
O que fazer e o que não fazer nas práticas de modelagem de dados
Aqui estão algumas das dicas de design de modelo de dados:
Use a linguagem de negócios em modelos de dados de alto nível
Modelos de dados conceituais e lógicos devem “contar uma história” sobre os dados que os usuários de negócios podem entender facilmente. Ou seja, use terminologia de negócios nos modelos e mostre como eles se relacionam com os aplicativos do mundo real. Caso contrário, a modelagem de dados pode parecer acadêmica e abstrata para os usuários.
Então, na prática, para ser bem sucedido, um modelo de dados usa a linguagem de seu público.
Comece com um modelo de rascunho e refine-o com base nas informações do negócio
O ideal não é apresentar os modelos de dados como produtos acabados para usuários de negócios. Ao invés disso, deve-se adotar uma abordagem de consenso que combina o trabalho de modelagem de cima para baixo e de baixo para cima. Ou seja, com gerentes de negócios e outros usuários dando feedback sobre as versões de rascunho dos modelos que foram criados após a pesquisa inicial e entrevistas com os usuários.
Atenha-se a um escopo razoável na modelagem de dados
Émuito fácil manter a iteração em modelos de dados sem fim à vista. Então, priorizar o que é realmente necessário é a chave para um design de modelo de dados eficaz.
Isso inclui limitar o projeto de modelagem de dados a novos sistemas e aplicativos de TI. Afinal, ao fazer isso evitam-se questões espinhosas sobre como fazer alterações nas unidades existentes – outra vantagem para as unidades de negócios da EA.
Crie equipes virtuais como parte do processo de modelagem.
É válido realizar uma série de workshops de modelagem de dados para reunir usuários de diferentes departamentos. Afinal, assim é possível explicar os conceitos de modelagem de dados a eles e obter a adesão da iniciativa.
Não obstante, os workshops também permitiram que os usuários interagissem uns com os outros e chegassem a um consenso sobre os problemas de design do modelo de dados mais rápido do que poderia ser feito em reuniões individuais.
Faça da comunicação uma prioridade
Além dos workshops, é importante produzir webinars e se comunicar regularmente para atualizar o lado comercial sobre o trabalho de modelagem de dados. Afinal, é importante continuar dizendo às pessoas o que a empresa está fazendo e porque isso é importante. No entanto, isso também inclui agir de acordo com o feedback do usuário.