Vide o link http://pt.wikipedia.org/wiki/Minera%C3%A7%C3%A3o_de_dados para uma introdução sobre Data Mining.
Data Warehouse
fonte: o texto e as imagens abaixo foi retirado de http://www.devmedia.com.br/post-12609-Data-Warehouse.html (se a DevMedia se sentir ofendida basta solicitar e o conteúdo será removido -- obrigado).
Introdução
O grande crescimento do ambiente de negócios, médias e grandes empresas armazenam também um alto volume de informações, onde que juntamente com a tecnologia da informação, a correta extração destas informações é um fator chave para se conseguir destaque no mercado cada vez mais competitivo.
Este manancial de informação, quando aproveitado de forma eficaz, desempenha um papel fundamental no sucesso das organizações, afinal vivemos numa sociedade tecnológica onde a informação acumulada é muito valiosa, sendo assim a informação “tratamento de dados”, irá determinar a eficiência da empresa e quais as melhores decisões devem ser tomadas.
Segundo Date (2004) “Data Warehouse (que no português significa, literalmente armazém de dados) é um deposito de dados orientado por assunto, integrado, não volátil, variável com o tempo, para apoiar as decisões gerenciais”.
Orientado por assunto
Refere-se aos sistemas transacionais organizados em uma determinada aplicação de uma empresa. A orientação por assunto é uma característica importante, pois toda a modelagem do DW é orientada a partir dos principais assuntos da empresa. Por exemplo uma empresa de arrecadação de impostos, onde os principais assuntos são os cadastros de contribuintes, impostos a recolher.
Integrado
Essa é a característica mais importante do DW, pois trata da integração, que é feita do ambiente operacional para as aplicações do DW. A integração é realizada visando padronizar os dados dos diversos sistemas em uma única representação, para serem transferidos para a base de dados única do DW.
Não volátil
Nos sistemas transacionais os dados sofrem diversas alterações como, por exemplo, a inclusão, alteração e exclusão de dados. No ambiente do Data Warehouse os dados, antes de serem carregados, são filtrados e limpos “gerando informação”. Após esta etapa esses dados sofrem somente operações de consulta e exclusão, sem que possam ser alterados, e esta característica representa a não-volatilidade.
Variável com o tempo
A variação em relação ao tempo consiste na manutenção de um histórico de dados em relação ao período de tempo maior que dos sistemas comuns, isto significa que as técnicas de mineração de dados não são aplicadas em tempo real, de forma a não comprometer o desempenho dos bancos transacionais OLTP. Ao analisarmos um dado de um DW, o mesmo sempre estará relacionado a um período determinado de tempo, pois terá uma chave de tempo que irá indicar o dia no qual esses dados foram extraídos.
O DW consiste a junção de diversas tecnologias que permitem fazer consulta no banco de dados, para posterior análise das informações. Devido ao ambiente projetado, o DW tem uma única fonte de dados, que facilita muito o trabalho do analista, porque os dados que lá existem estão tratados e não há redundância das informações.
Para maiores detalhes você pode acessar também o link http://www.coladaweb.com/informatica/data-warehouse.
Elementos básicos do DW Abaixo podemos visualizar os elementos básicos que compõem as arquiteturas de um Data Warehouse.
Figura 1 - Elementos DW
Fonte de dados
Sistemas transacionais da empresa, pode ser composto por diversas formas de dados.
Data Stage
Composta por uma área de armazenagem e um conjunto de processos. Sua função é extrair os dados dos sistemas transacionais, proceder a limpeza, a transformação, combinação, de duplicação e preparação dos dados para o uso no DW. Estes dados não são apresentados ao usuário final.
Servidor de apresentação
Ambiente onde os dados são organizados e armazenados para consulta direta pelos usuários finais. Normalmente os dados estão disponíveis nestes servidores em bancos de dados relacionais, mas também podem estar armazenados em tecnologia OLAP (OnLine Analytical Processing ) já que muitos data marts trabalham apenas com dados no modelo dimensional.
Data Mart
Subconjunto lógico do DW, geralmente divididos por departamento ou visões necessárias para os usuários.
Data Mining
Também conhecido como mineração de dados, o Data Mining trabalha em grandes massas de dados onde existem muitas correlações entre os dados que não são perceptíveis facilmente. Os Data Warehouses são constituídos, normalmente, de imensa quantidade de dados, há necessidade de uma ferramenta para varrer automaticamente o DW a fim de pesquisar tendências e padrões através de regras pré-definidas que dificilmente seriam encontrados em uma pesquisa comum.
Ferramentas de acesso aos dados
Maneira em que os dados são extraídos e integrados com cada processo distinto do DW. As funções para a transformação dos dados são:
- Extração: retirada dos dados dos sistemas transacionais e armazenagem na área de data stage;
- Carga de dimensões processadas: realimentação do processo para garantir a representação correta dos dados em novo formato.
- Carga, Replicação e Recuperação: quando pronto, o dado é carregado no data mart correspondente e são criados (ou atualizados) índices para melhorar a performance das consulta.
- Alimentação: apresenta as visões do data mart de acordo com as necessidades dos usuários.
- Carga dos resultados dos modelos: serve para realimentar possíveis modificações no data mart, caso este não esteja adequado a aplicação que o utiliza.
Arquitetura do DW pode variar conforme o tipo de assunto abordado, isso ocorre devido as necessidades que variam de empresa para empresa.
Arquitetura Genérica
A arquitetura genérica compreende a camada dos dados operacionais que serão acessados pela camada de acesso a dados. As camadas de gerenciamento de processos, transporte e data warehouse são responsáveis por distribuir os dados e estão no centro da arquitetura. A camada de acesso à informação possibilita a extração das informações do DW utilizando um conjunto de ferramentas.
Figura 2 - Arquitetura genérica DW
Arquitetura de Duas Camadas
A arquitetura de duas camadas utiliza um servidor, juntamente com aplicações front end, que são ferramentas que realizam operações sobre os dados consultados e os transformam em informações úteis para os usuários, os componentes back end são ferramentas responsáveis pela extração, limpeza e cargas dos dados, mais conhecidas como ETL também são utilizadas neste tipo de arquitetura.
Figura 3 - Arquitetura duas camadas DW
Arquitetura de Três Camadas
A arquitetura de três camadas suporta vários usuários e serviços devido a sua flexibilidade, as informações ficam armazenadas em várias camadas. Na primeira camada estão as interfaces que trabalham com o usuário, onde geralmente são gráficas. Na segunda camada estão os servidores de banco de dados e aplicações e, por isso, têm a necessidade de ter um acesso eficiente e veloz aos dados compartilhados, e na última ficam armazenadas as fontes de dados. A arquitetura de três camadas é a mais utilizada pelos analistas.
Figura 4 - Arquitetura três camadas DW
Acesse Data Warehouse para maiores informações.
Conclusão
Vimos neste míni artigo um pouco sobre importância de um Data Warehouse para as empresas, suas definição, características, arquitetura e elementos básicos usados na sua construção.
Nenhum comentário:
Postar um comentário
Observação: somente um membro deste blog pode postar um comentário.