Microsoft anuncia compactação Automática de Dados para Fabric Warehouse

Um dos objetivos da Microsoft com o Data Warehouse é automatizar o máximo possível para tornar mais fácil e barato construí-los e usá-los. Isso significa que você gastará seu tempo adicionando e obtendo insights de seus dados, em vez de gastá-lo em tarefas como manutenção. Como usuário, você também deve esperar um ótimo desempenho e é aí que entra a compactação de dados!

Por que a compactação de dados é importante?

Para entender o que é compactação de dados e como ela ajuda, precisamos primeiro falar sobre como as tabelas de data warehouse são armazenadas fisicamente no OneLake.

Quando você cria uma tabela, ela é armazenada fisicamente como um ou mais arquivos Parquet. Os arquivos Parquet são imutáveis, o que significa que não podem ser alterados após serem criados. Ao realizar DML (Data Manipulation Language), como Inserções e Atualizações, cada transação criará novos arquivos Parquet. Com o tempo, você poderá ter milhares de arquivos pequenos. A compactação de dados reescreverá muitos arquivos menores em alguns arquivos maiores, o que melhorará o desempenho da leitura da tabela.

Outro motivo para a compactação de dados é remover linhas excluídas dos arquivos. Quando você exclui uma linha, ela não é excluída fisicamente do arquivo parquet. Em vez disso, usamos um recurso Delta Lake chamado Excluir vetores, que são lidos como parte da tabela e nos informam quais linhas ignorar. Excluir vetores torna mais rápido a execução de exclusões porque não precisamos reescrever os arquivos parquet existentes. No entanto, se tivermos muitas linhas excluídas em um arquivo parquet, serão necessários mais recursos para ler esse arquivo e saber quais linhas ignorar.

Como acontece a compactação de dados?

À medida que você executa consultas em seu Data Warehouse, o mecanismo gerará tarefas de sistema para revisar tabelas que poderiam se beneficiar potencialmente da compactação de dados. Nos bastidores, avaliamos essas tabelas para ver se elas realmente se beneficiariam com a compactação.

A compactação em si é realmente muito simples! Basicamente, trata-se apenas de reescrever a tabela inteira ou partes da tabela para criar um novo arquivo parquet ou arquivos que não possuem nenhuma linha excluída e/ou possuem mais linhas por arquivo.

Conclusão

A compactação de dados é uma das maneiras pelas quais ajudamos seu data warehouse a fornecer ótimo desempenho e, o melhor de tudo, não envolve nenhum trabalho adicional de sua parte! Isso ajuda você a ter mais tempo para trabalhar no aproveitamento de seu data warehouse para obter mais valor e insights!

Aguarde mais anúncios sobre melhorias de desempenho mais automatizadas!

Deixe um comentário

O seu endereço de e-mail não será publicado.