Compreender a retenção de dados no Azure Time Series Insights Geração 1

Observação

O serviço TSI (Time Series Insights) não terá mais suporte após março de 2025. Considere migrar os ambientes existentes do TSI para soluções alternativas assim que possível. Para obter mais informações sobre a substituição e a migração, visite nossa documentação.

Cuidado

Esse é um artigo do Gen1.

Este artigo descreve duas configurações principais que afetam a retenção de dados no ambiente do Azure Time Series Insights.

Vídeo

O vídeo a seguir resume a retenção de dados do Azure Time Series Insights e como planejá-la.

Cada um dos ambientes do Azure Time Series Insights tem uma configuração que controla o tempo de retenção de dados. O valor varia de 1 a 400 dias. Os dados são excluídos com base na capacidade de armazenamento do ambiente ou na duração da retenção, o que vier primeiro.

Além disso, seu ambiente do Azure Time Series Insights tem uma configuração de comportamento de limite de armazenamento excedido. Ela controla o comportamento de entrada e de limpeza quando a capacidade máxima de um ambiente é atingida. Há duas opções de comportamento para configuração:

  • Limpar dados antigos (padrão)
  • Pausar a entrada

Observação

Por padrão, ao criar um novo ambiente, a retenção está configurada para Limpar dados antigos. Após a criação, essa configuração pode ser modificada conforme necessário usando o portal do Azure, na página Configurar do ambiente do Azure Time Series Insights.

Ambas as políticas de retenção de dados são descritas mais detalhadamente abaixo.

Limpar dados antigos

  • Limpar dados antigos é a configuração padrão para ambientes do Azure Time Series Insights.
  • Limpar dados antigos é a opção preferencial quando os usuários querem sempre ter seus dados mais recentes no ambiente do Azure Time Series Insights.
  • A configuração Limpar dados antigoslimpa os dados uma vez que os limites do ambiente (tempo de retenção, tamanho ou contagem, o que ocorrer primeiro) forem atingidos. A retenção é definida como 30 dias por padrão.
  • Os dados ingeridos mais antigos são limpos primeiro (a abordagem "o primeiro a entrar é o primeiro a sair").

Exemplo um

Considere um ambiente de exemplo com o comportamento de retenção Continuar entrada e limpar dados antigos:

Tempo de retenção de dados é definido para um valor mais baixo, de 400 dias. Capacidade é definido para a unidade S1, que contém 30 GB de capacidade total. Suponha que os dados de entrada se acumulam até um volume de 500 MB por dia, em média. Considerando-se a taxa de dados de entrada, esse ambiente pode reter somente o equivalente a 60 dias de dados, já que a capacidade máxima é atingida após 60 dias. Os dados de entrada se acumulam assim: 500 MB por dia x 60 dias = 30 GB.

No 61º dia, o ambiente mostra os dados mais recentes, mas descarta os dados mais antigos, com mais de 60 dias. A limpeza abre espaço para os novos dados sendo transmitidos em entrada, para que novos dados possam continuar a serem explorados. Se o usuário deseja manter os dados por mais tempo, ele pode aumentar o tamanho do ambiente adicionando unidades adicionais ou reduzir o volume de dados enviados por push.

Exemplo dois

Suponha que um ambiente também configurou o comportamento de retenção Continuar entrada e limpar dados antigos. Neste exemplo, o Tempo de retenção de dados é definido para um valor mais baixo, de 180 dias. Capacidade é definido para a unidade S1, que contém 30 GB de capacidade total. Para armazenar dados por 180 dias completos, a entrada diária não pode exceder 0,166 GB (166 MB).

Sempre que a taxa diária de entrada desse ambiente excede 0,166 GB, os dados não podem ser armazenados por 180 dias, já que alguns dados sofrem limpeza. Considere esse mesmo ambiente durante um período ocupado. Suponha que a taxa de entrada do ambiente pode aumentar para uma média de 0,189 GB por dia. Nesse período ocupado, aproximadamente 158 dias de dados são retidos (30GB/0,189 = 158,73 dias de retenção). Esse tempo é menor que o período de retenção de dados desejado.

Pausar a entrada

  • A configuração Pausar entrada foi desenvolvida para garantir que dados não sejam limpos se os limites de tamanho e de contagem forem atingidos antes do período de retenção desses dados.

  • Pausar entrada oferece tempo adicional para os usuários aumentarem a capacidade do seu ambiente antes de os dados serem apagados devido à violação do período de retenção.

  • Isso ajuda a proteger contra perda de dados, mas pode criar um risco de perda dos dados mais recentes se a entrada ficar em pausa além do período de retenção de sua origem do evento.

  • No entanto, depois que a capacidade máxima de um ambiente for atingida, o ambiente pausará a entrada de dados até que ações adicionais a seguir ocorram:

    • Você aumenta a capacidade máxima do ambiente para adicionar mais unidades de escala, conforme descrito em Como dimensionar o ambiente do Azure Time Series Insights.
    • O período de retenção de dados é atingido e os dados são limpos, colocando assim o ambiente abaixo de sua capacidade máxima.

Exemplo três

Considere um ambiente com o comportamento de retenção configurado para Pausar entrada. Neste exemplo, o Período de retenção de dados está configurado para 60 dias. A capacidade está definida para três (3) unidades de S1. Suponha que esse ambiente tem uma entrada de 2 GB de dados por dia. Nesse ambiente, a entrada é colocada em pausa quando a capacidade máxima é atingida.

Nesse momento, o ambiente mostra o mesmo conjunto de dados até que a entrada seja retomada ou até que a opção retomar a entrada seja habilitada (o que limparia os dados mais antigos para liberar espaço para novos dados).

Quando a entrada é retomada:

  • Os dados são transmitidos na ordem em que foram recebidos pela origem do evento
  • Os eventos são indexados com base no respectivo carimbo de data/hora, a menos que você tenha excedido as políticas de retenção na origem do evento. Para obter mais informações sobre a configuração de retenção da origem do evento, veja Perguntas frequentes dos Hubs de Eventos

Importante

Você deve definir alertas para que forneçam aviso e ajudem a evitar que a entrada seja colocada em pausa. Há possibilidade de perda de dados, já que a retenção padrão é de 1 dia para origens do evento do Azure. Portanto, depois de entrada for colocada em pausa, você provavelmente perderá os dados mais recentes, a menos que uma ação adicional seja executada. Você deve aumentar a capacidade ou mudar o comportamento para Limpar dados antigos para evitar a possível perda de dados.

Nos hubs de eventos afetados, considere ajustar a propriedade Retenção de Mensagem para minimizar a perda de dados quando a entrada é colocada em pausa no Azure Time Series Insights.

Retenção de mensagem do hub de eventos.

Se nenhuma propriedade está configurada na origem do evento (timeStampPropertyName), o Azure Time Series Insights assume como padrão o carimbo de data/hora de chegada no hub de eventos como o eixo X. Se timeStampPropertyName está configurado para algo diferente, o ambiente de procura o timeStampPropertyName configurado no pacote de dados em que os eventos são analisados.

Leia Como escalar o ambiente do Azure Time Series Insights para escalar o ambiente para acomodar capacidade adicional ou aumentar a duração da retenção.

Próximas etapas