Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Este artigo descreve os métodos para preparar dados para treinamento distribuído: Mosaic Streaming e TFRecords.
Mosaic Streaming (Recomendado)
Mosaic Streaming é uma biblioteca de carregamento de dados de código aberto que permite o streaming eficiente de grandes conjuntos de dados a partir do armazenamento em nuvem. Essa biblioteca se destaca no tratamento de conjuntos de dados maciços que não cabem na memória, pois ela foi projetada especificamente para o treinamento distribuído de modelos grandes em múltiplos nós. O Mosaic Streaming oferece integração perfeita com o PyTorch e o ecossistema MosaicML. O artigo a seguir ilustra esse caso de uso:
TFRecord
Você também pode usar o formato TFRecord como a fonte de dados para aprendizado profundo distribuído. O formato TFRecord é um formato binário simples e orientado a registros que muitos aplicativos do TensorFlow usam para os dados de treinamento.
tf.data.TFRecordDataset é o conjunto de dados do TensorFlow, composto por registros de arquivos do TFRecords. Para obter mais detalhes sobre como consumir dados do TFRecord, consulte o guia do TensorFlow Consumindo dados do TFRecord.
Os artigos a seguir descrevem e ilustram as maneiras recomendadas de salvar seus dados em arquivos TFRecord e carregar arquivos TFRecord: