O guia de configuração de indexação

Artigo
11/04/2024

Você pode usar as configurações de indexação padrão ou ajustá-las. Você pode escolher idioma, indexação, modelos personalizados e configurações de streaming que têm implicações nos insights gerados, no custo e no desempenho.

Este artigo explica cada uma das opções. As mesmas opções se aplicam ao usar o site do Azure AI Video Indexer e ao usar a API (consulte o guia da API). Ao indexar grandes volumes, siga o guia em escala.

Configurações padrão

Por padrão, o Azure AI Video Indexer é configurado como:

Idioma de origem: inglês
Privacidade: privada
Configuração de áudio e vídeo: padrão
Qualidade de streaming: taxa de bits única

Idioma de origem do vídeo

Se você estiver ciente do idioma falado no vídeo, selecione-o na lista de idiomas de origem do vídeo. Se não tiver certeza do idioma do vídeo, escolha Detectar automaticamente um idioma. O Azure AI Video Indexer usa a LID (identificação de idioma) para detectar o idioma dos vídeos e gerar transcrição e insights com o idioma detectado.

Se o vídeo contiver vários idiomas e você não tiver certeza de quais, selecione Detectar automaticamente vários idiomas. Nesse caso, a detecção multilíngue (MLID) é aplicada ao enviar e indexar seu vídeo.

Embora a detecção automática seja uma ótima opção quando o idioma em seus vídeos varia, há dois pontos a serem considerados ao usar LID ou MLID:

O LID/MLID não dá suporte a todos os idiomas compatíveis com o Azure AI Video Indexer.
A transcrição é de qualidade superior quando você pré-seleciona o idioma apropriado do vídeo.

Saiba mais sobre o suporte a idiomas e idiomas compatíveis.

Privacidade

Essa opção permite determinar se os insights só devem ser acessíveis aos usuários em sua conta do Azure AI Video Indexer ou a qualquer pessoa com um link.

Opções de indexação

Cada uma das opções de indexação de áudio e vídeo pode ter um preço diferente quando você usa as configurações de indexação padrão. Consulte os preços do Azure AI Video Indexer para obter detalhes.

A seguir estão as opções de tipo de indexação com detalhes de seus insights fornecidos. Para modificar o tipo de indexação, selecione Configurações avançadas.

Observação

O OCR (Reconhecimento Óptico de Caracteres) é usado com vários tipos de insights.

Configurações avançadas

Apenas áudio

Básico: indexa e extrai insights usando apenas áudio (ignorando vídeo) e fornece os seguintes insights: transcrição, tradução, formatação de legendas de saída e legendas (legendas ocultas).
Padrão: indexa e extrai insights usando apenas áudio (ignorando vídeo) e fornece os seguintes insights: transcrição, tradução, formatação de legendas e legendas de saída (legendas ocultas), detecção automática de idioma, emoções, palavras-chave, entidades nomeadas (marcas, locais, pessoas), sentimentos, alto-falantes, extração de tópicos e moderação de conteúdo textual.
Avançado: indexa e extrai insights usando apenas áudio (ignorando vídeo) e fornece os seguintes insights: transcrição, tradução, formatação de legendas e legendas de saída (legendas ocultas), detecção automática de idioma, detecção de eventos de áudio, emoções, palavras-chave, entidades nomeadas (marcas, locais, pessoas), sentimentos, alto-falantes, extração de tópicos e moderação de conteúdo textual.

Somente vídeo

Básico: indexa e extrai insights usando apenas vídeo (ignorando áudio) e fornece os seguintes insights: rótulos, detecção de objetos, OCR, cenas (quadros-chave e capturas) e detecção de quadro preto.
Padrão: indexa e extrai insights usando somente vídeo (ignorando áudio) e fornece os seguintes insights: rótulos (OCR), entidades nomeadas (OCR - marcas, locais, pessoas), OCR, pessoas, cenas (quadros-chave e capturas), quadros pretos, moderação de conteúdo visual e extração de tópicos (OCR).
Avançado: indexa e extrai insights usando apenas vídeo (ignorando áudio) e fornece os seguintes insights: rótulos (OCR), pessoa correspondente, entidades nomeadas (OCR - marcas, locais, pessoas), OCR, pessoas observadas, pessoas, cenas (quadros-chave e fotos), detecção de claquete, detecção de padrão digital, insight de roupas em destaque, detecção de ardósia sem texto, detecção de logotipo textual, quadros pretos, moderação de conteúdo visual e extração de tópico (OCR).

Áudio e vídeo

Básico: indexa e extrai insights usando áudio e vídeo e fornece os seguintes insights: transcrição, tradução, formatação de legendas e legendas de saída (legendas ocultas), detecção de objetos, OCR, cenas (quadros-chave e capturas) e quadros pretos.
Padrão: indexa e extrai insights usando áudio e vídeo e fornece os seguintes insights: transcrição, tradução, formatação de legendas e legendas de saída (legendas ocultas), detecção automática de idioma, emoções, palavras-chave, entidades nomeadas (marcas, locais, pessoas), OCR, cenas (quadros-chave e capturas), quadros pretos, moderação de conteúdo visual, pessoas, sentimentos, alto-falantes, extração de tópicos e moderação de conteúdo textual.
Avançado: indexa e extrai insights usando áudio e vídeo e fornece os seguintes insights: transcrição, tradução, formatação de legendas e legendas de saída (legendas ocultas), detecção automática de idioma, moderação de conteúdo textual, detecção de eventos de áudio, emoções, palavras-chave, pessoa correspondente, entidades nomeadas (marcas, locais, pessoas), OCR, pessoas observadas, pessoas, detecção de claquete, detecção de padrão digital, informações sobre roupas em destaque, detecção de ardósia sem texto, sentimentos, alto-falantes, cenas (quadros-chave e tomadas), detecção de logotipo textual, quadros pretos, moderação de conteúdo visual e extração de tópicos.

Opções de qualidade de streaming

Há duas opções para streaming de vídeos indexados:

Taxa de bits única: se a altura do vídeo for maior ou igual a 720p HD, o Azure AI Video Indexer o codificará com uma resolução de 1280 x 720. Caso contrário, ele será codificado como 640 x 468.
Sem streaming: os insights são gerados, mas nenhuma operação de streaming é executada e o vídeo não está disponível no site do Azure AI Video Indexer. Quando Sem streaming é selecionado, você não é cobrado pela codificação.

Excluir modelos

Você pode excluir modelos ao indexar por meio do site e da API do VI. Ao carregar um vídeo para indexação usando o site, selecione Configurações>avançadas Predefinições de indexação e, em seguida, selecione os modelos de IA a serem excluídos dos resultados da indexação. Isso pode permitir uma indexação mais eficiente e resultados de VI contendo apenas os insights nos quais você está interessado.

Personalizando modelos de conteúdo

O Azure AI Video Indexer permite que você personalize alguns de seus modelos para serem adaptados ao seu caso de uso específico. Esses modelos incluem marcas, linguagem, pessoa e fala.

Insights e armazenamento de mídia

Armazenamento de insights

Todos os insights e metadados de indexação são mantidos em contas de armazenamento gerenciadas pelo VI e você não é cobrado por esse armazenamento.

Armazenamento de mídia

Sua conta do VI está conectada a uma conta de Armazenamento do Azure. Você controla e paga pelo uso dessa conta de armazenamento. Os seguintes arquivos são armazenados nessa conta quando um vídeo é indexado:

O arquivo de origem. Ele é mantido caso você queira reindexar o vídeo no futuro.
Um novo arquivo codificado quando a qualidade do streaming é definida como taxa de bits única.

Excluindo mídia

A mídia indexada e todos os seus arquivos e insights associados podem ser excluídos de três maneiras:

Exclua os arquivos com o portal do Video Indexer.
Use a solicitação Excluir vídeo ou Excluir arquivo de origem do vídeo .
Se você não precisar manter o arquivo de mídia original armazenado, ao usar a API, defina o parâmetro entre 1 e retentionPeriod 7. O vídeo indexado e tudo relacionado a ele, o arquivo de origem, insights etc. são excluídos de 1 a 7 dias após a indexação.

Compartilhar via