Compartir a través de


Formatos de datos de análisis de sentimiento personalizados aceptados

Si está intentando importar los datos en un análisis de sentimiento personalizado, debe seguir un formato específico. Si no tiene datos para importar, puede crear el proyecto y usar Language Studio para etiquetar los documentos.

Formato de archivo de etiquetas

El archivo Labels debe tener el formato json siguiente para importar las etiquetas en un proyecto.

{
    "projectFileVersion": "2023-04-15-preview",
    "stringIndexType": "Utf16CodeUnit",
    "metadata": {
        "projectKind": "CustomTextSentiment",
        "storageInputContainerName": "custom-sentiment-2",
        "projectName": "sa-test",
        "multilingual": false,
        "description": "",
        "language": "en-us"
    },
    "assets": {
        "projectKind": "CustomTextSentiment",
        "documents": [
            {
                "location": "document_1.txt",
                "language": "en-us",
                "sentimentSpans": [
                    {
                        "category": "positive",
                        "offset": 0,
                        "length": 60
                    },
                    {
                        "category": "neutral",
                        "offset": 61,
                        "length": 31
                    }
                ],
                "dataset": "Train"
            },
            {
                "location": "document_2.txt",
                "language": "en-us",
                "sentimentSpans": [
                    {
                        "category": "positive",
                        "offset": 0,
                        "length": 50
                    },
                    {
                        "category": "positive",
                        "offset": 51,
                        "length": 49
                    },
                    {
                        "category": "positive",
                        "offset": 101,
                        "length": 26
                    }
                ],
                "dataset": "Train"
            }
        ]
    }
}

Clave Marcador de posición Valor Ejemplo
multilingual true Valor booleano que le permite tener documentos en varios idiomas del conjunto de datos y, cuando se implementa el modelo, puede consultarlo en cualquier idioma admitido (no necesariamente incluido en los documentos de entrenamiento). Consulte Compatibilidad de idiomas para obtener más información sobre la compatibilidad multilingüe. true
projectName {PROJECT-NAME} Nombre de proyecto myproject
storageInputContainerName {CONTAINER-NAME} Nombre del contenedor mycontainer
sentimentSpans Matriz que contiene todas las opiniones y sus ubicaciones en el documento.
documents Matriz que contiene todos los documentos del proyecto y la lista de las entidades etiquetadas en cada documento. []
location {DOCUMENT-NAME} Ubicación de los documentos en el contenedor de almacenamiento. Puesto que todos los documentos están en la raíz del contenedor, este debe ser el nombre del documento. doc1.txt
dataset {DATASET} El conjunto de pruebas al que este archivo irá cuando se divida antes del entrenamiento. Encuentre más información sobre la división de datos aquí. Los valores posibles que admite este campo son Train y Test. Train
offset Posición del carácter inclusivo del inicio del de una opinión dentro del texto. 0
length Longitud del rectángulo delimitador en términos de caracteres UTF16. El entrenamiento solo tiene en cuenta los datos de esta región. 500
category La opinión asociada al intervalo de texto especificado. positive
offset Posición inicial del texto de la entidad. 25
length Longitud de la entidad en términos de caracteres UTF16. 20
language {LANGUAGE-CODE} Una cadena que especifica el código de idioma del documento que se usa en el proyecto. Si el proyecto es un proyecto multilingüe, elija el código de idioma de la mayoría de los documentos. Consulte Compatibilidad con idiomas para obtener más información sobre los códigos de idioma admitidos. en-us

Pasos siguientes