Descripción de las inserciones en Azure OpenAI Service

Una inserción es un formato especial de representación de datos que los modelos y algoritmos de Machine Learning pueden usar fácilmente. La incrustación es una representación densa en información del significado semántico de un texto. Cada incrustración es un vector de números de punto flotante, de modo que la distancia entre dos incrustraciones en el espacio vectorial está correlacionada con la similitud semántica entre dos entradas en el formato original. Por ejemplo, si hay dos textos similares, sus representaciones vectoriales también deberían ser similares. Las inserciones permiten la búsqueda de similitud de vectores en bases de datos de Azure, como núcleo virtual de Azure Cosmos DB for MongoDB, Azure SQL Database o Azure Database for PostgreSQL: servidor flexible.

Modelos de incrustración

Los distintos modelos de inserción de Azure OpenAI se crean para realizar una tarea concreta:

  • Las incrustraciones de similitud son buenas para capturar la similitud semántica entre dos o más piezas de texto.
  • Las incrustraciones de búsqueda de texto ayudan a medir si los documentos largos son relevantes para una consulta corta.
  • Las incrustraciones de búsqueda de código son útiles para incrustar fragmentos de código e insertar consultas de búsqueda de lenguaje natural.

Las incrustraciones facilitan el aprendizaje automático en entradas grandes que representan palabras mediante la captura de las similitudes semánticas en un espacio vectorial. Por lo tanto, se pueden usar inserciones para determinar si dos fragmentos de texto están relacionados semánticamente o son similares, y proporcionar una puntuación para evaluar la similitud.

Similitud coseno

Las incrustraciones de Azure OpenAI se basan en la similitud coseno para calcular la similitud entre documentos y una consulta.

Desde una perspectiva matemática, la similitud coseno mide el coseno del ángulo entre dos vectores proyectados en un espacio multidimensional. Esta medida es beneficiosa porque si dos documentos están muy separados por la distancia euclidiana debido al tamaño, podrían tener un ángulo más pequeño entre ellos y, por lo tanto, una similitud de coseno mayor. Para obtener más información sobre ecuaciones de similitud coseno, consulte Similitud de coseno.

Un método alternativo de identificación de documentos similares es contar el número de palabras comunes entre documentos. Este enfoque no se escala, ya que es probable que una expansión en el tamaño del documento lleve a un mayor número de palabras comunes detectadas incluso entre temas dispares. Por este motivo, la similitud coseno puede ofrecer una alternativa más eficaz.

Pasos siguientes