Поделиться через


Создание ИИ с помощью Базы данных Azure для PostgreSQL

ОБЛАСТЬ ПРИМЕНЕНИЯ: База данных Azure для PostgreSQL — гибкий сервер

Сгенерированный ИИ относится к классу алгоритмов ИИ, которые могут учиться на существующем мультимедийном контенте и создавать новое содержимое. Созданный контент можно настроить с помощью таких методов, как запросы и настройка. Алгоритмы создания ИИ применяют определенные модели машинного обучения:

  • Преобразователи и повторяющиеся нейронные сети (RNN) для создания текста
  • Генеративные состязательные сети (GANs) и вариационные автокодировщики (VAEs) для генерации изображений

Сгенерированный ИИ используется в области синтеза изображений и музыки и в здравоохранении, а также распространенных задач, таких как автозавершение текста, сводка текста и перевод. Методы создания искусственного интеллекта позволяют использовать такие функции, как кластеризация и сегментация, семантический поиск и рекомендации, моделирование тем, ответы на вопросы и обнаружение аномалий.

В следующем видео показано использование генерируемого искусственного интеллекта с базой данных Azure для PostgreSQL и pgvector расширением, которое поможет вам понять основные понятия, описанные в этой статье.

Открытый ИИ

OpenAI — это исследовательская организация и технологическая компания, известная своей пионерской работой в области искусственного интеллекта и машинного обучения. Его миссия заключается в том, чтобы гарантировать, что искусственный общий интеллект (AGI), под которым понимаются высокоавтономные системы ИИ, способные превосходить людей в большинстве экономически ценной работы, приносит пользу всему человечеству. OpenAI принес на рынок современные модели создания, такие как GPT-3, GPT-3.5 и GPT-4.

Azure OpenAI — это служба Майкрософт, помогающая создавать созданные приложения ИИ с помощью Azure. Azure OpenAI предоставляет клиентам расширенные языковые модели ИИ с помощью OpenAI GPT-4, GPT-3, Codex, DALL-E и моделей Whisper с поддержкой безопасности и корпоративных возможностей Azure. Azure OpenAI совместно разрабатывает API с OpenAI, чтобы обеспечить совместимость и плавный переход с одного на другое.

С помощью Azure OpenAI клиенты получают возможности безопасности Microsoft Azure, выполняя те же модели, что и OpenAI. Azure OpenAI предлагает частные сети, региональную доступность и фильтрацию содержимого ИИ.

Дополнительные сведения о службе Azure OpenAI.

Большая языковая модель

Большая языковая модель (LLM) — это тип модели искусственного интеллекта, которая обучается на больших объемах текстовых данных для понимания и создания человеческого языка. LLM обычно основаны на архитектуре глубокого обучения, таких как преобразователи. Они известны своей способностью выполнять широкий спектр задач понимания и генерации естественного языка. Служба Azure OpenAI и ChatGPT OpenAI являются примерами предложений LLM.

К ключевым характеристикам и возможностям LLM относятся:

  • Масштаб: масштаб LLM огромен, с точки зрения количества параметров, используемых их архитектуры. Модели, такие как GPT-3, содержат от сотен миллионов до триллионов параметров, что позволяет им записывать сложные шаблоны на языке.
  • Предварительная подготовка: LLM проходят предварительную обучение в большом корпусе текстовых данных из Интернета. Эта предварительная подготовка позволяет им изучать грамматику, синтаксис, семантику и широкий спектр знаний о языке и мире.
  • Предварительная настройка. После предварительной подготовки модули LLM можно настроить для определенных задач или доменов с меньшими наборами данных для конкретных задач. Этот процесс тонкой настройки позволяет им адаптироваться к более специализированным задачам, таким как классификация текста, перевод, сводка и ответы на вопросы.

GPT

GPT расшифровывается как Generative Pretrained Transformer, и это серия крупных языковых моделей, разработанных OpenAI. Модели GPT — это нейронные сети, которые предварительно обучены на огромных объемах данных из Интернета, поэтому они способны понять и создать человеческий текст.

Ниже приведен обзор основных моделей GPT и их ключевых характеристик:

  • GPT-3: выпущена в июне 2020 г. и хорошо известная модель в серии GPT. Он имеет 175 миллиардов параметров, что делает его одним из крупнейших и самых мощных языковых моделей в существовании.

    GPT-3 достигла замечательной производительности на широком спектре задач распознавания естественного языка и создания. Он может выполнять такие задачи, как завершение текста, перевод и ответы на вопросы с человеческой точностью.

    GPT-3 делится на различные размеры модели, начиная от наименьших (125 миллионов параметров) до крупнейших (175 миллиардов параметров).

  • GPT-4: последняя модель GPT из OpenAI. Он имеет 1,76 триллиона параметров.

Векторы

Вектор — это математическая концепция, используемая в линейной алгебре и геометрии для представления значений, имеющих как величину, так и направление. В контексте машинного обучения векторы часто используются для представления точек данных или функций.

К ключевым атрибутам и операциям векторов относятся:

  • Величина: длина или размер вектора, часто обозначаемая как ее норма, представляет величину данных. Это не отрицательное реальное число.
  • Направление: направление указывает ориентацию или угол количества, которое он представляет, в отношении эталонной точки или системы координат.
  • Компоненты: вектор может быть разложен на его компоненты по разным осям или измерениям. В 2D-декартовой системе координат вектор может быть представлен как (x, y), где x и y являются его компонентами вдоль оси x и y соответственно. Вектор в n измерениях — это n-кортеж ({x1, x2… xn}).
  • Добавление и скалярное умножение: векторы можно добавить вместе для формирования новых векторов, и их можно умножить на скалярные (реальные числа).
  • Dot products and cross-products: Vectors можно объединить с помощью dot products (скалярных продуктов) и кросс-продуктов (векторных продуктов).

Векторные базы данных

Векторная база данных, также известная как векторная система управления базами данных (СУБД), — это тип системы базы данных, которая предназначена для эффективного хранения, управления и запросов векторных данных. Традиционные реляционные базы данных в основном обрабатывают структурированные данные в таблицах, в то время как векторные базы данных оптимизированы для хранения и извлечения многомерных точек данных, представленных в виде векторов. Эти базы данных полезны для приложений, где используются такие операции, как поиск сходства, геопространственные данные, системы рекомендаций и кластеризация.

К ключевым характеристикам векторных баз данных относятся:

  • Векторное хранилище: векторные базы данных хранят точки данных в виде векторов с несколькими измерениями. Каждое измерение представляет функцию или атрибут точки данных. Эти векторы могут представлять широкий спектр типов данных, включая числовые, категориальные и текстовые данные.
  • Эффективные векторные операции: базы данных векторов оптимизированы для выполнения векторных операций, таких как добавление вектора, вычитание, точечная продукция и вычисления сходства (например, косинусное сходство или расстояние Евклиида).
  • Эффективный поиск: эффективные механизмы индексирования важны для быстрого извлечения аналогичных векторов. Векторные базы данных используют различные механизмы индексирования для быстрого извлечения.
  • Языки запросов: векторные базы данных предоставляют языки запросов и API, которые предназначены для операций векторов и поиска сходства. Эти языки запросов позволяют пользователям эффективно выражать свои критерии поиска.
  • Поиск сходства: векторные базы данных превосходно справляются с поиском сходства, позволяя пользователям находить точки данных, похожие на указанную точку запроса. Эта характеристика ценна в системах поиска и рекомендаций.
  • Обработка геопространственных данных: некоторые векторные базы данных предназначены для геопространственных данных, поэтому они хорошо подходят для таких приложений, как службы на основе расположения, географические информационные системы (GIS) и задачи, связанные с картой.
  • Поддержка различных типов данных: векторные базы данных могут хранить и управлять различными типами данных, такими как векторы, изображения и текст.

PostgreSQL может получить возможности векторной базы данных с помощью pgvector расширения.

Внедрение

Внедрение — это концепция машинного обучения и обработки естественного языка, которая включает в себя представление объектов (таких как слова, документы или сущности) в виде векторов в многомерном пространстве.

Эти векторы часто являются плотными. То есть они имеют большое количество измерений. Они изучаются с помощью различных методов, включая нейронные сети. Внедрение стремится фиксировать семантические связи и сходство между объектами в непрерывном векторном пространстве.

Распространенные типы внедрения включают:

  • Word: при обработке естественного языка внедренные слова представляют слова в виде векторов. Каждое слово сопоставляется с вектором в высокомерном пространстве, где слова с аналогичными значениями или контекстами находятся ближе друг к другу. Word2Vec и GloVe являются популярными методами встраивания слов.
  • Документ: Эмбеддинги представляют документы в виде векторов. Doc2Vec популярен для создания векторных представлений документов.
  • Изображение: изображения можно представить как внедренные элементы для записи визуальных функций для таких задач, как распознавание объектов.

Внедрение является центральным для представления сложных высокомерных данных в форме, которую модели машинного обучения могут легко обрабатывать. Их можно обучить на больших наборах данных, а затем использовать в качестве функций для различных задач. ММЯ используют их.

PostgreSQL может получить возможности создания векторных внедрения с помощью интеграции с расширением Azure AI OpenAI.

Сценарии

Сгенерированный ИИ имеет широкий спектр приложений в различных областях и отраслях, включая технологии, здравоохранение, развлечения, финансы, производство и многое другое. Ниже приведены некоторые распространенные задачи, которые пользователи могут выполнять с помощью генерного ИИ:

  • Семантический поиск:
    • Сгенерированный ИИ обеспечивает семантический поиск данных, а не лексикографический поиск. Последний ищет точные совпадения с запросами, в то время как семантический поиск находит содержимое, которое удовлетворяет намерению поискового запроса.
  • Чат-боты и виртуальные помощники:
    • Разработка чат-ботов, которые могут участвовать в естественных беседах с учетом контекста; Например, для реализации самостоятельной помощи клиентам.
  • Системы рекомендаций:
    • Улучшение алгоритмов рекомендаций путем создания внедренных элементов или представлений элементов или пользователей.
  • Кластеризация и сегментация:
    • Внедрения, создаваемые генеративным ИИ, позволяют алгоритмам кластеризации группировать данные так, чтобы аналогичные данные объединялись вместе. Такая кластеризация позволяет использовать сценарии, такие как сегментация клиентов, что позволяет рекламодателям по-разному нацеливать своих клиентов в зависимости от их атрибутов.
  • Создание содержимого:
    • Создайте человеческий текст для таких приложений, как чат-боты, создание романа или поэзии и распознавание естественного языка.
    • Создавайте реалистичные изображения, произведения искусства или конструкции для графики, развлечений и рекламы.
    • Создание видео, анимаций или эффектов видео для фильмов, игр и маркетинга.
    • Создайте музыку.
  • Перевод:
    • Переводят текст с одного языка на другой.
  • Уплотнения:
    • Сводка длинных статей или документов для извлечения ключевых сведений.
  • Расширение данных:
    • Создание дополнительных примеров данных для расширения и улучшения наборов данных обучения для моделей машинного обучения.
    • Создайте искусственные данные для сценариев, которые трудно или дорого собирать в реальном мире, например медицинскую визуализацию.
  • Обнаружение наркотиков:
    • Создание молекулярных структур и прогнозирование потенциальных кандидатов лекарств для фармацевтических исследований.
  • Разработка игр:
    • Создайте игровое содержимое, включая уровни, символы и текстуры.
    • Создайте реалистичные игровые среды и пейзажи.
  • Очистка и восстановление данных:
    • Очистка шумных данных путем создания чистых примеров данных.
    • Заполните отсутствующие или неполные данные в наборах данных.