Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
ОБЛАСТЬ ПРИМЕНЕНИЯ: База данных Azure для PostgreSQL — гибкий сервер
Сгенерированный ИИ относится к классу алгоритмов ИИ, которые могут учиться на существующем мультимедийном контенте и создавать новое содержимое. Созданный контент можно настроить с помощью таких методов, как запросы и настройка. Алгоритмы создания ИИ применяют определенные модели машинного обучения:
- Преобразователи и повторяющиеся нейронные сети (RNN) для создания текста
- Генеративные состязательные сети (GANs) и вариационные автокодировщики (VAEs) для генерации изображений
Сгенерированный ИИ используется в области синтеза изображений и музыки и в здравоохранении, а также распространенных задач, таких как автозавершение текста, сводка текста и перевод. Методы создания искусственного интеллекта позволяют использовать такие функции, как кластеризация и сегментация, семантический поиск и рекомендации, моделирование тем, ответы на вопросы и обнаружение аномалий.
В следующем видео показано использование генерируемого искусственного интеллекта с базой данных Azure для PostgreSQL и pgvector
расширением, которое поможет вам понять основные понятия, описанные в этой статье.
Открытый ИИ
OpenAI — это исследовательская организация и технологическая компания, известная своей пионерской работой в области искусственного интеллекта и машинного обучения. Его миссия заключается в том, чтобы гарантировать, что искусственный общий интеллект (AGI), под которым понимаются высокоавтономные системы ИИ, способные превосходить людей в большинстве экономически ценной работы, приносит пользу всему человечеству. OpenAI принес на рынок современные модели создания, такие как GPT-3, GPT-3.5 и GPT-4.
Azure OpenAI — это служба Майкрософт, помогающая создавать созданные приложения ИИ с помощью Azure. Azure OpenAI предоставляет клиентам расширенные языковые модели ИИ с помощью OpenAI GPT-4, GPT-3, Codex, DALL-E и моделей Whisper с поддержкой безопасности и корпоративных возможностей Azure. Azure OpenAI совместно разрабатывает API с OpenAI, чтобы обеспечить совместимость и плавный переход с одного на другое.
С помощью Azure OpenAI клиенты получают возможности безопасности Microsoft Azure, выполняя те же модели, что и OpenAI. Azure OpenAI предлагает частные сети, региональную доступность и фильтрацию содержимого ИИ.
Дополнительные сведения о службе Azure OpenAI.
Большая языковая модель
Большая языковая модель (LLM) — это тип модели искусственного интеллекта, которая обучается на больших объемах текстовых данных для понимания и создания человеческого языка. LLM обычно основаны на архитектуре глубокого обучения, таких как преобразователи. Они известны своей способностью выполнять широкий спектр задач понимания и генерации естественного языка. Служба Azure OpenAI и ChatGPT OpenAI являются примерами предложений LLM.
К ключевым характеристикам и возможностям LLM относятся:
- Масштаб: масштаб LLM огромен, с точки зрения количества параметров, используемых их архитектуры. Модели, такие как GPT-3, содержат от сотен миллионов до триллионов параметров, что позволяет им записывать сложные шаблоны на языке.
- Предварительная подготовка: LLM проходят предварительную обучение в большом корпусе текстовых данных из Интернета. Эта предварительная подготовка позволяет им изучать грамматику, синтаксис, семантику и широкий спектр знаний о языке и мире.
- Предварительная настройка. После предварительной подготовки модули LLM можно настроить для определенных задач или доменов с меньшими наборами данных для конкретных задач. Этот процесс тонкой настройки позволяет им адаптироваться к более специализированным задачам, таким как классификация текста, перевод, сводка и ответы на вопросы.
GPT
GPT расшифровывается как Generative Pretrained Transformer, и это серия крупных языковых моделей, разработанных OpenAI. Модели GPT — это нейронные сети, которые предварительно обучены на огромных объемах данных из Интернета, поэтому они способны понять и создать человеческий текст.
Ниже приведен обзор основных моделей GPT и их ключевых характеристик:
GPT-3: выпущена в июне 2020 г. и хорошо известная модель в серии GPT. Он имеет 175 миллиардов параметров, что делает его одним из крупнейших и самых мощных языковых моделей в существовании.
GPT-3 достигла замечательной производительности на широком спектре задач распознавания естественного языка и создания. Он может выполнять такие задачи, как завершение текста, перевод и ответы на вопросы с человеческой точностью.
GPT-3 делится на различные размеры модели, начиная от наименьших (125 миллионов параметров) до крупнейших (175 миллиардов параметров).
GPT-4: последняя модель GPT из OpenAI. Он имеет 1,76 триллиона параметров.
Векторы
Вектор — это математическая концепция, используемая в линейной алгебре и геометрии для представления значений, имеющих как величину, так и направление. В контексте машинного обучения векторы часто используются для представления точек данных или функций.
К ключевым атрибутам и операциям векторов относятся:
- Величина: длина или размер вектора, часто обозначаемая как ее норма, представляет величину данных. Это не отрицательное реальное число.
- Направление: направление указывает ориентацию или угол количества, которое он представляет, в отношении эталонной точки или системы координат.
-
Компоненты: вектор может быть разложен на его компоненты по разным осям или измерениям. В 2D-декартовой системе координат вектор может быть представлен как (x, y), где x и y являются его компонентами вдоль оси x и y соответственно. Вектор в n измерениях — это n-кортеж (
{x1, x2… xn}
). - Добавление и скалярное умножение: векторы можно добавить вместе для формирования новых векторов, и их можно умножить на скалярные (реальные числа).
- Dot products and cross-products: Vectors можно объединить с помощью dot products (скалярных продуктов) и кросс-продуктов (векторных продуктов).
Векторные базы данных
Векторная база данных, также известная как векторная система управления базами данных (СУБД), — это тип системы базы данных, которая предназначена для эффективного хранения, управления и запросов векторных данных. Традиционные реляционные базы данных в основном обрабатывают структурированные данные в таблицах, в то время как векторные базы данных оптимизированы для хранения и извлечения многомерных точек данных, представленных в виде векторов. Эти базы данных полезны для приложений, где используются такие операции, как поиск сходства, геопространственные данные, системы рекомендаций и кластеризация.
К ключевым характеристикам векторных баз данных относятся:
- Векторное хранилище: векторные базы данных хранят точки данных в виде векторов с несколькими измерениями. Каждое измерение представляет функцию или атрибут точки данных. Эти векторы могут представлять широкий спектр типов данных, включая числовые, категориальные и текстовые данные.
- Эффективные векторные операции: базы данных векторов оптимизированы для выполнения векторных операций, таких как добавление вектора, вычитание, точечная продукция и вычисления сходства (например, косинусное сходство или расстояние Евклиида).
- Эффективный поиск: эффективные механизмы индексирования важны для быстрого извлечения аналогичных векторов. Векторные базы данных используют различные механизмы индексирования для быстрого извлечения.
- Языки запросов: векторные базы данных предоставляют языки запросов и API, которые предназначены для операций векторов и поиска сходства. Эти языки запросов позволяют пользователям эффективно выражать свои критерии поиска.
- Поиск сходства: векторные базы данных превосходно справляются с поиском сходства, позволяя пользователям находить точки данных, похожие на указанную точку запроса. Эта характеристика ценна в системах поиска и рекомендаций.
- Обработка геопространственных данных: некоторые векторные базы данных предназначены для геопространственных данных, поэтому они хорошо подходят для таких приложений, как службы на основе расположения, географические информационные системы (GIS) и задачи, связанные с картой.
- Поддержка различных типов данных: векторные базы данных могут хранить и управлять различными типами данных, такими как векторы, изображения и текст.
PostgreSQL может получить возможности векторной базы данных с помощью pgvector
расширения.
Внедрение
Внедрение — это концепция машинного обучения и обработки естественного языка, которая включает в себя представление объектов (таких как слова, документы или сущности) в виде векторов в многомерном пространстве.
Эти векторы часто являются плотными. То есть они имеют большое количество измерений. Они изучаются с помощью различных методов, включая нейронные сети. Внедрение стремится фиксировать семантические связи и сходство между объектами в непрерывном векторном пространстве.
Распространенные типы внедрения включают:
-
Word: при обработке естественного языка внедренные слова представляют слова в виде векторов. Каждое слово сопоставляется с вектором в высокомерном пространстве, где слова с аналогичными значениями или контекстами находятся ближе друг к другу.
Word2Vec
иGloVe
являются популярными методами встраивания слов. -
Документ: Эмбеддинги представляют документы в виде векторов.
Doc2Vec
популярен для создания векторных представлений документов. - Изображение: изображения можно представить как внедренные элементы для записи визуальных функций для таких задач, как распознавание объектов.
Внедрение является центральным для представления сложных высокомерных данных в форме, которую модели машинного обучения могут легко обрабатывать. Их можно обучить на больших наборах данных, а затем использовать в качестве функций для различных задач. ММЯ используют их.
PostgreSQL может получить возможности создания векторных внедрения с помощью интеграции с расширением Azure AI OpenAI.
Сценарии
Сгенерированный ИИ имеет широкий спектр приложений в различных областях и отраслях, включая технологии, здравоохранение, развлечения, финансы, производство и многое другое. Ниже приведены некоторые распространенные задачи, которые пользователи могут выполнять с помощью генерного ИИ:
-
Семантический поиск:
- Сгенерированный ИИ обеспечивает семантический поиск данных, а не лексикографический поиск. Последний ищет точные совпадения с запросами, в то время как семантический поиск находит содержимое, которое удовлетворяет намерению поискового запроса.
- Чат-боты и виртуальные помощники:
- Разработка чат-ботов, которые могут участвовать в естественных беседах с учетом контекста; Например, для реализации самостоятельной помощи клиентам.
- Системы рекомендаций:
- Улучшение алгоритмов рекомендаций путем создания внедренных элементов или представлений элементов или пользователей.
- Кластеризация и сегментация:
- Внедрения, создаваемые генеративным ИИ, позволяют алгоритмам кластеризации группировать данные так, чтобы аналогичные данные объединялись вместе. Такая кластеризация позволяет использовать сценарии, такие как сегментация клиентов, что позволяет рекламодателям по-разному нацеливать своих клиентов в зависимости от их атрибутов.
- Создание содержимого:
- Создайте человеческий текст для таких приложений, как чат-боты, создание романа или поэзии и распознавание естественного языка.
- Создавайте реалистичные изображения, произведения искусства или конструкции для графики, развлечений и рекламы.
- Создание видео, анимаций или эффектов видео для фильмов, игр и маркетинга.
- Создайте музыку.
- Перевод:
- Переводят текст с одного языка на другой.
- Уплотнения:
- Сводка длинных статей или документов для извлечения ключевых сведений.
- Расширение данных:
- Создание дополнительных примеров данных для расширения и улучшения наборов данных обучения для моделей машинного обучения.
- Создайте искусственные данные для сценариев, которые трудно или дорого собирать в реальном мире, например медицинскую визуализацию.
- Обнаружение наркотиков:
- Создание молекулярных структур и прогнозирование потенциальных кандидатов лекарств для фармацевтических исследований.
- Разработка игр:
- Создайте игровое содержимое, включая уровни, символы и текстуры.
- Создайте реалистичные игровые среды и пейзажи.
- Очистка и восстановление данных:
- Очистка шумных данных путем создания чистых примеров данных.
- Заполните отсутствующие или неполные данные в наборах данных.
Связанный контент
- Интеграция Базы данных Azure для PostgreSQL с Azure Cognitive Services
- Создание ИИ с помощью Базы данных Azure для PostgreSQL
- Интеграция Базы данных Azure для PostgreSQL с Машинным обучением Azure
- Создание векторных вложений с помощью Azure OpenAI в Базе данных Azure для PostgreSQL
- Расширение ИИ Azure в Базе данных Azure для PostgreSQL
- Создание системы рекомендаций с помощью Базы данных Azure для PostgreSQL и Azure OpenAI
- Создание семантического поиска с помощью Базы данных Azure для PostgreSQL и Azure OpenAI
- Включение и использование pgvector в Базе данных Azure для PostgreSQL