Хранилище данных

Статья
06/01/2023

Примечание.

Служба "Аналитика временных рядов" будет прекращена 7 июля 2024 года. Рассмотрите возможность переноса существующих сред в альтернативные решения как можно скорее. Дополнительные сведения об устаревании и миграции см. в нашей документации.

В данной статье приведены сведения о хранении данных в службе "Аналитика временных рядов Azure" 2-го поколения. Она охватывает горячее и холодное хранилища, доступность данных, а также содержит рекомендации.

Подготовка

При создании среды в службе "Аналитика временных рядов Azure" 2-го поколения можно использовать следующие варианты.

Хранилище холодных данных:
- Создайте новый ресурс службы хранилища Azure в подписке и регионе, выбранном для вашей среды.
- Подключите существующую учетную запись хранения Azure. Этот параметр доступен только при развертывании из шаблона Azure Resource Manager и не отображается в портале Azure.
Теплое хранилище данных:
- Горячий объем данных является необязательным и может быть включен или отключен во время подготовки или после него. Если вы решили включить горячее хранение позднее и в холодном хранилище уже есть данные, ознакомьтесь с этим разделом, чтобы понять ожидаемое поведение. Период хранения данных в горячем хранилище может составлять от 7 до 31 дня. При необходимости это значение можно изменить.

Когда событие принимается, оно индексируется как в горячем (если включено), так и в холодном хранилище.

Предупреждение

Владелец учетной записи хранения BLOB-объектов Azure, где находятся данные холодного хранилища, имеет полный доступ ко всем данным в учетной записи. В эти права доступа входят разрешения на запись и удаление. Не изменяйте и не удаляйте данные, записываемые службой "Аналитика временных рядов" 2-го поколения, так как это может привести к потере данных.

Доступность данных

Служба аналитики временных рядов 2-го поколения секционирует и индексирует данные для обеспечения оптимальной производительности запросов. После индексирования данные становятся доступными для запросов из горячего (если включено) и холодного хранилищ. Объем принимаемых данных и скорость пропускной способности для каждого раздела могут повлиять на доступность. Ознакомьтесь с ограничениями пропускной способности источника событий и рекомендациями по оптимизации производительности. Вы также можете настроить оповещение о задержке, чтобы получать уведомления, если в среде возникают проблемы при обработке данных.

Внимание

При работе может возникать 60-секундная задержка доступа к данным через API запроса временных рядов. Если уровень задержки значительно выше, отправьте запрос в службу поддержки на портале Azure.

В случае прямого доступа к файлам Parquet за пределами службы "Аналитика временных рядов Azure" 2-го поколения может возникать задержка доступа к данным до 5 минут. Дополнительные сведения см. в разделе Формат файла Parquet и структура папок.

Теплое хранилище

Данные в горячем хранилище доступны только посредством API запросов временных рядов, Обозреватель TSI службы "Аналитика временных рядов Azure" и Power BI Connector. Запросы к горячим данным освобождаются от оплаты, и квота отсутствует, но существует ограничение в 30 одновременных запросов.

Поведение горячего хранилища

Если этот параметр включен, все потоки данных, переданные в среду, будут направляться в горячее хранилище независимо от отметки времени события. Обратите внимание, что конвейер приема потоковой передачи создан для потоковой передачи практически в реальном времени и прием исторических событий не поддерживается.
Срок хранения вычисляется на основе того, когда событие было проиндексировано в горячем хранилище, а не на основе отметки времени события. Это означает, что после истечения срока хранения данные больше не будут доступны в горячем хранилище, даже если метка времени события относится к будущему.
- Пример. Событие с прогнозами погоды на 10 дней принимается и индексируется в контейнере горячего хранения, настроенном на период хранения в 7 дней. По истечении семи дней прогноз становится недоступным в теплом хранилище, но его еще можно запрашивать из холодного.
Если включить горячее хранение в существующей среде, в которой уже есть последние данные, индексированные в холодном хранилище, обратите внимание, что контейнер горячих данных не будет заполнен этими данными.
Если вы только что включили горячее хранение и столкнулись с проблемами при просмотре последних данных в обозревателе, можно временно отключить запросы на горячее хранение:

Холодное хранилище

В этом разделе приводятся сведения о службе хранилища Azure, относящиеся к Аналитике временных рядов 2-го поколения.

Подробное описание хранилища BLOB-объектов Azure см. в статье Общие сведения о хранилище BLOB-объектов Azure.

Учетная запись холодного хранения

В вашей учетной записи хранения Azure служба "Аналитика временных рядов" 2-го поколения сохраняет до двух копий каждого события. Одна копия хранит события, упорядоченные по времени приема, всегда разрешая доступ к событиям в упорядоченной по времени последовательности. Со временем служба "Аналитика временных рядов Azure" 2-го поколения также создает повторно секционированную копию данных для оптимизации производительности запросов.

Все данные хранятся неограниченное время в вашей учетной записи хранения Azure.

Предупреждение

Не ограничивайте доступ к Интернету для учетной записи хранения, используемой Аналитикой временных рядов, иначе необходимое подключение будет разорвано.

Запись и редактирование больших двоичных объектов

Чтобы обеспечить производительность и доступность данных, не изменяйте и не удаляйте BLOB-объекты, созданные с помощью службы "Аналитика временных рядов" 2-го поколения.

Доступ к данным холодного хранилища

Помимо доступа к данным из обозревателя службы "Аналитика временных рядов" 2-го поколения и API запросов временных рядов, вам также может потребоваться доступ к данным напрямую из файлов Parquet, хранящихся в холодном хранилище. Например, можно считывать, преобразовывать и очищать данные в записной книжке Jupyter, а затем использовать их для обучения модели Машинного обучения Azure в том же рабочем процессе Spark.

Для доступа к данным напрямую из учетной записи хранения Azure необходим доступ на чтение к учетной записи, используемой для хранения данных службой "Аналитика временных рядов" 2-го поколения. Затем можно считывать выбранные данные на основе времени создания файла Parquet, расположенного в папке PT=Time, описанной ниже в разделе Формат файла Parquet. Дополнительные сведения о включении доступа на чтение для учетной записи хранения см. в статье об управлении доступом к ресурсам учетной записи хранения.

Удаление данных

Не удаляйте файлы службы "Аналитика временных рядов Azure" 2-го поколения. Управляйте связанными данными только средствами службы "Аналитика временных рядов Azure" 2-го поколения.

Формат файла Parquet и структура папок

Parquet — это формат столбца с открытым исходным кодом, предназначенный для эффективного хранения и производительности. Служба "Аналитика временных рядов Azure" 2-го поколения использует Parquet для масштабного включения производительности запросов на основе идентификатора.

Дополнительные сведения о типе файла Parquet см. в документации по Parquet.

Служба "Аналитика временных рядов Azure" 2-го поколения сохраняет копии данных следующим образом.

Папка PT=Time секционируется по времени приема и сохраняет данные в примерном порядке поступления. Вы можете получить к ним прямой доступ за пределами службы "Аналитика временных рядов Azure" 2-го поколения, например из записных книжек Spark. Метка времени <YYYYMMDDHHMMSSfff> соответствует времени приема данных. Объект <MinEventTimeStamp> и <MaxEventTimeStamp> соответствуют диапазону меток времени событий, включенных в файл. У пути и имени файла следующий формат:

V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<MinEventTimestamp>_<MaxEventTimestamp>_<TsiInternalSuffix>.parquet
Папки PT=Live и PT=Tsid содержат вторую копию данных, которые повторно секционированы для оптимизации запросов временных рядов в большом масштабе. Эти данные оптимизируются с течением времени и не являются статическими. Во время повторного секционирования некоторые события могут присутствовать в нескольких больших двоичных объектах, а имена больших двоичных объектов могут меняться. Эти папки используются службой "Аналитика временных рядов Azure" 2-го поколения, и к ним не должно быть прямого доступа. Для этой цели следует использовать только PT=Time.