你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

查询 Blob 内容

Query Blob Contents操作对 blob 的内容应用简单的 结构化查询语言 (SQL) 语句,并仅返回查询的数据子集。 还可以调用 Query Blob Contents 来查询版本或快照的内容。

请求

可以按如下所示构造 Query Blob Contents 请求。 建议使用 HTTPS。 将 myaccount 替换为存储帐户的名称。

POST 方法请求 URI HTTP 版本
https://myaccount.blob.core.windows.net/mycontainer/myblob?comp=query

https://myaccount.blob.core.windows.net/mycontainer/myblob?comp=query&snapshot=<DateTime>

https://myaccount.blob.core.windows.net/mycontainer/myblob?comp=query&versionid=<DateTime>
HTTP/1.0

HTTP/1.1

URI 参数

可以在请求 URI 上指定以下附加参数:

参数 说明
snapshot 可选。 快照 参数是一个不透明的DateTime值。 如果存在,则指定要查询的 blob 快照。 有关使用 Blob 快照的详细信息,请参阅创建 blob 的快照
versionid 可选版本 2019-12-12 及更高版本。 参数 versionid 是一个不透明的 DateTime 值。 如果存在,则指定要检索的 Blob 的版本。
timeout 可选。 timeout 参数以秒表示。 有关详细信息,请参阅 为 Blob 存储操作设置超时

请求标头

下表介绍了必需请求标头和可选请求标头:

请求标头 说明
Authorization 必需。 指定身份验证方案、帐户名和签名。 有关详细信息,请参阅授权对 Azure 存储的请求
Datex-ms-date 必需。 指定请求的协调世界时 (UTC)。 有关详细信息,请参阅授权对 Azure 存储的请求
x-ms-version 对于所有验证的请求是必需的,对于匿名请求是可选的。 指定用于此请求的操作的版本。 有关详细信息,请参阅 Azure 存储服务的版本控制
Content-Type 必需。 此标头的值应为 application/xml; charset=UTF-8
x-ms-lease-id:<ID> 可选。 如果指定了此标头,只有在符合下面的两个条件时,才会执行此操作:

- Blob 的租约当前处于活动状态。
- 请求中指定的租约 ID 与 Blob 的租约 ID 匹配。

如果指定了此标头并且不符合这两个条件,请求将失败,并且Query Blob Contents 操作失败并返回状态代码 412(前提条件失败)。
Origin 可选。 指定从中发出请求的来源。 存在此标头会导致响应上的跨域资源共享 (CORS) 标头。
x-ms-client-request-id 可选。 提供客户端生成的不透明值,其中包含 1-kiB (KiB) 配置日志记录时记录在日志中的字符限制。 强烈建议使用此标头将客户端活动与服务器接收的请求相关联。

此操作还支持仅当满足指定条件时才使用条件标头来查询 Blob 内容。 有关详细信息,请参阅 为 Blob 存储操作指定条件标头

请求正文

此版本的 Query Blob Contents 请求正文使用以下 XML 格式:

<?xml version="1.0" encoding="utf-8"?>  
<QueryRequest>
  <QueryType>String</QueryType>
  <Expression>String</Expression>
  <InputSerialization>
    <Format>
      <Type>String</Type>
          <DelimitedTextConfiguration>
            <ColumnSeparator>String</ColumnSeparator>
            <FieldQuote>String</FieldQuote>
            <RecordSeparator>String</RecordSeparator>
            <EscapeChar>String</EscapeChar>
            <HasHeaders>Boolean</HasHeaders>
          </DelimitedTextConfiguration>
          <JsonTextConfiguration>
            <RecordSeparator>String</RecordSeparator>
          </JsonTextConfiguration>
    </Format>
  </InputSerialization>
  <OutputSerialization>
    <Format>
      <Type>String</Type>
      <DelimitedTextConfiguration>
        <ColumnSeparator>String</ColumnSeparator >
        <FieldQuote>String</FieldQuote >
        <RecordSeparator>String</RecordSeparator>
        <EscapeChar>String</EscapeChar>
        <HasHeaders>Boolean</HasHeaders>
      </DelimitedTextConfiguration>
      <JsonTextConfiguration>
        <RecordSeparator>String</RecordSeparator>
      </JsonTextConfiguration>
      <ArrowConfiguration>
        <Schema>
            <Field>
                <Type>String</Type>
                <Name>String</Name>
            </Field>
            <Field>
                <Type>String</Type>
            </Field>
                .
                .
                .
            <Field>
                <Type>String</Type>
                <Precision>Integer</Precision>
                <Scale>Integer</Scale>
            </Field>
        </Schema>
      </ArrowConfiguration>
    </Format>
  </OutputSerialization>
</QueryRequest>

下表说明了请求正文的元素:

元素名称 说明
QueryRequest 必需。 对查询请求设置集进行分组。
QueryType 必需。 指示提供的查询表达式的类型。 当前版本的唯一有效值是 SQL
Expression 必需。 指示 SQL 中的查询表达式。 查询表达式的最大大小为 256 KiB。 有关表达式语法的详细信息,请参阅 查询加速:SQL 语言参考
InputSerialization 可选。 对有关 Blob 内容的输入序列化的设置进行分组。 如果未指定,则使用带分隔符的文本配置。
Format 如果指定了 InputSerialization,则该参数是必需的。 对有关 Blob 数据格式的设置进行分组。
Type 如果指定了 InputSerialization,则该参数是必需的。 指示格式类型。 有效值为 delimitedcsvjson
DelimitedTextConfiguration 可选。 如果 Blob 采用带分隔符的文本设置格式,则对用于解释 Blob 数据的设置进行分组。
ColumnSeparator 可选。 指示用于分隔列的字符串。
FieldQuote 可选。 指示用于引用特定字段的字符串。
RecordSeparator 可选。 指示用于分隔记录的字符串。
EscapeChar 可选。 指示用作转义字符的字符串。
HasHeaders 可选。 指定一个 Boolean 类型的值,该值表示数据是否具有标头。
JsonTextConfiguration 可选。 如果 Blob 采用 JSON 格式,则对用于解释 Blob 数据的设置进行分组。
RecordSeparator 可选。 指示用于分隔记录的字符串。
OutputSerialization 可选。 指示响应中返回的 Blob 的筛选内容的序列化格式。 如果未指定,则使用带分隔符的文本配置。
Format 如果指定了 OutputSerialization,则该参数是必需的。 对有关返回的响应格式的设置进行分组。
Type 如果指定了 OutputSerialization,则该参数是必需的。 指示格式类型。 有效值为 delimitedcsvjsonarrow
DelimitedTextConfiguration 可选。 如果响应应使用带分隔符的文本设置格式,则对用于设置响应格式的设置进行分组。
ColumnSeparator 可选。 指示用于分隔列的字符串。
FieldQuote 可选。 指示用于引用特定字段的字符串。
RecordSeparator 可选。 指示用于分隔记录的字符串。
EscapeChar 可选。 指示用作转义字符的字符串。
HasHeaders 可选。 指定一个 Boolean 类型的值,该值表示数据是否具有标头。
JsonTextConfiguration 可选。 如果响应应采用 JSON 格式,则对用于设置响应格式的设置进行分组。
RecordSeparator 可选。 指示用于分隔记录的字符串。
ArrowConfiguration 可选。 如果响应应采用箭头格式,则对用于设置响应格式的设置进行分组。
Schema 如果指定了 ArrowConfiguration,则该参数是必需的。 对有关返回的箭头响应架构的设置进行分组。
Field 可选。 对有关特定字段的设置进行分组。
Type 如果指定了 Field,则该参数是必需的。 指示字段类型。 有效值为 IntFloatDecimalBool
Precision 可选。 指示字段的精度。
Scale 可选。 指示字段的刻度。

响应

响应包含 HTTP 状态代码、一组响应标头以及响应正文。 响应正文采用 Avro 二进制格式。 由于响应内容长度未知,因此响应使用分块编码进行流式传输。

状态代码

如果查询请求格式正确且已授权,则操作返回状态代码 202 (“已接受”) 。 响应流式处理期间遇到的任何错误或进度消息都将作为响应正文的一部分返回。

有关状态代码的信息,请参阅 状态和错误代码

响应头

此操作的响应包括以下标头。 响应可能还包括其他标准 HTTP 标头。 所有标准标头都符合 HTTP/1.1 协议规范

语法 说明
Last-Modified 指示 Blob 上次修改的日期/时间。 日期格式遵循 RFC 1123。

任何修改 Blob 的操作(包括 Blob 元数据或属性更新)都会更改 Blob 的上次修改时间。
Content-Type 指定返回的结果所采用的格式。 目前,此值为 avro/binary
ETag 包含可用于有条件地执行操作的值。 有关详细信息,请参阅 为 Blob 存储操作指定条件标头。 如果请求版本为 2011-08-18 或更高版本,则 ETag 该值在引号中。
Content-Encoding 返回为 Content-Encoding 请求标头指定的值。
Content-Language 返回为 Content-Language 请求标头指定的值。
Cache-Control 如果以前为 Blob 指定了此标头,则返回 。
Content-Disposition 针对版本 2013-08-15 和更高版本的请求将返回此标头。 此标头返回为 x-ms-blob-content-disposition 标头指定的值。

响应 Content-Disposition 标头字段传达了有关如何处理响应有效负载的其他信息。 还可以使用响应标头字段附加其他元数据。 例如,如果响应标头字段设置为 attachment,则用户代理不应显示响应。 相反,它应显示一个 “另存为 ”对话框,其中包含指定的 Blob 名称以外的文件名。
x-ms-blob-type: <BlockBlob> 返回 Blob 的类型。
x-ms-request-id 唯一标识发出的请求。 可以使用它对请求进行故障排除。 有关详细信息,请参阅 API 操作疑难解答
x-ms-version 指示用于执行请求的Azure Blob 存储的版本。 包含于使用版本 2009-09-19 及更高版本发出的请求。

如果容器标记为使用 2009-09-19 版本的 Blob 存储进行公共访问,则对于未指定版本的匿名请求也返回此标头。
Date 一个 UTC 日期/时间值,该值指示服务发送响应的时间。
Access-Control-Allow-Origin 如果请求包含 Origin 标头并且通过匹配的规则启用了 CORS,则返回此标头。 如果存在匹配项,此标头返回原始请求标头的值。
Access-Control-Expose-Headers 如果请求包含 Origin 标头并且通过匹配的规则启用了 CORS,则返回此标头。 此标头返回将公开给请求的客户端或颁发者的响应标头列表。
Vary 如果指定了 CORS 规则,则随 Origin 标头的值一起返回此标头。 有关详细信息,请参阅 CORS 对 Azure 存储的支持
Access-Control-Allow-Credentials 如果请求包含 Origin 标头,并且启用了 CORS 并启用了不允许所有源的匹配规则,则返回 。 此标头设置为 true
x-ms-blob-committed-block-count 指示 Blob 中存在的已提交块数。 仅针对追加 Blob 返回此标头。
x-ms-server-encrypted: true/false 版本 2015-12-11 或更高版本。 如果 Blob 数据和应用程序元数据通过指定的算法完全加密,则此标头的值设置为 true 。 如果 Blob 未加密,或者仅加密 Blob/应用程序元数据的一部分,则值设置为 false

响应正文

响应正文包含以 Avro 二进制格式作为一系列消息发送的 blob 的筛选内容。 它使用以下架构:

{
    "type": "record",
    "name": "com.microsoft.azure.storage.queryBlobContents.resultData",
    "doc": "Holds result data in the format specified for this query (CSV, JSON, etc.).",
    "fields": [
      {
        "name": "data",
        "type": "bytes"
      }
    ]
  },
  {
    "type": "record",
    "name": "com.microsoft.azure.storage.queryBlobContents.error",
    "doc": "An error that occurred while processing the query.",
    "fields": [
      {
        "name": "fatal",
        "type": "boolean",
        "doc": "If true, this error prevents further query processing.  More result data may be returned, but there is no guarantee that all of the original data will be processed.  If false, this error does not prevent further query processing."
      },
      {
        "name": "name",
        "type": "string",
        "doc": "The name of the error"
      },
      {
        "name": "description",
        "type": "string",
        "doc": "A description of the error"
      },
      {
        "name": "position",
        "type": "long",
        "doc": "The blob offset at which the error occurred"
      }
    ]
  },
  {
    "type": "record",
    "name": "com.microsoft.azure.storage.queryBlobContents.progress",
    "doc": "Information about the progress of the query",
    "fields": [
      {
        "name": "bytesScanned",
        "type": "long",
        "doc": "The number of bytes that have been scanned"
      },
      {
        "name": "totalBytes",
        "type": "long",
        "doc": "The total number of bytes to be scanned in this query"
      }
    ]
  },
  {
    "type": "record",
    "name": "com.microsoft.azure.storage.queryBlobContents.end",
    "doc": "Sent as the final message of the response, indicating that all results have been sent.",
    "fields": [
      {
        "name": "totalBytes",
        "type": "long",
        "doc": "The total number of bytes to be scanned in this query"
      }
    ]
  }
]

示例响应

      "StatusCode": 200,
      "ResponseHeaders": {
        "Content-Type": "avro/binary",
        "Date": "Fri, 24 Apr 2020 20:25:42 GMT",
        "ETag": "\u00220x8D7E88DA9C0A75B\u0022",
        "Last-Modified": "Fri, 24 Apr 2020 20:25:43 GMT",
        "Transfer-Encoding": "chunked",
        "x-ms-blob-type": "BlockBlob",
        "x-ms-client-request-id": "f6d1983c-55e5-9f95-6d3d-80d74862d99e",
        "x-ms-creation-time": "Fri, 24 Apr 2020 20:25:43 GMT",
        "x-ms-lease-state": "available",
        "x-ms-lease-status": "unlocked",
        "x-ms-request-id": "46c09ab1-b01e-0001-1076-1acef2000000",
        "x-ms-version": "2019-12-12"
	},
	"ResponseBody":{...}
  

授权

在 Azure 存储中调用任何数据访问操作时,都需要授权。 可以如下所述授权 Query Blob Contents 操作。

Azure 存储支持使用 Microsoft Entra ID 授权对 Blob 数据的请求。 使用 Microsoft Entra ID,可以使用 Azure 基于角色的访问控制 (Azure RBAC) 向安全主体授予权限。 安全主体可以是用户、组、应用程序服务主体或 Azure 托管标识。 安全主体由 Microsoft Entra ID 进行身份验证,以返回 OAuth 2.0 令牌。 然后可以使用令牌来授权对 Blob 服务发出请求。

若要详细了解如何使用Microsoft Entra ID授权,请参阅使用 Microsoft Entra ID 授权访问 blob

权限

下面列出了Microsoft Entra用户、组或服务主体调用Query Blob Contents操作所需的 RBAC 操作,以及包含此操作的最低特权内置 Azure RBAC 角色:

若要详细了解如何使用 Azure RBAC 分配角色,请参阅 分配 Azure 角色以访问 Blob 数据

注解

  • Query Blob Contents 操作仅在类型 BlockBlob 上受支持。
  • 此版本的 API 不支持查询使用客户提供的密钥加密的 Blob 的内容。
  • 启用 基础结构加密 的帐户中的 Blob 不支持此操作。
  • 检索属于私有容器的 Blob 需要 x-ms-version 标头。 如果 Blob 属于可用于完全或部分公共访问的容器,则任何客户端都可以读取它,而无需指定版本。 检索属于公共容器的 Blob 不需要服务版本。 有关详细信息,请参阅限制对容器和 Blob 的访问
  • 可以使用 操作 Query Blob Contents 仅查询具有分隔符/CSV 或 JSON 格式的对象。

计费

定价请求可以源自使用 Blob 存储 API 的客户端,可以直接通过 Blob 存储 REST API 或 Azure 存储客户端库。 这些请求按事务产生费用。 事务类型会影响帐户的计费方式。 例如,读取事务应计为与写入事务不同的计费类别。 下表显示了基于存储帐户类型的请求的计费类别 Query Blob Contents

操作 存储帐户类型 计费类别
查询 Blob 内容 高级块 blob
标准常规用途 v2
读取操作1

1除了读取费用外,帐户还会产生 查询加速 - 数据扫描查询加速 - 数据返回 事务类别的费用。 这些类别的定价显示在Azure Data Lake Storage定价页上。

另请参阅

授权对 Azure 存储状态的请求和错误代码Blob 存储错误代码设置 Blob 存储操作的超时查询加速:SQL 语言参考