분석 테이블

적용 대상:check marked yes Databricks SQL check marked yes Databricks 런타임

이 문은 ANALYZE TABLE 지정된 스키마의 특정 테이블 또는 모든 테이블에 대한 통계를 수집합니다. 이러한 통계는 쿼리 최적화 프로그램에서 최적의 쿼리 계획을 생성하는 데 사용됩니다. 데이터 변경으로 인해 오래된 통계가 될 수 있으므로 이러한 통계는 쿼리에 직접 응답하는 데 사용되지 않습니다. 부실 통계는 쿼리 계획을 만들 때 쿼리 최적화 프로그램에서 여전히 유용합니다.

구문

ANALYZE TABLE table_name [ PARTITION clause ]
    COMPUTE [ DELTA ] STATISTICS [ NOSCAN | FOR COLUMNS col1 [, ...] | FOR ALL COLUMNS ]

ANALYZE TABLES [ { FROM | IN } schema_name ] COMPUTE STATISTICS [ NOSCAN ]

매개 변수

  • table_name

    분석할 테이블을 식별합니다. 이름에 임시 사양 또는 경로가 포함되어서는 안됩니다. 테이블을 찾을 수 없는 경우 Azure Databricks는 TABLE_OR_VIEW_NOT_FOUND 오류를 발생시킵니다.

  • PARTITION 절

    필요에 따라 명령을 파티션의 하위 집합으로 제한합니다.

    이 절은 Delta Lake 테이블에 대해 지원되지 않습니다.

  • DELTA

    적용 대상:check marked yes Databricks Runtime 14.3 LTS 이상

    델타 테이블의 통계 수집에 대해 구성된 열에 대해 델타 로그에 저장된 통계를 다시 계산합니다.

    DELTA 키워드(keyword) 지정하면 쿼리 최적화 프로그램의 일반 통계가 수집되지 않습니다.

    Databricks는 테이블의 모든 행에 대한 통계를 업데이트하기 위해 데이터 건너뛰기용 새 열을 설정한 후 실행하는 ANALYZE TABLE table_name COMPUTE DELTA STATISTICS 것이 좋습니다. 최적화된 성능을 위해 델타 로그 업데이트가 완료된 후 쿼리 계획을 업데이트하려면 실행 ANALYZE TABLE table_name COMPUTE STATISTICS 합니다.

  • [ NOSCAN | FOR COLUMNS col [, …] | FOR ALL COLUMNS ]

    분석 옵션을 지정하지 않으면 ANALYZE TABLE에서 테이블의 행 수와 크기(바이트)를 수집합니다.

    • NOSCAN

      테이블의 크기(전체 테이블을 검색할 필요가 없음)만 바이트 단위로 수집합니다.

    • FOR COLUMNS col [, …] | FOR ALL COLUMNS

      지정된 각 열에 대한 열 통계를 수집하거나 테이블 통계뿐만 아니라 모든 열에 대한 통계를 수집합니다.

      열 통계는 PARTITION 절과 함께 지원되지 않습니다.

  • { FROM | IN } schema_name

    분석할 스키마의 이름을 지정합니다. 스키마 이름이 없으면 ANALYZE TABLES는 현재 사용자가 분석할 권한이 있는 현재 스키마의 모든 테이블을 수집합니다.

예제

> CREATE TABLE students (name STRING, student_id INT) PARTITIONED BY (student_id);
> INSERT INTO students PARTITION (student_id = 111111) VALUES ('Mark');
> INSERT INTO students PARTITION (student_id = 222222) VALUES ('John');

> ANALYZE TABLE students COMPUTE STATISTICS NOSCAN;

> DESC EXTENDED students;
             col_name            data_type comment
 -------------------- -------------------- -------
                 name               string    null
           student_id                  int    null
                  ...                  ...     ...
           Statistics            864 bytes
                  ...                  ...     ...

> ANALYZE TABLE students COMPUTE STATISTICS;

> DESC EXTENDED students;
             col_name            data_type comment
 -------------------- -------------------- -------
                 name               string    null
           student_id                  int    null
                  ...                  ...     ...
           Statistics    864 bytes, 2 rows
                  ...                  ...     ...

-- Note: ANALYZE TABLE .. PARTITION is not supported for Delta tables.
> ANALYZE TABLE students PARTITION (student_id = 111111) COMPUTE STATISTICS;

> DESC EXTENDED students PARTITION (student_id = 111111);
             col_name            data_type comment
 -------------------- -------------------- -------
                 name               string    null
           student_id                  int    null
                  ...                  ...     ...
 Partition Statistics    432 bytes, 1 rows
                  ...                  ...     ...
         OutputFormat org.apache.hadoop...

> ANALYZE TABLE students COMPUTE STATISTICS FOR COLUMNS name;

> DESC EXTENDED students name;
      info_name info_value
 -------------- ----------
       col_name       name
      data_type     string
        comment       NULL
            min       NULL
            max       NULL
      num_nulls          0
 distinct_count          2
    avg_col_len          4
    max_col_len          4
      histogram       NULL

> ANALYZE TABLES IN school_schema COMPUTE STATISTICS NOSCAN;
> DESC EXTENDED teachers;
             col_name            data_type comment
 -------------------- -------------------- -------
                 name               string    null
           teacher_id                  int    null
                  ...                  ...     ...
           Statistics           1382 bytes
                  ...                  ...     ...

> DESC EXTENDED students;
             col_name            data_type comment
 -------------------- -------------------- -------
                 name               string    null
           student_id                  int    null
                  ...                  ...     ...
           Statistics            864 bytes
                  ...                  ...     ...

> ANALYZE TABLES COMPUTE STATISTICS;
> DESC EXTENDED teachers;
             col_name            data_type comment
 -------------------- -------------------- -------
                 name               string    null
           teacher_id                  int    null
                  ...                  ...     ...
           Statistics   1382 bytes, 2 rows
                  ...                  ...     ...

> DESC EXTENDED students;
             col_name            data_type comment
 -------------------- -------------------- -------
                 name               string    null
           student_id                  int    null
                  ...                  ...     ...
           Statistics    864 bytes, 2 rows
                  ...                  ...     ...

> ANALYZE TABLE some_delta_table COMPUTE DELTA STATISTICS;