Compartir a través de


OpenDatasetBase Clase

Abra Clase base de conjunto de datos para heredar.

Crear conjuntos de datos abiertos.

Constructor

OpenDatasetBase(cols: List[str] | None = None, enable_telemetry: bool = True, **kwargs)

Parámetros

Nombre Description
cols

Lista de nombres de columnas que se van a cargar desde el conjunto de datos, el valor predeterminado es Ninguno.

Valor predeterminado: None
enable_telemetry

Si se habilita la telemetría en este conjunto de datos, el valor predeterminado es True.

Valor predeterminado: True
kwargs
Requerido

argumentos para el filtro

Métodos

get_file_dataset

Obtenga el conjunto de datos de archivo para abrir el conjunto de datos.

get_tabular_dataset

Inicialice AbstractTabularOpenDataset con la dirección URL del blob.

to_pandas_dataframe

Para trama de datos pandas.

to_spark_dataframe

Para spark dataframe.

get_file_dataset

Obtenga el conjunto de datos de archivo para abrir el conjunto de datos.

get_file_dataset(start_date: datetime = None, end_date: datetime = None, enable_telemetry: bool = True, **kwargs) -> FileDataset

Parámetros

Nombre Description
cls
Requerido

clase actual

start_date
Requerido

fecha de inicio, el valor predeterminado es Ninguno

end_date
Requerido

fecha de finalización, el valor predeterminado es Ninguno.

enable_telemetry
Requerido

habilitar la telemetría o no, el valor predeterminado es True.

Devoluciones

Tipo Description

conjunto de datos de archivos

get_tabular_dataset

Inicialice AbstractTabularOpenDataset con la dirección URL del blob.

get_tabular_dataset(start_date: datetime = None, end_date: datetime = None, cols: List[str] = None, enable_telemetry: bool = True, **kwargs) -> TabularDataset

Parámetros

Nombre Description
cls
Requerido

nombre de tipo del conjunto de datos abierto.

start_date
Requerido

Fecha de inicio que se va a consultar de forma inclusiva.

end_date
Requerido

Fecha de finalización que se va a consultar de forma inclusiva.

cols
Requerido

Lista de nombres de columna que se van a recuperar. Ninguno obtendrá todas las columnas.

enable_telemetry
Requerido

Si se habilita la telemetría, deshabilitada solo para UT.

Devoluciones

Tipo Description

Conjunto de Datos Tabulares

to_pandas_dataframe

Para trama de datos pandas.

to_pandas_dataframe() -> DataFrame

to_spark_dataframe

Para spark dataframe.

to_spark_dataframe()

Atributos

cols

Obtenga la lista de nombres de columna que se va a recuperar.

data

Obtenga los datos del objeto OpenDataset.

id

Obtenga el identificador de ubicación de los datos abiertos.

log_properties

Obtiene las propiedades del registro.

registry_id

Obtenga el identificador del Registro de este conjunto de datos público registrado en el back-end.

Este identificador del Registro se usa para obtener metadatos más recientes, como la ubicación de almacenamiento. Espere que todas las sub clases secundarias de datos públicos asignen _registry_id.

Devoluciones

Tipo Description
str

Cadena de identificador del Registro.

time_column_name

Nombre de columna de hora.