Compartir a través de


OpenDatasetBase Clase

Abre la clase base del conjunto de datos para heredar.

Construya conjuntos de datos abiertos.

Herencia
OpenDatasetBase

Constructor

OpenDatasetBase(cols: List[str] | None = None, enable_telemetry: bool = True, **kwargs)

Parámetros

cols
list[str]
valor predeterminado: None

Lista de nombres de columnas que se van a cargar desde el conjunto de datos, el valor predeterminado es None.

enable_telemetry
bool
valor predeterminado: True

Si se habilita la telemetría en este conjunto de datos, el valor predeterminado es True.

kwargs
dict
Requerido

argumentos para el filtro

Métodos

get_file_dataset

Obtiene el conjunto de datos de archivo para el conjunto de datos abierto.

get_tabular_dataset

Inicialice AbstractTabularOpenDataset con la dirección URL del blob.

to_pandas_dataframe

Para trama de datos de Pandas.

to_spark_dataframe

Para trama de datos de Spark.

get_file_dataset

Obtiene el conjunto de datos de archivo para el conjunto de datos abierto.

get_file_dataset(start_date: datetime = None, end_date: datetime = None, enable_telemetry: bool = True, **kwargs) -> FileDataset

Parámetros

cls
type
Requerido

clase actual

start_date
datetime
Requerido

fecha de inicio, el valor predeterminado es None

end_date
datetime
Requerido

fecha de finalización, el valor predeterminado es None

enable_telemetry
bool
Requerido

habilitar telemetría o no, el valor predeterminado es True

Devoluciones

conjunto de datos de archivo

Tipo de valor devuelto

get_tabular_dataset

Inicialice AbstractTabularOpenDataset con la dirección URL del blob.

get_tabular_dataset(start_date: datetime = None, end_date: datetime = None, cols: List[str] = None, enable_telemetry: bool = True, **kwargs) -> TabularDataset

Parámetros

cls
type
Requerido

nombre de tipo del conjunto de datos abierto.

start_date
datetime
Requerido

Fecha de inicio que se consulta de forma inclusiva.

end_date
datetime
Requerido

Fecha de finalización que se consulta de forma inclusiva.

cols
list[str]
Requerido

Lista de nombres de columna que se recuperarán. El valor None obtendrá todas las columnas.

enable_telemetry
bool
Requerido

Si se habilita la telemetría, se deshabilita solo para UT.

Devoluciones

TabularDataset

Tipo de valor devuelto

to_pandas_dataframe

Para trama de datos de Pandas.

to_pandas_dataframe() -> DataFrame

to_spark_dataframe

Para trama de datos de Spark.

to_spark_dataframe()

Atributos

cols

Obtiene la lista de nombres de columna que se recuperará.

data

Obtiene los datos del objeto OpenDataset.

id

Obtiene el identificador de ubicación de los datos abiertos.

log_properties

Obtiene las propiedades del registro.

registry_id

Obtiene el identificador del registro de este conjunto de datos público registrado en el back-end.

Este identificador del registro se usa para obtener los metadatos más recientes, como la ubicación de almacenamiento. Se espera que todas las subclases de datos públicas asignen _registry_id.

Devoluciones

Cadena de identificador del registro.

Tipo de valor devuelto

str

time_column_name

Nombre de la columna de hora.