Not
Åtkomst till denna sida kräver auktorisation. Du kan prova att logga in eller byta katalog.
Åtkomst till denna sida kräver auktorisation. Du kan prova att byta katalog.
Det finns en mängd olika exempeldatauppsättningar som tillhandahålls av Azure Databricks och görs tillgängliga av tredje part som du kan använda på din Azure Databricks-arbetsyta.
Unity Catalog-datauppsättningar
Unity Catalog ger åtkomst till ett antal exempeldatauppsättningar i samples katalogen. Du kan granska dessa datauppsättningar i katalogutforskarens användargränssnitt och referera till dem direkt i en notebook-fil eller i SQL-redigeraren med hjälp <catalog-name>.<schema-name>.<table-name> av mönstret.
Schemat nyctaxi (även kallat en databas) innehåller tabellen trips, som innehåller information om taxiresor i New York City. Följande instruktion returnerar de första 10 posterna i den här tabellen:
SELECT * FROM samples.nyctaxi.trips LIMIT 10
Schemat tpch innehåller data från TPC-H Benchmark. Om du vill visa en lista över tabellerna i det här schemat kör du:
SHOW TABLES IN samples.tpch
Schemat tpcds_sf1 innehåller data från TPC-DS benchmark. Om du vill visa en lista över tabellerna i det här schemat kör du:
SHOW TABLES IN samples.tpcds_sf1;
Mer information om hur du använder den här datamängden för att utvärdera systemprestanda finns i Använda TPC-DS exempeldatauppsättning för att utvärdera systemprestanda.
Exempeldatauppsättningar från tredje part i CSV-format
Azure Databricks har inbyggda verktyg för att snabbt ladda upp exempeldatauppsättningar från tredje part som kommaavgränsade värden (CSV)-filer till Azure Databricks-arbetsytor. Några populära exempeldatauppsättningar från tredje part som är tillgängliga i CSV-format:
| Exempeldatauppsättning | Så här laddar du ned exempeldatauppsättningen som en CSV-fil... |
|---|---|
| Ekorreräkningen | På webbsidan Data klickar du på Parkera data, Ekorredata eller berättelser. |
| OWID-datauppsättningssamling | Klicka på mappen datamängder på GitHub-lagringsplatsen. Klicka på den undermapp som innehåller måldatauppsättningen och klicka sedan på datauppsättningens CSV-fil. |
| Data.gov CSV-datauppsättningar | På webbsidan för sökresultat klickar du på sökresultatet och bredvid CSV-ikonen klickar du på Ladda ned. |
| Diamanter (kräver ett Kaggle-konto ) | På datauppsättningens webbsida går du till fliken Data på fliken Data bredvid diamonds.csvoch klickar på ikonen Ladda ned . |
| Varaktighet för nyc taxiresa (kräver ett Kaggle-konto ) | På datauppsättningens webbsida går du till fliken Data bredvid sample_submission.zipoch klickar på Nedladdningsikon . Om du vill hitta datauppsättningens CSV-filer extraherar du innehållet i den nedladdade ZIP-filen. |
Om du vill använda exempeldatauppsättningar från tredje part på din Azure Databricks-arbetsyta gör du följande:
- Följ instruktionerna från tredje part för att ladda ned datamängden som en CSV-fil till den lokala datorn.
- Ladda upp CSV-filen från den lokala datorn till din Azure Databricks-arbetsyta.
- Om du vill arbeta med importerade data använder du Databricks SQL för att fråga efter data. Eller så kan du använda en notebook-fil för att läsa in data som en DataFrame.
Exempeldatauppsättningar från tredje part i bibliotek
Vissa tredje parter inkluderar exempeldatauppsättningar i bibliotek, till exempel PyPI-paket (Python Package Index) eller CRAN-paket (Comprehensive R Archive Network). Mer information finns i biblioteksleverantörens dokumentation.
- Information om hur du installerar ett bibliotek i ett Azure Databricks-kluster med hjälp av klustrets användargränssnitt finns i Bibliotek med beräkningsomfång.
- Information om hur du installerar ett Python-bibliotek med hjälp av en Azure Databricks-notebook-fil finns i Python-bibliotek med notebook-omfattning.
- Information om hur du installerar ett R-bibliotek med hjälp av en Azure Databricks-notebook-fil finns i R-bibliotek med notebook-omfattning.
Databricks-datamängder (databricks-datamängder) monterade på DBFS
Azure Databricks rekommenderar att du inte använder DBFS och monterad molnobjektlagring för de flesta användningsfall i Unity Catalog-aktiverade Databricks-arbetsytor. Vissa exempeldatauppsättningar som monterats på DBFS är tillgängliga i Azure Databricks
Kommentar
Tillgängligheten och platsen för Databricks-datauppsättningar kan komma att ändras utan föregående meddelande.
Bläddra bland DBFS-monterade Databricks-datamängder
Om du vill bläddra bland dessa filer från en Python-, Scala- eller R-notebook-fil kan du använda Databricks Utilities-referensen (dbutils). Följande kod visar alla tillgängliga Databricks-datamängder.
python
display(dbutils.fs.ls('/databricks-datasets'))
Scala
display(dbutils.fs.ls("/databricks-datasets"))
R
%fs ls "/databricks-datasets"