次の方法で共有


SparkSession クラス

定義

データセットと DataFrame API を使用して Spark をプログラミングするためのエントリ ポイント。

public sealed class SparkSession : IDisposable
type SparkSession = class
    interface IDisposable
Public NotInheritable Class SparkSession
Implements IDisposable
継承
SparkSession
実装

プロパティ

Catalog

ユーザーが基になるデータベース、テーブル、関数などを作成、削除、変更、または照会できるインターフェイス。

SparkContext

この SparkSession に関連付けられている SparkContext オブジェクトを返します。

メソッド

Active()

現在アクティブな SparkSession を返します。それ以外の場合は既定の SparkSession を返します。 既定の SparkSession がない場合は、例外がスローされます。

Builder()

SparkSession の Builder オブジェクトを作成します。

ClearActiveSession()

現在のスレッドのアクティブな SparkSession をクリアします。 以降の を GetOrCreate() 呼び出すと、スレッド ローカルオーバーライドではなく、最初に作成されたコンテキストが返されます。

ClearDefaultSession()

ビルダーによって返される既定の SparkSession をクリアします。

Conf()

Spark のランタイム構成インターフェイス。 これは、ユーザーが Spark SQL に関連するすべての Spark および Hadoop 構成を取得および設定するためのインターフェイスです。 構成の値を取得すると、基になる SparkContext に設定された値 (存在する場合) が既定値になります。

CreateDataFrame(IEnumerable<Boolean>)

型として IEnumerable 指定されたデータフレームを作成します Boolean

CreateDataFrame(IEnumerable<Date>)

型として IEnumerable 指定されたデータフレームを作成します Date

CreateDataFrame(IEnumerable<Double>)

型として IEnumerable 指定されたデータフレームを作成します Double

CreateDataFrame(IEnumerable<GenericRow>, StructType)

指定されたスキーマをDataFrameIEnumerable使用して、 をGenericRow含む から を作成します。 指定されたすべての GenericRow の構造が、指定 IEnumerable されたスキーマと一致していることを確認することが重要です。 それ以外の場合は、ランタイム例外が発生します。

CreateDataFrame(IEnumerable<Int32>)

型として IEnumerable 指定されたデータフレームを作成します Int32

CreateDataFrame(IEnumerable<Nullable<Boolean>>)

型として IEnumerable 指定されたデータフレームを作成します Nullable<T>

CreateDataFrame(IEnumerable<Nullable<Double>>)

型として IEnumerable 指定されたデータフレームを作成します Nullable<T>

CreateDataFrame(IEnumerable<Nullable<Int32>>)

型として IEnumerable 指定されたデータフレームを作成します Nullable<T>

CreateDataFrame(IEnumerable<String>)

型として IEnumerable 指定されたデータフレームを作成します String

CreateDataFrame(IEnumerable<Timestamp>)

型として IEnumerable 指定されたデータフレームを作成します Timestamp

Dispose()

Stop() のシノニム。

ExecuteCommand(String, String, Dictionary<String,String>)

Spark ではなく外部実行エンジン内で任意の文字列コマンドを実行します。 これは、ユーザーが Spark からいくつかのコマンドを実行する場合に便利です。 たとえば、JDBC に対してカスタム DDL/DML コマンドを実行したり、ElasticSearch のインデックスを作成したり、Solr 用のコアを作成したりします。 このメソッドが呼び出された後、コマンドは一括実行され、返された DataFrame にはコマンドの出力 (ある場合) が含まれます。

GetActiveSession()

ビルダーによって返される、現在のスレッドのアクティブな SparkSession を返します。

GetDefaultSession()

ビルダーによって返される既定の SparkSession を返します。

NewSession()

分離された SQL 構成、一時テーブル、登録済み関数は分離されますが、基になる SparkContext とキャッシュされたデータを共有して、新しいセッションを開始します。

Range(Int64)

id という名前の 1 つの列を持つ DataFrame を作成します。この列には、ステップ値 1 を含む 0 ~ end (exclusive) の範囲の要素が含まれます。

Range(Int64, Int64)

id という名前の 1 つの列を持つ DataFrame を作成します。この列には、開始から終了までの範囲の要素 (排他的) とステップ値 1 が含まれます。

Range(Int64, Int64, Int64)

id という名前の 1 つの列を持つ DataFrame を作成します。この列には、開始から終了までの範囲の要素 (排他的) とステップ値が含まれます。

Range(Int64, Int64, Int64, Int32)

id という名前の 1 つの列を持つ DataFrame を作成します。この列には、開始から終了までの範囲内の要素 (排他的) とステップ値が含まれます。パーティション番号が指定されています。

Read()

でストリーミングされていないデータを DataFrame として読み取るために使用できる DataFrameReader を返します。

ReadStream()

のストリーミング データを DataFrame として読み取るために使用できる DataStreamReader を返します。

SetActiveSession(SparkSession)

が呼び出されたときに GetOrCreate() このスレッドで返される SparkSession を変更します。 これは、特定のスレッドがグローバル (最初に作成された) コンテキストではなく、分離されたセッションを使用して SparkSession を確実に受け取れるようにするために使用できます。

SetDefaultSession(SparkSession)

ビルダーによって返される既定の SparkSession を設定します。

Sql(String)

Spark を使用して SQL クエリを実行し、結果を DataFrame として返します。

Stop()

基になる SparkContext を停止します。

Streams()

コンテキストでStreamingQueryManagerthisアクティブなすべてのインスタンスをStreamingQuery管理できるようにする を返します。

Table(String)

指定したテーブル/ビューを DataFrame として返します。

Udf()

ユーザー定義関数 (UDF) を登録できる UDFRegistraion オブジェクトを返します。

拡張メソッド

GetAssemblyInfo(SparkSession, Int32)

Microsoft.Spark.Utils.AssemblyInfoProvider.AssemblyInfo Spark ドライバーで実行されている "Microsoft.Spark" アセンブリの を取得し、Spark Executors で "Microsoft.Spark.Worker" アセンブリの をMicrosoft.Spark.Utils.AssemblyInfoProvider.AssemblyInfo決定する際に "ベスト エフォート" を試みます。

クラスター内のすべてのノードで Spark Executor が実行される保証はありません。 可能性を高めるために、Spark conf spark.executor.instances と設定は numPartitions 、Spark クラスター内のノードの数に対して適切な数に調整する必要があります。

適用対象