你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
New-AzureHDInsightPigJobDefinition
为 HDInsight 服务定义新的 Pig 作业。
注意
本文档中引用的 cmdlet 用于管理使用服务管理 API 的旧式 Azure 资源。 若要了解用于管理 Azure 资源管理器资源的 cmdlet,请参阅 Az PowerShell 模块。
语法
New-AzureHDInsightPigJobDefinition
[-Arguments <String[]>]
[-File <String>]
[-Files <String[]>]
[-Query <String>]
[-StatusFolder <String>]
[-Profile <AzureSMProfile>]
[<CommonParameters>]
说明
此版本的 Azure PowerShell HDInsight 已弃用。 这些 cmdlet 将于 2017 年 1 月 1 日删除。 请使用较新版本的 Azure PowerShell HDInsight。
有关如何使用新的 HDInsight 创建群集的信息,请参阅 使用 Azure PowerShell 在 HDInsight 中创建基于 Linux 的群集(https://azure.microsoft.com/en-us/documentation/articles/hdinsight-hadoop-create-linux-clusters-azure-powershell/)。 有关如何使用 Azure PowerShell 和其他方法提交作业的信息,请参阅 HDInsight 中的提交 Hadoop 作业(https://azure.microsoft.com/en-us/documentation/articles/hdinsight-submit-hadoop-jobs-programmatically/)。 有关 Azure PowerShell HDInsight 的参考信息,请参阅 Azure HDInsight Cmdlet。
New-AzureHDInsightPigJobDefinition 为 Azure HDInsight 服务定义 Pig 作业。
示例
示例 1:定义新的 Pig 作业
PS C:\>$0 = '$0';
PS C:\> $QueryString = "LOGS = LOAD 'wasb:///example/data/sample.log';" + "LEVELS = foreach LOGS generate REGEX_EXTRACT($0, '(TRACE|DEBUG|INFO|WARN|ERROR|FATAL)', 1) as LOGLEVEL;" + "FILTEREDLEVELS = FILTER LEVELS by LOGLEVEL is not null;" + "GROUPEDLEVELS = GROUP FILTEREDLEVELS by LOGLEVEL;" + "FREQUENCIES = foreach GROUPEDLEVELS generate group as LOGLEVEL, COUNT(FILTEREDLEVELS.LOGLEVEL) as COUNT;" + "RESULT = order FREQUENCIES by COUNT desc;" + "DUMP RESULT;"
PS C:\> $PigJobDefinition = New-AzureHDInsightPigJobDefinition -Query $QueryString
第一个命令声明字符串值,然后存储在 $0 变量中。
第二个命令创建 Pig 作业查询,然后将其存储在$QueryString变量中。
最后一个命令创建一个 Pig 作业定义,该定义在 $QueryString 中使用查询,然后将作业定义存储在$PigJobDefinition变量中。
参数
-Arguments
指定 Pig 作业的参数数组。 参数以命令行参数的形式传递到每个任务。
Type: | String[] |
Aliases: | Args |
Position: | Named |
Default value: | None |
Required: | False |
Accept pipeline input: | False |
Accept wildcard characters: | False |
-File
指定包含要运行的查询的文件的路径。 可以使用此参数而不是 Query 参数。
Type: | String |
Aliases: | QueryFile |
Position: | Named |
Default value: | None |
Required: | False |
Accept pipeline input: | False |
Accept wildcard characters: | False |
-Files
指定与 Pig 作业关联的文件的集合。
Type: | String[] |
Position: | Named |
Default value: | None |
Required: | False |
Accept pipeline input: | False |
Accept wildcard characters: | False |
-Profile
指定此 cmdlet 从中读取的 Azure 配置文件。 如果未指定配置文件,此 cmdlet 将从本地默认配置文件中读取。
Type: | AzureSMProfile |
Position: | Named |
Default value: | None |
Required: | False |
Accept pipeline input: | False |
Accept wildcard characters: | False |
-Query
指定 Pig 作业查询。
Type: | String |
Aliases: | QueryText |
Position: | Named |
Default value: | None |
Required: | False |
Accept pipeline input: | False |
Accept wildcard characters: | False |
-StatusFolder
指定包含作业的标准输出和错误输出的文件夹的位置,包括其退出代码和任务日志。
Type: | String |
Position: | Named |
Default value: | None |
Required: | False |
Accept pipeline input: | False |
Accept wildcard characters: | False |