本文整理汇总了Python中pyspark.sql.HiveContext.registerRDDAsTable方法的典型用法代码示例。如果您正苦于以下问题:Python HiveContext.registerRDDAsTable方法的具体用法?Python HiveContext.registerRDDAsTable怎么用?Python HiveContext.registerRDDAsTable使用的例子?那么恭喜您, 这里精选的方法代码示例或许可以为您提供帮助。您也可以进一步了解该方法所在类pyspark.sql.HiveContext
的用法示例。
在下文中一共展示了HiveContext.registerRDDAsTable方法的1个代码示例,这些例子默认根据受欢迎程度排序。您可以为喜欢或者感觉有用的代码点赞,您的评价将有助于系统推荐出更棒的Python代码示例。
示例1: if_in_top_10_domain
# 需要导入模块: from pyspark.sql import HiveContext [as 别名]
# 或者: from pyspark.sql.HiveContext import registerRDDAsTable [as 别名]
}
"""
i = 1
for domain in top_domain_list:
top_domain_dict[domain[0]] = i
i = i + 1
print top_domain_dict
"""
jsonRDD = hc.jsonFile("hdfs://dip.cdh5.dev:8020/user/hdfs/rawlog/app_saesinacomkafka12345_nginx/2015_10_22/09")
hc.registerRDDAsTable(jsonRDD, "temp_schema")
def if_in_top_10_domain(domain):
if domain == "" or domain == None or len(domain) < 3:
return "no"
else:
if top_domain_dict.has_key(domain):
return top_domain_dict[domain]
else:
return "no"
hc.registerFunction("temp_if_in_top_10_domain", if_in_top_10_domain)
spark_sql = """select domain,url,cast(sum(body_bytes_sent) as bigint) as flow from (