Python pyspark read_sql用法及代码示例

本文简要介绍 pyspark.pandas.read_sql 的用法。

用法:
pyspark.pandas.read_sql(sql: str, con: str, index_col: Union[str, List[str], None] = None, columns: Union[str, List[str], None] = None, **options: Any) → pyspark.pandas.frame.DataFrame

将 SQL 查询或数据库表读入 DataFrame。

此函数是read_sql_table 和read_sql_query 的便捷包装器(用于向后兼容)。它将根据提供的输入委托给特定的函数。 SQL 查询将被路由到 read_sql_query ，而数据库表名将被路由到 read_sql_table 。请注意，委托函数可能有更多关于此处未列出的函数的具体说明。

注意

某些数据库可能会遇到 Spark 的问题：SPARK-27596

参数：

sql：string: 要执行的 SQL 查询或表名。
con：str: JDBC URI 可以作为 str 提供。

注意

URI 必须是 JDBC URI 而不是 Python 的数据库 URI。
index_col：字符串或字符串列表，可选，默认值：无: 要设置为索引(MultiIndex)的列。
columns：列表，默认：无: 要从 SQL 表中选择的列名列表(仅在读取表时使用)。
options：dict: 所有其他选项直接传递到 Spark 的 JDBC 数据源。

DataFrame

例子：

>>> ps.read_sql('table_name', 'jdbc:postgresql:db_name')  
>>> ps.read_sql('SELECT * FROM table_name', 'jdbc:postgresql:db_name')

相关用法

注：本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.read_sql。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。

用法:

参数：

返回：

例子：