Python dask.dataframe.read_sql_table用法及代码示例

用法:
dask.dataframe.read_sql_table(table_name, con, index_col, divisions=None, npartitions=None, limits=None, columns=None, bytes_per_chunk='256 MiB', head_rows=5, schema=None, meta=None, engine_kwargs=None, **kwargs)

将 SQL 数据库表读入 DataFrame。

如果既没有给出divisions 也没有给出npartitions，则将确定前几行的内存占用，并且将使用大小为~256MB 的分区。

参数：

table_name：str: 数据库中 SQL 表的名称。
con：str: 数据库连接的完整 sqlalchemy URI
index_col：str: 成为索引并定义分区的列。应该是 SQL 服务器中的索引列，并且是任何可排序的类型。如果类型是数字或时间，则可以从 npartitions 或 bytes_per_chunk 推断分区边界；否则必须提供明确的 divisions 。
columns：str 或 SqlAlchemy 列的序列或无: 选择哪些列；如果没有，得到所有。注意可以是 str 和 SqlAlchemy 列的混合
schema：str 或 None: 将此传递给 sqlalchemy 以选择要在 URI 连接中使用的 DB 模式
divisions: sequence：: 要拆分表的索引列的值。如果给定，这将覆盖 npartitions 和 bytes_per_chunk 。分区是用于定义分区的索引列的值边界。例如，divisions=list('acegikmoqsuwz') 可用于将字符串列按字典顺序划分为 12 个分区，隐含假设每个分区包含相似数量的记录。
npartitions：int: 分区数，如果没有给出divisions。将在 limits (如果给定)或列 max/min 之间线性拆分索引列的值。索引列必须是数字或时间才能起作用
limits: 2-tuple or None：: 手动给出与 npartitions 一起使用的值的上限和下限；如果没有，首先从数据库中获取最大值/最小值。上限(如果给出)包括在内。
bytes_per_chunk：str 或 int: 如果 divisions 和 npartitions 都是 None，这是每个分区的目标大小，以字节为单位
head_rows：int: 为推断数据类型和每行内存要加载多少行
meta：空 DataFrame 或 None: 如果提供，不要尝试推断 dtypes，而是使用这些，在加载时强制所有块
engine_kwargs：dict 或 None: sqlalchemy 的特定数据库引擎参数
kwargs：dict: 传递给pd.read_sql()的附加参数

dask.dataframe

例子：

>>> df = dd.read_sql_table('accounts', 'sqlite:///path/to/bank.db',
...                  npartitions=10, index_col='id')

相关用法

注：本文由纯净天空筛选整理自dask.org大神的英文原创作品 dask.dataframe.read_sql_table。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。

用法:

参数：

返回：

例子：