当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python dask.dataframe.read_sql_table用法及代码示例


用法:

dask.dataframe.read_sql_table(table_name, con, index_col, divisions=None, npartitions=None, limits=None, columns=None, bytes_per_chunk='256 MiB', head_rows=5, schema=None, meta=None, engine_kwargs=None, **kwargs)

将 SQL 数据库表读入 DataFrame。

如果既没有给出divisions 也没有给出npartitions,则将确定前几行的内存占用,并且将使用大小为~256MB 的分区。

参数

table_namestr

数据库中 SQL 表的名称。

constr

数据库连接的完整 sqlalchemy URI

index_colstr

成为索引并定义分区的列。应该是 SQL 服务器中的索引列,并且是任何可排序的类型。如果类型是数字或时间,则可以从 npartitionsbytes_per_chunk 推断分区边界;否则必须提供明确的 divisions

columnsstr 或 SqlAlchemy 列的序列或无

选择哪些列;如果没有,得到所有。注意可以是 str 和 SqlAlchemy 列的混合

schemastr 或 None

将此传递给 sqlalchemy 以选择要在 URI 连接中使用的 DB 模式

divisions: sequence

要拆分表的索引列的值。如果给定,这将覆盖 npartitionsbytes_per_chunk 。分区是用于定义分区的索引列的值边界。例如,divisions=list('acegikmoqsuwz') 可用于将字符串列按字典顺序划分为 12 个分区,隐含假设每个分区包含相似数量的记录。

npartitionsint

分区数,如果没有给出divisions。将在 limits (如果给定)或列 max/min 之间线性拆分索引列的值。索引列必须是数字或时间才能起作用

limits: 2-tuple or None

手动给出与 npartitions 一起使用的值的上限和下限;如果没有,首先从数据库中获取最大值/最小值。上限(如果给出)包括在内。

bytes_per_chunkstr 或 int

如果 divisionsnpartitions 都是 None,这是每个分区的目标大小,以字节为单位

head_rowsint

为推断数据类型和每行内存要加载多少行

meta空 DataFrame 或 None

如果提供,不要尝试推断 dtypes,而是使用这些,在加载时强制所有块

engine_kwargsdict 或 None

sqlalchemy 的特定数据库引擎参数

kwargsdict

传递给pd.read_sql()的附加参数

返回

dask.dataframe

例子

>>> df = dd.read_sql_table('accounts', 'sqlite:///path/to/bank.db',
...                  npartitions=10, index_col='id')

相关用法


注:本文由纯净天空筛选整理自dask.org大神的英文原创作品 dask.dataframe.read_sql_table。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。