Python dask.bytes.read_bytes用法及代碼示例

用法:
dask.bytes.read_bytes(urlpath, delimiter=None, not_zero=False, blocksize='128 MiB', sample='10 kiB', compression=None, include_path=False, **kwargs)

給定一個或多個路徑，返回從這些路徑讀取的延遲對象。

路徑可以是像 '2015-01-01.csv' 這樣的文件名，也可以是像 '2015-*-*.csv' 這樣的全局字符串。

如果安裝了這些庫，則路徑前麵可能有協議，例如 s3:// 或 hdfs://。

如果給定，這將通過分隔符幹淨地打破數據，以便塊邊界直接在分隔符之後開始並在分隔符處結束。

參數：

urlpath：字符串或列表: 絕對或相對文件路徑。使用 s3:// 之類的協議作為前綴，以從替代文件係統中讀取。要從多個文件中讀取，您可以傳遞一個 globstring 或路徑列表，但需要注意的是它們都必須具有相同的協議。
delimiter：字節: 一個可選的分隔符，如b'\n'，用於分割字節塊。
not_zero：bool: 強製查找start-of-file 分隔符，丟棄標頭。
blocksize：整數，字符串: 塊大小(以字節為單位)，默認為“128 MiB”
compression：字符串或無: ‘gzip’ or ‘xz’ 之類的字符串。必須支持有效的隨機訪問。
sample：整數、字符串或布爾值: 是否返回標頭樣本。值可以是 False for “no sample requested” 或整數或字符串值，例如 2**20 或 "1 MiB"
include_path：bool: 是否包含表示特定文件的字節的路徑。默認為假。
**kwargs：dict: 對特定存儲連接有意義的額外選項，例如主機、端口、用戶名、密碼等

sample：字節: 示例標題
blocks：dask.Delayed 列表列表: 每個列表對應一個文件，每個延遲對象從該文件計算一個字節塊。
paths：字符串列表，僅在 include_path 為 True 時包含: 與塊長度相同的列表，其中每個項目是對應塊中表示的文件的路徑。

例子：

>>> sample, blocks = read_bytes('2015-*-*.csv', delimiter=b'\n')  
>>> sample, blocks = read_bytes('s3://bucket/2015-*-*.csv', delimiter=b'\n')  
>>> sample, paths, blocks = read_bytes('2015-*-*.csv', include_path=True)

相關用法

注：本文由純淨天空篩選整理自dask.org大神的英文原創作品 dask.bytes.read_bytes。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。

用法:

參數：

返回：

例子：