當前位置: 首頁>>編程示例 >>用法及示例精選 >>正文


Python dask.bytes.read_bytes用法及代碼示例

用法:

dask.bytes.read_bytes(urlpath, delimiter=None, not_zero=False, blocksize='128 MiB', sample='10 kiB', compression=None, include_path=False, **kwargs)

給定一個或多個路徑,返回從這些路徑讀取的延遲對象。

路徑可以是像 '2015-01-01.csv' 這樣的文件名,也可以是像 '2015-*-*.csv' 這樣的全局字符串。

如果安裝了這些庫,則路徑前麵可能有協議,例如 s3://hdfs://

如果給定,這將通過分隔符幹淨地打破數據,以便塊邊界直接在分隔符之後開始並在分隔符處結束。

參數

urlpath字符串或列表

絕對或相對文件路徑。使用 s3:// 之類的協議作為前綴,以從替代文件係統中讀取。要從多個文件中讀取,您可以傳遞一個 globstring 或路徑列表,但需要注意的是它們都必須具有相同的協議。

delimiter字節

一個可選的分隔符,如b'\n',用於分割字節塊。

not_zerobool

強製查找start-of-file 分隔符,丟棄標頭。

blocksize整數,字符串

塊大小(以字節為單位),默認為“128 MiB”

compression字符串或無

‘gzip’ or ‘xz’ 之類的字符串。必須支持有效的隨機訪問。

sample整數、字符串或布爾值

是否返回標頭樣本。值可以是 False for “no sample requested” 或整數或字符串值,例如 2**20"1 MiB"

include_pathbool

是否包含表示特定文件的字節的路徑。默認為假。

**kwargsdict

對特定存儲連接有意義的額外選項,例如主機、端口、用戶名、密碼等

返回

sample字節

示例標題

blocksdask.Delayed 列表列表

每個列表對應一個文件,每個延遲對象從該文件計算一個字節塊。

paths字符串列表,僅在 include_path 為 True 時包含

與塊長度相同的列表,其中每個項目是對應塊中表示的文件的路徑。

例子

>>> sample, blocks = read_bytes('2015-*-*.csv', delimiter=b'\n')  
>>> sample, blocks = read_bytes('s3://bucket/2015-*-*.csv', delimiter=b'\n')  
>>> sample, paths, blocks = read_bytes('2015-*-*.csv', include_path=True)

相關用法


注:本文由純淨天空篩選整理自dask.org大神的英文原創作品 dask.bytes.read_bytes。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。