用法:
dask.bytes.read_bytes(urlpath, delimiter=None, not_zero=False, blocksize='128 MiB', sample='10 kiB', compression=None, include_path=False, **kwargs)
給定一個或多個路徑,返回從這些路徑讀取的延遲對象。
路徑可以是像
'2015-01-01.csv'
這樣的文件名,也可以是像'2015-*-*.csv'
這樣的全局字符串。如果安裝了這些庫,則路徑前麵可能有協議,例如
s3://
或hdfs://
。如果給定,這將通過分隔符幹淨地打破數據,以便塊邊界直接在分隔符之後開始並在分隔符處結束。
- urlpath:字符串或列表
絕對或相對文件路徑。使用
s3://
之類的協議作為前綴,以從替代文件係統中讀取。要從多個文件中讀取,您可以傳遞一個 globstring 或路徑列表,但需要注意的是它們都必須具有相同的協議。- delimiter:字節
一個可選的分隔符,如
b'\n'
,用於分割字節塊。- not_zero:bool
強製查找start-of-file 分隔符,丟棄標頭。
- blocksize:整數,字符串
塊大小(以字節為單位),默認為“128 MiB”
- compression:字符串或無
‘gzip’ or ‘xz’ 之類的字符串。必須支持有效的隨機訪問。
- sample:整數、字符串或布爾值
是否返回標頭樣本。值可以是
False
for “no sample requested” 或整數或字符串值,例如2**20
或"1 MiB"
- include_path:bool
是否包含表示特定文件的字節的路徑。默認為假。
- **kwargs:dict
對特定存儲連接有意義的額外選項,例如主機、端口、用戶名、密碼等
- sample:字節
示例標題
- blocks:
dask.Delayed
列表列表 每個列表對應一個文件,每個延遲對象從該文件計算一個字節塊。
- paths:字符串列表,僅在 include_path 為 True 時包含
與塊長度相同的列表,其中每個項目是對應塊中表示的文件的路徑。
參數:
返回:
例子:
>>> sample, blocks = read_bytes('2015-*-*.csv', delimiter=b'\n') >>> sample, blocks = read_bytes('s3://bucket/2015-*-*.csv', delimiter=b'\n') >>> sample, paths, blocks = read_bytes('2015-*-*.csv', include_path=True)
相關用法
- Python dask.bag.Bag.frequencies用法及代碼示例
- Python dask.bag.Bag.to_textfiles用法及代碼示例
- Python dask.bag.Bag.repartition用法及代碼示例
- Python dask.bag.Bag.join用法及代碼示例
- Python dask.bag.Bag.accumulate用法及代碼示例
- Python dask.bag.Bag.fold用法及代碼示例
- Python dask.bag.Bag.map_partitions用法及代碼示例
- Python dask.bag.Bag.groupby用法及代碼示例
- Python dask.bag.map用法及代碼示例
- Python dask.bag.Bag.reduction用法及代碼示例
- Python dask.bag.Bag.foldby用法及代碼示例
- Python dask.bag.range用法及代碼示例
- Python dask.bag.Bag.flatten用法及代碼示例
- Python dask.bag.from_sequence用法及代碼示例
- Python dask.bag.random.sample用法及代碼示例
- Python dask.bag.Bag.remove用法及代碼示例
- Python dask.bag.Bag.random_sample用法及代碼示例
- Python dask.bag.random.choices用法及代碼示例
- Python dask.bag.Item.visualize用法及代碼示例
- Python dask.bag.Bag.distinct用法及代碼示例
注:本文由純淨天空篩選整理自dask.org大神的英文原創作品 dask.bytes.read_bytes。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。