Python cudf.read_orc用法及代碼示例

用法:
cudf.read_orc(filepath_or_buffer, engine='cudf', columns=None, filters=None, stripes=None, skiprows=None, num_rows=None, use_index=True, decimal_cols_as_float=None, timestamp_type=None, use_python_file_object=True, **kwargs)

將 ORC 數據集加載到 DataFrame 中

參數：

filepath_or_buffer：str、路徑對象、字節或 file-like 對象: 文件的路徑(str , pathlib.Path 或 py._path.local.LocalPath)、URL(包括 http、ftp 和 S3 位置)、原始二進製數據的 Python 字節或具有 read() 方法的任何對象(例如內置open() 文件處理函數或 BytesIO )。
engine：{ ‘cudf’, ‘pyarrow’ }，默認 ‘cudf’: 要使用的解析器引擎。
columns：列表，默認無: 如果不是 None，則隻會從文件中讀取這些列。
filters：元組列表，元組列表列表默認無: 如果不是 None，則指定一個過濾謂詞，用於使用為每個行組存儲的統計信息作為 Parquet 元數據過濾掉行組。不讀取與給定過濾謂詞不匹配的行組。謂詞以析取範式 (DNF) 表示，例如 [[(‘x’, ‘=’, 0), …], …] 。 DNF 允許單列謂詞的任意布爾邏輯組合。最裏麵的元組每個都說明一個列謂詞。內部謂詞列表被解釋為一個連詞 (AND)，形成一個更具選擇性和多列的謂詞。最後，最外麵的列表將這些過濾器組合為析取 (OR)。謂詞也可以作為元組列表傳遞。這種形式被解釋為單個連詞。要在謂詞中表達 OR，必須使用元組列表列表的(首選)表示法。
stripes: list, default None：: 如果不是 None，則隻會從文件中讀取這些條帶。條帶與忽略的索引連接。
skiprows：整數，默認無: 如果不是 None，則從文件開頭跳過的行數。
num_rows：整數，默認無: 如果不是 None，則要讀取的總行數。
use_index：布爾值，默認為真: 如果為 True，則使用行索引(如果可用)以加快查找速度。
decimal_cols_as_float: list, default None：: 如果指定，則應在結果 DataFrame 中從 Decimal 轉換為 Float64 的列的名稱。
use_python_file_object：布爾值，默認 True: 如果為 True，則在 IO 時將使用Arrow-backed PythonFile 對象代替 fsspec AbstractBufferedFile 對象。當從較大的 ORC 文件進行少量讀取時，此選項可能會提高性能。
kwargs are passed to the engine：

DataFrame

注意：

cuDF 支持本地和遠程數據存儲。請參閱可用源這裏的配置詳細信息。

例子：

>>> import cudf
>>> df = cudf.read_orc(filename)
>>> df
  num1                datetime text
0  123 2018-11-13T12:00:00.000 5451
1  456 2018-11-14T12:35:01.000 5784
2  789 2018-11-15T18:02:59.000 6117

相關用法

注：本文由純淨天空篩選整理自rapids.ai大神的英文原創作品 cudf.read_orc。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。

用法:

參數：

返回：

注意：

例子：