表格类

每个 Dataset 对象都由 PyArrow 表格支持。表格可以从磁盘（内存映射）或内存中加载。有几种表格类型可用，它们都继承自 table.Table。

表格

class datasets.table.Table

( table: Table )

通过组合来包装 pyarrow Table。这是 InMemoryTable、MemoryMappedTable 和 ConcatenationTable 的基类。

它实现了 pyarrow Table 类的所有基本属性/方法，除了 Table 转换：slice, filter, flatten, combine_chunks, cast, add_column, append_column, remove_column, set_column, rename_columns 和 drop。

这些方法的实现在子类中有所不同。

validate

< 源代码 >

( *args **kwargs )

参数

full (bool, 默认为 False) — 如果为 True，则运行昂贵的检查，否则仅进行廉价检查。

引发

pa.lib.ArrowInvalid

pa.lib.ArrowInvalid — 如果验证失败

执行验证检查。如果验证失败，则会引发异常。

默认情况下，仅运行廉价的验证检查。传递 full=True 以进行彻底的验证检查（可能为 O(n)）。

equals

< 源代码 >

( *args **kwargs ) → bool

参数

other (Table) — 要比较的表格。
check_metadata bool, 默认为 False) — 是否也应检查模式元数据是否相等。

bool

检查两个表格的内容是否相等。

to_batches

< 源代码 >

( *args **kwargs )

参数

max_chunksize (int, 默认为 None) — RecordBatch 块的最大大小。单个块可能较小，具体取决于各个列的块布局。

将表格转换为（连续的）RecordBatch 对象列表。

to_pydict

< 源代码 >

( *args **kwargs ) → dict

dict

将表格转换为 dict 或 OrderedDict。

to_pandas

< 源代码 >

( *args **kwargs ) → pandas.Series 或 pandas.DataFrame

参数

memory_pool (MemoryPool, 默认为 None) — 用于分配的 Arrow MemoryPool。如果未传递，则使用默认内存池。
strings_to_categorical (bool, 默认为 False) — 将字符串 (UTF8) 和二进制类型编码为 pandas.Categorical。
categories (list, 默认为 empty) — 应作为 pandas.Categorical 返回的字段列表。仅适用于类似表格的数据结构。
zero_copy_only (bool, 默认为 False) — 如果此函数调用需要复制底层数据，则抛出 ArrowException 异常。
integer_object_nulls (bool, 默认为 False) — 将含有空值的整数强制转换为对象。
date_as_object (bool, 默认为 True) — 将日期强制转换为对象。如果设置为 False，则转换为 datetime64[ns] 数据类型。
timestamp_as_object (bool, 默认为 False) — 将非纳秒时间戳 (np.datetime64) 强制转换为对象。当您的时间戳不符合纳秒时间戳的标准日期范围 (1678 CE-2262 CE) 时，此选项很有用。如果设置为 False，则所有时间戳都将转换为 datetime64[ns] 数据类型。
use_threads (bool, 默认为 True) — 是否使用多线程来并行化转换。
deduplicate_objects (bool, 默认为 False) — 创建 Python 对象时，不创建多个副本，以节省内存。转换速度会较慢。
ignore_metadata (bool, 默认为 False) — 如果设置为 True，则不使用 ‘pandas’ 元数据来重建 DataFrame 索引（如果存在）。
safe (bool, 默认为 True) — 对于某些数据类型来说，需要进行强制转换，以便将数据存储在 pandas DataFrame 或 Series 中（例如，在 Pandas 中，时间戳总是以纳秒为单位存储）。此选项控制是否进行安全转换。
split_blocks (bool, 默认为 False) — 如果设置为 True，则在从 RecordBatch 或 Table 创建 pandas.DataFrame 时，为每一列生成一个内部 “块”。虽然这可以*暂时*减少内存，但请注意，各种 pandas 操作可能会触发 “合并”，这可能会使内存使用量*急剧*增加。
self_destruct (bool, 默认为 False) — 实验性的：如果设置为 True，则在将 Arrow 对象转换为 pandas 时，尝试释放源 Arrow 内存。如果在使用此选项调用 to_pandas 后继续使用该对象，程序将会崩溃。
types_mapper (function, 默认为 None) — 一个将 pyarrow DataType 映射到 pandas ExtensionDtype 的函数。这可以用于覆盖内置 pyarrow 类型的转换，或者在 Table 模式中缺少 pandas_metadata 时使用的默认 pandas 类型。此函数接收一个 pyarrow DataType，并预期返回一个 pandas ExtensionDtype，或者如果该类型应使用默认转换，则返回 None。如果您有一个字典映射，则可以将 dict.get 作为函数传递。

pandas.Series 或 pandas.DataFrame

根据对象的类型，返回 pandas.Series 或 pandas.DataFrame

转换为 pandas 兼容的 NumPy 数组或 DataFrame，视情况而定。

数据集

表格类

表格

class datasets.table.Table

validate

equals

to_batches

to_pydict

to_pandas

to_string

field

column

itercolumns

schema

columns

num_columns

num_rows

shape

nbytes

InMemoryTable

class datasets.table.InMemoryTable

validate

equals

to_batches

to_pydict

to_pandas

to_string

field

column

itercolumns

schema

columns

num_columns

num_rows

shape

nbytes

column_names

slice

filter

flatten

combine_chunks

cast

replace_schema_metadata

add_column

append_column

remove_column

set_column

rename_columns

select

drop

from_file

from_buffer

from_pandas

from_arrays

from_pydict

from_batches

MemoryMappedTable

class datasets.table.MemoryMappedTable

validate

equals

to_batches

to_pydict

to_pandas

to_string

field

column

itercolumns

schema

columns

num_columns

num_rows

shape

nbytes

column_names

slice

filter

flatten

combine_chunks

cast

replace_schema_metadata