featuretools.EntitySet#

class featuretools.EntitySet(id=None, dataframes=None, relationships=None)[source]#

存储实体集的所有实际数据和类型信息

属性:

id dataframe_dict relationships time_type

属性:

metadata

__init__(id=None, dataframes=None, relationships=None)[source]#

创建实体集

Parameters:
  • id (str) – 与此实例关联的唯一标识符

  • dataframes (dict[str -> tuple(DataFrame, str, str, dict[str -> str/Woodwork.LogicalType], dict[str->str/set], boolean)]) – 数据框字典.条目格式为 {数据框名称 -> (数据框, 索引列, 时间索引, 逻辑类型, 语义标签, 创建索引)}. 注意,只有数据框是必需的.如果提供了Woodwork数据框,则其他参数将被忽略.

  • relationships (list[(str, str, str, str)]) – 数据框之间的关系列表 列表项是一个元组,格式为 (父数据框名称, 父列, 子数据框名称, 子列).

Examples

dataframes = {
    "cards" : (card_df, "id"),
    "transactions" : (transactions_df, "id", "transaction_time")
}

relationships = [("cards", "id", "transactions", "card_id")]

ft.EntitySet("my-entity-set", dataframes, relationships)

Methods

__init__([id, dataframes, relationships])

创建实体集

add_dataframe(dataframe[, dataframe_name, ...])

将带有 Woodwork 类型信息的 DataFrame 添加到 EntitySet 中.

add_interesting_values([max_values, ...])

查找或设置分类列的有趣值,用于生成"where”子句

add_last_time_indexes([updated_dataframes])

计算每个数据框的最后时间索引值(观察到该实例或其子实例的最后时间).

add_relationship([parent_dataframe_name, ...])

在实体集中添加数据框之间的新关系.可以通过传递数据框和列名称或传递 Relationship 对象来指定关系.

add_relationships(relationships)

向实体集中添加多个新关系

concat(other[, inplace])

将实体集与另一个实体集合并,以创建一个包含两个实体集数据的新实体集.

find_backward_paths(start_dataframe_name, ...)

生成器,生成从起点到目标数据框之间的所有反向路径.不包括包含循环的路径.

find_forward_paths(start_dataframe_name, ...)

生成器,用于生成从一个起点到目标数据框之间的所有前向路径.不包括包含循环的路径.

get_backward_dataframes(dataframe_name[, deep])

获取与数据框存在反向关系的数据框

get_backward_relationships(dataframe_name)

获取数据框 "dataframe_name" 作为父级的关系.

get_forward_dataframes(dataframe_name[, deep])

获取与数据框具有前向关系的数据框

get_forward_relationships(dataframe_name)

获取数据框 "dataframe_name" 作为子节点的关系

has_unique_forward_path(...)

是否从起点到终点的路径是唯一的?

normalize_dataframe(base_dataframe_name, ...)

创建一个新的数据框和关系,基于现有列中的唯一值.

plot([to_file])

创建一个类似于UML图的EntitySet图.

query_by_values(dataframe_name, instance_vals)

查询具有给定值的列的实例

replace_dataframe(dataframe_name, df[, ...])

替换EntitySet表的内部数据框,保持Woodwork类型信息不变.

reset_data_description()

set_secondary_time_index(dataframe_name, ...)

设置实体集中数据框的辅助时间索引,使用其数据框名称.

to_csv(path[, sep, encoding, engine, ...])

将实体集以CSV格式写入磁盘,路径由`path`指定.

to_dictionary()

to_parquet(path[, engine, compression, ...])

将实体集以parquet格式写入磁盘,位置由`path`指定.

to_pickle(path[, compression, profile_name])

将entityset以pickle格式写入,位置由`path`指定.

Attributes

dataframes

metadata

返回此实体集的元数据.如果元数据不存在,将重新计算.