experimental.histogram() 函数
experimental.histogram() 是 随时可能更改。
experimental.histogram() 通过计算数据频率来近似数据集的累积分布,适用于一系列区间。
一个 bin 由一个上界定义,所有小于或等于该上界的数据点都被计入该 bin。
bin 计数是累计的。
函数行为
- 为每个输入表输出一个单独的表。
- 每个输出表代表一个独特的直方图。
- 输出表与相应输入表具有相同的组键。
- 删除不属于分组键的列。
- 添加一个
le列以存储上限值。 - 将箱数存储在
_value列中。
函数类型签名
(<-tables: stream[{A with _value: float}], bins: [float], ?normalize: bool) => stream[{A with le: float, _value: float}]
有关更多信息,请参见 Function type signatures。
参数
箱子
(必填) 用于计算直方图频率的上限列表,包括数据集的最大值。
如果未知最大值,则此值可以设置为正无穷大 (float(v: "+Inf"))。
二进制助手函数
以下辅助函数可用于生成区间。
linearBins()logarithmicBins()
标准化
将计数值转换为0到1之间的频率值。 默认值为 false。
注意: 归一化的直方图不能通过将其计数相加来聚合。
表格
输入数据。默认是管道转发数据 (<-).
示例
从输入数据创建直方图
import "experimental"
import "sampledata"
sampledata.float()
|> experimental.histogram(
bins: [
0.0,
5.0,
10.0,
15.0,
20.0,
],
)