数据集

一些流行的时间序列数据集

class darts.datasets.AirPassengersDataset[源代码]

基类:DatasetLoaderCSV

月度航空乘客数据集,从1949年到1960年。

方法

load()

将数据集加载到内存中,作为时间序列。

load()

将数据集加载到内存中,作为时间序列。如果数据集尚未存在,则下载数据集。

引发

DatasetLoadingException – 如果加载失败(MD5校验和不正确,下载失败,从磁盘读取失败)

返回

time_series – 包含数据集的 TimeSeries 对象

返回类型

TimeSeries

class darts.datasets.AusBeerDataset[源代码]

基类:DatasetLoaderCSV

1956年第一季度至2008年第三季度澳大利亚每季度的啤酒总产量(以百万升计)[R58abd249d9bc-1]_。

引用

1

https://rdrr.io/cran/fpp/man/ausbeer.html

方法

load()

将数据集加载到内存中,作为时间序列。

load()

将数据集加载到内存中,作为时间序列。如果数据集尚未存在,则下载数据集。

引发

DatasetLoadingException – 如果加载失败(MD5校验和不正确,下载失败,从磁盘读取失败)

返回

time_series – 包含数据集的 TimeSeries 对象

返回类型

TimeSeries

class darts.datasets.AustralianTourismDataset[源代码]

基类:DatasetLoaderCSV

一个包含澳大利亚36个月每月旅游人数的多变量时间序列。这些数字按地区(“NSW”、“VIC”、“QLD”、“SA”、“WA”、“TAS”、“NT”)、原因(“Hol”、“VFR”、“Bus”、“Oth”)、(地区,原因)对以及(地区,原因,<城市>)元组进行细分,其中<城市>可以是“城市”或“非城市”。

这是澳大利亚旅游数据集的增强版本,可在 [1] 中获取,我们预先计算了每个区域的组别(在原始数据集中不可用)。

引用

1

https://robjhyndman.com/publications/hierarchical-tourism/

方法

load()

将数据集加载到内存中,作为时间序列。

load()

将数据集加载到内存中,作为时间序列。如果数据集尚未存在,则下载数据集。

引发

DatasetLoadingException – 如果加载失败(MD5校验和不正确,下载失败,从磁盘读取失败)

返回

time_series – 包含数据集的 TimeSeries 对象

返回类型

TimeSeries

class darts.datasets.ETTh1Dataset[源代码]

基类:DatasetLoaderCSV

1个变电站的1台电力变压器的数据,包括负载、油温。数据集的时间范围从2016年7月到2018年7月,每小时记录一次。来源:[1] [2]

字段描述:

  • 日期: 记录的日期

  • HUFL: 高利用负荷

  • HULL: 高无用负载

  • MUFL: 中等有用载荷

  • MULL: 中等无用负载

  • LUFL: 低有效载荷

  • LULL: 低效无用负载

  • OT: 油温 (目标)

引用

1

https://github.com/zhouhaoyi/ETDataset

2

https://arxiv.org/abs/2012.07436

方法

load()

将数据集加载到内存中,作为时间序列。

load()

将数据集加载到内存中,作为时间序列。如果数据集尚未存在,则下载数据集。

引发

DatasetLoadingException – 如果加载失败(MD5校验和不正确,下载失败,从磁盘读取失败)

返回

time_series – 包含数据集的 TimeSeries 对象

返回类型

TimeSeries

class darts.datasets.ETTh2Dataset[源代码]

基类:DatasetLoaderCSV

1个变电站的1台变压器的数据,包括负载、油温。数据集的时间范围从2016年7月到2018年7月,每小时记录一次。来源:[1] [2]

字段描述:

  • 日期: 记录的日期

  • HUFL: 高利用负荷

  • HULL: 高无用负载

  • MUFL: 中等有用载荷

  • MULL: 中等无用负载

  • LUFL: 低有效载荷

  • LULL: 低效无用负载

  • OT: 油温 (目标)

引用

1

https://github.com/zhouhaoyi/ETDataset

2

https://arxiv.org/abs/2012.07436

方法

load()

将数据集加载到内存中,作为时间序列。

load()

将数据集加载到内存中,作为时间序列。如果数据集尚未存在,则下载数据集。

引发

DatasetLoadingException – 如果加载失败(MD5校验和不正确,下载失败,从磁盘读取失败)

返回

time_series – 包含数据集的 TimeSeries 对象

返回类型

TimeSeries

class darts.datasets.ETTm1Dataset[源代码]

基类:DatasetLoaderCSV

1个变电站的1台电力变压器的数据,包括负载、油温。数据集范围从2016/07到2018/07,每15分钟记录一次。来源:[1] [2]

字段描述:

  • 日期: 记录的日期

  • HUFL: 高利用负荷

  • HULL: 高无用负载

  • MUFL: 中等有用载荷

  • MULL: 中等无用负载

  • LUFL: 低有效载荷

  • LULL: 低效无用负载

  • OT: 油温 (目标)

引用

1

https://github.com/zhouhaoyi/ETDataset

2

https://arxiv.org/abs/2012.07436

方法

load()

将数据集加载到内存中,作为时间序列。

load()

将数据集加载到内存中,作为时间序列。如果数据集尚未存在,则下载数据集。

引发

DatasetLoadingException – 如果加载失败(MD5校验和不正确,下载失败,从磁盘读取失败)

返回

time_series – 包含数据集的 TimeSeries 对象

返回类型

TimeSeries

class darts.datasets.ETTm2Dataset[源代码]

基类:DatasetLoaderCSV

1个变电站的1台电力变压器的数据,包括负载、油温。数据集范围从2016年7月至2018年7月,每15分钟记录一次。来源:[1] [2]

字段描述:

  • 日期: 记录的日期

  • HUFL: 高利用负荷

  • HULL: 高无用负载

  • MUFL: 中等有用载荷

  • MULL: 中等无用负载

  • LUFL: 低有效载荷

  • LULL: 低效无用负载

  • OT: 油温 (目标)

引用

1

https://github.com/zhouhaoyi/ETDataset

2

https://arxiv.org/abs/2012.07436

方法

load()

将数据集加载到内存中,作为时间序列。

load()

将数据集加载到内存中,作为时间序列。如果数据集尚未存在,则下载数据集。

引发

DatasetLoadingException – 如果加载失败(MD5校验和不正确,下载失败,从磁盘读取失败)

返回

time_series – 包含数据集的 TimeSeries 对象

返回类型

TimeSeries

class darts.datasets.ElectricityConsumptionZurichDataset[源代码]

基类:DatasetLoaderCSV

苏黎世市家庭和小型企业(低压)以及企业和服务业(中压)的电力消耗 [1],每15分钟记录一次数值。

电力消耗与苏黎世市三个不同气象站记录的天气测量数据相结合,频率为每小时一次 [2]。缺失的时间戳用NaN填充。原始天气数据每小时记录一次。在将特征添加到电力消耗之前,数据被重新采样为15分钟频率,并插值缺失值。

为了简化数据集,来自 Zch_Schimmelstrasse 和 Zch_Rosengartenstrasse 气象站的数据被丢弃,只保留 Zch_Stampfenbachstrasse 站记录的数据。

两个数据源都在持续更新,但此数据集仅重新训练2015-01-01至2022-08-31之间的值。时间索引已从CET时区转换为UTC。

组件描述:

  • Value_NE5 : 家庭与中小企业电力消耗(低电压,电网等级7),单位为千瓦时

  • Value_NE7 : 商业和服务业的电力消耗(中压,电网等级5),单位为千瓦时

  • Hr [%Hr] : 相对湿度

  • RainDur [分钟] : 降水持续时间(每小时记录转换为每15分钟记录时除以4)

  • T [°C] : 温度

  • WD [°] : 风向

  • WVv [m/s] : 风矢量速度

  • p [hPa] : 气压

  • WVs [m/s] : 风标量速度

  • StrGlo [W/m²] : 全球太阳辐照度

注意:在2018年之前,标量速度是根据30分钟的矢量数据计算的。

引用

1

https://data.stadt-zuerich.ch/dataset/ewz_stromabgabe_netzebenen_stadt_zuerich

2

https://data.stadt-zuerich.ch/dataset/ugz_meteodaten_stundenmittelwerte

方法

load()

将数据集加载到内存中,作为时间序列。

load()

将数据集加载到内存中,作为时间序列。如果数据集尚未存在,则下载数据集。

引发

DatasetLoadingException – 如果加载失败(MD5校验和不正确,下载失败,从磁盘读取失败)

返回

time_series – 包含数据集的 TimeSeries 对象

返回类型

TimeSeries

class darts.datasets.ElectricityDataset(multivariate=True)[源代码]

基类:DatasetLoaderCSV

以15分钟采样率记录一个家庭电力消耗的测量数据。记录了370个客户的消耗量,单位为千瓦。来源:[1]

加载此数据集将提供一个包含370列的多变量时间序列,每户一列。以下代码可用于将数据集转换为单变量时间序列列表,每户一个。

引用

1

https://archive.ics.uci.edu/ml/datasets/ElectricityLoadDiagrams20112014

方法

load()

将数据集加载到内存中,作为时间序列。

参数

multivariate (bool) – 是否返回一个单一的多变量时间序列 - 如果为 False,则返回一个单变量时间序列列表。默认为 True。

方法

load()

将数据集加载到内存中,作为时间序列。

load()

将数据集加载到内存中,作为时间序列。如果数据集尚未存在,则下载数据集。

引发

DatasetLoadingException – 如果加载失败(MD5校验和不正确,下载失败,从磁盘读取失败)

返回

time_series – 包含数据集的 TimeSeries 对象

返回类型

TimeSeries

class darts.datasets.EnergyDataset[源代码]

基类:DatasetLoaderCSV

来自 [1] 的小时能量数据集。

包含一个时间序列,该序列有28个每小时的数据点,时间范围从2014-12-31 23:00:00到2018-12-31 22:00:00。

引用

1

https://www.kaggle.com/nicholasjhana/energy-consumption-generation-prices-and-weather

方法

load()

将数据集加载到内存中,作为时间序列。

load()

将数据集加载到内存中,作为时间序列。如果数据集尚未存在,则下载数据集。

引发

DatasetLoadingException – 如果加载失败(MD5校验和不正确,下载失败,从磁盘读取失败)

返回

time_series – 包含数据集的 TimeSeries 对象

返回类型

TimeSeries

class darts.datasets.ExchangeRateDataset(multivariate=True)[源代码]

基类:DatasetLoaderCSV

包括澳大利亚、英国、加拿大、瑞士、中国、日本、新西兰和新加坡在内的八个国家的每日汇率集合,时间范围从1990年到2016年。不幸的是,日期方面存在一些不一致,因此生成的TimeSeries是整数索引的。来源:[1]

引用

1

https://github.com/laiguokun/multivariate-time-series-data

方法

load()

将数据集加载到内存中,作为时间序列。

参数

multivariate (bool) – 是否返回一个单一的多变量时间序列 - 如果为 False,则返回一个单变量时间序列列表。默认为 True。

方法

load()

将数据集加载到内存中,作为时间序列。

load()

将数据集加载到内存中,作为时间序列。如果数据集尚未存在,则下载数据集。

引发

DatasetLoadingException – 如果加载失败(MD5校验和不正确,下载失败,从磁盘读取失败)

返回

time_series – 包含数据集的 TimeSeries 对象

返回类型

TimeSeries

class darts.datasets.GasRateCO2Dataset[源代码]

基类:DatasetLoaderCSV

Gas Rate CO2 数据集 两个成分,长度 296(整数时间索引)

方法

load()

将数据集加载到内存中,作为时间序列。

load()

将数据集加载到内存中,作为时间序列。如果数据集尚未存在,则下载数据集。

引发

DatasetLoadingException – 如果加载失败(MD5校验和不正确,下载失败,从磁盘读取失败)

返回

time_series – 包含数据集的 TimeSeries 对象

返回类型

TimeSeries

class darts.datasets.HeartRateDataset[源代码]

基类:DatasetLoaderCSV

该系列包含来自单个受试者的1800个均匀间隔的瞬时心率测量值。测量值(以每分钟心跳次数为单位)以0.5秒的间隔进行,因此每个系列的长度正好是15分钟。

这是 [1] 中的系列1。它使用整数时间索引。

引用

1

http://ecg.mit.edu/时间序列/

方法

load()

将数据集加载到内存中,作为时间序列。

load()

将数据集加载到内存中,作为时间序列。如果数据集尚未存在,则下载数据集。

引发

DatasetLoadingException – 如果加载失败(MD5校验和不正确,下载失败,从磁盘读取失败)

返回

time_series – 包含数据集的 TimeSeries 对象

返回类型

TimeSeries

class darts.datasets.ILINetDataset(multivariate=True)[源代码]

基类:DatasetLoaderCSV

ILI 描述了因流感样疾病就诊的患者数量和患者总数。它包括了从1997年到2022年美国疾病控制和预防中心每周的数据。来源:[1] [2] [3] [4]

组件描述:

  • % 加权ILI:每周报告的因ILI就诊于医疗保健提供者的患者特定州数据的合并

    按州人口加权

  • % 未加权ILI:每个报告的因ILI就诊于医疗保健提供者的患者数据的各州特定数据合并

    按周统计,不考虑各州人口

  • 年龄 0-4: 0 至 4 岁之间的患者人数

  • 年龄 25-49: 25 至 49 岁之间的患者人数

  • 年龄 25-64: 25 至 64 岁之间的患者人数

  • 年龄 5-24: 5 至 24 岁之间的患者人数

  • 年龄 50-64: 50 至 64 岁之间的患者人数

  • 年龄65岁及以上: 65岁及以上患者的数量

  • ILITOTAL: 流感样病例总数。在本系统中,流感样病例定义为发热(体温达到100°F [37.8°C])

    或更严重)以及咳嗽和/或喉咙痛

  • 提供者数量:门诊医疗服务提供者数量

  • 总患者数: 患者总数

引用

1

https://gis.cdc.gov/grasp/fluview/fluportaldashboard.html

2

https://www.cdc.gov/flu/weekly/overview.htm#Outpatient

3

https://arxiv.org/pdf/2205.13504.pdf

4

https://gis.cdc.gov/grasp/fluview/FluViewPhase2QuickReferenceGuide.pdf

方法

load()

将数据集加载到内存中,作为时间序列。

load()

将数据集加载到内存中,作为时间序列。如果数据集尚未存在,则下载数据集。

引发

DatasetLoadingException – 如果加载失败(MD5校验和不正确,下载失败,从磁盘读取失败)

返回

time_series – 包含数据集的 TimeSeries 对象

返回类型

TimeSeries

class darts.datasets.IceCreamHeaterDataset[源代码]

基类:DatasetLoaderCSV

2004年1月至2020年6月期间加热器和冰淇淋的月销售量。

方法

load()

将数据集加载到内存中,作为时间序列。

load()

将数据集加载到内存中,作为时间序列。如果数据集尚未存在,则下载数据集。

引发

DatasetLoadingException – 如果加载失败(MD5校验和不正确,下载失败,从磁盘读取失败)

返回

time_series – 包含数据集的 TimeSeries 对象

返回类型

TimeSeries

class darts.datasets.MonthlyMilkDataset[源代码]

基类:DatasetLoaderCSV

1962年1月至1975年12月间每月牛奶产量(每头牛磅数)

方法

load()

将数据集加载到内存中,作为时间序列。

load()

将数据集加载到内存中,作为时间序列。如果数据集尚未存在,则下载数据集。

引发

DatasetLoadingException – 如果加载失败(MD5校验和不正确,下载失败,从磁盘读取失败)

返回

time_series – 包含数据集的 TimeSeries 对象

返回类型

TimeSeries

class darts.datasets.MonthlyMilkIncompleteDataset[源代码]

基类:DatasetLoaderCSV

1962年1月至1975年12月期间每头奶牛的月产奶量(以磅为单位)。包含一些缺失值。

方法

load()

将数据集加载到内存中,作为时间序列。

load()

将数据集加载到内存中,作为时间序列。如果数据集尚未存在,则下载数据集。

引发

DatasetLoadingException – 如果加载失败(MD5校验和不正确,下载失败,从磁盘读取失败)

返回

time_series – 包含数据集的 TimeSeries 对象

返回类型

TimeSeries

class darts.datasets.SunspotsDataset[源代码]

基类:DatasetLoaderCSV

月度太阳黑子数, 1749 - 1983

1749年至1983年的月平均相对太阳黑子数。1960年前由苏黎世瑞士联邦天文台收集,之后由东京天文台收集。

来源:[1]

引用

1

https://www.rdocumentation.org/packages/datasets/versions/3.6.1/topics/sunspots

方法

load()

将数据集加载到内存中,作为时间序列。

load()

将数据集加载到内存中,作为时间序列。如果数据集尚未存在,则下载数据集。

引发

DatasetLoadingException – 如果加载失败(MD5校验和不正确,下载失败,从磁盘读取失败)

返回

time_series – 包含数据集的 TimeSeries 对象

返回类型

TimeSeries

class darts.datasets.TaxiNewYorkDataset[源代码]

基类:DatasetLoaderCSV

纽约出租车乘客,2014年7月至2015年1月。数据包括按30分钟间隔汇总的出租车乘客总数。单变量时间序列。来源:[1]

引用

1

https://www.kaggle.com/code/julienjta/nyc-taxi-traffic-analysis

方法

load()

将数据集加载到内存中,作为时间序列。

load()

将数据集加载到内存中,作为时间序列。如果数据集尚未存在,则下载数据集。

引发

DatasetLoadingException – 如果加载失败(MD5校验和不正确,下载失败,从磁盘读取失败)

返回

time_series – 包含数据集的 TimeSeries 对象

返回类型

TimeSeries

class darts.datasets.TaylorDataset[源代码]

基类:DatasetLoaderCSV

2000年6月5日星期一至2000年8月27日星期日英格兰和威尔士的每半小时电力需求。在Taylor (2003) [R0041d9a8a6dc-1]_中讨论,并由James W Taylor [R0041d9a8a6dc-2]_慷慨提供。单位:兆瓦(使用整数时间索引)。

引用

1

Taylor, J.W. (2003) 短期电力需求预测使用双季节性指数平滑法。《运筹学杂志》, 54, 799-805.

2

https://www.rdocumentation.org/packages/forecast/versions/8.13/topics/taylor

方法

load()

将数据集加载到内存中,作为时间序列。

load()

将数据集加载到内存中,作为时间序列。如果数据集尚未存在,则下载数据集。

引发

DatasetLoadingException – 如果加载失败(MD5校验和不正确,下载失败,从磁盘读取失败)

返回

time_series – 包含数据集的 TimeSeries 对象

返回类型

TimeSeries

class darts.datasets.TemperatureDataset[源代码]

基类:DatasetLoaderCSV

1981年至1990年间墨尔本的每日气温

方法

load()

将数据集加载到内存中,作为时间序列。

load()

将数据集加载到内存中,作为时间序列。如果数据集尚未存在,则下载数据集。

引发

DatasetLoadingException – 如果加载失败(MD5校验和不正确,下载失败,从磁盘读取失败)

返回

time_series – 包含数据集的 TimeSeries 对象

返回类型

TimeSeries

class darts.datasets.TrafficDataset(multivariate=True)[源代码]

基类:DatasetLoaderCSV

本仓库中的数据是加利福尼亚州交通部提供的48个月(2015-2016年)每小时数据的集合。这些数据描述了旧金山湾区高速公路上862个不同传感器测量的道路占用率(介于0和1之间)。原始数据位于http://pems.dot.ca.gov。来源:[1]

引用

1

https://github.com/laiguokun/multivariate-time-series-data

方法

load()

将数据集加载到内存中,作为时间序列。

参数

multivariate (bool) – 是否返回一个单一的多变量时间序列 - 如果为 False,则返回一个单变量时间序列列表。默认为 True。

方法

load()

将数据集加载到内存中,作为时间序列。

load()

将数据集加载到内存中,作为时间序列。如果数据集尚未存在,则下载数据集。

引发

DatasetLoadingException – 如果加载失败(MD5校验和不正确,下载失败,从磁盘读取失败)

返回

time_series – 包含数据集的 TimeSeries 对象

返回类型

TimeSeries

class darts.datasets.USGasolineDataset[源代码]

基类:DatasetLoaderCSV

1991年2月8日至2021年4月30日期间美国成品车用汽油的每周供应量

来自 [1]

引用

1

https://www.eia.gov/dnav/pet/hist/LeafHandler.ashx?n=PET&s=wgfupus2&f=W

方法

load()

将数据集加载到内存中,作为时间序列。

load()

将数据集加载到内存中,作为时间序列。如果数据集尚未存在,则下载数据集。

引发

DatasetLoadingException – 如果加载失败(MD5校验和不正确,下载失败,从磁盘读取失败)

返回

time_series – 包含数据集的 TimeSeries 对象

返回类型

TimeSeries

class darts.datasets.UberTLCDataset(sample_freq='hourly', multivariate=True)[源代码]

基类:DatasetLoaderCSV

2015年1月至6月的1430万次Uber接载记录。数据根据locationID作为目标,重新采样为每小时或每日的sample_freq。来源:[1]

加载此数据集将提供一个包含262列的多变量时间序列,每个locationID对应一个。以下代码可用于将数据集转换为单变量时间序列列表,每个locationID对应一个。

引用

1

https://github.com/fivethirtyeight/uber-tlc-foil-response

方法

load()

将数据集加载到内存中,作为时间序列。

参数
  • sample_freq (str) – 数据的采样频率。可以是“每小时”或“每日”。默认是“每小时”。

  • multivariate (bool) – 是否返回一个单一的多变量时间序列 - 如果为 False,则返回一个单变量时间序列列表。默认为 True。

方法

load()

将数据集加载到内存中,作为时间序列。

load()

将数据集加载到内存中,作为时间序列。如果数据集尚未存在,则下载数据集。

引发

DatasetLoadingException – 如果加载失败(MD5校验和不正确,下载失败,从磁盘读取失败)

返回

time_series – 包含数据集的 TimeSeries 对象

返回类型

TimeSeries

class darts.datasets.WeatherDataset(multivariate=True)[源代码]

基类:DatasetLoaderCSV

天气包括21个天气指标,如气温和湿度。这些数据在2020年每隔10分钟记录一次,地点在德国。来源:[1] [2]

引用

1

https://www.bgc-jena.mpg.de/wetter/

2

https://arxiv.org/pdf/2205.13504.pdf

方法

load()

将数据集加载到内存中,作为时间序列。

参数

multivariate (bool) – 是否返回一个单一的多变量时间序列 - 如果为 False,则返回一个单变量时间序列列表。默认为 True。

方法

load()

将数据集加载到内存中,作为时间序列。

load()

将数据集加载到内存中,作为时间序列。如果数据集尚未存在,则下载数据集。

引发

DatasetLoadingException – 如果加载失败(MD5校验和不正确,下载失败,从磁盘读取失败)

返回

time_series – 包含数据集的 TimeSeries 对象

返回类型

TimeSeries

class darts.datasets.WineDataset[源代码]

基类:DatasetLoaderCSV

澳大利亚瓶装葡萄酒总销量(<= 1 升)。1980年1月至1994年8月每月数据。来源:[1]

引用

1

https://www.rdocumentation.org/packages/forecast/versions/8.1/topics/wineind

方法

load()

将数据集加载到内存中,作为时间序列。

load()

将数据集加载到内存中,作为时间序列。如果数据集尚未存在,则下载数据集。

引发

DatasetLoadingException – 如果加载失败(MD5校验和不正确,下载失败,从磁盘读取失败)

返回

time_series – 包含数据集的 TimeSeries 对象

返回类型

TimeSeries

class darts.datasets.WoolyDataset[源代码]

基类:DatasetLoaderCSV

澳大利亚羊毛纱线的季度产量:吨。1965年3月 – 1994年9月。来源:[1]

引用

1

https://www.rdocumentation.org/packages/forecast/versions/8.1/topics/woolyrnq

方法

load()

将数据集加载到内存中,作为时间序列。

load()

将数据集加载到内存中,作为时间序列。如果数据集尚未存在,则下载数据集。

引发

DatasetLoadingException – 如果加载失败(MD5校验和不正确,下载失败,从磁盘读取失败)

返回

time_series – 包含数据集的 TimeSeries 对象

返回类型

TimeSeries