谷歌：非等頻采樣時間序列表示學(xué)習(xí)新方法

天承辦公室 2023-09-25

展開全文

在時間序列問題中，有一種類型的時間序列不是等頻采樣的，即每組相鄰兩個觀測值的時間間隔不一樣。時間序列表示學(xué)習(xí)在等頻采樣的時間序列中已經(jīng)進行了比較多的研究，但是在這種不規(guī)則采樣的時間序列中研究比較少，并且這類時間序列的建模方式和等頻采樣中的建模方式有比較大的差別。

今天介紹的這篇文章，在不規(guī)則采樣的時間序列問題中，探索了表示學(xué)習(xí)的應(yīng)用方法，借鑒了NLP中的相關(guān)經(jīng)驗，在下游任務(wù)上取得了比較顯著的效果。

論文標題：PAITS: Pretraining and Augmentation for Irregularly-Sampled Time Series
下載地址：https:///pdf/2308.13703v1.pdf

不規(guī)則時間序列數(shù)據(jù)定義

如下圖是不規(guī)則時間序列數(shù)據(jù)的一個表示形式。每個時間序列由一組triplet組成，每個triple包括time、value、feature三個字段，分別表示時間序列中每個元素的采樣時間、數(shù)值、其他特征。每個序列的信息除了剛才的triplet外，還包括其他不隨時間變化的靜態(tài)特征，以及每個時間序列的label。

一般這種不規(guī)則時間序列建模方法，常見的結(jié)構(gòu)是將上述triple數(shù)據(jù)分別embedding后，拼接到一起，輸入到transformer等模型中，這種方式將每個時刻的信息，以及每個時刻的時間表征融合到一起輸入到模型，進行后續(xù)任務(wù)的預(yù)測。

在本文的任務(wù)中，使用的數(shù)據(jù)既包括這些有l(wèi)abel的數(shù)據(jù)外，還包括無label的數(shù)據(jù)，用于做無監(jiān)督預(yù)訓(xùn)練。

方法概覽

本文的預(yù)訓(xùn)練方法借鑒了NLP中的經(jīng)驗，主要包括兩個方面。

預(yù)訓(xùn)練任務(wù)的設(shè)計：針對不規(guī)則時間序列，設(shè)計合適的預(yù)訓(xùn)練任務(wù)，讓模型從無監(jiān)督數(shù)據(jù)中學(xué)到良好表征。文中主要提出了基于預(yù)測的預(yù)訓(xùn)練任務(wù)和基于重構(gòu)的預(yù)訓(xùn)練任務(wù)。

數(shù)據(jù)增強方式設(shè)計：文中設(shè)計了用于無監(jiān)督學(xué)習(xí)的數(shù)據(jù)增強方式，包括添加噪聲、增加隨機mask等方式。

此外，文中還提出了一種針對不同分布數(shù)據(jù)集，如何探索最優(yōu)無監(jiān)督學(xué)習(xí)方式的算法。

預(yù)訓(xùn)練任務(wù)設(shè)計

本文提出了兩種不規(guī)則時間序列上的預(yù)訓(xùn)練任務(wù)，分別是Forecasting pretraining和Reconstruction pretraining。

在Forecasting pretraining中，對于時間序列中的每個特征，根據(jù)某個大小的時間窗口前序序列，預(yù)測它的取值。這里的特征指的是triplet中的feature。由于每種feature在一個時間窗口中可能出現(xiàn)多次，或者不會出現(xiàn)，因此文中采用了這個feature第一次出現(xiàn)的值作為label進行預(yù)訓(xùn)練。這其中輸入的數(shù)據(jù)包括原始序列，以及增強后的時間序列。

在Reconstruction pretraining中，首先對于一個原始的時間序列，通過某種數(shù)據(jù)增強方式生成一個增強后的序列，然后用增強后的序列作為輸入，經(jīng)過Encoder生成表示向量，再輸入到一個Decoder中還原原始的時間序列。文中通過一個mask來指導(dǎo)需要還原哪些部分的序列，如果這個mask都為1就是還原整個序列。

在得到預(yù)訓(xùn)練參數(shù)后，可以直接應(yīng)用于下游的finetune任務(wù)，整個的pretrain-finetune流程如下圖所示。