728x90

๐Ÿ“ Paper

Title : SOFTS: Efficient Multivariate Time Series Forecasting with Series-Core Fusion

Author : Lu Han, Xu-Yang Chen, Han-Jia Ye, De-Chuan Zhan

Publish : 2024, https://arxiv.org/abs/2404.14197

Keyword : Multivariate Time Series Forecasting(MTSF), MLP-based Model, STAR Module, Channel Independence, Linear Complexity

 

๐ŸŒ„ ์—ฐ๊ตฌ์˜ ๋ฐฐ๊ฒฝ ๋ฐ ๋ชฉ์ 

  • ์—ฐ๊ตฌ ๋ฐฐ๊ฒฝ
    • ๊ณผ๊ฑฐ์—๋Š” ARIMA ๋ฐ ์ง€์ˆ˜ ํ‰ํ™œ๊ณผ ๊ฐ™์€ ๋‹จ์ˆœํ•œ ๋ชจ๋ธ์ด ์‹œ๊ณ„์—ด ์˜ˆ์ธก์˜ ํ‘œ์ค€์ด์—ˆ์œผ๋‚˜, ์ตœ๊ทผ์—๋Š” RNN, CNN๊ณผ ๊ฐ™์€ Deep learning ๋ชจ๋ธ์ด ๋”์šฑ ๋ณต์žกํ•œ ํŒจํ„ด์„ ํ•™์Šตํ•˜๋ฉฐ ๋” ์šฐ์ˆ˜ํ•œ ์„ฑ๊ณผ๋ฅผ ๋ณด์ž„
    • Transformer ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์€ ๊ธด ์‹œ๊ณ„์—ด์˜ depencies๋ฅผ ๋‹ด์„ ์ˆ˜ ์žˆ์–ด MTSF์—์„œ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์ž„
    • ํ•˜์ง€๋งŒ ์ฑ„๋„์˜ ๋…๋ฆฝ์„ฑ์„ ์œ ์ง€ํ•˜๋Š” ์ „๋žต์€ ํšจ๊ณผ์ ์ด๋‚˜ ์ฑ„๋„ ๊ฐ„ ์ƒํ˜ธ์ž‘์šฉ์„ ๋ฌด์‹œํ•˜์—ฌ ์ถ”๊ฐ€์ ์ธ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์ œํ•œํ•จ (Feature๊ฐ„ ์ƒํ˜ธ์ž‘์šฉ ์—ฐ๊ด€์„ฑ์ด target์— ์ž˜ ๋ฐ˜์˜๋˜์ง€ ๋ชปํ•จ)
  • ์—ฐ๊ตฌ ๋ชฉ์ 
    • ์ƒˆ๋กœ์šด MLP ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์ธ SOFTS(Series-cOre Fused Time Series Forecasters)๋ฅผ ๋„์ž…ํ•˜๊ณ , STar Aggregate-Redistribute(STAR)๋ฅผ ํ†ตํ•ด ์ฑ„๋„๊ฐ„ ์ƒํ˜ธ์ž‘์šฉ์„ ํ•˜๋‚˜๋กœ ๋ชจ์•„ ํšจ์œจ์„ฑ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•จ.

 

โ“์—ฐ๊ตฌ ๋ฌธ์ œ ๋ฐ ๊ฐ€์„ค

  • ์—ฐ๊ตฌ ๋ฌธ์ œ
    • MTSF์—์„œ ์ฑ„๋„ ๊ฐ„ independecy์™€ interaction ์ •๋ณด๋ฅผ ๋ชจ๋‘ ํ™œ์šฉํ•˜๋Š” Timeforecast model
  • ์—ฐ๊ตฌ ๊ฐ€์„ค
    • STAR Module์„ ์‚ฌ์šฉํ•˜์—ฌ centralized structure๋ฅผ ๊ตฌํ˜„ํ•˜๊ณ  channel์— ์ ์šฉํ•˜๋ฉด transformer-based model๋ณด๋‹ค ๋” ์ ์€ ๋ฆฌ์†Œ์Šค๋กœ ๋” ๋†’์€ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ์Œ.

 

๐Ÿฆœ ์—ฐ๊ตฌ ๋ฐฉ๋ฒ•๋ก 

SOFTS๋ชจ๋ธ

Series-cOre Fused Time Series forecasters(SOFTS)

 

L : lookback ์œผ๋กœ Y ์˜ˆ์ธก
Figure 2: STAR ๋ชจ๋“ˆ๊ณผ ์ฃผ๋กœ ์‚ฌ์šฉ๋˜๋Š” ์—ฌ๋Ÿฌ ๋ชจ๋“ˆ(์˜ˆ: ์–ดํ…์…˜, GNN, Mixer)์˜ ๋น„๊ต์ž…๋‹ˆ๋‹ค. ๋ชจ๋“ˆ์€ ๊ฐ ์ฑ„๋„์˜ ํ’ˆ์งˆ์— ์˜์กดํ•˜๋Š” ๋ถ„์‚ฐ๋œ ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ƒํ˜ธ์ž‘์šฉ์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด STAR ๋ชจ๋“ˆ์€ ๋ชจ๋“  ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ๋ฅผ ๋จผ์ € ์ง‘๊ณ„ํ•˜์—ฌ ํฌ๊ด„์ ์ธ ์ฝ”์–ด ํ‘œํ˜„์„ ์–ป๊ณ , ๊ฐ ์ฑ„๋„์— ์ „๋‹ฌํ•˜๋Š” ์ค‘์•™ ์ง‘์ค‘ํ˜• ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. STAR ๋ฐฉ์‹์€ ์ƒํ˜ธ์ž‘์šฉ์˜ ๋ณต์žก์„ฑ์„ ์ค„์ผ ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์ฑ„๋„ ํ’ˆ์งˆ์— ๋Œ€ํ•œ ์˜์กด์„ฑ๋„ ๋‚ฎ์ถฅ๋‹ˆ๋‹ค.

 

Reversible instance normalization [2021, Reversible Instance Normalization for...]

 Reversible instance normalization, RevIN๋Š” ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ์ƒ ์‹œ๊ฐ„์ด ์ง€๋‚˜๋ฉด์„œ ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ ๋˜ํ•œ ๋ณ€ํ™”ํ•ด ์˜ˆ์ธก์ด ์ €ํ•˜๋˜๋Š” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐ.

์ผ๋ฐ˜์ ์ธ ์ •๊ทœํ™”๋กœ ์ค‘์‹ฌ์„ 0์œผ๋กœ N~(0, u)๋กœ ๋†“๊ณ  unit varience๋ฅผ ์กฐ์ •ํ•œ ํ›„ ๋‹ค์Œ ์˜ˆ์ธก์—๋Š” ์ •๊ทœํ™”๋ฅผ ์ทจ์†Œํ•˜๊ณ  RevIN์„ ์ ์šฉ. 

 

Series embedding

Patch embedding์—์„œ input ์‹œ๊ณ„์—ด์˜ ๊ธธ์ด(=lookback window)๋งŒํผ ์„ค์ •ํ•˜๋Š” ๊ฒƒ๊ณผ ๋™์ผ.

Patch embedding๊ณผ ๋‹ค๋ฅด๊ฒŒ ์ฐจ์›์ด ํ•˜๋‚˜๋กœ ๋ณต์žก์„ฑ์ด ๋‚ฎ์Œ. 

lookback window์— ๋Œ€ํ•œ Series embedding์„ ์ˆ˜ํ–‰ํ•˜๊ณ  ๊ฐ ์ฑ„๋„์˜ ์‹œ๋ฆฌ์ฆˆ๋ฅผ 

d, hidden layer dimension

์ž„๋ฒ ๋”ฉํ•˜๊ธฐ ์œ„ํ•ด linear projection์„ ์‚ฌ์šฉ

 

(1)

 

Channel Interation

Series embedding์€ ์—ฌ๋Ÿฌ๊ฐœ์˜ STAR ๋ชจ๋“ˆ ๊ณ„์ธต์œผ๋กœ ์„ธ๋ถ„ํ™”ํ•จ.

 

(2)

S0=Embedding(X)๋กœ ์‹œ์ž‘ํ•ด S1=STAR(S0) S1, S2 ,,, SN ๊นŒ์ง€ Channel Interaction ๊ทน๋Œ€ํ™”์‹œํ‚ด.

 

 

Linear predicter 

 

 N๊ฐœ์˜ STAR Layer ์ดํ›„ ์„ ํ˜• ์˜ˆ์ธก ๊ฒฐ๊ณผ๋ฅผ ์ƒ์„ฑํ•ด ๋ ˆ์ด์–ด์˜ ์ถœ๋ ฅ ์‹œ๊ณ„์—ด์„ ํ‘œํ˜„

 

STar Aggregate-Redistribute Module

STAR

 ์ด ๋ชจ๋“ˆ์€ ์†Œํ”„ํŠธ์›จ์–ด ์—”์ง€๋‹ˆ์–ด๋ง์˜ ๋ณ„ ๋ชจ์–‘ centralized system์—์„œ ์˜๊ฐ์„ ๋ฐ›์Œ (ํด๋ผ์ด์–ธํŠธ๊ฐ€ ์„œ๋กœ ํ†ต์‹ ํ•˜๋Š” ๋Œ€์‹  ์ •๋ณด๋ฅผ ์ง‘๊ณ„ํ•˜๊ณ  ๊ตํ™˜ํ•˜๋Š” ์„œ๋ฒ„ ์„ผํ„ฐ์™€ ๋น„์Šท)

ํด๋ผ์ด์–ธํŠธ์˜ ์š”์ฒญ์„ ๋ฐ›๋Š” ์ค‘์•™ ์„œ๋ฒ„๋ฅผ Core๋ผ๊ณ  ํ•˜๋ฉฐ  ์ฝ”์–ด๋Š” ์ฑ„๋„์„ ํ†ตํ•œ global representation์„ ๋‚˜ํƒ€๋ƒ„

๋ถ„์‚ฐ ๊ตฌ์กฐ์™€ ๋น„๊ตํ•ด STAR๋Š” channel statistics(์ฑ„๋„ ํ†ต๊ณ„)๋ฅผ ์ง‘๊ณ„ํ•˜๊ณ  ๊ฐ€์ ธ์™€ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๊ฐ€์ง(attention, GNN, Mixer ๊ธฐ์กด ๋ชจ๋ธ๊ณผ ์ฐจ์ด์ )

 

Core Representation

C๊ฐœ์˜ ์ฑ„๋„์„ ๊ฐ€์ง„ ๋‹ค๋ณ€๋Ÿ‰ ์‹œ๋ฆฌ์ฆˆ๊ฐ€ ์ฃผ์–ด์งˆ ๋•Œ s1,s2,...,sc ์ฝ”์–ด์˜ ํ‘œํ˜„์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Œ

 

core representation์€ ๋ชจ๋“  ์ฑ„๋„์„ ํ†ตํ•œ global information์„ encodingํ•จ

Kolmogorov-Anrnold representation theorem ๋ฐ DeepSerts์—์„œ ์˜๊ฐ์„ ๋ฐ›์Œ

Stochastic Pooling ์ƒ˜ํ”Œ๋ง์œผ๋กœ Pooling ์˜์—ญ์—์„œ ํ™•๋ฅ  ๊ธฐ๋ฐ˜์œผ๋กœ ๊ฐ’์„ ์ƒ˜ํ”Œ๋งํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์ผ์ • ํ™•๋ฅ ๋กœ ์„ ํƒ๋  ๊ฐ€๋Šฅ์„ฑ์„ ๊ฐ€์ง ๋”ฐ๋ผ์„œ overfitting ์ค„๊ณ  ๋‹ค์–‘ํ•œ ํ•™์Šต(๊ฐ channel์˜ ํŠน์„ฑ)์„ ํ•  ์ˆ˜ ์žˆ์Œ

Stochastic Pooling Sampling

 MLP1:Rdโ†’Rdโ€ฒ๋Š” series hidden dimension d์—์„œ core dimension dโ€˜๋กœ series representaion์„ projection์œผ๋กœ์„œ activation์„ GELU๋กœ ์ทจํ•จ 

 

 

Repeat_Concat

๊ฐ ์‹œ๋ฆฌ์ฆˆ์— ์—ฐ๊ฒฐ๋œ Core representation์„ O์— ์—ฐ๊ฒฐ

MLP(MLP2:Rd+dโ€ฒโ†’Rd)๋ฅผ ์‚ฌ์šฉ ํ›„ SiโˆˆRCร—d๋กœ hidden dimension d๋กœ ํˆฌ์˜

Deep learning๊ณผ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ residual connection์œผ๋กœ input output ์—ฐ๊ฒฐ

pseudo code

 

Core representation ์„ธ๋ถ€ ์„ค๋ช…

 

Multivariate time series core๋Š” ์•„๋ž˜์™€ ๋‚˜ํƒ€๋ƒ„

 

o=f(s1,s2,โ€ฆ,sC)

 

์ •๋ฆฌ B.1 (Kolmogorov-Arnold ํ‘œํ˜„ ์ •๋ฆฌ)

ํ•จ์ˆ˜ f:[0,1]Mโ†’R๊ฐ€ ์ž„์˜์˜ ๋‹ค๋ณ€๋Ÿ‰ ์—ฐ์† ํ•จ์ˆ˜์ผ ๋•Œ: 

 

f(x1,โ€ฆ,xM)=ฯ(โˆ‘m=1Mฮปmฯ•(xm))

 

์—ฌ๊ธฐ์„œ ์™ธ๋ถ€ ํ•จ์ˆ˜ ฯ:R2M+1โ†’R์™€ ๋‚ด๋ถ€ ํ•จ์ˆ˜ ฯ•:Rโ†’R2M+1๋Š” ์—ฐ์†์ ์ด๋ฉฐ, ฯ•๋Š” ํ•จ์ˆ˜ f์™€ ๋…๋ฆฝ์ 

 

์ •๋ฆฌ B.2 (DeepSets)

X ์˜ ์›์†Œ๋“ค์ด  Rd ์˜ compact ์ง‘ํ•ฉ์—์„œ ์˜ค๋ฉฐ, ์ง‘ํ•ฉ์˜ ํฌ๊ธฐ๊ฐ€  M ์œผ๋กœ ๊ณ ์ •๋œ๋‹ค๊ณ  ๊ฐ€์ •

์ง‘ํ•ฉ  X ์—์„œ ์ˆœ์—ด ๋ถˆ๋ณ€์„ฑ์„ ๊ฐ€์ง€๋Š” ์—ฐ์† ํ•จ์ˆ˜  f:Rdร—Mโ†’R๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ˜•ํƒœ๋กœ ์ž„์˜์˜ ์˜ค์ฐจ ๋ฒ”์œ„ ๋‚ด์—์„œ ๊ทผ์‚ฌ:

 

ฯ(โˆ‘xโˆˆXฯ•(x))

 

๋‘ ๊ฐ€์ง€ ์ˆ˜์‹์€ ๋งค์šฐ ์œ ์‚ฌํ•˜์ง€๋งŒ, ๋‚ด๋ถ€ ๋ณ€ํ™˜์ด ์ขŒํ‘œ  ฮปm์„  ํ†ตํ•ด ์ข…์†๋˜๋Š” ์ ์—์„œ ์ฐจ์ด๊ฐ€ ์žˆ์Œ. ฮป์˜ ์กด์žฌ ์—ฌ๋ถ€๋Š” ์ˆ˜์‹์ด ์ˆœ์—ด ๋ถˆ๋ณ€(permutation invariant)์ธ์ง€ ์•„๋‹Œ์ง€๋ฅผ ๊ฒฐ์ •.

 

์ด ๋…ผ๋ฌธ์—์„œ๋Š” DeepSets(์ •๋ฆฌ B.2)์ด Kolmogorov-Arnold ํ‘œํ˜„(์ •๋ฆฌ B.1)๋ณด๋‹ค ํ›จ์”ฌ ๋” ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์ธ๋‹ค๊ณ  ๋ฐํžˆ๊ณ  ์žˆ์Œ

 

๊ฐ ์ฑ„๋„(์ขŒํ‘œ)์˜ ์ธ๋ฑ์Šค๋ฅผ ์œ ๋„ํ•˜๊ธฐ์— ์ถฉ๋ถ„ํ•œ ์ฑ„๋„ ์‹œ๊ณ„์—ด์˜ ํŠน์„ฑ์— ๊ธฐ์ธํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ ๊ฐ ์ฑ„๋„์— ๊ณ ์œ ํ•œ ์ถ”๊ฐ€ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๋„์ž…ํ•˜๋ฉด ์ข…์†์„ฑ์„ ์ฑ„๋„ ์ขŒํ‘œ์— ๋งž๊ฒŒ ์กฐ์ •ํ•˜๊ณ , ๋”ฐ๋ผ์„œ ๊ธฐ๋ก์— ๋Œ€ํ•œ ์˜์กด์„ฑ์„ ์ค„์—ฌ์„œ ์•Œ ์ˆ˜ ์—†๋Š” ์‹œ๊ณ„์—ด์„ ์ฒ˜๋ฆฌํ•  ๋•Œ ๋‚ฎ์€ ๊ฒฐํ•ฉ์„ ์ดˆ๋ž˜ํ•  ์ˆ˜ ์žˆ์Œ. ๊ฒฐ๊ณผ์ ์œผ๋กœ, Core ํ‘œํ˜„์„ ํ‘œํ˜„ํ•˜๊ธฐ ์œ„ํ•ด DeepSets ํ˜•ํƒœ๋ฅผ ์‚ฌ์šฉ:

 

o=ฯ(โˆ‘sโˆˆSฯ•(s))

 

์ฐธ๊ณ  : Stochastic Pooling

 

Evaluation

Dataset

  • ETT (Electricity Transformer Temperature)[Dataset] : 2๊ฐœ์˜ ์‹œ๊ฐ„ ๋‹จ์œ„ ๋ฐ์ดํ„ฐ์…‹(ETTh)๊ณผ 2๊ฐœ์˜ 15๋ถ„ ๋‹จ์œ„ ๋ฐ์ดํ„ฐ์…‹(ETTm)์ด ํฌํ•จ. ๊ฐ ๋ฐ์ดํ„ฐ์…‹์—๋Š” 2016๋…„ 7์›”๋ถ€ํ„ฐ 2018๋…„ 7์›”๊นŒ์ง€์˜ ์ „๊ธฐ ๋ณ€์••๊ธฐ ๊ด€๋ จ 7๊ฐœ์˜ ์˜ค์ผ ๋ฐ ๋ถ€ํ•˜ ํŠน์„ฑ์ด ์žˆ์Œ.
  • Traffic : ๋„๋กœ ์ ์œ ์œจ ๋ฐ์ดํ„ฐ์…‹. ์ƒŒํ”„๋ž€์‹œ์Šค์ฝ” ๊ณ ์†๋„๋กœ์˜ ์„ผ์„œ๊ฐ€ 2015๋…„๋ถ€ํ„ฐ 2016๋…„๊นŒ์ง€ ๊ธฐ๋กํ•œ ์‹œ๊ฐ„ ๋‹จ์œ„ ๋ฐ์ดํ„ฐ.
  • Electricity : 2012๋…„๋ถ€ํ„ฐ 2014๋…„๊นŒ์ง€ 321๊ฐœ์˜ ์ „๋ ฅ ์‚ฌ์šฉ์ž์— ๋Œ€ํ•œ ์‹œ๊ฐ„ ๋‹จ์œ„ ์ „๋ ฅ ์†Œ๋น„๋Ÿ‰ ์ˆ˜์ง‘ ๋ฐ์ดํ„ฐ.
  • Weather : ๊ณต๊ธฐ ์˜จ๋„, ์Šต๋„์™€ ๊ฐ™์€ 21๊ฐœ์˜ ๊ธฐ์ƒ ์ง€ํ‘œ๊ฐ€ ํฌํ•จ. 2020๋…„ ๋™์•ˆ ๋…์ผ์—์„œ 10๋ถ„ ๊ฐ„๊ฒฉ์œผ๋กœ ๊ธฐ๋ก.
  • Solar-Energy : 2006๋…„์— 137๊ฐœ์˜ ํƒœ์–‘๊ด‘ ๋ฐœ์ „์†Œ์—์„œ ์ƒ์‚ฐ๋œ ํƒœ์–‘๊ด‘ ๋ฐœ์ „๋Ÿ‰์„ ๊ธฐ๋กํ•œ ๋ฐ์ดํ„ฐ, 10๋ถ„ ๊ฐ„๊ฒฉ์œผ๋กœ ์ƒ˜ํ”Œ๋ง.
  • PEMS : ์บ˜๋ฆฌํฌ๋‹ˆ์•„์˜ ๊ณต๊ณต ๊ตํ†ต ๋„คํŠธ์›Œํฌ ๋ฐ์ดํ„ฐ์…‹, 5๋ถ„ ๊ฐ„๊ฒฉ์œผ๋กœ ์ˆ˜์ง‘.

Multivariate forecasting results ์˜ˆ์ธก ์ˆ˜ํ‰์„   Hโˆˆ{12,24,48,96} ์€ PEMS์— ๋Œ€ํ•ด,  Hโˆˆ{96,192,336,720} ์€ ๊ธฐํƒ€ ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•ด ์„ค์ •๋˜์—ˆ์œผ๋ฉฐ, ์ฐธ์กฐ ์œˆ๋„์šฐ ๊ธธ์ด  L ์€ 96์œผ๋กœ ๊ณ ์ •๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ๋Š” ๋ชจ๋“  ์˜ˆ์ธก ์ˆ˜ํ‰์„ ์—์„œ ํ‰๊ท ์„ ๋‚ธ ๊ฐ’์ž…๋‹ˆ๋‹ค. ์ „์ฒด ๊ฒฐ๊ณผ๋Š” ํ‘œ 6์— ๋‚˜์™€ ์žˆ์Šต๋‹ˆ๋‹ค.

   SOFTS ๋ชจ๋ธ์€ MLP๋กœ์„œ DLinear ๋ฐ TSMixer์™€ ๊ฐ™์€ ๊ธฐ์กด์˜ MLP ๋ชจ๋ธ๊ณผ ๋น„๊ตํ•ด ์ตœ์†Œํ•œ์˜ ๋ฉ”๋ชจ๋ฆฌ ๋ฐ ์‹œ๊ฐ„ ์†Œ๋น„๋กœ ํšจ์œจ์ ์ธ ์„ฑ๋Šฅ์„ ๋ณด์ž„.

 

๊ทธ๋ฆผ a๋Š” ๊ทธ๋ฆผ b์—์„œ ๊ฐ€์žฅ ์„ฑ๋Šฅ์ด ์šฐ์ˆ˜ํ•œ ์„ธ ๊ฐ€์ง€ ๋ชจ๋ธ์˜ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰ /

  ์œ„ ๊ทธ๋ฆผ์€ Traffic Dataset์—์„œ lookback L = 96, ์ง€ํ‰์„  H = 720 ๋ฐ ๋ฐฐ์น˜ 4๋กœ ๋‹ค์–‘ํ•œ ๋ชจ๋ธ์˜ ๋ฉ”๋ชจ๋ฆฌ ๋ฐ ์‹œ๊ฐ„ ์‚ฌ์šฉ๋Ÿ‰ ๋ณด์—ฌ์คŒ

RAM ์‚ฌ์šฉ๋Ÿ‰์ด ์ ์Œ(Crossformer์™€ ๋น„๊ตํ•ด 26๋ฐฐ ๋” ์ ์€ ๋ฆฌ์†Œ์Šค๋ฅผ ์‚ฌ์šฉ)์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  DLinear ๋ฐ TSMixer์™€ ๊ฐ™์€ ์„ ํ˜• ๊ธฐ๋ฐ˜ ๋˜๋Š” MLP ๋ชจ๋ธ์€ ์ฑ„๋„ ์ˆ˜๊ฐ€ ๋งŽ์„ ๊ฒฝ์šฐ ์„ฑ๋Šฅ์ด ์ €์กฐํ•จ. (์ฑ„๋„์„ ๋งŽ์ด ์‚ฌ์šฉํ•  ๊ฒฝ์šฐ ๋ฆฌ์†Œ์Šค๋ฅผ ๋งŽ์ด ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์— ๋น„ํ•ด ์„ฑ๋Šฅ์ด ๋” ์ €ํ•˜๋จ)

 

 (a)์—์„œ PatchTST์™€ iTransformer์˜ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์€ ์ฑ„๋„ ์ˆ˜๊ฐ€ ์ฆ๊ฐ€ํ•จ์— ๋”ฐ๋ผ ํฌ๊ฒŒ ์ฆ๊ฐ€ํ•˜๋Š” ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ์Œ. ๋ฐ˜๋ฉด์— SOFTS ๋ชจ๋ธ์€ ์ฑ„๋„ ์ˆ˜๊ฐ€ ์„ ํ˜•์ ์œผ๋กœ ์ฆ๊ฐ€ํ•จ์— ๋”ฐ๋ผ ํšจ์œจ์ ์ธ ์ž‘๋™์„ ์œ ์ง€ํ•ด ๋งŽ์€ ์ฑ„๋„์„ ํšจ๊ณผ์ ์œผ๋กœ ์ฒ˜๋ฆฌ

 


๐Ÿง‘โ€๐Ÿ’ป Github Scratch

์‚ฌ์šฉ ๋ฐ์ดํ„ฐ : ETDataset-small (์ „๊ธฐ ๋ณ€์••๊ธฐ ๋ฐ์ดํ„ฐ, ๋ถ€ํ•˜-์˜ค์ผ ์˜จ๋„๋ฅผ ํฌํ•จํ•œ 2๊ฐœ ์Šคํ…Œ์ด์…˜์˜ 2๊ฐœ ์ „๊ธฐ ๋ณ€์••๊ธฐ)

ETDataset ์„ค๋ช…
Dataset in plotly

15๋ถ„ ๋‹จ์œ„๋กœ ์ง‘๊ณ„๋˜์–ด ๋ฐ์ดํ„ฐ๊ฐ€ ์ผ๋ฐ˜์ ์ธ ์ „๊ธฐ ์ „์•• ์‹œ๋ฆฌ์ฆˆ ๋ฐ์ดํ„ฐ์™€ ๊ฐ™์ด ๋งŽ์ด ํŠ€๋Š” ๊ฒƒ์„ ๋ณผ ์ˆ˜ ์žˆ์Œ

๋˜ํ•œ Oil Temperature ์˜ค์ผ ์˜จ๋„์— ์˜ํ–ฅ์„ ์ฃผ๋Š” ๋‚˜๋จธ์ง€ series feature๋“ค์˜ ์œ ์‚ฌ์„ฑ๊ณผ ์ƒ๊ด€๊ด€๊ณ„๋Š”

์œ„ ๊ทธ๋ž˜ํ”„๋งŒ์œผ๋กœ ์œ ์ถ”ํ•  ์ˆ˜ ์—†์„ ๋งŒํผ ์–ด๋ ค์›€.

input data train / valid / test length ๋น„๊ต

 

Data set Summary
Input dataset Shape
Model Shape ๋น„๊ต / SOFTS Block

 

 m1 mac์—์„œ SOFTS ๋ชจ๋ธ๋กœ ET-small ์˜ˆ์ธก์„ ๋Œ๋ฆฐ ๊ฒฐ๊ณผ   5๋ฒˆ์˜ ๋ฐฐ์น˜ 31.52 sec / 1 epoch๋กœ ์ด 3๋ถ„ ๊ฐ€๋Ÿ‰ ์†Œ์š”๋˜์—ˆ๊ณ  ๊ทธ ๊ฒฐ๊ณผ mse:0.332, mae:0.365๋ฅผ ์–ป์—ˆ๋‹ค. paperwitchcodes์— ์˜ฌ๋ผ์˜จ mse 0.39 ๋ณด๋‹ค ๋‚ฎ์€ ์ˆ˜์น˜์™€ ๋” ์ ์€ ๋ฆฌ์†Œ์Šค๋กœ ๋” ๋‚˜์€ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ด๋Š” ๊ฒƒ์„ ํ™•์ธํ–ˆ๋‹ค.

 

๐Ÿšง ๋ชจ๋ธ์˜ ํ•œ๊ณ„

core representation์˜ ์˜์กด์„ฑ

 STAR ๋ชจ๋“ˆ์˜ ํšจ๊ณผ๋Š” ๊ธ€๋กœ๋ฒŒ ํ•ต์‹ฌ ํ‘œํ˜„์˜ ํ’ˆ์งˆ์— ํฌ๊ฒŒ ์˜์กดํ•จ. ๋งŒ์•ฝ ์ด ํ‘œํ˜„์ด ๊ฐœ๋ณ„ ์‹œ๊ณ„์—ด์˜ ์ฃผ์š” ํŠน์ง•์„ ์ •ํ™•ํ•˜๊ฒŒ ํฌ์ฐฉํ•˜์ง€ ๋ชปํ•œ๋‹ค๋ฉด, ๋ชจ๋ธ ์„ฑ๋Šฅ์ด ์ €ํ•˜๋  ์ˆ˜ ์žˆ์Œ. ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ์…‹์—์„œ ์ด ํ•ต์‹ฌ ํ‘œํ˜„์˜ ๊ฒฌ๊ณ ํ•จ๊ณผ ์ •ํ™•์„ฑ์„ ๋ณด์žฅํ•˜๋Š” ๊ฒƒ์€ ์—ฌ์ „ํžˆ ํ•ด๊ฒฐ์ด ํ•„์š”ํ•œ ๊ณผ์ œ์ด๋ฉฐ, ์ด๋ฅผ ์œ„ํ•œ ์ถ”๊ฐ€ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”.(์‚ฌ์šฉ ๋ฐ์ดํ„ฐ ์…‹ ๋ชจ๋‘ ๊ณต๊ฐœ๋œ ๋‹ค๋ณ€๋Ÿ‰ ๋ฐ์ดํ„ฐ์…‹์ด๊ณ  ํ”ผ์ณ๊ฐ„ ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ๋ณต์žกํ•˜๋‚˜ ์—ฌ๋Ÿฌ ๋ฐ์ดํ„ฐ์…‹ ๊ฒ€์ฆ์ด ํ•„์š”ํ•œ ์ƒํ™ฉ, ๋˜ํ•œ Core representation์€ ์ผ๊ด€๋œ ๋ฐ์ดํ„ฐ์…‹์—์„œ๋Š” ์ •ํ™•๋„๊ฐ€ ๋” ๋–จ์–ด์ง€๋Š” ๊ฒƒ์„ ๋ณด์ž„)

 

 Limited exploration of alternative aggregate-redistribute strategies

 STAR ๋ชจ๋“ˆ์ด ํšจ๊ณผ์ ์œผ๋กœ ์ •๋ณด๋ฅผ ์ง‘๊ณ„ํ•˜๊ณ  ์žฌ๋ฐฐํฌํ•˜์ง€๋งŒ, ๋Œ€์ฒด ์ „๋žต์— ๋Œ€ํ•œ ํƒ์ƒ‰์ด ์ œํ•œ์ . ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ๋Š” ๋‹ค์–‘ํ•œ ์ง‘๊ณ„ ๋ฐ ์žฌ๋ฐฐํฌ ๋ฐฉ๋ฒ•์„ ์กฐ์‚ฌํ•˜์—ฌ, ์ž ์žฌ์ ์œผ๋กœ ๋” ํšจ๊ณผ์ ์ธ ์ ‘๊ทผ ๋ฐฉ์‹์„ ์‹๋ณ„ํ•จ์œผ๋กœ์จ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ๊ณผ ๊ฒฌ๊ณ ํ•จ์„ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์„ ๊ฒƒ์œผ๋กœ ๋ณด์ž„.

 

 ์ •๋ฆฌ

  ์ฑ„๋„์ด ๋งŽ์ด ์žˆ๋Š” ์‹œ๋ฆฌ์ฆˆ ๋ฐ์ดํ„ฐ ์…‹์—์„œ ์ ์€ ๋ฆฌ์†Œ์Šค๋กœ ๊ฒฐ๊ณผ๋ฅผ ๋ƒ„ ๋˜ํ•œ ์ •๊ทœํ™”๋ฅผ ํ†ตํ•œ ์ผ๋ฐ˜์ ์ธ ์‹œ๊ณ„์—ด ์˜ˆ์ธก๊ณผ ๋™์ผํ•˜๊ฒŒ ์„ค๋ช…๋ ฅ์„ ๋”ํ•ด ํ•ด์„์ด ๊ฐ€๋Šฅํ•จ Unit value๋ฅผ ์ฐพ์•„ ๋ชจ๋ธ์˜ ํ‰๊ฐ€๋ฅผ ๋” ์‹ฌ๋„ ์žˆ๊ฒŒ ํ•  ์ˆ˜ ์žˆ๋‹ค. Stochastic Pooling ์ด์™ธ์— ๋‹ค๋ฅธ Pooling๋„ ์œ ํšจํ•œ์ง€ ํ™•์ธ์ด ํ•„์š”ํ•จ. ์ตœ๊ทผ์— Kolmogorov-Anrnold representation theorem์ด ์„ค๋ช…์ด ๊ฐ€๋Šฅํ•œ MLP ๋ฐฉ๋ฒ•๋ก ์œผ๋กœ network๊ฐ„ ๋” ๋‹ค์–‘ํ•œ ํ•™์Šต์„ ๊ฐ€๋Šฅํ•œ๋‹ค๊ณ ํ•ด ์ฒ˜์Œ ์‹œ๊ณ„์—ด์—์„œ๋„ ๋„์ž…์„ ํ•œ ์‚ฌ๋ก€๋ผ๊ณ  ํ•  ์ˆ˜์žˆ๋‹ค.

 

Transformer / TST complexity

 

Transformer์˜ ์ •๋ณต๊ธฐ๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋Š” ์ง€๊ธˆ ์‹œ๊ธฐ์— ์‹œ๊ณ„์—ด ๋˜ํ•œ ์˜ˆ์™ธ๊ฐ€ ์•„๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ๋Š” input ๋ฐ์ดํ„ฐ๊ฐ€ ๋‹ค๋ฅธ Task์— ๋น„ํ•ด ์ƒ๋Œ€์ ์œผ๋กœ ์ž‘์•„ ๋ชจ๋ธ๋„ ๋‹ค์–‘ํ•˜๊ฒŒ ์ ์šฉํ•˜๋‚˜ Transformer ๊ธฐ๋ฐ˜์€ ์ด ์ค‘ ๋ฆฌ์†Œ์Šค๋ฅผ ๋งŽ์ด ๋จน๋Š” ๊ฒƒ์œผ๋กœ ์œ ๋ช…ํ•˜๋‹ค. SOFTS ๋ชจ๋ธ์€ Transformer ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์—์„œ ํƒˆํ”ผํ•˜๊ณ  ๋ณต์žก๋„๋„ ๋‚ฎ์€๋ฐ ์ฑ„๋„ ๊ฐ„ ์˜ˆ์ธก feature์— ๋ฐ˜์˜์ด ์ž˜๋˜์–ด ํŠน์ƒ‰์ด ์žˆ๋‹ค๊ณ  ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

๋ฐ˜์‘ํ˜•
๋‹คํ–ˆ๋‹ค