import pandas as pd
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from statsmodels.graphics.tsaplots import plot_pacf, plot_acf
import seaborn as sns
import matplotlib.pyplot as plt

import warnings
warnings.filterwarnings("ignore", category=UserWarning)

from prophet import Prophet
from statsforecast import StatsForecast
from statsforecast.models import HoltWinters
from mlforecast import MLForecast
from sklearn.preprocessing import OrdinalEncoder
from numba import njit
from window_ops.rolling import rolling_mean, rolling_std
import lightgbm as lgb
import gc


transactions = pd.read_csv(f'transactions_data.csv')

transactions.head()


transactions.dtypes

date        object
id          object
item_id     object
dept_id     object
cat_id      object
store_id    object
state_id    object
dtype: object


# This is a hefty table, so just peeking at the first 5 rows
pd.read_csv(f'sales_data_sampled.csv', nrows=5)


data = (
    transactions
    .assign(
        date = lambda df: pd.to_datetime(df.date).dt.date   # First converts date str object into a datetime and extracts only year-month-day information
    )
    .pipe(lambda df: df.groupby(list(df.columns))['id'].count()) # Converts each transaction into sales based on id count grouped by rest of the columns
    .reset_index(name='sales')
)
data


data.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3895938 entries, 0 to 3895937
Data columns (total 8 columns):
 #   Column    Dtype 
---  ------    ----- 
 0   date      object
 1   id        object
 2   item_id   object
 3   dept_id   object
 4   cat_id    object
 5   store_id  object
 6   state_id  object
 7   sales     int64 
dtypes: int64(1), object(7)
memory usage: 1.6 GB


data = (
    data
    .assign(
        id = lambda df: df.id.astype('category'),
        item_id = lambda df: df.item_id.astype('category'),
        cat_id = lambda df: df.cat_id.astype('category'),
        store_id = lambda df: df.store_id.astype('category'),
        state_id = lambda df: df.state_id.astype('category'),
        dept_id = lambda df: df.dept_id.astype('category')
    )
)


data.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3895938 entries, 0 to 3895937
Data columns (total 8 columns):
 #   Column    Dtype   
---  ------    -----   
 0   date      object  
 1   id        category
 2   item_id   category
 3   dept_id   category
 4   cat_id    category
 5   store_id  category
 6   state_id  category
 7   sales     int64   
dtypes: category(6), int64(1), object(1)
memory usage: 209.3 MB


data.to_parquet('data.parquet')


data = pd.read_parquet('data.parquet')


data.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3895938 entries, 0 to 3895937
Data columns (total 8 columns):
 #   Column    Dtype   
---  ------    -----   
 0   date      object  
 1   id        category
 2   item_id   category
 3   dept_id   category
 4   cat_id    category
 5   store_id  category
 6   state_id  category
 7   sales     int64   
dtypes: category(6), int64(1), object(1)
memory usage: 209.3 MB


data = data.set_index(['date','id'])


# Create date_range that contains all dates between minimum and maximum date from the data
min_date = data.index.get_level_values('date').min()
max_date = data.index.get_level_values('date').max()
dates = pd.date_range(start=min_date, end=max_date, freq='D').rename('date')

# Get all unique ids
ids = data.index.get_level_values('id').unique()

index_to_select = pd.MultiIndex.from_product([dates, ids], names=['date', 'id'])
index_to_select

MultiIndex([('2013-01-01', 'FOODS_1_004_TX_1_evaluation'),
            ('2013-01-01', 'FOODS_1_004_TX_2_evaluation'),
            ('2013-01-01', 'FOODS_1_004_TX_3_evaluation'),
            ('2013-01-01', 'FOODS_1_005_TX_2_evaluation'),
            ('2013-01-01', 'FOODS_1_009_TX_2_evaluation'),
            ('2013-01-01', 'FOODS_1_012_TX_1_evaluation'),
            ('2013-01-01', 'FOODS_1_012_TX_2_evaluation'),
            ('2013-01-01', 'FOODS_1_013_TX_3_evaluation'),
            ('2013-01-01', 'FOODS_1_014_TX_3_evaluation'),
            ('2013-01-01', 'FOODS_1_015_TX_2_evaluation'),
            ...
            ('2016-05-22', 'FOODS_2_133_TX_3_evaluation'),
            ('2016-05-22', 'FOODS_2_177_TX_2_evaluation'),
            ('2016-05-22', 'FOODS_2_117_TX_2_evaluation'),
            ('2016-05-22', 'FOODS_2_209_TX_3_evaluation'),
            ('2016-05-22', 'FOODS_2_256_TX_2_evaluation'),
            ('2016-05-22', 'FOODS_2_117_TX_1_evaluation'),
            ('2016-05-22', 'FOODS_2_256_TX_3_evaluation'),
            ('2016-05-22', 'FOODS_2_256_TX_1_evaluation'),
            ('2016-05-22', 'FOODS_3_296_TX_2_evaluation'),
            ('2016-05-22', 'FOODS_2_069_TX_3_evaluation')],
           names=['date', 'id'], length=11322748)


data = (
 data
    .reindex(index_to_select)
    .sort_index()
)
data.head()


data = data.reindex(index_to_select)
temp = data.reset_index()['id']

## split ID column and create other columns
temp.drop_duplicates(inplace=True)
temp = temp.str.split('_', expand=True)
temp['id'] = data.reset_index()['id']
temp['item_id2']=temp[0]+'_'+temp[1]+'_'+temp[2]
temp['dept_id2']=temp[0]+'_'+temp[1]
temp['cat_id2']=temp[0]
temp['store_id2']=temp[3]+'_'+temp[4]
temp['state_id2']=temp[3]
temp.drop([0,1,2,3,4,5],axis=1,inplace=True)
temp.set_index('id',inplace=True)

# data.reset_index(inplace=True)
# data = pd.merge(data,temp, on=['id'], how='left')

## join temp data to help with fillna
data = data.join(temp,on=['id'])

data['item_id'].fillna(data['item_id2'],inplace=True)
data['dept_id'].fillna(data['dept_id2'],inplace=True)
data['cat_id'].fillna(data['cat_id2'],inplace=True)
data['store_id'].fillna(data['store_id2'],inplace=True)
data['state_id'].fillna(data['state_id2'],inplace=True)

data.drop(['item_id2','dept_id2','cat_id2','store_id2','state_id2'],axis=1,inplace=True)

data.fillna({'sales':0},inplace=True)

data


# Check if there are any NAs in filled dataframe
data.isna().sum()

item_id     0
dept_id     0
cat_id      0
store_id    0
state_id    0
sales       0
dtype: int64


# Check if sum of sales from original dataframe is equal to sum of sales from preprocessed above transaction dataframe
# If true, preprocessing was done without any errors
print('Sales sum in original data: {}'.format(pd.read_csv(f'sales_data.csv', usecols=['date', 'id', 'sales'])['sales'].sum()))
print('Sales sum in preprocessed transaction data: {}'.format(int(data.sales.sum())))

Sales sum in original data: 12905715
Sales sum in preprocessed transaction data: 12905715


# Group data per each id
id_total = data.reset_index().groupby(['id']).sales.sum().reset_index(name = 'total_sales').dropna()

sns.set_style('whitegrid')

fig, ax = plt.subplots(figsize=(12, 6))
sns.kdeplot(data = id_total, ax = ax)
ax.set_title('Distribution of Total sales per each item')

Text(0.5, 1.0, 'Distribution of Total sales per each item')


departments = list(data.dept_id.unique())
categories = list(data.cat_id.unique())

dept_sales = data.groupby(['date', 'dept_id']).sales.sum().unstack('dept_id').fillna(0)
cat_sales = data.groupby(['date', 'cat_id']).sales.sum().unstack('cat_id').fillna(0)


sns.set_style('whitegrid')
fig, ax = plt.subplots(len(categories), 1, figsize=(12, 6*len(categories)))

for i, cat in enumerate(categories):

    # Plot actuals
    sns.lineplot(data=cat_sales, 
                 x = cat_sales.index, 
                 y = cat, 
                 color = 'lightsteelblue', 
                 ax = ax[i], 
                 label = 'y')

    # Plot 30 days moving average
    sns.lineplot(data=cat_sales.rolling(30, min_periods = 1).mean(),
                x=cat_sales.index, 
                y=cat, color='indianred', 
                ax=ax[i], 
                label = '30days MA')
    
    # Plot 365 days moving average
    sns.lineplot(data=cat_sales.rolling(365, min_periods = 1).mean(), 
                 x=cat_sales.index, 
                 y=cat, 
                 color='darkblue', 
                 ax=ax[i], 
                 label = '365days MA')

    ax[i].set_title('Category: {}'.format(cat))
    ax[i].set_xlabel('')

plt.tight_layout()


sns.set_style('whitegrid')
fig, ax = plt.subplots(len(departments), 1, figsize=(12, 6*len(departments)))

for i, dept in enumerate(departments):

    # Plot actuals
    sns.lineplot(data=dept_sales, 
                 x = dept_sales.index, 
                 y = dept, 
                 color = 'lightsteelblue', 
                 ax = ax[i], 
                 label = 'y')

    # Plot 30 days moving average
    sns.lineplot(data=dept_sales.rolling(30, min_periods = 1).mean(),
                x=dept_sales.index, 
                y=dept, color='indianred', 
                ax=ax[i], 
                label = '30days MA')
    
    # Plot 365 days moving average
    sns.lineplot(data=dept_sales.rolling(365, min_periods = 1).mean(), 
                 x=dept_sales.index, 
                 y=dept, 
                 color='darkblue', 
                 ax=ax[i], 
                 label = '365days MA')

    ax[i].set_title('Department: {}'.format(dept))
    ax[i].set_xlabel('')
    
plt.tight_layout()


df_prophet_dept_id = pd.melt(dept_sales.reset_index(), id_vars = ['date'], var_name='dept_id', value_name='y').rename(columns = {'date':'ds'})

for i, dept in enumerate(departments):
    
    model = Prophet(
                    seasonality_mode='multiplicative', 
                    weekly_seasonality=True, 
                    yearly_seasonality=4, 
                    changepoint_prior_scale=0.05
                    )
    
    model.add_seasonality(
    name='monthly', 
    period=365.25/12, 
    fourier_order=4,
    mode='multiplicative'
    )

    
    model.fit(df_prophet_dept_id[df_prophet_dept_id['dept_id'] == dept])
    
    future = model.make_future_dataframe(periods=0)
    
    forecast = model.predict(future)
    
    # Plot the forecast components
    fig1 = model.plot(forecast)
    fig = model.plot_components(forecast)
    fig1.axes[0].set_title(f'Prophet fit for Department {dept}', y=1.05)
    fig.axes[0].set_title(f'Forecast Components for Department {dept}', y=1.05)
    plt.show()

11:13:24 - cmdstanpy - INFO - Chain [1] start processing
11:13:24 - cmdstanpy - INFO - Chain [1] done processing

11:13:27 - cmdstanpy - INFO - Chain [1] start processing
11:13:27 - cmdstanpy - INFO - Chain [1] done processing

11:13:29 - cmdstanpy - INFO - Chain [1] start processing
11:13:29 - cmdstanpy - INFO - Chain [1] done processing

11:13:31 - cmdstanpy - INFO - Chain [1] start processing
11:13:31 - cmdstanpy - INFO - Chain [1] done processing

11:13:33 - cmdstanpy - INFO - Chain [1] start processing
11:13:34 - cmdstanpy - INFO - Chain [1] done processing

11:13:36 - cmdstanpy - INFO - Chain [1] start processing
11:13:36 - cmdstanpy - INFO - Chain [1] done processing

11:13:38 - cmdstanpy - INFO - Chain [1] start processing
11:13:38 - cmdstanpy - INFO - Chain [1] done processing


# group data by item
item_sales = data.groupby(['date','item_id'])['sales'].sum().unstack('item_id').fillna(0)
item_sales_total = data.reset_index().groupby(['item_id']).sales.sum().reset_index(name = 'total_sales')

# Create list of top_n lowest/highest items by volume
top_n = 25

low_volume_items_list = list(item_sales_total.sort_values(by = 'total_sales', ascending = True).head(top_n).item_id.unique())
high_volume_items_list = list(item_sales_total.sort_values(by = 'total_sales', ascending = False).head(top_n).item_id.unique())


# Inspect lowest items by volume
fig, ax = plt.subplots(len(low_volume_items_list), 2, figsize=(18, 4*len(low_volume_items_list)))

for i, item in enumerate(low_volume_items_list):
    
    sns.lineplot(data=item_sales[item].reset_index(), 
             x = item_sales[item].index, 
             y = item, 
             color = 'lightsteelblue', 
             ax = ax[i,0], 
             label = 'y'
            )

    sns.lineplot(data=item_sales[item].rolling(365, min_periods = 1).mean().reset_index(), 
         x = item_sales[item].index, 
         y = item, 
         color = 'indianred', 
         ax = ax[i,0], 
         label = '365days MA',
         linewidth = 2
        )
    
    
    sns.lineplot(data=item_sales[item].rolling(30, min_periods = 1).mean().reset_index(), 
         x = item_sales[item].index, 
         y = item, 
         color = 'darkblue', 
         ax = ax[i,0], 
         label = '30days MA'
        )
    
    pd.plotting.autocorrelation_plot(item_sales[item], ax=ax[i,1], color = 'steelblue')
    
    ax[i,0].set_title('Low-Volume item Sales: {}'.format(item))
    ax[i,1].set_title('Low-Volume item ACF: {}'.format(item))

plt.tight_layout()


# Inspect highest items by volume
fig, ax = plt.subplots(len(high_volume_items_list), 2, figsize=(18, 4*len(high_volume_items_list)))

for i, item in enumerate(high_volume_items_list):
    
    sns.lineplot(data=item_sales[item].reset_index(), 
             x = item_sales[item].index, 
             y = item, 
             color = 'lightsteelblue', 
             ax = ax[i,0], 
             label = 'y'
            )

    sns.lineplot(data=item_sales[item].rolling(365, min_periods = 1).mean().reset_index(), 
         x = item_sales[item].index, 
         y = item, 
         color = 'indianred', 
         ax = ax[i,0], 
         label = '365days MA',
         linewidth = 2
        )
    
    sns.lineplot(data=item_sales[item].rolling(30, min_periods = 1).mean().reset_index(), 
         x = item_sales[item].index, 
         y = item, 
         color = 'darkblue', 
         ax = ax[i,0], 
         label = '30days MA'
        )
    
    pd.plotting.autocorrelation_plot(item_sales[item], ax=ax[i,1], color = 'steelblue')
    
    ax[i,0].set_title('High-Volume item Sales: {}'.format(item))
    ax[i,1].set_title('High-Volume item ACF: {}'.format(item))

plt.tight_layout()


# Inspect lowest items by volume per store
stores_list = list(data.store_id.unique())

fig, ax = plt.subplots(len(low_volume_items_list), len(stores_list), figsize=(6*len(stores_list), 4*len(low_volume_items_list)))

for j, store in enumerate(stores_list):
    for i, item in enumerate(low_volume_items_list):

        data_aux = data.loc[(data['item_id'] == item) & (data['store_id'] == store)]

        sns.lineplot(data=data_aux, 
                 x = data_aux.index.get_level_values('date'), 
                 y = 'sales', 
                 color = 'lightsteelblue', 
                 ax = ax[i,j], 
                 label = 'y'
                )
        
        sns.lineplot(data=data_aux.sales.rolling(365, min_periods = 1).mean().reset_index(), 
             x = item_sales[item].index, 
             y = 'sales', 
             color = 'indianred', 
             ax = ax[i,j], 
             label = '365days MA',
             linewidth = 2
            )

        sns.lineplot(data=data_aux.sales.rolling(30, min_periods = 1).mean().reset_index(), 
             x = item_sales[item].index, 
             y = 'sales', 
             color = 'darkblue', 
             ax = ax[i,j], 
             label = '30days MA'
            )
    
        ax[i,j].set_title('{}, {}'.format(store, item), fontsize = 10)
        ax[i,j].set_xlabel('')
        ax[i,j].set_ylabel('')
        ax[i,j].tick_params(axis='x', which='both', labelbottom=False)


# Inspect highest items by volume per store
stores_list = list(data.store_id.unique())

fig, ax = plt.subplots(len(high_volume_items_list), len(stores_list), figsize=(6*len(stores_list), 4*len(high_volume_items_list)))

for j, store in enumerate(stores_list):
    for i, item in enumerate(high_volume_items_list):

        data_aux = data.loc[(data['item_id'] == item) & (data['store_id'] == store)]

        sns.lineplot(data=data_aux, 
                 x = data_aux.index.get_level_values('date'), 
                 y = 'sales', 
                 color = 'lightsteelblue', 
                 ax = ax[i,j], 
                 label = 'y'
                )
        
        sns.lineplot(data=data_aux.sales.rolling(365, min_periods = 1).mean().reset_index(), 
             x = item_sales[item].index, 
             y = 'sales', 
             color = 'indianred', 
             ax = ax[i,j], 
             label = '365days MA',
             linewidth = 2
            )

        sns.lineplot(data=data_aux.sales.rolling(30, min_periods = 1).mean().reset_index(), 
             x = item_sales[item].index, 
             y = 'sales', 
             color = 'darkblue', 
             ax = ax[i,j], 
             label = '30days MA'
            )
    
        ax[i,j].set_title('{}, {}'.format(store, item), fontsize = 10)
        ax[i,j].set_xlabel('')
        ax[i,j].set_ylabel('')
        ax[i,j].tick_params(axis='x', which='both', labelbottom=False)


# QUESTION: filter out products that don't have sales using cumsum

data['cumsum'] = data.groupby(['id']).sales.transform('cumsum')

# filter for one product to investigate if cumsum is working
print('before removing records before first sale:')
display(data.loc[(slice(None),'FOODS_1_003_TX_2_evaluation'),:].head(3))

# filter out product rows before first sales
data = data[data['cumsum'] != 0]

# Drop cumsum column
data.drop('cumsum',axis = 1, inplace = True)

print('after removing records before first sale:')
display(data.loc[(slice(None),'FOODS_1_003_TX_2_evaluation'),:].head(3))

before removing records before first sale:

after removing records before first sale:


def rmsse(train, val, y_preds, model):
    
    denominator = (
        train.groupby("unique_id")["y"]
        .apply(lambda x: (x.diff() ** 2).sum() / (len(x) - 1))
        .reset_index(name="denominator")
    )

    numerator = (
        pd.merge(val, y_preds, how = 'left', on = ['ds', 'unique_id'])
        .groupby('unique_id')
        .apply(lambda x: ((x["y"] - x[model]) ** 2).sum() / len(x))
        .reset_index(name="numerator")
    )
    
    numerator = numerator.merge(denominator, on=["unique_id"])
    return np.mean(np.sqrt(numerator["numerator"] / numerator["denominator"]).replace(np.inf,0))


test_train = pd.DataFrame({
    'ds': ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'j'],
    'unique_id': ['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'c'],
    'y': [3, 2, 5, 100, 150, 60, 10, 20, 30],
})
test_val = pd.DataFrame({
    'ds': ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'j'],
    'unique_id': ['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'c'],
    'y': [6, 1, 4, 200, 120, 270, 10, 20, 30],
})

test_y_pred = pd.DataFrame({
    'ds': ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'j'],
    'unique_id': ['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'c'],
    'predictions': [1, 2, 3, 180, 160, 240, 20, 30, 40],
})

rmsse(test_train, test_val, test_y_pred, 'predictions')

0.92290404515501


# Load Prices data
prices = pd.read_parquet(f'prices.parquet')
prices = prices.reset_index(drop = False)
prices.head()

# Load events data
events = pd.read_parquet(f'calendar.parquet')
events = events.reset_index(drop = False)
# Create dummy variables for events
events = pd.get_dummies(events, columns = list(events.iloc[:,2:].columns))
list_of_events = list(events.iloc[:,1:].columns)


# Merge prices data
data_with_prices = pd.merge(data.reset_index(),prices, how = 'left', on = ['date','store_id','item_id']).set_index(['date','id'])
data_with_prices.head()


# Merge events
data_with_prices_and_events = pd.merge(data_with_prices.reset_index(),events, how = 'left', on = ['date']).set_index(['date','id'])
data_with_prices_and_events[list_of_events] = data_with_prices_and_events[list_of_events].fillna(0)
data_with_prices_and_events.head()


val = (
    data_with_prices_and_events
    .reset_index()
    .groupby('id')
    .tail(28)
    .rename(columns={
        'date': 'ds',
        'id': 'unique_id',
        'sales': 'y',
    })
)
train = (
    data_with_prices_and_events
    .reset_index()
    .drop(val.index)
    .rename(columns={
        'date': 'ds',
        'id': 'unique_id',
        'sales': 'y',
    })
)


sf = StatsForecast(
    models = [HoltWinters(season_length=7)], # Set weakly seasonality
    freq = 'D'
)

sf.fit(
    (
    train[train['unique_id'] != 'FOODS_2_069_TX_3_evaluation'][['ds','unique_id','y']] # Filter out one item with only 4 observations
    .assign(
        unique_id = lambda df: df.unique_id.astype('str')
    )
    )
)

holtwinters_preds = sf.predict(h = 28).reset_index().sort_values(by = ['unique_id','ds'])

plot_data_ets = (
    pd.concat([
        train.groupby('unique_id').tail(45)[['unique_id', 'ds', 'y']], 
        val[['unique_id', 'ds', 'y']].sort_values(by = ['unique_id','ds']), 
        holtwinters_preds
    ])
)


rmsse_holtwinters = rmsse(train, val, holtwinters_preds, 'HoltWinters')


# split into training and validation sets and conform the column names to what MLForecast expects
val = (
    data_with_prices_and_events
    .reset_index()
    .groupby('id')
    .tail(28)
    .rename(columns={
        'date': 'ds',
        'id': 'unique_id',
        'sales': 'y',
    })
)
train = (
    data_with_prices_and_events
    .reset_index()
    .drop(val.index)
    .rename(columns={
        'date': 'ds',
        'id': 'unique_id',
        'sales': 'y',
    })
)

# label encode categorical features
cat_feats = ['unique_id', 'item_id', 'dept_id', 'cat_id']
enc_cat_feats = [f'{feat}_enc' for feat in cat_feats]

encoder = OrdinalEncoder()
train[enc_cat_feats] = encoder.fit_transform(train[cat_feats])
val[enc_cat_feats] = encoder.transform(val[cat_feats])

reference_cols = ['unique_id', 'ds', 'y','sell_price']

# add features to this list if you want to use them
features = reference_cols + enc_cat_feats + list_of_events
train = train[features]
val = val[features]

@njit
def rollingmean7d(x):
    return rolling_mean(x, window_size=7)

@njit
def rollingmean14d(x):
    return rolling_mean(x, window_size=14)

@njit
def rollingmean30d(x):
    return rolling_mean(x, window_size=30)

@njit
def rollingmean60d(x):
    return rolling_mean(x, window_size=60)

@njit
def rollingmean180d(x):
    return rolling_mean(x, window_size=180)


#####################################################

@njit
def rollingstd7d(x):
    return rolling_std(x, window_size=7)

@njit
def rollingstd14d(x):
    return rolling_std(x, window_size=14)

@njit
def rollingstd30d(x):
    return rolling_std(x, window_size=30)

@njit
def rollingstd60d(x):
    return rolling_std(x, window_size=60)

@njit
def rollingstd180d(x):
    return rolling_std(x, window_size=180)




# feel free to tweak these parameters!
model_params = {
    'verbose': -1,
    'num_leaves': 256,
    'n_estimators': 500,
    'objective': 'tweedie',
    'tweedie_variance_power': 1.1,
    'metric': 'rmse',
    'learning_rate': 0.03
}




models = [
    lgb.LGBMRegressor(**model_params),
]


fcst = MLForecast(
    models=models,
    freq='D',
    # dictionary reads like this:
    # {number of days to lag the feature: [list of functions to apply to the lagged data]}
    lags=[7, 
          14,
          30,
          31,
          365],
    lag_transforms = {
        7:  [rollingmean7d,
             rollingmean14d,
             rollingmean30d,
             rollingmean60d,
             rollingmean180d,
             rollingstd7d,
             rollingstd14d,
             rollingstd30d,
             rollingstd60d,
             rollingstd180d]
    },
    date_features=['year', 'month', 'day', 'dayofweek', 'quarter']
)

# don't worry about nul value warnings. LightGBM and XGBoost can handle it!
fcst.fit(
    train, 
    id_col='unique_id', 
    time_col='ds', 
    target_col='y', 
    dropna=False,
    static_features = enc_cat_feats
)

recursive_preds = fcst.predict(28, 
                           # Add Future values for prices from validation dataset
                           dynamic_dfs = [val[['ds','unique_id','sell_price'] + list_of_events]])

# plot the last 45 days of the training set, the validation set, and the predictions
plot_data_recursive = (
    pd.concat([
        train.groupby('unique_id').tail(45)[['unique_id', 'ds', 'y']], 
        val[['unique_id', 'ds', 'y']], 
        recursive_preds
    ])
)


rmsse_recursive = rmsse(train, val, recursive_preds, 'LGBMRegressor')


lgb.plot_importance(fcst.models_['LGBMRegressor'], max_num_features=15 , figsize=(12,6))

<AxesSubplot: title={'center': 'Feature importance'}, xlabel='Feature importance', ylabel='Features'>


@njit
def rollingmean7d(x):
    return rolling_mean(x, window_size=7)

@njit
def rollingmean14d(x):
    return rolling_mean(x, window_size=14)

@njit
def rollingmean30d(x):
    return rolling_mean(x, window_size=30)

@njit
def rollingmean60d(x):
    return rolling_mean(x, window_size=60)

@njit
def rollingmean180d(x):
    return rolling_mean(x, window_size=180)


#####################################################

@njit
def rollingstd7d(x):
    return rolling_std(x, window_size=7)

@njit
def rollingstd14d(x):
    return rolling_std(x, window_size=14)

@njit
def rollingstd30d(x):
    return rolling_std(x, window_size=30)

@njit
def rollingstd60d(x):
    return rolling_std(x, window_size=60)

@njit
def rollingstd180d(x):
    return rolling_std(x, window_size=180)




# feel free to tweak these parameters!
model_params = {
    'verbose': -1,
    'num_leaves': 256,
    'n_estimators': 500,
    'objective': 'tweedie',
    'tweedie_variance_power': 1.1,
    'metric': 'rmse',
    'learning_rate': 0.03
}



models = [
    lgb.LGBMRegressor(**model_params),
]


fcst = MLForecast(
    models=models,
    freq='D',
    # dictionary reads like this:
    # {number of days to lag the feature: [list of functions to apply to the lagged data]}
    lags=[7, 
          8, 
          9, 
          10, 
          11, 
          12, 
          13, 
          14,
          15,
          16,
          17,
          18,
          19,
          20,
          21,
          22,
          23,
          24,
          25,
          26,
          27,
          28,
          29,
          30,
          31,
          32,
          33,
          34,
          365],
    lag_transforms = {
        7:  [rollingmean7d,
             rollingmean14d,
             rollingmean30d,
             rollingmean60d,
             rollingmean180d,
             rollingstd7d,
             rollingstd14d,
             rollingstd30d,
             rollingstd60d,
             rollingstd180d],
        14:  [rollingmean7d,
             rollingmean14d,
             rollingmean30d,
             rollingmean60d,
             rollingmean180d,
             rollingstd7d,
             rollingstd14d,
             rollingstd30d,
             rollingstd60d,
             rollingstd180d],
        21:  [rollingmean7d,
             rollingmean14d,
             rollingmean30d,
             rollingmean60d,
             rollingmean180d,
             rollingstd7d,
             rollingstd14d,
             rollingstd30d,
             rollingstd60d,
             rollingstd180d],
        28:  [rollingmean7d,
             rollingmean14d,
             rollingmean30d,
             rollingmean60d,
             rollingmean180d,
             rollingstd7d,
             rollingstd14d,
             rollingstd30d,
             rollingstd60d,
             rollingstd180d]
    },
    date_features=['year', 'month', 'day', 'dayofweek', 'quarter']
)


# Create dataframe to preprocess
data_with_prices_toprep = (
    data_with_prices_and_events
    .reset_index()
    .rename(columns = {'date':'ds',
                       'id':'unique_id',
                       'sales': 'y'}).
    drop(['state_id','cat_id'],axis = 1)

)

categorical_features = ['unique_id', 'item_id','dept_id','store_id']
encoder = OrdinalEncoder()
data_with_prices_toprep[categorical_features] = encoder.fit_transform(data_with_prices_toprep[categorical_features])

# Feature engineering per unique id
prep = fcst.preprocess(
    data_with_prices_toprep, 
    id_col='unique_id', 
    time_col='ds', 
    target_col='y', 
    dropna=False,
    static_features = ['item_id','dept_id','store_id']
)


# Split train/val data
val_direct = (
    prep
    .groupby('unique_id')
    .tail(28)
)
train_direct = (
    prep
    .drop(val.index)
)


# Clean unused dataframes
del data;  gc.collect()

353641


# Create list of diffent feature categories
sales_features = list(train.columns[(train.columns.str.contains('lag')) | (train.columns =='y')])
calendar_features = ['year', 'month', 'day', 'dayofweek', 'quarter']


# Create features for each multi-horizon model
lags_model_1stweek = ['lag7','lag8','lag9','lag10','lag11','lag12','lag13']
rollingfeatures_model_1stweek =  list(train.columns[(train.columns.str.endswith('_lag7'))])
model_1stweek_features = lags_model_1stweek + rollingfeatures_model_1stweek + calendar_features + ['unique_id', 'item_id'] + list_of_events

lags_model_2ndweek = ['lag14','lag15','lag16','lag17','lag18','lag19','lag20']
rollingfeatures_model_2ndweek =  list(train.columns[(train.columns.str.endswith('_lag14'))])
model_2ndweek_features = lags_model_2ndweek + rollingfeatures_model_2ndweek + calendar_features + ['unique_id', 'item_id'] + list_of_events

lags_model_3rdweek = ['lag21','lag22','lag23','lag24','lag25','lag26','lag27']
rollingfeatures_model_3rdweek =  list(train.columns[(train.columns.str.endswith('_lag21'))])
model_3rdweek_features = lags_model_3rdweek + rollingfeatures_model_3rdweek + calendar_features + ['unique_id', 'item_id'] + list_of_events

lags_model_4thweek = ['lag28','lag29','lag30','lag31','lag32','lag33','lag34']
rollingfeatures_model_4thweek =  list(train.columns[(train.columns.str.endswith('_lag28'))])
model_4thweek_features = lags_model_4thweek + rollingfeatures_model_4thweek + calendar_features + ['unique_id', 'item_id'] + list_of_events
model_4thweek_features

# Create dictionary for each weekly model containing features that are going to be used
models_per_week = {
    'model_1stweek':model_1stweek_features,
    'model_2ndweek':model_2ndweek_features,
    'model_3rdweek':model_3rdweek_features,
    'model_4thweek':model_4thweek_features
}

for i, features in models_per_week.items():
    print('Model: {}'.format(i))
    print('Features used:')
    print(features)
    print(' ')

Model: model_1stweek
Features used:
['lag7', 'lag8', 'lag9', 'lag10', 'lag11', 'lag12', 'lag13', 'year', 'month', 'day', 'dayofweek', 'quarter', 'unique_id', 'item_id', 'snap_TX', 'event_name_1_Chanukah End', 'event_name_1_Christmas', 'event_name_1_Cinco De Mayo', 'event_name_1_ColumbusDay', 'event_name_1_Easter', 'event_name_1_Eid al-Fitr', 'event_name_1_EidAlAdha', "event_name_1_Father's day", 'event_name_1_Halloween', 'event_name_1_IndependenceDay', 'event_name_1_LaborDay', 'event_name_1_LentStart', 'event_name_1_LentWeek2', 'event_name_1_MartinLutherKingDay', 'event_name_1_MemorialDay', "event_name_1_Mother's day", 'event_name_1_NBAFinalsEnd', 'event_name_1_NBAFinalsStart', 'event_name_1_NewYear', 'event_name_1_OrthodoxChristmas', 'event_name_1_OrthodoxEaster', 'event_name_1_Pesach End', 'event_name_1_PresidentsDay', 'event_name_1_Purim End', 'event_name_1_Ramadan starts', 'event_name_1_StPatricksDay', 'event_name_1_SuperBowl', 'event_name_1_Thanksgiving', 'event_name_1_ValentinesDay', 'event_name_1_VeteransDay', 'event_type_1_Cultural', 'event_type_1_National', 'event_type_1_Religious', 'event_type_1_Sporting', 'event_name_2_Cinco De Mayo', 'event_name_2_Easter', "event_name_2_Father's day", 'event_name_2_OrthodoxEaster', 'event_type_2_Cultural', 'event_type_2_Religious']
 
Model: model_2ndweek
Features used:
['lag14', 'lag15', 'lag16', 'lag17', 'lag18', 'lag19', 'lag20', 'year', 'month', 'day', 'dayofweek', 'quarter', 'unique_id', 'item_id', 'snap_TX', 'event_name_1_Chanukah End', 'event_name_1_Christmas', 'event_name_1_Cinco De Mayo', 'event_name_1_ColumbusDay', 'event_name_1_Easter', 'event_name_1_Eid al-Fitr', 'event_name_1_EidAlAdha', "event_name_1_Father's day", 'event_name_1_Halloween', 'event_name_1_IndependenceDay', 'event_name_1_LaborDay', 'event_name_1_LentStart', 'event_name_1_LentWeek2', 'event_name_1_MartinLutherKingDay', 'event_name_1_MemorialDay', "event_name_1_Mother's day", 'event_name_1_NBAFinalsEnd', 'event_name_1_NBAFinalsStart', 'event_name_1_NewYear', 'event_name_1_OrthodoxChristmas', 'event_name_1_OrthodoxEaster', 'event_name_1_Pesach End', 'event_name_1_PresidentsDay', 'event_name_1_Purim End', 'event_name_1_Ramadan starts', 'event_name_1_StPatricksDay', 'event_name_1_SuperBowl', 'event_name_1_Thanksgiving', 'event_name_1_ValentinesDay', 'event_name_1_VeteransDay', 'event_type_1_Cultural', 'event_type_1_National', 'event_type_1_Religious', 'event_type_1_Sporting', 'event_name_2_Cinco De Mayo', 'event_name_2_Easter', "event_name_2_Father's day", 'event_name_2_OrthodoxEaster', 'event_type_2_Cultural', 'event_type_2_Religious']
 
Model: model_3rdweek
Features used:
['lag21', 'lag22', 'lag23', 'lag24', 'lag25', 'lag26', 'lag27', 'year', 'month', 'day', 'dayofweek', 'quarter', 'unique_id', 'item_id', 'snap_TX', 'event_name_1_Chanukah End', 'event_name_1_Christmas', 'event_name_1_Cinco De Mayo', 'event_name_1_ColumbusDay', 'event_name_1_Easter', 'event_name_1_Eid al-Fitr', 'event_name_1_EidAlAdha', "event_name_1_Father's day", 'event_name_1_Halloween', 'event_name_1_IndependenceDay', 'event_name_1_LaborDay', 'event_name_1_LentStart', 'event_name_1_LentWeek2', 'event_name_1_MartinLutherKingDay', 'event_name_1_MemorialDay', "event_name_1_Mother's day", 'event_name_1_NBAFinalsEnd', 'event_name_1_NBAFinalsStart', 'event_name_1_NewYear', 'event_name_1_OrthodoxChristmas', 'event_name_1_OrthodoxEaster', 'event_name_1_Pesach End', 'event_name_1_PresidentsDay', 'event_name_1_Purim End', 'event_name_1_Ramadan starts', 'event_name_1_StPatricksDay', 'event_name_1_SuperBowl', 'event_name_1_Thanksgiving', 'event_name_1_ValentinesDay', 'event_name_1_VeteransDay', 'event_type_1_Cultural', 'event_type_1_National', 'event_type_1_Religious', 'event_type_1_Sporting', 'event_name_2_Cinco De Mayo', 'event_name_2_Easter', "event_name_2_Father's day", 'event_name_2_OrthodoxEaster', 'event_type_2_Cultural', 'event_type_2_Religious']
 
Model: model_4thweek
Features used:
['lag28', 'lag29', 'lag30', 'lag31', 'lag32', 'lag33', 'lag34', 'year', 'month', 'day', 'dayofweek', 'quarter', 'unique_id', 'item_id', 'snap_TX', 'event_name_1_Chanukah End', 'event_name_1_Christmas', 'event_name_1_Cinco De Mayo', 'event_name_1_ColumbusDay', 'event_name_1_Easter', 'event_name_1_Eid al-Fitr', 'event_name_1_EidAlAdha', "event_name_1_Father's day", 'event_name_1_Halloween', 'event_name_1_IndependenceDay', 'event_name_1_LaborDay', 'event_name_1_LentStart', 'event_name_1_LentWeek2', 'event_name_1_MartinLutherKingDay', 'event_name_1_MemorialDay', "event_name_1_Mother's day", 'event_name_1_NBAFinalsEnd', 'event_name_1_NBAFinalsStart', 'event_name_1_NewYear', 'event_name_1_OrthodoxChristmas', 'event_name_1_OrthodoxEaster', 'event_name_1_Pesach End', 'event_name_1_PresidentsDay', 'event_name_1_Purim End', 'event_name_1_Ramadan starts', 'event_name_1_StPatricksDay', 'event_name_1_SuperBowl', 'event_name_1_Thanksgiving', 'event_name_1_ValentinesDay', 'event_name_1_VeteransDay', 'event_type_1_Cultural', 'event_type_1_National', 'event_type_1_Religious', 'event_type_1_Sporting', 'event_name_2_Cinco De Mayo', 'event_name_2_Easter', "event_name_2_Father's day", 'event_name_2_OrthodoxEaster', 'event_type_2_Cultural', 'event_type_2_Religious']


# Change id variables into category so LightGBM performs correct tree split based on those columns
train_direct['unique_id'] = train_direct['unique_id'].astype('category')
train_direct['item_id'] = train_direct['item_id'].astype('category')


model_params = {
    'verbose': -1,
    'num_leaves': 256,
    'n_estimators': 500,
    'objective': 'tweedie',
    'tweedie_variance_power': 1.1,
    'metric': 'rmse',
    'learning_rate': 0.03
}

# create an empty dictionary to store the models
models_dict = {}

# loop through each department in the validation set
for dept in train_direct.dept_id.unique():
    
    models_dict[dept] = {}
    
    # Create temporary dataframe for each department
    dept_data = train_direct[(train_direct['dept_id'] == dept)]
    
     # loop through each multi-horizon model   
    for i, features in models_per_week.items():
        
        # Create X for each department and weekly model (take features assigned to weekly models)
        X = dept_data[features]
        y = dept_data['y']
        
        # train models
        lgb_train = lgb.Dataset(X, y)
        model = lgb.train(model_params, lgb_train)
        
        # Update dictionary for each weekly model and department
        models_dict[dept][i] = model


# # Save models UNCOMMENT TO SAVE THE MODELS
# models_dict_tosave = models_dict.copy()

# for dept in train.dept_id.unique():
#     for i, features in models_per_week.items():
#         print(models_dict_tosave[dept][i].save_model(str(dept) + '_' + str(i) + '_' + 'mode.txt'))


# Change id variables into category for validation set
val_direct['unique_id'] = val_direct['unique_id'].astype('category')
val_direct['item_id'] = val_direct['item_id'].astype('category')


# Create Predictions Dataframe
direct_preds = pd.DataFrame()

# loop through each department in the validation set
for dept in val_direct.dept_id.unique():
    
    dept_data = val_direct[(val_direct['dept_id'] == dept)]
    
    # loop through each multi-horizon model
    for i, features in models_per_week.items():

        # Create Predictions
        X_val = dept_data[features]
        preds = pd.DataFrame(models_dict[dept][i].predict(X_val))
        preds.columns = ['LGBMRegressor']
        preds['model'] = i
        preds['dept_id'] = dept
        preds['ds'] = dept_data.reset_index()['ds']
        preds['unique_id'] = dept_data.reset_index()['unique_id']
        
        
        # Filter only predictions that are assigned specificaly to each weekly model
        if i == 'model_1stweek':
            preds = preds[preds['ds'] <= pd.to_datetime('2016-05-01')]
            
        elif i == 'model_2ndweek':
            preds = preds[(preds['ds'] > pd.to_datetime('2016-05-01'))
                         & (preds['ds'] <= pd.to_datetime('2016-05-08'))] 
            
        elif i == 'model_3rdweek':
            preds = preds[(preds['ds'] > pd.to_datetime('2016-05-08')) 
                         & (preds['ds'] <= pd.to_datetime('2016-05-15'))]
            
        elif i == 'model_4thweek':
            preds = preds[(preds['ds'] > pd.to_datetime('2016-05-15'))
                         & (preds['ds'] <= pd.to_datetime('2016-05-22'))]
            
        direct_preds = pd.concat([preds,direct_preds],axis = 0)


# Inverse back categorical features encoding 
train_direct[categorical_features] = pd.DataFrame(encoder.inverse_transform(train_direct[categorical_features]), columns = train_direct[categorical_features].columns)

# Merge multi horizon predictions with categorical features from val set to inverse encoding later on
direct_preds = pd.merge(direct_preds.drop('dept_id', axis = 1), val_direct[categorical_features + ['ds']], how = 'left', on = ['ds','unique_id'])

# Inverse encoding for direct predictions
direct_preds[categorical_features] = pd.DataFrame(encoder.inverse_transform(direct_preds[categorical_features]), columns = direct_preds[categorical_features].columns)


val_direct = val_direct.reset_index(drop = True)
val_direct[categorical_features] = pd.DataFrame(encoder.inverse_transform(val_direct[categorical_features]), columns = val_direct[categorical_features].columns)


rmsse_direct = rmsse(train, val, direct_preds, 'LGBMRegressor')


rmsse_direct

0.7493979496196602


# plot the last 45 days of the training set, the validation set, and the predictions
plot_data_direct = (
    pd.concat([
        train.groupby('unique_id').tail(45)[['unique_id', 'ds', 'y']], 
        val[['unique_id', 'ds', 'y']], 
        direct_preds
    ])
)


# Group to plot total sales for each model
data_grouped_mutlihorizon = plot_data_direct.groupby('ds')[['y','LGBMRegressor']].sum().reset_index()
data_grouped_recursive  = plot_data_recursive.groupby('ds')[['y','LGBMRegressor']].sum().reset_index()
data_grouped_ets  = plot_data_ets.groupby('ds')[['y','HoltWinters']].sum().reset_index()

# Combine all predictors into one dataframe
plot_data = (
    data_grouped_ets.set_index('ds')
    .join(
        data_grouped_mutlihorizon.set_index('ds')
        .drop('y',axis =1).rename(columns = {'LGBMRegressor':'LGBM_MultiHorizon'}))
    .join(data_grouped_recursive.set_index('ds')
        .drop('y',axis =1).rename(columns = {'LGBMRegressor':'LGBM_Recursive'}))
)
plot_data


# Create model lists
models_list = ['HoltWinters', 'LGBM_MultiHorizon', 'LGBM_Recursive']

# Define MAPE formula
def MAPE(df, ac, preds):
    return round(np.mean(abs(df[ac] - df[preds])/df[ac])*100, 2)

# Create MAPE results for Total Sales and save in the dataframe
mape_df = pd.DataFrame()
mape = pd.DataFrame()
for model in models_list:
    mape['mape'] = pd.Series(MAPE(plot_data[plot_data[model] != 0], 'y',model))
    mape['model'] = model
    mape_df = pd.concat([mape, mape_df],axis = 0)

mape_df


fig, ax = plt.subplots(figsize=(18, 10))

# Plot Total Sales and Total Predictions by date
sns.lineplot(data=plot_data, 
         x = 'ds', 
         y = 'y', 
         color = 'steelblue', 
         ax = ax, 
         label = 'y'
        )

sns.lineplot(data=plot_data[plot_data['LGBM_MultiHorizon'] != 0], 
         x = 'ds', 
         y = 'LGBM_MultiHorizon', 
         color = 'darkblue', 
         ax = ax, 
         label = 'Predictions Direct Strategy'
        )

sns.lineplot(data=plot_data[plot_data['LGBM_Recursive'] != 0], 
         x = 'ds', 
         y = 'LGBM_Recursive', 
         color = 'indianred', 
         ax = ax, 
         label = 'Predictions Recursive Strategy'
        )

sns.lineplot(data=plot_data[plot_data['HoltWinters'] != 0], 
         x = 'ds', 
         y = 'HoltWinters', 
         color = 'green', 
         ax = ax, 
         label = 'Predictions HoltWinters'
        )

ax.set_title('Total Sales and Predictions \n(Recursive Strategy: RMSSE = {}, Total Sales MAPE = {}%) \n(Direct Strategy: RMSSE = {}, Total Sales MAPE = {}%) \n(HoltWinters: RMSSE = {}, Total Sales MAPE = {}%)'.format(round(rmsse_recursive,4),mape_df[mape_df['model'] == 'LGBM_Recursive']['mape'][0],round(rmsse_direct,4),mape_df[mape_df['model'] == 'LGBM_MultiHorizon']['mape'][0], round(rmsse_holtwinters, 4),mape_df[mape_df['model'] == 'HoltWinters']['mape'][0]), fontsize = 15)

Text(0.5, 1.0, 'Total Sales and Predictions \n(Recursive Strategy: RMSSE = 0.7447, Total Sales MAPE = 6.89%) \n(Direct Strategy: RMSSE = 0.7494, Total Sales MAPE = 8.1%) \n(HoltWinters: RMSSE = 0.7508, Total Sales MAPE = 8.81%)')

Date	Sales
2022-01-01	23
2022-01-02	45
2022-01-03	12
2022-01-04	67
2022-01-05	89

	date	id	item_id	dept_id	cat_id	store_id	state_id
0	2013-01-01 13:41:03	HOBBIES_1_004_TX_1_evaluation	HOBBIES_1_004	HOBBIES_1	HOBBIES	TX_1	TX
1	2013-01-01 07:30:52	HOBBIES_1_004_TX_1_evaluation	HOBBIES_1_004	HOBBIES_1	HOBBIES	TX_1	TX
2	2013-01-01 11:17:38	HOBBIES_1_004_TX_1_evaluation	HOBBIES_1_004	HOBBIES_1	HOBBIES	TX_1	TX
3	2013-01-01 20:18:59	HOBBIES_1_025_TX_1_evaluation	HOBBIES_1_025	HOBBIES_1	HOBBIES	TX_1	TX
4	2013-01-01 21:36:09	HOBBIES_1_028_TX_1_evaluation	HOBBIES_1_028	HOBBIES_1	HOBBIES	TX_1	TX

		item_id	dept_id	cat_id	store_id	state_id	sales
date	id
2013-01-01	FOODS_1_001_TX_1_evaluation	NaN	NaN	NaN	NaN	NaN	NaN
	FOODS_1_001_TX_2_evaluation	NaN	NaN	NaN	NaN	NaN	NaN
	FOODS_1_001_TX_3_evaluation	NaN	NaN	NaN	NaN	NaN	NaN
	FOODS_1_002_TX_1_evaluation	NaN	NaN	NaN	NaN	NaN	NaN
	FOODS_1_002_TX_2_evaluation	NaN	NaN	NaN	NaN	NaN	NaN

	y	HoltWinters	LGBM_MultiHorizon	LGBM_Recursive
ds
2016-03-11	11066.0	0.000000	0.000000	0.000000
2016-03-12	13113.0	0.000000	0.000000	0.000000
2016-03-13	13466.0	0.000000	0.000000	0.000000
2016-03-14	11882.0	0.000000	0.000000	0.000000
2016-03-15	11659.0	0.000000	0.000000	0.000000
...	...	...	...	...
2016-05-18	10375.0	9579.687500	9532.604587	9406.946322
2016-05-19	9162.0	9690.434570	9578.767776	9412.847663
2016-05-20	12303.0	10573.802734	10444.268249	10176.920809
2016-05-21	13681.0	12760.348633	12419.145383	12436.963334
2016-05-22	14815.0	13333.077148	12828.134820	12881.801693

Project Overview:¶

Data Wrangling¶

Getting our data in the right format¶

Optimizing the data¶

Finishing up our data pre-processing¶

Exploring our data¶

1. Looking for seasonal patterns and trends at higher aggregations (department, categories)¶

2. How do high-volume items compare to low-volume/itermittent items? What sort of seasonal patterns are at play at item level?¶

3. Does the same item show different behavior at different stores?¶

Modeling¶

Training some models!¶

HoltWinters¶

Recursive Forecasting¶

Direct Forecasting¶

Results & Conclusions¶

End Notes:¶

Things that could possibly improve accuracy:¶

	date	id	item_id	dept_id	cat_id	store_id	state_id	sales
0	2013-01-01	FOODS_1_004_TX_1_evaluation	FOODS_1_004	FOODS_1	FOODS	TX_1	TX	20
1	2013-01-01	FOODS_1_004_TX_2_evaluation	FOODS_1_004	FOODS_1	FOODS	TX_2	TX	20
2	2013-01-01	FOODS_1_004_TX_3_evaluation	FOODS_1_004	FOODS_1	FOODS	TX_3	TX	4
3	2013-01-01	FOODS_1_005_TX_2_evaluation	FOODS_1_005	FOODS_1	FOODS	TX_2	TX	1
4	2013-01-01	FOODS_1_009_TX_2_evaluation	FOODS_1_009	FOODS_1	FOODS	TX_2	TX	3
...	...	...	...	...	...	...	...	...
3895933	2016-05-22	HOUSEHOLD_2_511_TX_3_evaluation	HOUSEHOLD_2_511	HOUSEHOLD_2	HOUSEHOLD	TX_3	TX	4
3895934	2016-05-22	HOUSEHOLD_2_513_TX_1_evaluation	HOUSEHOLD_2_513	HOUSEHOLD_2	HOUSEHOLD	TX_1	TX	2
3895935	2016-05-22	HOUSEHOLD_2_514_TX_3_evaluation	HOUSEHOLD_2_514	HOUSEHOLD_2	HOUSEHOLD	TX_3	TX	1
3895936	2016-05-22	HOUSEHOLD_2_516_TX_2_evaluation	HOUSEHOLD_2_516	HOUSEHOLD_2	HOUSEHOLD	TX_2	TX	1
3895937	2016-05-22	HOUSEHOLD_2_516_TX_3_evaluation	HOUSEHOLD_2_516	HOUSEHOLD_2	HOUSEHOLD	TX_3	TX	2

		item_id	dept_id	cat_id	store_id	state_id	sales	cumsum
date	id
2013-01-02	FOODS_1_003_TX_2_evaluation	FOODS_1_003	FOODS_1	FOODS	TX_2	TX	3.0	3.0
2013-01-03	FOODS_1_003_TX_2_evaluation	FOODS_1_003	FOODS_1	FOODS	TX_2	TX	0.0	3.0
2013-01-04	FOODS_1_003_TX_2_evaluation	FOODS_1_003	FOODS_1	FOODS	TX_2	TX	0.0	3.0