Predict

TAIEX.s45_LSTM. Adj_Close

cy.lu

04 Jul 2024 • 3 min read

特徵工程：使用 Adj_Close 計算移動平均線（MA7 和 MA21）、RSI 和 MACD。
特徵選擇：使用隨機森林模型選擇最重要的特徵。
數據標準化：將特徵和目標變量標準化。
創建序列：為 LSTM 模型創建時間序列數據。
構建 LSTM 模型：使用選擇的特徵來訓練 LSTM 模型。
預測和評估：進行預測並計算誤差（MSE 和 MAE）。
可視化：繪製實際值和預測值的圖表。
打印特徵變數：打印所選的特徵變數。

source code

import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.dates as mdates
from sklearn.metrics import mean_squared_error, mean_absolute_error
from sklearn.preprocessing import MinMaxScaler
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, Dropout
from google.colab import drive

# Mount Google Drive
drive.mount('/content/drive', force_remount=True)

# Check file path
file_path = '/content/drive/My Drive/MSCI_Taiwan_30_data_with_OBV.csv'
if os.path.exists(file_path):
    print("File exists")
    data = pd.read_csv(file_path)
else:
    print("File does not exist")

# Ensure the date column is converted to datetime type
data['Date'] = pd.to_datetime(data['Date'])

# Print column names to check if 'Close_TAIEX' column exists
print(data.columns)

# Prepare data
if 'Close_TAIEX' in data.columns:
    data = data.dropna(subset=['Close_TAIEX'])
    series = data[['Date', 'Close_TAIEX']]
    series.set_index('Date', inplace=True)
else:
    print("The data does not contain 'Close_TAIEX' column")
    raise KeyError("The data does not contain 'Close_TAIEX' column")

# Scale data
scaler = MinMaxScaler(feature_range=(0, 1))
scaled_data = scaler.fit_transform(series)

# Prepare training and testing datasets
train_size = int(len(scaled_data) * 0.8)
train_data, test_data = scaled_data[:train_size], scaled_data[train_size:]

# Create sequences
def create_sequences(data, seq_length):
    X, y = [], []
    for i in range(len(data) - seq_length):
        X.append(data[i:i+seq_length])
        y.append(data[i+seq_length])
    return np.array(X), np.array(y)

seq_length = 60
X_train, y_train = create_sequences(train_data, seq_length)
X_test, y_test = create_sequences(test_data, seq_length)

# Build LSTM model
model = Sequential()
model.add(LSTM(units=50, return_sequences=True, input_shape=(seq_length, 1)))
model.add(Dropout(0.2))
model.add(LSTM(units=50, return_sequences=False))
model.add(Dropout(0.2))
model.add(Dense(units=1))

model.compile(optimizer='adam', loss='mean_squared_error')
model.fit(X_train, y_train, epochs=50, batch_size=32)

# Make predictions
predicted = model.predict(X_test)
predicted = scaler.inverse_transform(predicted)

# Calculate errors
y_test_inverse = scaler.inverse_transform(y_test.reshape(-1, 1))
mse = mean_squared_error(y_test_inverse, predicted)
mae = mean_absolute_error(y_test_inverse, predicted)

# Plot actual values and predictions
plt.figure(figsize=(12, 6))

# Plot actual values
plt.plot(series.index[-len(y_test):], y_test_inverse, label='Actual', color='blue')

# Plot predictions
plt.plot(series.index[-len(predicted):], predicted, label='LSTM Forecast', color='red')

plt.title('LSTM Model Forecast vs Actual')
plt.xlabel('Date')
plt.ylabel('Close_TAIEX')
plt.legend()

# Set date format and rotate x-axis labels
plt.gca().xaxis.set_major_locator(mdates.MonthLocator())
plt.gca().xaxis.set_major_formatter(mdates.DateFormatter('%Y-%m'))
plt.gca().tick_params(axis='x', rotation=90)

# Add grid
plt.grid(True, which='both', linestyle='--', linewidth=0.5)
plt.minorticks_on()
plt.grid(True, which='minor', linestyle=':', linewidth=0.5)

# Show plot
plt.show()

# Print MSE and MAE
print(f'LSTM Model Mean Squared Error (MSE): {mse}')
print(f'LSTM Model Mean Absolute Error (MAE): {mae}')

LSTM Model Mean Squared Error (MSE): 79560.44124432525
LSTM Model Mean Absolute Error (MAE): 213.3915943158758