Painting Price Prediction using Siamese CNN and LSTM

Painting Price Prediction using Siamese CNN and LSTM
Photo by Roxy Aln / Unsplash

Review: Painting2Auction - Art Price Prediction with a Siamese CNN and LSTM

作者: Tom Worth, Stanford University
出版資訊: CS230: Deep Learning, Fall 2020, Stanford University, CA


摘要

本研究探討如何利用深度學習技術來預測藝術品的拍賣價格,旨在提升估價效率並減少專家評估中的人為偏見。傳統方法要麼直接從圖像預測價格,要麼依賴專家意見,前者忽視市場背景,後者則引入主觀性與資訊不對稱問題。因此,本文提出了一種新的混合方法,結合Siamese CNN(評估畫作相似度)與LSTM(處理時間序列數據),以綜合考量視覺特徵與市場動態,並排除藝術家因素對價格的影響。

[[ Figure : Siamese CNN + LSTM 架構示意圖 ]]: 這張圖是一個典型的模型架構示意圖,應該是用來展示本文提到的 Siamese CNN + LSTM 方法的結構。從圖中可以看出:

  1. 輸入層:包含了兩個輸入,分別是「待預測畫作」與「最近拍賣畫作」的圖像。
  2. Siamese CNN 模型:將兩幅畫作輸入到共享權重的 CNN 模型中,生成對應的特徵向量。
  3. 特徵組合:將最近拍賣畫作的價格與特徵向量合併,形成 LSTM 的輸入。
  4. LSTM 層:使用 10 個隱藏單元的 LSTM 處理時間序列數據,捕捉市場趨勢。
  5. 輸出層:經過密集層(Dense Layer),最終輸出畫作的預測價格。


主要貢獻

市場背景納入價格預測:與以往僅依賴圖像或專家評價的方法不同,本文模型結合了歷史拍賣數據,提升了價格預測的準確度。
去除藝術家偏見:傳統估價方法往往因藝術家名氣影響價格預測,本研究透過 Siamese CNN 以風格相似度取代藝術家標籤,使模型更加客觀。
融合視覺與時間數據:透過 LSTM 模型處理市場歷史數據,使得價格預測更具市場適應性。


研究方法

📌 數據集

  1. 圖像-藝術家資料集:來自 Kaggle,共 7,943 幅繪畫,用於訓練 Siamese CNN,以評估畫作的風格相似度。

圖像-價格-時間資料集:從 Phillips 拍賣行蒐集 23,825 件拍賣品,包含圖像、成交價格及拍賣時間(2006-2020)。

[[ Figure : 拍賣行數據樣本示意圖 ]]

📌 模型架構

  1. Siamese CNN:輸出 128 維的特徵向量,衡量兩幅畫的視覺相似性。
  2. 價格預測模型
    • K-Nearest-Neighbors (KNN):選擇與待估價畫作最相似的 k 幅歷史拍賣畫作,以其價格中位數作為預測價格。
    • LSTM 時間序列模型:輸入包含最近拍賣畫作的相似度向量與價格,透過 LSTM 訓練,學習市場趨勢與價格變化模式。

[[ Figure : Siamese CNN 在 KNN 和 LSTM 模型中的應用 ]]


實驗結果

📈 Siamese CNN 成效

  • Vanilla CNN 架構 在藝術家辨識任務上達到 86% 準確率,優於 ResNet-50、Inception v3 及 EfficientNet b7。

📊 價格預測結果

模型

MAPE(平均絕對百分比誤差)

RMSE(均方根誤差)

隨機價格預測

2,351

$1,570,903

CNN(直接從圖像預測價格)

1,841

$854,743

KNN(結合 Siamese CNN)

227

-

LSTM(結合 Siamese CNN)

100.08

$279,079

[[ Figure : LSTM 模型的學習曲線與價格預測結果 ]] : 這張圖展示了不同模型在訓練過程中的準確率比較(Training Accuracy),對應於文章中提到的 Siamese CNN 部分,顯示了多種 CNN 架構在訓練過程中的表現。

如何解讀這張圖:

  1. 縱軸 (Training Accuracy):表示模型在每次訓練迭代(epoch)中達到的準確率,數值範圍是 50% 到 100%。
  2. 橫軸 (Epoch):表示訓練的迭代次數(從 0 到 8)。
  3. 曲線代表的模型
    • Vanilla CNN (藍線):這是基準模型,在訓練中表現最穩定,最終準確率達到約 95%
    • Deeper Vanilla CNN (綠線):相比 Vanilla CNN 略低,但也接近 85%
    • Inception v3 (黃色)EfficientNet b7 (灰色):準確率在 60%-75% 範圍內。
    • ResNet-50 (灰線)multilayer perceptron (橘線):表現較弱,最終穩定在 50%-60% 左右。

📌 關鍵發現

  • LSTM 模型 明顯優於傳統 CNN 預測方法,RMSE 降低 67.4%,顯示市場動態對價格的影響至關重要。
  • KNN 模型 也優於單純的 CNN 預測,證明畫作相似度與價格之間具有一定關聯性。

結論與未來研究方向

📍 本研究貢獻

  • 提出了去偏見市場導向的價格預測方法,顯著提升了藝術品估價的準確度。
  • 採用了結合視覺與市場數據的混合模型,突破了過去僅依賴圖像或專家意見的限制。

📍 未來發展

  • 擴大數據規模:目前數據集相對較小,未來可引入更多歷史拍賣數據來進一步提升模型準確性。
  • 優化 LSTM 超參數:調整最適的序列長度與學習率,以提升預測效能。
  • 發展更有效的歷史數據儲存方法:透過存儲畫作的特徵向量,而非原始圖像,以提升效率並支援更大規模的數據處理。

總結

本研究開發了一種新穎的Siamese CNN + LSTM 方法來預測藝術品的拍賣價格。該方法不僅改善了估價準確度,還去除了藝術家偏見,使價格預測更加公平與普及。未來研究可進一步提升數據規模與模型精細化,為藝術品市場提供更精確的價格評估工具。