MNISTデータベース

出典: フリー百科事典『ウィキペディア(Wikipedia)』
ナビゲーションに移動 検索に移動
MNIST sample images
MNISTテストデータセットのサンプル

MNISTデータベース(英: MNIST database, Modified National Institute of Standards and Technology databaseの略)は、さまざまな画像処理システムの学習に広く使用される手書き数字画像の大規模なデータベース[1][2]。米国商務省配下の研究所が構築したこのデータベースは、機械学習分野での学習や評価に広く用いられている[3][4]

概要[編集]

MNISTデータベースは、もともとNISTが保有していたデータセットに含まれるサンプルを再構成することによって作成されたデータベースである[5]。元のデータセットでは、学習データセットが国勢調査局の従業員から取得したものであるのに対し、評価データセットは米国の高校生から取得したものであるため、MNISTデータベースの作成者は、そのままでは機械学習の実験には適さないと感じていた[6][注釈 1]。また、NISTのデータベースに含まれる画像は当初白黒であったが、28x28ピクセルの範囲に収まるようにサイズが正規化され、グレースケール画像になるようアンチエイリアス処理も行われた。

MNISTデータベースには、60,000枚の訓練用画像と10,000枚の評価用画像が含まれている[8]。訓練用画像の半分と評価用画像の半分をNISTの訓練データセットから取得し、残りの半分をNISTの評価データセットから取得した[9]。データベースの作成者は、データベースで評価した手法の一覧を公開している[6]。論文では、サポートベクターマシンを使用して誤検知率0.8%という実験結果を発表している[10]。また関連して、EMNISTと呼ばれるMNISTに類似した拡張データセットも2017年に公開されている。このデータセットには手書きの数字と文字が含まれており、240,000枚の訓練用画像と40,000枚の評価用画像が含まれる[11]

データセット[編集]

MNISTデータベースには、NISTの2つのデータベース(Special Database 1とSpecial Database 3)の組み合わせからなる画像群が含まれている。2つのデータベースはそれぞれ、高校生と米国国勢調査局の従業員が手で書いた数字の画像で構成されている[6]

MNISTによる性能評価の歴史[編集]

2012年に発表された研究では、ニューラルネットワークを組み合わせるコミッティマシン英語版を用いて、MNISTデータベースで「人間に近いパフォーマンス」を達成した。同じ論文で、他の認識タスクでも人間の2倍のパフォーマンスを達成している[12]。MNISTデータベースのWebサイトにアップされている一覧[6]によれば、最も悪い誤検知率は12%である。これは、データの前処理をすることなく単純な線形分類器を使用して分類した場合に記録されたものである[10]

2004年には、ローゼンブラットのパーセプトロン原理に基づく3つのニューロン層を持つニューラル分類器であるLIRAと呼ばれる新しい分類器を用いて、MNISTデータベースにおいて0.42%という最良の誤検知率が達成された[13]

研究者によっては、ランダムな歪み加工を施したデータを用いて人工知能を学習・評価したものもある。対象となるシステムは通常ニューラルネットワークであり、使用される歪み加工はアフィン変換または弾性変形のいずれかであることが多い[6]。この方法で学習されたモデルが高い精度を達成する場合もある。その中の事例の一つでは、MNISTデータベースを用いた評価で誤検知率0.39%を達成した[14]

2011年には、従来の最良の結果を改善して誤検知率0.27%を達成したことが、同様のニューラルネットワークを用いた研究で報告された[15]。2013年には、DropConnect[注釈 2]と呼ばれる正則化手法を用いたニューラルネットワークで、誤検知率0.21%を達成したとする研究も現れた[16]。2016年時点で、単一の畳み込みニューラルネットワーク(CNN)を用いた実験に限ると、誤検知率0.25%が最も良い[17]。また2018年8月時点で、データ拡張英語版を使用せずにMNISTで学習した単一の畳み込みニューラルネットワークの最高精度もまた、誤検知率0.25%である[18]。単一のCNNに限らなければ、Parallel Computing Center(ウクライナフメリニツキー)が、5つのCNNを用いたアンサンブル学習英語版により誤検知率0.21%を達成している[19][20]。2018年には、バージニア大学の研究者が、3種類のニューラルネットワーク(fully connected, recurrent, convolutional)を並列させたネットワークを用いて誤検知率0.18%を達成したと発表している[21]。なお、テストデータセット内の画像にはほとんど読み取れないような識別難度の高いものも含まれている[22]

分類器と性能の一覧[編集]

本データセットを用いて評価された機械学習手法とその誤検知率を、分類器の種類別に表している。

分類器の種別 分類器の説明

(784-100-10といった表記は、ニューラルネットワークにおける各層のノード数を表す。またPはプーリング層。)

歪み加工 前処理 誤検知率(%)
線形分類器 ペアワイズ線形分類器 自動傾き補正 7.6[10]
ランダム化された木を使用したデジションストリーム[注釈 3] 単一モデル(深さ400以上) 2.7[24]
K近傍法 非線形変換を伴うK-NN(P2DHMDM) エッジずらし 0.52[25]
決定株英語版のブースト Haar特徴を用いた決定株のブースト Haar特徴量英語版 0.87[26]
サポートベクターマシン(SVM) 仮想SVM 自動傾き補正 0.56[27]
ディープニューラルネットワーク(DNN) 2層 784-800-10 1.6[28]
ディープニューラルネットワーク 2層 784-800-10 弾性歪み 0.7
ディープニューラルネットワーク 6層 784-2500-2000-1500-1000-500-10 弾性歪み 0.35[29]
畳み込みニューラルネットワーク (CNN) 6層 784-40-80-500-1000-2000-10 学習データの拡張 0.31[30]
畳み込みニューラルネットワーク 6層 784-50-100-500-1000-10-10 学習データの拡張 0.27[31]
畳み込みニューラルネットワーク 13層 64-128(5x)-256(3x)-512-2048-256-256-10 0.25[17]
畳み込みニューラルネットワーク 35個のCNNの組み合わせ、1-20-P-40-P-150-10 弾性歪み 幅の正規化 0.23[12]
畳み込みニューラルネットワーク 5つのCNNの組み合わせ, 6層 784-50-100-500-1000-10-10 学習データの拡張 0.21[19][20]
ランダムマルチモデルディープラーニング(RMDL) 10個のニューラルネットワーク, 10個のリカレントニューラルネットワーク、10個の畳み込みニューラルネットワーク 0.18[21]

関連項目[編集]

出典[編集]

  1. ^ Support vector machines speed pattern recognition - Vision Systems Design”. Vision Systems Design. 2013年8月17日閲覧。
  2. ^ Gangaputra. “Handwritten digit database”. 2013年8月17日閲覧。
  3. ^ Qiao (2007年). “THE MNIST DATABASE of handwritten digits”. 2013年8月18日閲覧。
  4. ^ Platt, John C. (1999). “Using analytic QP and sparseness to speed training of support vector machines”. Advances in Neural Information Processing Systems: 557–563. http://ar.newsmth.net/att/148aa490aed5b5/smo-nips.pdf 2013年8月18日閲覧。. 
  5. ^ Grother. “NIST Special Database 19 - Handprinted Forms and Characters Database (pdf)”. National Institute of Standards and Technology. 2021年2月2日閲覧。
  6. ^ a b c d e LeCun. “The MNIST Handwritten Digit Database”. Yann LeCun's Website yann.lecun.com. 2020年4月30日閲覧。
  7. ^ Bickel, Steffen. Learning under differing training and test distributions. https://publishup.uni-potsdam.de/opus4-ubp/frontdoor/index/index/docId/3148 2021年2月2日閲覧。. 
  8. ^ Kussul, Ernst; Baidyk, Tatiana (2004). “Improved method of handwritten digit recognition tested on MNIST database”. Image and Vision Computing 22 (12): 971–981. doi:10.1016/j.imavis.2004.03.008. 
  9. ^ Zhang, Bin; Srihari, Sargur N. (2004). “Fast k-Nearest Neighbor Classification Using Cluster-Based Trees”. IEEE Transactions on Pattern Analysis and Machine Intelligence 26 (4): 525–528. doi:10.1109/TPAMI.2004.1265868. PMID 15382657. http://mleg.cse.sc.edu/edu/csce822/uploads/Main.ReadingList/KNN_fastbyClustering.pdf 2020年4月20日閲覧。. 
  10. ^ a b c LeCun, Yann; Léon Bottou; Yoshua Bengio; Patrick Haffner (1998). “Gradient-Based Learning Applied to Document Recognition”. Proceedings of the IEEE 86 (11): 2278–2324. doi:10.1109/5.726791. http://yann.lecun.com/exdb/publis/pdf/lecun-98.pdf 2013年8月18日閲覧。. 
  11. ^ Cohen, Gregory; Afshar, Saeed (17 February 2017). "EMNIST: an extension of MNIST to handwritten letters". arXiv:1702.05373 [cs.CV]。
  12. ^ a b Cires¸an, Dan; Ueli Meier; Jürgen Schmidhuber (2012). “Multi-column deep neural networks for image classification”. 2012 IEEE Conference on Computer Vision and Pattern Recognition. pp. 3642–3649. arXiv:1202.2745. doi:10.1109/CVPR.2012.6248110. ISBN 978-1-4673-1228-8. http://repository.supsi.ch/5145/1/IDSIA-04-12.pdf 
  13. ^ Kussul, Ernst; Tatiana Baidyk (2004). “Improved method of handwritten digit recognition tested on MNIST database”. Image and Vision Computing 22 (12): 971–981. doi:10.1016/j.imavis.2004.03.008. https://vlabdownload.googlecode.com/files/Image_VisionComputing.pdf 2013年9月20日閲覧。. 
  14. ^ Ranzato, Marc’Aurelio; Christopher Poultney; Sumit Chopra; Yann LeCun (2006). “Efficient Learning of Sparse Representations with an Energy-Based Model”. Advances in Neural Information Processing Systems 19: 1137–1144. http://yann.lecun.com/exdb/publis/pdf/ranzato-06.pdf 2013年9月20日閲覧。. 
  15. ^ Ciresan, Dan Claudiu; Ueli Meier; Luca Maria Gambardella; Jürgen Schmidhuber (2011). “Convolutional neural network committees for handwritten character classification”. 2011 International Conference on Document Analysis and Recognition (ICDAR). pp. 1135–1139. doi:10.1109/ICDAR.2011.229. ISBN 978-1-4577-1350-7. オリジナルの22 February 2016時点におけるアーカイブ。. http://www.icdar2011.org/fileup/PDF/4520b135.pdf 2013年9月20日閲覧。 
  16. ^ a b Wan et al. 2013.
  17. ^ a b SimpleNet (2016年). “Lets Keep it simple, Using simple architectures to outperform deeper and more complex architectures”. 2020年12月3日閲覧。
  18. ^ SimpNet. “Towards Principled Design of Deep Convolutional Networks: Introducing SimpNet”. Github. 2020年12月3日閲覧。
  19. ^ a b Romanuke. “Parallel Computing Center (Khmelnytskyi, Ukraine) represents an ensemble of 5 convolutional neural networks which performs on MNIST at 0.21 percent error rate.”. 2016年11月24日閲覧。
  20. ^ a b Romanuke, Vadim (2016). “Training data expansion and boosting of convolutional neural networks for reducing the MNIST dataset error rate”. Research Bulletin of NTUU "Kyiv Polytechnic Institute" 6 (6): 29–34. doi:10.20535/1810-0546.2016.6.84115. 
  21. ^ a b Kowsari, Kamran; Heidarysafa, Mojtaba; Brown, Donald E.; Meimandi, Kiana Jafari; Barnes, Laura E. (2018-05-03). “RMDL: Random Multimodel Deep Learning for Classification”. Proceedings of the 2018 International Conference on Information System and Data Mining. arXiv:1805.01890. doi:10.1145/3206098.3206111. 
  22. ^ MNIST classifier. “Classify MNIST digits using Convolutional Neural Networks”. 2018年8月3日閲覧。
  23. ^ Ignatov, Dmitry; Ignatov, Andrey (2017-11). “Decision Stream: Cultivating Deep Decision Trees”. 2017 IEEE 29th International Conference on Tools with Artificial Intelligence (ICTAI) (Boston, MA: IEEE): 905–912. arXiv:1704.07657. doi:10.1109/ICTAI.2017.00140. ISBN 978-1-5386-3876-7. https://ieeexplore.ieee.org/document/8372043/ 2021年2月2日閲覧。. 
  24. ^ Ignatov, D.Yu.; Ignatov, A.D. (2017). “Decision Stream: Cultivating Deep Decision Trees”. IEEE Ictai: 905–912. arXiv:1704.07657. Bibcode2017arXiv170407657I. doi:10.1109/ICTAI.2017.00140. ISBN 978-1-5386-3876-7. https://www.researchgate.net/publication/316471270. 
  25. ^ Keysers, Daniel; Thomas Deselaers; Christian Gollan; Hermann Ney (August 2007). “Deformation models for image recognition”. IEEE Transactions on Pattern Analysis and Machine Intelligence 29 (8): 1422–1435. doi:10.1109/TPAMI.2007.1153. PMID 17568145. 
  26. ^ Kégl, Balázs; Róbert Busa-Fekete (2009). “Boosting products of base classifiers”. Proceedings of the 26th Annual International Conference on Machine Learning: 497–504. doi:10.1145/1553374.1553439. https://users.lal.in2p3.fr/kegl/research/PDFs/keglBusafekete09.pdf 2013年8月27日閲覧。. 
  27. ^ Decoste & Schölkopf 2002.
  28. ^ Patrice Y. Simard; Dave Steinkraus; John C. Platt (2003). “Best Practices for Convolutional Neural Networks Applied to Visual Document Analysis”. Proceedings of the Seventh International Conference on Document Analysis and Recognition. 1. Institute of Electrical and Electronics Engineers. pp. 958. doi:10.1109/ICDAR.2003.1227801. ISBN 978-0-7695-1960-9. http://research.microsoft.com/apps/pubs/?id=68920 
  29. ^ Ciresan, Claudiu Dan; Ueli Meier; Luca Maria Gambardella; Juergen Schmidhuber (December 2010). “Deep Big Simple Neural Nets Excel on Handwritten Digit Recognition”. Neural Computation 22 (12): 3207–20. arXiv:1003.0358. doi:10.1162/NECO_a_00052. PMID 20858131. 
  30. ^ Romanuke. “The single convolutional neural network best performance in 18 epochs on the expanded training data at Parallel Computing Center, Khmelnytskyi, Ukraine”. 2016年11月16日閲覧。
  31. ^ Romanuke. “Parallel Computing Center (Khmelnytskyi, Ukraine) gives a single convolutional neural network performing on MNIST at 0.27 percent error rate”. 2016年11月24日閲覧。

注釈[編集]

  1. ^ 一般に、どのような機械学習アルゴリズムを用いて精度の高いモデルを作成したとしても、学習に用いたデータの分布を外れたデータに対しては、正しい結果を返すとは限らない[7]。そのため、NISTがもともと保持していたデータセットのように学習データと評価データの分布が大きく異なる場合には、評価データによる評価が用をなさないおそれがある。
  2. ^ 正規化手法の一種。ネットワークの過学習を抑えることが目的で、訓練段階ごとにノード間をつなぐ接続のいくつかを一定の確率で無効にする手法。特定のノードや接続が、特定の学習サンプルに過度に適合することを防ぐことが期待される[16]
  3. ^ 決定木の拡張。決定木同様、一定の方向に分枝していく点は同じだが、一つのノードに複数の枝が流入することがある点が異なる[23]

参考文献[編集]

外部リンク[編集]