NoSQL

NoSQL（一般に "Not only SQL" と解釈される）とは、関係データベース管理システム (RDBMS) 以外のデータベース管理システムを指すおおまかな分類語である。関係データベースを杓子定規に適用してきた長い歴史を打破し、それ以外の構造のデータベースの利用・発展を促進させようとする運動の標語としての意味合いを持つ。関係モデルではないデータストアの特徴として、固定されたスキーマに縛られないこと、関係モデルの結合操作を利用しないこと、水平スケーラビリティが確保しやすい事が多いこと、高度なトランザクション処理を利用できないものが多いことなどが挙げられる。学術的な世界では、この種のデータベースのことを構造型ストレージ (structured storage) と呼ぶことが多い^[1]^[2]^[3]^[4]。

NoSQL系データベース管理システムは、データの格納および取得が高度に最適化されているものが多い。その最適化のために機能性を最小限にしているものもある。その最たる例が、「値」およびそれを取得するための「キー」だけを格納できるKey-Value型データベースである。NoSQL系データベースは、関係データベースのような汎用性は欠くものの、その制約された条件下ではRDBMSより高いパフォーマンスを持つ。そのためビッグデータ系ソリューションでしばしば活用される。

NoSQL系データベース管理システムが有用な場面は、関係モデルを必要としないデータを扱う時や、大量のデータを扱う時である。用途は多様であり、数百万のkey-valueペアを格納したり、数10個程度の連想配列を格納したり、数百万の構造的データを格納したりと、様々に使われる。この構造は、大規模なデータを統計的に解析したり、増えつづける情報をリアルタイムに解析するのにも便利である。

産業界での有名な実装として、GoogleのBigTable、アマゾンのAmazon DynamoDBなどがある。オープンソースの実装も数多く存在し、例えばMongoDB、Redis、Apache HBase、Hypertable^[5], Apache Cassandraなどがある。

歴史[編集]

NoSQLという用語は1998年、SQLインタフェースを持たない軽量な関係データベースのオープンソースソフトウェアの名前として最初に用いられた。その著者Carlo StrozziはNoSQL運動について、「関係モデル全体と一線を画すものであるから、『NoREL』などと名づけられるべきだった」と主張している^[6]。この用語は、Last.fmのJohan Oskarssonの呼びかけによって2009年初頭に開催されたオープンソースの分散データベースについての会合において、Rackspace（英語版）の従業員Eric Evansによって再導入された^[7]。この名前はMySQL、MS SQL、PostgreSQLなど関係データベースのシステムで広く用いられていた命名法を参照して付けられたものであり、ACID保証を提供しないような非関係型の分散データストアの勃興を表現する意図が込められていた。

NoSQL運動が普及するに従い、その名前のもつネガティブな印象（SQLは不要である、など）が問題となり議論が起こっている。Eric EvansはNoSQLをNot only SQLのバクロニムとして理解するのが好ましいとしている^[8]。

アーキテクチャ[編集]

現代的な関係データベースは、小規模の高頻度なトランザクションか、巨大だが書き込みをほとんど伴わないトランザクションに最適化されて設計されているため、近年必要とされてきている大規模データに基づく (data-intensive) 応用事例では性能が劣化してしまう^[9]。そのような応用の例として、検索のための文書のインデキシング、トラフィックの高いウェブサイトのサーバ、ストリーミングデータの配布などがあり、Diggのgreen badge^[10]、Facebookのインボックスの検索、eBayのシステム全体などがその実例である。

NoSQLのアーキテクチャにおいては、結果整合性のみを保証するなどして一貫性の保証を弱く設計したり、トランザクションをひとつのデータアイテムに限るという制限を設けたりすることが多い。補助的なミドルウェアの層を付加することによって完全なACID保証を提供している場合もある^[11]。

いくつかのNoSQLシステムは分散アーキテクチャを採用している。そのようなシステムでは、多くの場合は分散ハッシュテーブルを用いて、データを複数のサーバに冗長性を持たせながら配置する。これにより、サーバを追加するだけでシステムを容易にスケールアップさせることができ、障害への耐性も強くなる^[12]。

分類[編集]

NoSQL には、主要なものとして、以下のものがある^[13]。

キー・バリュー型 (Key Value Store) - キーに対してバリュー（値）という単純な構造。Basho Riak, Redis,Amazon DynamoDBなど。大半はバリューとして単純なバイナリデータ (BLOB) のみが格納できるが、Redisのようにリスト、マップ、ソート済みセットといったリッチなデータ構造をサポートするものもある。またバリューに加えて、タグやメタデータと呼ばれる追加情報が格納できるものも多い。日本発のものには okuyama, Hibari などがある。
ソート済みカラム指向 - 行キーに対してカラム（名前と値の組み合わせ）の集合を持つ。行ごとに好きな名前のカラムを好きな数だけ格納できる。カラムはカラム名によってソートされるため、例えばカラム名に時刻を使うことで1行の中に時系列のデータを格納することができる。Apache Cassandra, Apache HBaseなど。
ドキュメント指向（Document-oriented、Document store） - XMLやJSONといった、スキーマレスでデータ構造が柔軟なもの。MongoDB、Apache CouchDB、Amazon DocumentDBなど。XMLデータベースなどのシステムでは、XQueryを利用できるものもある。
グラフ指向 - ノード（頂点）とエッジ（辺）とプロパティ（属性）の３つの要素から構成され、ノード間の関係を管理することに特化したデータベース。Neo4j、Amazon Neptuneなど。

オープンソースのプロジェクト一覧[編集]

Apache Cassandra - 分散データベース、ソート済みカラム指向型
Apache CouchDB - ドキュメント指向型
Apache HBase - 分散データベース、ソート済みカラム指向型
ArangoDB - multi-model database
Basho Riak - 分散データベース、キー・バリュー型
Chordless
Db4o - オブジェクトデータベース（Javaオブジェクトなどの格納）
GT.M
Hibari - 分散データベース、キー・バリュー型（日本発）
Hypertable - 分散データベース、ソート済みカラム指向型
Memcachedb
Mnesia - 分散データベース
MongoDB - 分散データベース、ドキュメント指向型
okuyama - 分散データベース、キー・バリュー型（日本発）
Project Voldemort - 分散データベース、キー・バリュー型
Redis - インメモリ・データベース、キー・バリュー型（リスト、マップ、ソート済みセットなど）
ScyllaDB - 分散データベース、Apache CassandraをC++へと移植し高速化したもの
SimpleDB
Neo4j - グラフ型
DEX
BaseX
eXist
AllegroGraph
OrientDB
InfiniteGraph - グラフ型
Sones GraphDB
InfoGrid
HyperGraphDB

実装例[編集]

ドキュメントストア[編集]

名称	言語	補足
BaseX	Java, XQuery	XMLデータベース
Cloudant（英語版）	Erlang, Java, Scala, C	JSONストア（オンラインサービス）
Clusterpoint（英語版）	C++	XML, 全文検索
Couchbase Server	Erlang, C, C++	JSONとバイナリドキュメント
Apache CouchDB	Erlang	JSONデータベース
djondb^[14]^[15]^[16]	C++	JSON, ACIDドキュメントストア
Solr	Java	サーチエンジン
Elasticsearch	Java	JSON, サーチエンジン
eXist（英語版）	Java, XQuery	XMLデータベース
Jackrabbit（英語版）	Java	Java Content Repository（英語版）実装
IBM Lotus Notes and IBM Lotus Domino	Lotus Script, Java, IBM X Pages, その他	MultiValue（英語版）
MarkLogic Server（英語版）	XQuery, Java, REST	JSON対応のXMLデータベース, テキスト, バイナリ
MongoDB	C++, C#, Go	BSONストア（JSONのバイナリフォーマット）
ObjectDatabase++（英語版）	C++, C#, TScript（英語版）	C++ネイティブクラスのバイナリ
Oracle NoSQL Database（英語版）	Java, C
CoreFoundation Property list	C, C++, Objective-C	JSON, XML, バイナリ
Sedna（英語版）	XQuery, C++	XMLデータベース
SimpleDB	Erlang	オンラインサービス
TokuMX（英語版）	C++, C#, Go	MongoDBとフラクタルツリーインデックス
OpenLink Virtuoso（英語版）	C++, C#, Java, SPARQL	ミドルウェアとデータベースエンジンのハイブリッド

ドキュメントストア＋キーバリューストア＋グラフ[編集]

詳細は「en:Multi-model database」を参照

名称	言語	補足
OrientDB（英語版）	Java	JSON, SQLサポート
ArangoDB（英語版）	C++
FoundationDB （英語版）

グラフ[編集]

名称	言語	補足
AllegroGraph（英語版）	SPARQL	RDFグラフストア
IBM DB2	SPARQL	RDFグラフストアを追加したDB2 10
DEX/Sparksee（英語版）	Java, C++, .NET, Python	ハイパフォーマンスグラフデータベース（英語版）
FlockDB（英語版）	Scala
InfiniteGraph（英語版）	Java	ハイパフォーマンス, スケーラブル, 分散型グラフデータベース
Neo4j	Java
OpenLink Virtuoso（英語版）	C++, C#, Java, SPARQL	ミドルウェアとデータベースエンジンのハイブリッド
Sones GraphDB（英語版）	C#	GraphQLと呼ばれるクエリー言語を備えたグラフデータベース
Sqrrl Enterprise（英語版）	Java	セルレベルのセキュリティに特化した分散型, リアルタイムグラフデータベース
OWLIM（英語版）	Java, SPARQL 1.1	推論付きRDFグラフストア

トリプル/クアッドストア (RDF) データベース[編集]

キーバリューストア[編集]

eventually consistent[編集]

ヒエラルキー[編集]

RAMキャッシュ[編集]

ソリッドステート・回転ディスク[編集]

ordered[編集]

オブジェクトデータベース[編集]

詳細は「オブジェクトデータベース」を参照

タビュラー[編集]

タプルストア[編集]

ホスト型[編集]

マルチバリューデータベース[編集]

Northgate Information Solutions（英語版） Reality, 元はPick/MV Database
Extensible Storage Engine（英語版） (ESE/NT)
OpenQM（英語版）
Revelation Software's OpenInsight（英語版）
Rocket U2（英語版）
D3 Pick database（英語版）
InterSystems Caché
InfinityDB（英語版）

参考文献[編集]

^ Hamilton, James (2009年11月3日). “Perspectives: One Size Does Not Fit All”. 2009年11月13日閲覧。
^ Lakshman, Avinash; Malik, Prashant. Cassandra — A Decentralized Structured Storage System. Cornell University 2009年11月13日閲覧。.
^ Chang, Fay; Jeffrey Dean, Sanjay Ghemawat, Wilson C. Hsieh, Deborah A. Wallach, Mike Burrows, Tushar Chandra, Andrew Fikes, and Robert E. Gruber. Bigtable: A Distributed Storage System for Structured Data. Google 2009年11月13日閲覧。.
^ Kellerman, Jim. “HBase: structured storage of sparse data for Hadoop”. 2009年11月13日閲覧。
^ Toptal - The Definitive Guide to NoSQL Databases
^ “NoSQL Relational Database Management System: Home Page”. Strozzi.it (2007年10月2日). 2010年3月29日閲覧。
^ “NOSQL 2009”. Blog.sym-link.com (2009年5月12日). 2010年3月29日閲覧。
^ “NoSQL: What's in a name?”. Eric Evans's Weblog (2009年10月30日). 2010年5月31日閲覧。
^ Agrawal, Rakesh et al. (2008). “The Claremont report on database research”. SIGMOD Record (ACM) 37 (3): 9--19. doi:10.1145/1462571.1462573. ISSN 0163-5808.
^ “Looking to the future with Cassandra | Digg About”. About.digg.com (2009年9月9日). 2010年3月29日閲覧。
^ 例：“CloudTPS: Scalable Transactions for Web Applications in the Cloud”. Globule.org. 2010年3月29日閲覧。
^ “Cassandra: Structured Storage System over a P2P Network” (PDF). 2010年3月29日閲覧。
^ Database Landscape Map – December 2012
^ The enterprise class NoSQL database. djondb. Retrieved on 2013-09-18.
^ http://tinman.cs.gsu.edu/~raj/8711/sp13/djondb/Report.pdf
^ Undefined Blog: Meeting with DjonDB. Undefvoid.blogspot.com. Retrieved on 2013-09-18.
^ “Riak: An Open Source Scalable Data Store” (2010年11月28日). 2010年11月28日閲覧。
^ Tweed, Rob; George James (2010年). “A Universal NoSQL Engine, Using a Tried and Tested Technology” (PDF). p. 25. 2014年3月14日閲覧。 “Without exception, the most successful and well-known of the NoSQL databases have been developed from scratch, all within just the last few years. Strangely, it seems that nobody looked around to see whether there were any existing, successfully implemented database technologies that could have provided a sound foundation for meeting Web-scale demands. Had they done so, they might have discovered two products, GT.M and Caché.....*”