バッチ処理
バッチ処理(バッチしょり、Batch processing)はバッチ単位でおこなわれる処理である。特に以下の2つの意味で用いられる。
- コンピュータでひとまとまりのデータを一括して処理する方式。本項で詳述する。
- ひとつの設備である程度まとまった時間、または単位操作ごとに処理を区切り、原材料をこの区切りごとにまとめて投入する処理のこと。回分処理(かいぶんしょり)も同義。発酵工程やバッチ殺菌などは典型的なバッチ処理である。反対語は逐次処理または連続処理。
バッチ処理(コンピュータ)
[編集]データ処理におけるバッチ処理(バッチしょり)は、ひとまとまりのデータを一括して処理する方式である[1]。逐次生み出されるデータを一定期間・一定量集めたものをバッチといい、このバッチ単位で処理をおこなう方式がバッチ処理である。
比較される方式として、逐次生み出されるデータをストリームとして捉え到着したデータを順次扱うストリーム処理がある[2][3]。データをキューイングせず即時処理するリアルタイム処理とも比較される。
バッチ処理を直列につなぎパイプライン処理をおこなう(パイプラインを構築する)ことがしばしばおこなわれる。
「バッチ (batch)」はプログラミングをする際、紙テープやパンチカードを利用していた時代より使用され始めた言葉である。カードまたは紙テープはシステムオペレーターに渡され、オペレーターはタスクのスケジューリングをし、コンピュータにカードまたは紙テープを投入していった。スケジューリングされたタスクは直ちにシステムに入れられたのではなく、一緒にまとめて投入されたので(バッチとは、複数の似ているものを1つのグループとして生産、処理すること、または一緒に集めて1つのユニットとして扱うこと。en:Batch processingより)、これらのタスクの集まりを「バッチジョブ」と呼ぶようになった[要出典]。
バッチジョブは一度設定されると人間の手を煩わせることなく動作する非対話型処理である。そのため入力データもスクリプトやコマンド行パラメータを通して予め用意される。この点でユーザーの入力を必要とする対話型プログラムとは対極にある。
バッチジョブは相互対話式の思想に基づく処理の仕組みではないが、IBM の CICS のようなトランザクション処理システムもテクニカルな視点から見ればバッチジョブとして動いている。もっとも、その部分はユーザーから隠れて見えない部分である。
MS-DOSのバッチファイルの由来はここから来ている[要出典]。
NECの情報管理ソフトの中にDataBooster(データブースター)という製品がある。これは通常夜間行われる日次月次のバッチ処理を高速化しようというもので、数十GB単位の大量のメモリーと専用の処理アルゴリズムによって、時間のかかる中間ファイルの生成を行わないところに特徴がある。
システム利用者が少ない・あるいはサービス提供時間外でシステム負荷が低い夜間に実行されるバッチ処理は「夜間バッチ」と呼ばれる。何らかの事情で夜間バッチが事前の想定時刻までに処理を完了できなかった場合は「突き抜け」と呼ばれる場合がある[4]。
利点
[編集]バッチ処理には以下のような利点がある。
- 多くのユーザーがコンピュータのリソースを共有できる。
- 処理をコンピュータのリソースがあまり忙しくない時間帯(多くは夜間、休日)にシフトできる。
- 人間がついていなくてもコンピュータのリソースが暇にならないように最大限有効活用できる。
- 高価なコンピュータをフルに活用することで費用対効果の効率向上に寄与する。
- サービスを停止して行うバッチ処理の場合、データの整合性を保つことが容易となる。
欠点
[編集]- 即時性が必要な処理には向かない。
- 夜間バッチを使用して「突き抜け」が発生した場合、本来のサービスと合わせて負荷がかかり大規模なシステム障害を引き起こす可能性がある。
バッチ管理システム
[編集]- Spring Batch[※ 1]
- Java Batch System[※ 2] - 現在β版
- blancoBatchProcess[※ 3] - Excelから生成
- SUNBATCH - サントリーシステムテクノロジー
- ParallelFrame - メディア情報開発
- オブジェクトワークス/BT JobManager - NRI
- TERASOLUNA Batch Framework for Java - NTTデータ
- Web Solid Framework - ワイ・エス・ピー
- WebSphere Extended Deployment - IBM
- Batch Execution and Control Environment for Java (JBeX) - 日本IBM
- Quartz Enterprise Job Scheduler[※ 4]
- Real timeFramework Architecture - フューチャーアーキテクト
- Batch.dart[※ 5][※ 6]
脚注
[編集]注釈
[編集]出典
[編集]- ^ 「一定期間又は一定量のデータを集め, 一括して処理する方式」 ITパスポート試験. (2018). ITパスポート試験 平成30年度 春期分. 問94ア
- ^ 「ストリーム処理...ローリング時間窓でのデータまたは直近のデータレコードのみに対するクエリまたは処理。...少数のレコードから成るマイクロバッチまたは個々のレコード。」 AWS. ストリーミングデータとは.
- ^ 「ストリーミングデータを扱う前に、ストリーム処理とバッチ処理について整理しておくとよいでしょう。 」AWS. ストリーミングデータとは.
- ^ “夜間バッチとは - 意味をわかりやすく - IT用語辞典 e-Words”. IT用語辞典 e-Words. 株式会社インセプト. 2024年5月22日閲覧。