コンテンツにスキップ

機械学習

出典: フリー百科事典『ウィキペディア(Wikipedia)』

機械学習(きかいがくしゅう、: machine learning)とは、経験からの学習により自動で改善するコンピューターアルゴリズムもしくはその研究領域で[1][2]人工知能の一種であるとみなされている。

典型的には「訓練データ」もしくは「学習データ」と呼ばれるデータを使って学習し、学習結果を使って何らかのタスクをこなすものとされる。例えば過去のスパムメールを訓練データとして用いて学習し、スパムフィルタリングというタスクをこなす、といったものである。

定義

[編集]

論者により定義が異なるものの、トム・M・ミッチェルによる下記の簡潔な定義は広く引用されている:

A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E[3]。 コンピュータプログラムがタスクのクラスTと性能指標Pに関し経験Eから学習するとは、T内のタスクのPで測った性能が経験Eにより改善される事を言う。 — トム・M・ミッチェル英語版

ここでタスクとは、プログラムが解くべき課題を指し、例えば売上予測タスクであれば「明日の売上を予測せよ」といったタスクである。

経験はなんらかのデータとしてプログラムに与えられる。このデータを訓練データもしくは学習データといい、売上予測タスクであれば例えば「過去の経験」である今日までの売上が訓練データとして与えられる。訓練データを使ってプログラムの性能を改善する過程を、「プログラムを訓練する」もしくは「プログラムを学習させる」という。またプログラムの訓練に用いられるデータ全体の集合を(訓練もしくは学習)データセットデータ集合とも)という。

最後に性能指標は、プログラムがタスクをどの程度の性能で達成したかを測る指標で、前述の売上予測タスクであれば、例えば実際の売上との誤差を性能指標として用いる事ができる。

機械学習は以下の分野と密接に関係する:

機械学習という名前は1959年にアーサー・サミュエルによって造語された[6]

理論

[編集]

機械学習アルゴリズムとその性能についての分析は、理論計算機科学の一分野であり、計算論的学習理論英語版と呼ばれている。訓練例は有限であるのに対して、未来は不確かであるため、学習理論は一般にアルゴリズムの性能を保証できない。その代わりに、性能の確率的範囲を与える。 Wassily Hoeffding英語版によるヘフディングの不等式英語版など統計的学習理論という表現もある[7]

それに加えて、学習の時間複雑性と実現可能性についても研究している。計算論的学習理論では、多項式時間で終了する計算を実現可能とみなす。

機械学習と統計学は、多くの点で似ているが、使用する用語は異なる。

統計的機械学習

[編集]

統計的機械学習とは、機械学習のうちデータの確率的な生成規則を学習するもの[8] を指す。

統計学母集団と標本、そこに存在する確率分布に着目した方法論である。統計的機械学習ではデータが母集団から確率的に得られると考え、データの生成過程を確率分布を用いてモデル化し、実際のデータに基づいてモデルの学習(あるいはモデル選択自体の学習)をおこなう。母集団からデータが得られる、母集団からのサンプリングによってデータが生成されると解釈できるため、統計的機械学習のモデルは生成モデル・統計モデルとも呼ばれる[9]

標本に基づいた母集団(パラメータ)の推定・選択は統計学において長く研究され、多くの理論が存在する。統計的機械学習における学習はまさに母集団の推定・選択であるため、統計学の理論が機械学習に適用できる。学習の収束や汎化性能など様々な機械学習の課題が統計学の知識体系を用いて研究されている。

統計的機械学習の例としては、ニューラルネットワークにおける生成モデル、例えば自己回帰型生成ネット、変分オートエンコーダー(VAE)、敵対的生成ネットワーク(GAN)などが挙げられる。これらのモデル(=母集団)から実際にサンプリングすれば画像や音声といったデータが生成できるため、特にニューラルネットワークの分野では2010年代後半に非常によく研究され大きな成果をあげている(WaveNet、VQ-VAE-2、BigGANなど)。

数理最適化

[編集]

多くの機械学習手法はデータに対するモデル出力の誤差を定義し、誤差を最小化するようにパラメータの更新(学習)をおこなう。誤差を計算する関数、すなわち損失関数を最小化する学問体系は応用数学において数理最適化(解かれる問題は最適化問題)と呼ばれる。

例えばニューラルネットワークでは損失関数に対して微分をおこなう勾配法確率的勾配降下法など)で学習がしばしばおこなわれる。勾配法による最適化が最適解に収束するか否かは数理最適化の理論によって研究される。また用いられる最適化法によってニューラルネットワークに課される制約も異なり、勾配法を用いるには連続する関数適用がすべて微分可能である(バックプロパゲーションが可能である)ことが求められる(生成モデルのサンプリングに強く制約を与える)。

データマイニングとの関係

[編集]

機械学習とデータマイニングは交差する部分が大きく、技法も同じなので混同されることが多いが、次のように定義できる。

  • 機械学習の目的は、訓練データから学んだ「既知」の特徴に基づく予測である。
  • データマイニングの目的は、それまで「未知」だったデータの特徴を発見することである。

この2つは、さまざまな面でオーバーラップしている。データマイニングは、機械学習の技法を使うが、その目的は若干異なることが多い。一方、機械学習もデータマイニングの技法を「教師なし学習」として、あるいは学習者の正確性を向上させる前処理として用いる。2つの研究領域は、ECML PKDD という例外はあるが、基本的に学会も学術誌も別々である。それらの間の混同の最大の原因は、それらの基本的前提に由来する。機械学習では、既知の知識を再生成できるかどうかで性能を評価するが、データマイニングではそれまで「未知」だった知識を発見することが重視される。したがって、既知の知識によって評価するなら「教師なしの技法」よりも「教師ありの技法」の方が容易に優れた結果を示すことができる。しかし、典型的なデータマイニングでは、訓練データが用意できないので、「教師ありの技法」を採用することができない。

機械学習における変数の種類

[編集]

機械学習では、データxが連続量であるとき、x量的変数 (quantitative variable) といい、「イヌ」、「ネコ」といった分類カテゴリのように物の種類を表す変数を質的変数 (qualitative variable) という。質的変数はカテゴリ型変数 (categorical variable)、因子 (factor) とも呼ばれる。

量的変数、質的変数以外にも「大」「中」「小」のように順序づけられた離散値を取る順序付きカテゴリ型変数 (ordered categorical variable) もある。また自然言語のように質的変数とは違い連続量ではなく、カテゴリ型変数と違い有限個のカテゴリに値を取るわけではないものも機械学習では取り扱う。

カテゴリー

[編集]

機械学習は、以下の代表的な3種類のカテゴリーに分けられる。ただしこれらの3つで機械学習で扱う全てをカバーしているわけではないし、複数のカテゴリーに属するものや、どのカテゴリーに属するのか曖昧な技法もある。

教師あり学習
入力とそれに対応すべき出力[注 2] を写像する関数を生成する。例えば、分類問題では入力ベクトルと出力に対応する分類で示される例を与えられ、それらを写像する関数を近似的に求める。
ラベルのインフォメーションが不足の場合は半教師あり学習である。
教師なし学習
入力のみ(ラベルなしの例)からモデルを構築する。データマイニング自己符号化器なども参照。
強化学習
周囲の環境を観測することでどう行動すべきかを学習する。行動によって必ず環境に影響を及ぼし、環境から報酬という形でフィードバックを得ることで学習アルゴリズムのガイドとする。例えばQ学習がある

上記3大カテゴリーの他に以下のようなカテゴリーがある。

半教師あり学習英語版
ラベルありの例とラベルなしの例をどちらも扱えるようにしたもので、それによって近似関数または分類器を生成する。
トランスダクション英語版(トランスダクティブ推論)
観測された具体的な(訓練)例から具体的かつ固定の(テスト)例の新たな出力を予測しようとする。
マルチタスク学習英語版
関連する複数の問題について同時に学習させ、主要な問題の予測精度を向上させる。
能動学習
学習アルゴリズムがそのユーザや他の情報源に対話的に問い合わせることで、学習に有用なデータを優先して選択・生成し、ラベル付けを行うものである。能動学習の詳細な問題設定は多岐に渡り、プールベース能動学習などがある。

学習モデル

[編集]
サポートベクターマシンは、データを線形境界で区切られた領域に分割する教師付き学習モデルである。ここでは、線形境界が黒丸と白丸を分けている。

機械学習では、タスクや問題設定によって様々な学習モデルがある。

決定木学習
決定木を予測モデル英語版として使用した学習であり、アイテムについての観測をそのアイテムの目標値についての結論とマッピングする。具体例としてID3Random forestがある。
相関ルール学習英語版
大規模データベースにおける変数間の興味深い関係を発見するための技法。
ニューラルネットワーク
階層的な非線形変換からなるネットワーク。一般に誤差逆伝播法で学習される。非線形性による高い表現能力をもち、分類・回帰・生成など様々なタスクに用いられる。
遺伝的プログラミング (GP)
生物の進化を模倣した進化的アルゴリズムに基づく技法であり、ユーザーが定義したタスクを実行するプログラムを探索する。遺伝的アルゴリズムを拡張・特化させたものである。所定のタスクを実行する能力によって適応度地形を決定し、それによってコンピュータプログラムを最適化させていく機械学習技法である。
帰納論理プログラミング英語版 (ILP)
例、背景知識、仮説を一様な表現とし、論理プログラミングを使って学習を規則化する技法である。既知の背景知識と例の集合をコード化して事実の論理データベースとし、全てのポジティブな例を含み、ネガティブな例を全く含まない仮説的論理プログラムを生成する。
サポートベクターマシン (SVM)
分類回帰に使われる一連の教師あり学習技法である。訓練例のラベルは二値分類(2つに分類される)であり、訓練アルゴリズムによってモデルを構築し、新たな例がどちらに分類されるかを予測する。
クラスタリング
クラスタリングは、観測された例をクラスタと呼ばれる部分集合に振り分けるもので、振り分けは事前に指示された基準に従って行う。クラスタリングはデータの構造についての仮説(基準)の立て方によって結果が異なる。仮説は「類似尺度」で定義され、「内部コンパクト性」(同一クラスタ内のメンバー間の類似性)や異なるクラスタ間の距離によって評価される。「推定密度」や「グラフ接続性」に基づく技法もある。クラスタリングは教師なし学習技法であり、統計的データ解析でよく使われる。
ベイジアンネットワーク
確率変数群とそれらの条件付き独立性有向非巡回グラフ (DAG) で表した確率論的グラフィカルモデルである。例えば、病気と症状の関係を確率的に表すことができる。そのネットワークに症状を入力すれば、考えられる病気の一覧を確率付きで出力できる。これを使って推論と学習を行う効率的アルゴリズムが存在する。
表現学習英語版
教師なし学習アルゴリズムの一部は、訓練中に提供された入力のよりよい表現を発見しようとする。古典的な例として主成分分析クラスタ分析がある。入力の持つ情報は保持したまま、分類や予測の前に入力をより便利な表現に変換するアルゴリズムもある。その際に入力データが従っている未知の確率分布から入力を再建できるようにするが、その確率分布においては信じがたい例も忠実に再現する必要はない。例えば多様体学習英語版アルゴリズムは、何らかの制約下で入力の次元を低く変換して表現する。スパースコーディング英語版アルゴリズムでは、入力が疎ら(ゼロが多い)という制約下で同様の表現の変換を行う。ニューラルネットワークの深層学習は複数レベルの表現または特徴の階層を発見するもので、低いレベルで抽出した特徴から高いレベルの抽象化した特徴までを求める。知的機械は、観測されたデータを説明する偏差の潜在的要因を解きほぐす表現を学習するものだという主張もある[10]
エクストリーム・ラーニング・マシン (ELM)
1層もしくは複数の隠れ層を有する順伝播型ニューラルネットワークであり,分類や回帰,クラスタリングへ適用できる。

モデルおよび学習規則に加え、様々なデータ前処理技法が採用される。

人間との相互作用

[編集]

人間の直観によるデータ解析の必要性を排除しようとしているが、人間と機械の協調的相互作用を取り入れた機械学習モデルもある。しかし、そもそもモデルのデータ表現方法やデータの特徴を探る機構は、人間が設計したものであり、人間の直観を完全に排除することはできない。

応用分野

[編集]

機械学習には以下のような応用分野がある。

2006年、オンラインDVDレンタル会社ネットフリックスは、同社のレコメンダシステムより10%以上高性能な(ユーザーの好みをより正確に予測する)プログラムを捜す競技会 Netflix Prize を開催した。この競技会は数年かけて行われ、AT&T Labs のチームが「プラグマティック・ケイオス」[13] という機械学習プログラムで2009年に優勝し100万ドルを獲得した[14]

タスク

[編集]
分類 具体例
認識[15] 画像認識 顔認証[16]
監視業務[16]
検査・検品[16]
画像の整理[16]
医療診断[16]
音声認識 音声入力[17]
議事録の自動作成[17]
コールセンターの補助または代替[17]
文章解析・文章認識 不正文章検知[18]
ニーズの把握[18]
過去の類似事例検索[18]
異常検知 故障の検知[19]
不審行動検知[19]
デフォルトの検知[19]
分析[15](多くは予測[20] 数値の予測 売上げなどの需要予測[21]
株価や経済指標の予測[21]
所要時間の予測[21]
劣化の予測[21]
品質の予測[21]
イベント発生の予測 購買や解約の予測[22]
故障の予測[22]
疾病の予測[22]
相性の予測[22]
対処[15] 行動の最適化 在庫の最適化[23]
広告の最適化[23]
キャンペーンの最適化[23]
出店の最適化[23]
配送の最適化[23]
作業の最適化 自動運転[24]
ロボット制御[24]
Q&Aの自動化[24]
表現の生成 翻訳[25]
要約[25]
画像生成[25]

訓練データの著作権

[編集]

生成AIのモデルを訓練する際に使用するデータセットに含まれる著作物に関して、著作権やデータ倫理上の課題が指摘されている。機械学習で訓練をされたAIサービスの普及に伴い、訓練に用いるデータセットに著作物が使われる事例に対して、出版社やクリエイターを中心として懸念が広がっており、いくつかのAIサービスでは提供事業者への訴訟が提起されている[26]

データの無許諾利用に対抗するための技術も開発されている。画像に対しては、Nightshadeなど機械学習モデルに悪影響は与えるが知覚困難なノイズを加える手法などが研究されている[27]

データセットの著作権侵害が問われた「クネシュケ対LAION事件」は2024年9月、世界に先駆けて初の判決が下された。ドイツ国内法だけでなく、欧州連合の著作権法であるDSM著作権指令やAIを直接規制するAI法の解釈にも踏み込んだことから、世界的に注目を集めている。本件ではデータセット提供者のLAIONによるスクレイピング行為は適法と判断され、原告の写真家の訴えは棄却された[28][29][30]

法整備と議論

[編集]

欧州

[編集]

欧州では、DSM著作権指令4条3項により、学術研究目的以外の著作物の機械学習行為は著作者が明示的に学習利用を拒否(オプトアウト)している場合には利用が制限される[31][32]

2021年、欧州連合においてAIシステム構築時に使用する著作物についての情報の表示を義務づける規制案が提案されたが[33][34]、2023年12月9日にEU理事会・欧州議会で修正された規制案が合意された。規制案では、AIのリスクに応じて規制をし、容認できないリスクはAI利用を禁止、高リスクのAIシステムに関しては一定の義務付け、リスクが限定的なAIシステムはAI生成コンテンツであるラベル付けなどの透明性に関する義務のみ課した。他方で、軍事・防衛専用システム、研究・技術革新目的の場合は規制案の適用範囲外とした[35][36]。ディープフェイクなどの問題に対処する法律は、2026年までに適用される[37]

アメリカ

[編集]

アメリカではデータ利用に関してフェアユースに該当する場合は著作権の侵害にならないとする権利制限規定を設けている。フェアユースに認定されるかはケースバイケースで一定の基準はなく、潜在的市場への影響や商用利用なども含めた総合判断となる。2024年1月現在、機械学習による著作物の利用に関しては直接取り上げた判例はない[32]

機械学習に対するフェアユースの適用に対しては以下のような否定的な主張がなされている。

  • 機械学習は著作物についての事実の統計分析ではなく、その表現方法から特徴量を抽出する点で、従来の情報分析とは異なる。仮にフェアユースが適用されるにしても、機械学習により、無限に新たな著作物を安価に創出でき、人の創作による著作物を駆逐することとなり、人による創作を推奨するという著作権法の趣旨に反する[38][39]
  • 従来では巨大な著作権者(放送局、出版社、新聞社、映画会社)と弱い公衆との二項対立で公益性を認める形でフェアユースが主張されてきたが、AI分野ではフェアユースを利用できるのはGoogleなどの巨大プラットフォーマーであり、弱い著作権者に対して大きなプラットフォーマーが無償で著作物を利用できるのは望ましくない[39]
  • 人工知能の開発では、その学習の過程で、データの複製、次元削減などの改変が多段階で実行される。入力データと出力データないしは中間生成物が類似する可能性が大きく、「変容的利用目的でない」ことと、「入力データや著作者の市場を代替する可能性が大きい」という理由で、理論的にフェアユースに当たるかについても疑問視されている[38][40]
  • コロンビア大学のジェーン・ギンズバーグ教授は著作物のコピーの有無が問題になるとしている[41]。単にプロンプトに対応するコンテンツを生成する方法を学習しているに過ぎないのか、既存の著作物の復元なのか問題になっている。AI生成物がスタイルが共通する場合は適法だが、不完全なコピーや別の構図であっても本物の作品に近すぎる生成物は侵害とされる可能性があるとしている[41]。この場合、ウォーターマークや画家のサインが出るような生成物は、アウトプットが非侵害であればインプットは適法としたGoogle Books裁判の判例より、モデルの訓練の適法性が疑わしくなるとしている[41]

一方でフェアユースの適用に対して以下のような肯定的な主張がなされている[42]

  • セガ対アコレイド事件英語版ソニー対コネクティクス事件英語版などの先例では、アイデアであるアルゴリズムを抽出するためにプログラムの表現を複製などするリバースエンジニアリングに関することは、変容力のある利用であって、フェアユースであると認めている。これを援用し、大規模言語モデルにおける機械学習は、学習対象著作物中の単語間の関係やそのパターンなどのアイデアを抽出するためのものであるから、機械学習の過程での学習対象著作物の複製などは、変容力のある利用であって、フェアユースに当たる[43]
  • グーグル対オラクル事件英語版などではプログラム開発のために他プログラムを実現するプログラムの一部を複製したことをフェアユースに当たると判断しており、ソニー対コネクティクス事件などでは市場での競合を著作権者は訴えたが、裁判においては変容力のある利用の結果生じる市場での競合は著作権法上は問題のない競合でありフェアユースを否定しないと判断された[44]

また、機械学習に用いられるデータの著作権や生成物の著作権上の扱いに関して以下のような動きがある

  • アメリカサンフランシスコ在住のアーティストらが画像生成AI「Stable Diffusion」の運営会社を相手取り、著作権侵害で集団訴訟を起こした[45]。2023年10月30日、カリフォルニア州連邦地方裁判所は原告側の訴えを棄却する裁定を下したが[46]、11月には原告らは訴状を修正した上でStability AIに対する訴訟を再度提起した[47]
  • 2023年3月に米国著作権局より公表されたガイダンスでは著作物にAI生成物が含まれる場合に、AI使用の明示と人間の著作者の寄与の説明を求めている[48]
  • 2023年3月8日、米著作権局は生成AI「Midjourney」も用いて作成された漫画作品「Zarya of the Dawn」について、コマ割りやセリフといった人間によって創作された箇所に限定して登録を認め、絵の部分に関しては「人間が制作したものではない」という理由で著作権保護対象外とする通達した[49][48]
  • 2023年6月、Adobeは、Fireflyを使って生成された画像の使用が著作権を侵害した場合、Adobeが罰金などを支払うこと、そもそも生成AI「Firefly」によって生成された画像自体が著作権を侵害する懸念はないことを約束した[50]
  • 2023年9月、マイクロソフトは有料版Copliotで生成されたものが著作権を侵害した場合、その罰則もユーザーではなくマイクロソフトのみが負うと約束している[50]
  • 2023年10月、ユニバーサルミュージック(UMG)は生成AI企業のAnthropicを相手取って所属アーティストの著作権を巡り訴訟を起こしている[51]
  • 2023年10月30日、アメリカはAIの開発に関する大統領令を出したが[52]、DeepLearning.AIは、生成AIに関して基礎となる基盤モデルの規制が開発を妨げており、そのアプリだけを規制すべきだと抗議した[53]
  • 2023年11月、OpenAIはまた、有料版のChatGPT Enterpriseとその開発者プラットフォームが著作権を侵害した場合、OpenAIのみが罰金を支払うと発表した[54]
  • 2023年12月、アメリカの大手紙NYタイムズは記事を違法に利用しているとして、OpenAIマイクロソフトを相手取り、著作権侵害の訴訟を起こした[26]
  • 2024年2月、ユニバーサルミュージック(UMG)は生成AIの推進姿勢を理由にTikTokとの楽曲利用ライセンス契約を「AIによるアーティストの置き換えを支援するのと同義だ」として打ち切った[51]

日本

[編集]

生成AI開発目的でのデータ利用と著作権法

[編集]

2018年、著作権法の改正で著作権の権利制限の規定として第30条の4が制定された[55]

第三十条の四[56] 著作物は、次に掲げる場合その他の当該著作物に表現された思想又は感情を自ら享受し又は他人に享受させることを目的としない場合には、その必要と認められる限度において、いずれの方法によるかを問わず、利用することができる。ただし、当該著作物の種類及び用途並びに当該利用の態様に照らし著作権者の利益を不当に害することとなる場合は、この限りでない。

行政の対応

[編集]

2019年、文化庁は第30条の4における「享受」を目的としない行為として、以下を挙げた[57]

  • 美術品の複製に適したカメラプリンターを開発するために美術品を試験的に複製する行為や複製に適した和紙を開発するために美術品を試験的に複製する行為
  • 書籍や資料などの全文をキーワード検索して、キーワードが用いられている書籍や資料のタイトルや著者名・作成者名などの検索結果を表示するために書籍や資料などを複製する行為
  • 日本語の表記の在り方に関する研究の過程においてある単語の送り仮名等の表記の方法の変遷を調査するために、特定の単語の表記の仕方に着目した研究の素材として著作物を複製する行為
  • 人工知能の開発に関し人工知能が学習するためのデータの収集行為、人工知能の開発を行う第三者への学習用データの提供行為
  • プログラムの著作物のリバース・エンジニアリング
  • 特定の場所を撮影した写真などの著作物から当該場所の3DCG映像を作成するために著作物を複製する行為

一方で、「享受」の目的が存在する適法とならない例として以下が挙げている[57]

  • 写真などの著作物の表現上の本質的特徴を感得することができる態様でCG映像が作成される際の写真などの著作物のCG映像への複製行為
  • 人を感動させるような映像表現の技術の開発を目的とすると言って、多くの一般人を招待して映画の試験上映会を行う行為
  • 書籍や資料のタイトルや著者名・作成者名などの検索結果とともに、キーワードを含む本文の一部分(著作物)を併せて提供する行為で軽微性等の要件を満たさない場合

文化庁は、「AI開発・学習段階」と「生成・利用段階」では著作物の利用方法、関係する著作権法の条文が異なるとしている。「AI開発・学習段階」に関しては「享受」を目的としない情報解析は原則として著作権者の許諾なく行うことが可能としている[58]

文化庁は著作権法30条の4の「著作権者の利益を不当に害することとなる場合」について、著作権者の著作物の利用市場と衝突するか、あるいは将来における著作物の潜在的販路を阻害するかという観点があるが、最終的には司法の場で個別具体的に判断されるとしている[58]

文化庁は著作権の権利制限は国際条約上の義務である「著作者の正当な利益を不当に害しないことを条件とする」に適合するものであるとしている。また、著作権法30条の4に統合された著作権法旧第47条の7の関係について、30条の4では改正前に権利制限の対象として想定していた行為は、改正後においても、引き続き許諾なく行えるものとしている。旧法に但書を置いていなかったことについて、研究開発での著作物を利用および情報解析を想定しており、制定当時には著作者の正当な利益を不当に害することが想定されなかったとしている[57]

2024年3月現在、様々な政府合議体において生成AIに関する論点整理および施策検討がおこなわれている。以下は合議体と報告書の一覧である(括弧内が報告書):

法学者等の見解

[編集]

法学者等は以下のような主張をしている。

知的財産法を専門とする早稲田大学大学院法学研究科上野達弘教授は著作権法30条の4に関して、機械学習など情報解析を目的とするのであれば、著作権のあるコンテンツを営利・商業目的であったとしても自由に利用できるとしている。また、違法に入手した著作物等であっても、情報解析に必要な限度といえれば、あらゆる利用行為が許容され得るのであるとしている。そのため,この規定は機械学習や人工知能開発のために極めて有用な規定であるとして世界に類を見ない「機械学習パラダイス」とも評している[59]

知的財産法を専門とする京都大学大学院法学研究科の愛知靖之教授は著作権法30条の4について、潜在的に競合する用途で、著作物をデータとして機械学習による解析をすることは、将来における著作物の潜在的販路を阻害すると認めら侵害が肯定される可能性があるとしている。30条の4が解釈によっては、改正によって統合された「データベース著作物を記録・翻案する行為」のみを権利制限の対象外としていた著作権法旧47条の7と比較して著作権侵害が認められやすくなる可能性があるとしている[60]

知的財産法を専門とする筑波大学潮海久雄教授は情報解析目的でのデータ利用について、米国のフェアユースと比較してベルヌ条約のスリーステップテストを前提とした場合、著作権法第30条4の権利制限の適用範囲が極めて狭いとして、以下のように主張している[38]

  1. 特別な場合であること
  2. 著作物の通常の利用を妨げないこと
  3. 著作権者の正当な利益を不当に害しないこと

ベルヌ条約9条の2におけるスリー・ステップ・テスト[61]

利用目的について:企業は音声認識などの事業の目的のために開発済みの人工知能ソフトでデータを利用するか、事業目的に応じてAIを開発する。学習済モデルや学習処理を工夫してAIそのものを開発する事例は限定的である。学術分野以外では純粋にAIそのものを開発する目的は考えにくいとしている[38][62]

ベルヌ条約と著作権法第30条の4の関係:著作権法第30条の4はベルヌ条約のスリーステップテストの枠組みの個別制限規定であり、公益が考慮されないため、享受目的以外の他の目的が主目的であっても享受目的が少しでもあるようなグレーの部分は侵害となる[38]

著作権者の利益を不当に害することとなる場合:著作権法第30条の4に関して、立法趣旨では、データベースからデータを利用する場合は、著作権者の通常の市場と衝突するとされており、権利制限の例外となる「著作権者の利益を不当に害することとなる場合」にあたるとされているが、現状[いつ?]としてデータが取引の対象となっていることからも、ビッグデータを人工知能プログラムで利用することはデータの本来的な用途とみなすことができ、これは著作者の通常の市場と衝突し、著作権者の通常の市場と衝突し、侵害となりうるとしている[38]

人間の教育と機械学習:教育利用に関する規定の著作権法35条ではスリーステップテストへの合致を検証して廃棄処分を必要とするなどの様々な利用の限定をしており、人間の学習については原則侵害としている。これにより、著作権法35条では機械に学習させる目的でのデータ利用を非侵害とすることは困難であるとしている。人間の学習と比べてもより強く著作権者の通常の市場と衝突するようなデータ利用には公益性などのより強い正当化事由が必要とだが、第30条の4の立法趣旨によれば、単なる私益の衝突であるとして公益や産業振興等を考慮していないことを明言している[誰が?][38]

著作権法第30条の4における「享受」:以下のような、大規模データセット、事実著作物、芸術著作物、機能著作物の実行・複製・改変について一貫した説明ができず、権利制限の例外となる「享受」でない場合が不明であるとしている[38]

画像など芸術著作物について、人間が見ても見えただけでは享受にあたらないとして、電子計算機も享受しないとしている。一方で、機能著作物であるプログラムの実行は電子計算機が機能を享受するので侵害としている。また、HTMLのようにデータとプログラムの区別が不明確な場合もあり、これをプログラムとデータのどちらとして扱うのかは不明であるとしている[38]

地図データベースなどの事実著作物は、情報を正確に伝達することが目的である。学習データもプログラムを機能させることが本来の目的であり「享受」であると解釈できるとしている。機械学習モデルが機能するために学習データによってパラメータが変更されるため、機械学習の情報解析においても同様に「享受」があると考えられるとしている[38]

著作権法第30条の4では、データベースを利用する場合には侵害としており、「構造化されていないビッグデータの利用」はデータベースの利用と同じく享受目的利用としている[38]

将来利用用途の不特定性:著作物などの情報は、学習利用でも将来時点での通常利用となりうるため、本来的用途として特定できない。また、スリーステップテストの枠組みでは、情報の汎用利用はすべて侵害となる。現に[いつの時点?]、目的を限定しないアーカイブでの保存も、将来の享受目的があるとして30条の4が適用されないとしている[誰によって?][38]

ソフトウェア

[編集]

各種機械学習アルゴリズムを備えたソフトウェアスイートとして、SASRapidMinerLIONsolverKNIMEWekaODMShogun toolboxOrangeApache Mahoutscikit-learnmlpyMCMLLOpenCVXGBoostJubatus などがある。

データロボット社[注 3] による複数の手法を並列計算させて比較する方法がある[63]

学術誌と国際学会

[編集]

脚注

[編集]

注釈

[編集]
  1. ^ Machine learning and pattern recognition "can be viewed as two facets of the same field."[4]:vii
  2. ^ 人間の専門家が訓練例にラベル付けすることで提供されることが多いのでラベルとも呼ばれる。
  3. ^ : DataRobot

出典

[編集]
  1. ^ Machine Learning textbook”. www.cs.cmu.edu. 2020年5月28日閲覧。
  2. ^ Harnad, Stevan (2008), “The Annotation Game: On Turing (1950) on Computing, Machinery, and Intelligence”, in Epstein, Robert; Peters, Grace, The Turing Test Sourcebook: Philosophical and Methodological Issues in the Quest for the Thinking Computer, Kluwer, pp. 23–66, ISBN 9781402067082, http://eprints.ecs.soton.ac.uk/12954/ 
  3. ^ Mitchell, T. (1997). Machine Learning. McGraw Hill. pp. 2. ISBN 978-0-07-042807-2 
  4. ^ #bishop2006
  5. ^ Friedman, Jerome H. (1998). “Data Mining and Statistics: What's the connection?”. Computing Science and Statistics 29 (1): 3–9. 
  6. ^ Samuel, Arthur (1959). “Some Studies in Machine Learning Using the Game of Checkers”. IBM Journal of Research and Development 3 (3): 210–229. doi:10.1147/rd.33.0210. 
  7. ^ 金森敬文『統計的学習理論』講談社〈機械学習プロフェッショナルシリーズ〉、2015年。ISBN 9784061529052 
  8. ^ "統計的機械学習理論と ボルツマン機械学習" 安田 宗樹. 山形大学
  9. ^ 上田. "統計的機械学習入門" NII. https://www.youtube.com/watch?v=wqb3k22toFY&t=478
  10. ^ Yoshua Bengio (2009). Learning Deep Architectures for AI. Now Publishers Inc.. p. 1–3. ISBN 978-1-60198-294-0. https://books.google.co.jp/books?id=cq5ewg7FniMC&pg=PA3&redir_esc=y&hl=ja 
  11. ^ Machine Learning Tool from Everlaw Finds Legal Evidence” (英語). Machine Learning Tool from Everlaw Finds Legal Evidence (2022年7月6日). 2023年12月9日閲覧。
  12. ^ Mattu, Jeff Larson,Julia Angwin,Lauren Kirchner,Surya. “How We Analyzed the COMPAS Recidivism Algorithm” (英語). ProPublica. 2023年12月9日閲覧。
  13. ^ : Pragmatic Chaos
  14. ^ "BelKor Home Page" research.att.com
  15. ^ a b c 本橋 2018, 1.3章「人工知能の利用用途」「人工知能の3つの役割」の冒頭付近。.
  16. ^ a b c d e 本橋 2018, 1.4章「認識の具体例」図1-4「画像認識の具体例」.
  17. ^ a b c 本橋 2018, 1.4章「認識の具体例」図1-5「音声入力の具体例」.
  18. ^ a b c 本橋 2018, 1.4章「認識の具体例」図1-6「文章解析・文章認識の具体例」.
  19. ^ a b c 本橋 2018, 1.4章「認識の具体例」図1-7「異常検知の具体例」.
  20. ^ 本橋 2018, 1.5章 「分析とは?」冒頭.
  21. ^ a b c d e 本橋 2018, 1.5章「分析の具体例」図1-8「数値の予測の具体例」.
  22. ^ a b c d 本橋 2018, 1.5章「分析の具体例」図1-9「イベントの発生の予測の具体例」.
  23. ^ a b c d e 本橋 2018, 1.6章「対処の具体例」図1-10「行動の最適化の具体例」.
  24. ^ a b c 本橋 2018, 1.6章「対処の具体例」図1-12「作業の具体化の具体例」.
  25. ^ a b c 本橋 2018, 1.6章「対処の具体例」図1-13「表現の生成の具体例」.
  26. ^ a b NYT v. Microsoft, OpenAI (1:23-cv-11195, 12/27/23)
  27. ^ Samantha Sonnet (2023). Nightshade: A Defensive Tool For Artists Against AI Art Generators (Report) (英語). AMT Lab, Carnegie Mellon University.
  28. ^ Ehle, Kristina (弁護士事務所パートナー); Tüzün, Yeşim (弁護士事務所アソシエート). "To Scrape or Not to Scrape? First Court Decision on the EU Copyright Exception for Text and Data Mining in Germany" [データ収集すべきか否か? ドイツでテキストおよびデータマイニング (TDM) に関するEU著作権例外規定の初判決] (英語). Morrison & Foerster LLP. (法律事務所). 2024年11月9日閲覧
  29. ^ 野口ケルビン (米国特許弁護士) (2024年11月1日). “AIトレーニングデータは著作権保護対象外?:ドイツにおける初の判決が示唆するポストAIの世界とアメリカとの違い”. Open Legal Community (知財メディアサイト). 2024年11月9日閲覧。
  30. ^ 2024 WIPO IP Judges Forum Informal Case Summary – Hamburg Regional Court, Germany [2024: Robert Kneschke v. LAION e.V., Case No. 310 O 227/23]” [2024年 WIPO 知的財産法フォーラム用非公式判例要約 - 2024年ドイツ・ハンブルク地裁: ロベルト・クネシュケ対LAION (事件番号: 310 O 227/23)] (英語). WIPO. 2024年11月9日閲覧。
  31. ^ "Directive (EU) 2019/790 of the European Parliament and of the Council of 17 April 2019 on copyright and related rights in the Digital Single Market and amending Directives 96/9/EC and 2001/29/EC (Text with EEA relevance.)". Act of 17 April 2019. The European Parliament & Council of the European Union. 条文の邦訳は公益社団法人著作権情報センターHPを参照。https://www.cric.or.jp/db/world/EU/EU_02a.html
  32. ^ a b 生成AIに関する各国の対応について”. 文化庁. 2024年1月10日閲覧。
  33. ^ Proposal for a Regulation laying down harmonised rules on artificial intelligence”. EU. 2024年1月10日閲覧。
  34. ^ 「人工知能に関する調和の取れたルールを定める規則の提案」 (欧州委員会(2021年4月21日)) 本文・付属書(仮訳)”. 総務省. 2023年1月10日閲覧。
  35. ^ Amendments adopted by the European Parliament on 14 June 2023 on the proposal for a regulation of the European Parliament and of the Council on laying down harmonised rules on artificial intelligence (Artificial Intelligence Act) and amending certain Union legislative acts (COM(2021)0206 – C9-0146/2021 – 2021/0106(COD))(1)”. 2024年1月10日閲覧。
  36. ^ EU、AIを包括的に規制する法案で政治合意、生成型AIも規制対象に」『日本貿易振興機構(JETRO)』2023年12月13日。
  37. ^ Europe within reach of landmark AI rules after nod from EU countries”. 2024年2月16日閲覧。
  38. ^ a b c d e f g h i j k l 潮海 2019, pp. 679–722.
  39. ^ a b Sobel 2017, pp. 45–97.
  40. ^ Sobel 2017, pp. 47–78.
  41. ^ a b c ジェーン・ギンズバーグ 2023.
  42. ^ AI companies have all kinds of arguments against paying for copyrighted content」『THE VERGE』Nov 5, 2023。
  43. ^ e Adobe Inc. Comments on the U.S. Copyright Office Notice of Inquiry and Request for Comments on Artificial Intelligence and Copyright』Adobe、October 30,2023https://www.documentcloud.org/documents/24117931-adobe 
  44. ^ Artificial Intelligence and Copyright』Google、October 30,2023https://www.documentcloud.org/documents/24117935-google 
  45. ^ 朝日新聞デジタル『アーティストの作品でAI訓練 「無断で複製された」米国で集団提訴』
  46. ^ 第9回 ミッドジャーニーなど画像生成AIを巡る著作権訴訟でクリエーターらの訴えが概ね棄却される | 研究員コラム | KDDI research atelier | KDDI総合研究所” (2023年11月30日). 2023年12月15日閲覧。
  47. ^ Andersen et al. v. Stability AI Ltd. (3:23-cv-00201 Amendament:11/30/23)
  48. ^ a b シラ・パールムッター 2023.
  49. ^ U.S. Will Not Recognize Copyrights for AI-Generated Images” (英語). U.S. Will Not Recognize Copyrights for AI-Generated Images (2023年3月8日). 2023年12月1日閲覧。
  50. ^ a b Microsoft Commits to Cover Copyright Violation Costs for GenAI Services” (英語). Microsoft Commits to Cover Copyright Violation Costs for GenAI Services (2023年9月13日). 2023年12月25日閲覧。
  51. ^ a b https://wired.jp/article/tiktok-universal-music-group-umg-remove-songs/
  52. ^ House, The White (2023年10月30日). “Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence” (英語). The White House. 2023年12月1日閲覧。
  53. ^ Problematic White House AI Policy, Parked Cruise Robotaxis, and more” (英語). Problematic White House AI Policy, Parked Cruise Robotaxis, and more (2023年11月1日). 2023年12月1日閲覧。
  54. ^ OpenAIが著作権侵害で法的請求が発生した場合にユーザーを守り発生費用を全額支払う「著作権シールド」を発表 - GIGAZINE”. gigazine.net (2023年11月7日). 2024年2月16日閲覧。
  55. ^ 文化庁著作権課 2019.
  56. ^ 著作権法 | e-Gov法令検索”. elaws.e-gov.go.jp. 2024年1月14日閲覧。
  57. ^ a b c デジタル化・ネットワーク化の進展に対応した 柔軟な権利制限規定に関する基本的な考え方”. 2023年12月18日閲覧。
  58. ^ a b 令和5年度 著作権セミナー AIと著作権”. 2023年12月19日閲覧。
  59. ^ 上野達弘「情報解析と著作権──「機械学習パラダイス」としての日本」『人工知能』第36巻第6号、人工知能学会、2021年、745-74頁、doi:10.11517/jjsai.36.6_745 
  60. ^ 愛知靖之「AI生成物・機械学習と著作権法」『パテント』第73巻第8号、日本弁理士会、2020年、131-146頁。 
  61. ^ ビデオコピライトFAQ|一般社団法人日本映像ソフト協会”. 一般社団法人日本映像ソフト協会. 2024年2月11日閲覧。
  62. ^ 中島 & 潮海 2019, p. 10.
  63. ^ DataRobot: https://www.datarobot.com

参考文献

[編集]
  • Christopher M. Bishop (2006). Pattern Recognition And Machine Learning. Springer-Verlag. ISBN 978-0387310732  (中上級の教科書) →サポートページ(ここから、第8章 "Graphical Models" をpdf形式で入手可能)
  • 後藤正幸、小林学『入門 パターン認識と機械学習』コロナ社、2014年。ISBN 978-4-339-02479-1 
  • 本橋洋介『人工知能システムのプロジェクトがわかる本 企画・開発から運用・保守まで (AI & TECHNOLOGY)』翔泳社、2018年2月15日。ASIN B078JMLVR2ISBN 978-4798154053 
  • Ian Goodfellow, Yoshua Bengio, Aaron Courville 翻訳:黒滝紘生, 河野慎, 味曽野雅史, 保住純, 野中尚輝, 冨山翔司, 角田貴大, 監訳:岩澤有祐, 鈴木雅大, 中山浩太郎, 松尾豊訳 (2018/8/27). 深層学習(kindle版). ドワンゴ. ASIN B07GQV1X76 
  • Hastie, Trevor、Tibshirani, Robert、Friedman, Jerome『統計的学習の基礎 データマイニング・推論・予測』杉山将、井手剛、神嶌敏弘、栗田多喜夫、前田英作、井尻善久、岩田具治、金森敬文、兼村厚範、烏山昌幸、河原吉伸、木村昭悟、小西嘉典、酒井智弥、鈴木大慈、竹内一郎、玉木徹、出口大輔、冨岡亮太、波部斉、前田新一、持橋大地、山田誠 翻訳、共立出版、2014年6月25日。ISBN 978-4320123625 
  • 瀧雅人『これならわかる深層学習入門』講談社〈KS情報科学専門書 機械学習スタートアップシリーズ〉、2017年10月21日。ISBN 978-4061538283 
  • 金森敬文『統計的学習理論』講談社〈KS情報科学専門書 機械学習スタートアップシリーズ〉、2015年8月8日。ISBN 978-4061529052 
  • 有賀康顕、中山心太、西林孝『仕事ではじめる機械学習』オライリー・ジャパン、2018年1月15日。ISBN 978-4-87311-825-3 
  • 鈴木顕『機械学習アルゴリズム』共立出版、2021年6月9日。ISBN 978-4-320125179 
  • 岡留剛『機械学習』 1(入門的基礎/パラメトリックモデル)、共立出版、2022年8月26日。ISBN 978-4-320124882 
  • 岡留剛『機械学習』 2(ノンパラメトリックモデル/潜在モデル)、共立出版、2022年8月26日。ISBN 978-4-320124899 
  • 上野, 達弘アーティクル:情報解析と著作権——「機械学習パラダイス」としての日本」『人工知能』第36巻第6号、人工知能学会、2021年、745-749頁。 
  • シラ・パールムッター「アメリカにおけるAI生成物と著作権」『年報知的財産法2023-2024』、日本評論社、2023年12月。 
  • 加戸, 守行『著作権法逐条講義 (7訂新版)』ぎょうせい、2022年。 

読書案内

[編集]

関連項目

[編集]

外部リンク

[編集]