第3章 機械学習の概要



問題1.

教師あり学習に関する説明として、最も不適切なものを選べ。



解答1. C

教師あり学習の概要について問う問題です。

教師あり学習は、特徴量(説明変数)と教師データ (正解ラベル)の関係を多くのデータから学習し、その学習結果をもとに、教師データが未知のデー夕に対して予測を行う技術です(A)。

教師データとは、予測したい対象のことを指します。たとえば、明日の気温や、ある店舗における売上などがあげられます。また、特徴量とは、教師デー夕を説明できるような変数群のことを指します。たとえば、売上を教師デー夕とした場合、特徴量は降水量や曜日ごとの平均売上などが考えられます。
機械学習モデルを用いて、特徴量と教師データとの関係を学習することができます。学習済みモデルを使用して教師データが未知の特徴量を入力し、予測値を得ることを推論と呼びます(B)。

教師あり学習では、特徴量と教師データの間のパターンをできる限り多く学習することで、高い精度を実現できます(D)。

教師データを使用せず、特徴量のみを用いて学習を行うことを教師なし学習 [解答11を参照] と呼びます (C)。

試験対策:教師あり学習における学習や推論の仕組みを理解しておきましょう。



問題2.

分類タスクに関する以下の説明(ア)~(エ)のうち、適切なものの組み合わせを選べ。



解答2. A

分類タスクの概要について問う問題です。

分類タスクは、教師あり学習におけるタスクのひとつです。事前に複数のカテゴリを設定し、入力データがどのカテゴリに振り分けられるかを考えます (ウ)。カテゴリが2つの場合は2クラス分類、3つ以上の場合は多クラス分類と呼ばれます。

分類タスクに用いられる代表的な手法として、ロジスティック回帰決定木ランダムフォレストk近傍法ニューラルネットワークなどがあります(工)。

一方、与えられた入力に対して連続的な数値を予測するタスクは、回帰タスクと呼ばれます。回帰タスクでは、学習アルゴリズムによって入力と出力の数値間の対応関係が学習されます(ア)。

多クラス分類においてニューラルネットワークを利用する場合、出力層の活性化関数として主にソフトマックス関数 [第4章 解答12を参照]が用いられます。なお、2クラス分類の場合は、主にシグモイド関数が用いられます(イ)。 以上のことから、適切な記述は(イ) (ウ) (エ)です(A)。

試験対策:分類と回帰の違いや、それぞれの手法について整理しておきましょう。



問題3.

以下の記述を読み、空欄(ア) ~ (ウ)に入る語句として最も適切な組み合わせを選べ。

(ア)とは、説明変数と目的変数の線形的な数値関係をモデル化し、 回帰係数を求める手法である。通常は実測値と予測値の平均二乗誤差を損失関数に設定する。また、(ア)の損失関数にL1正則化項を加えた手法が(イ)であり、L2正則化項を加えた手法が(ウ)である。

A.
(ア)線形回帰
(イ) リッジ回帰
(ウ) ラッソ回帰

B.
(ア) ロジスティック回帰
(イ) リッジ回帰
(ウ) ラッソ回帰

C.
(ア)線形回帰
(イ) ラッソ回帰
(ウ) リッジ回帰

D. (ア) ロジスティック回帰
(イ) ラッソ回帰
(ウ) リッジ回帰



解答3. C

教師あり学習の一手法である線形回帰について問う問題です。

線形回帰は、説明変数と目的変数の線形(直線的)な数値関係をモデル化し、 回帰係数を求める手法です(ア)。回帰係数は、最小二乗法を用いて予測値と目的変数との誤差(損失関数)を最小化することで求めます。

線形回帰は、説明変数と目的変数の関係が線形に近似可能である場合に有効な手法です。また、正則化とは、モデルのパラメータの取り得る値を制限することで、過学習 [解答26を参照]を防ぎ、汎化性能[解答23を参照] を高めるための技術です。

ラッソ回帰は、線形回帰にL1正則化を加えた手法です(イ)。L1正則化とは、 回帰係数における絶対値の総和に比例するペナルティを損失関数に加えて学習する手法です。これにより、説明力の低い回帰係数の一部が0になり、より単純なモデルが得られます。ラッソ回帰は、変数選択に有効な手法として知られています。

リッジ回帰は、線形回帰にL2正則化を加えた手法です(ウ)。L2正則化とは、 回帰係数の二乗和に比例するペナルティを損失関数に加えて学習する手法です。これにより回帰係数がその大きさに応じて小さくなり、過学習が起こりづらくなることが期待されます(過学習が発生している場合は、回帰係数の絶対値が大きくなる傾向があります)。

なお、ロジスティック回帰 [解答4を参照]は、線形回帰を応用した分類タスクを解く手法です。

以上のことから、(ア)に線形回帰、(イ)にラッソ回帰、(ウ)にリッジ回帰が入ります (C)。

試験対策:線形回帰、ラッソ回帰、リッジ回帰のそれぞれの特徴を理解しておきましょう。

参考:線形回帰は伝統的な統計学の枠組みで説明されることが多く、使用するデータとして説明変数、目的変数という用語が使われます。 機械学習の文脈では、説明変数は特徴量、目的変数は教師やラベルなどと呼ばれます。これらは呼ばれ方が異なってもそれぞれ同じ意味を持つため、注意しましょう。



問題4.

以下の記述を読み、空欄(ア) ~ (ウ)に入る語句として最も適切な組み合わせを選べ。

線形回帰を2クラス分類に応用した (ア)では、(イ)を使用
することで予測値を確率とみなすことができ、分類タスクを解くことが
できる。学習の際の損失関数としては、通常は(ウ) が使用される。

A. (ア) ロジスティック回帰
(イ) シグモイド関数
(ウ)平均二乗誤差

B.
(ア) パーセプトロン
(イ) 線形関数
(ウ)平均二乗誤差

C.
(ア) パーセプトロン
(イ) 線形関数
(ウ) 交差エントロピー

D.
(ア) ロジスティック回帰
(イ) シグモイド関数
(ウ) 交差エントロピー



解答4. D

ロジスティック回帰に関する知識を問う問題です。

ロジスティック回帰は、線形回帰を分類タスクに応用した手法です。線形回帰の出力にシグモイド関数を適用することで、出力値が0から1の間に調整され、予測値を確率とみなすことができるようになります(ア、イ)。この予測確率に閾値を設定することで、分類タスクを解くことができます。
ロジスティック回帰では、損失関数として通常は交差エントロピーが使用されます(ウ)。交差エントロピーは、分類タスクにおいて広く利用される損失関数です。

平均二乗誤差は、線形回帰で使用される損失関数です。また、パーセプトロンは、神経細胞を模倣したニューラルネットワークの基礎となるネットワークです。

以上のことから、(ア)にロジスティック回帰、(イ)にシグモイド関数、(ウ) に交差エントロピーが入ります(D)。

試験対策:ロジスティック回帰の仕組みについて理解しておきましょう。



問題5.

以下の記述を読み、空欄(ア) ~ (ウ) に入る語句として最も適切な組み合わせを選べ。

ランダムフォレストは、複数の(ア)による出力を多数決や平均によって統合する手法であり、分類や回帰に利用される。このように、弱学習器を複数組み合わせて予測性能を高めることを(イ)と呼ぶ。



解答5. C

ランダムフォレストに関する知識を問う問題です。

ランダムフォレストは、多数の決定木を用いて予測を行うアンサンブル学習の代表的な手法です(ア、イ)。決定木とは、特徴量の値に応じて分岐路を作っていき、最終的な予測値を決定するアルゴリズムです。

ランダムフォレストは、複数の決定木による予測を統合することで、汎化能力の向上を図ります。単一の決定木の予測性能が低くても、それぞれの予測を平均することで高い精度を実現できます。また、ランダムフォレストでは、 決定木を作る際にデータと特徴量の双方をランダムに抽出します。こうすることで、個々の決定木の予測に多様性が生まれ、アンサンブル学習の効果が高まります。

アンサンブル学習に使用する決定木のような個々のモデルを弱学習器と呼びます。また、ブースティングは弱学習器を逐次的に学習し、予測値を修正していく手法です。まず1つの弱学習器を作成し、その予測値が正しくなるように新たな弱学習器を学習していきます。

なお、アンサンブル学習では弱学習器としてニューラルネットワークが使用されることもありますが、ランダムフォレストでは決定木が使用されます。 以上のことから、(ア)に決定木、(イ)にアンサンブル学習が入ります(C)。

試験対策:ランダムフォレストの構造や特徴を理解しておきましょう。



問題6.

データ全体から一部を抽出して複数の弱学習器を並列に学習させ、出力を多数決や平均で決定するアンサンブル学習の方法として、最も適切なものを選べ。



解答6. A

バギングに関する知識を問う問題です。

バギングはアンサンブル学習で用いられる方法であり、弱学習器を使用して並列に学習を行い、複数の弱学習器の出力から多数決 (分類タスクの場合)、 あるいは平均(回帰タスクの場合) によって最終的な出力を決定します。その代表的な手法がランダムフォレストです(A)。

バギングでは、個々の弱学習器による学習に全体から抽出した一部のデータを利用します。このような方法をブートストラップサンプリングと呼びます (B)。

ブースティングは、アンサンブル学習で用いられるひとつの方法です。1 つずつ直列に弱学習器を繋いでいき、前の弱学習器の誤差を補うように学習を行います。並列に学習させることができないため時間はかかりますが、バギングよりも良い精度を得られる傾向があります。代表的な手法として、AdaBoost (Adaptive Boosting) やXGBoost (eXtreme Gradient Boosting)などがあります。特にXGBoostは勾配ブースティングと呼ばれる技術を採用しており、高精度なモデルを構築しやすいため広く利用されています(C)。

パディングは、畳み込みニューラルネットワークで用いられるテクニックのひとつで、入力画像の周囲を0などの定数で補完することを指します(D)。

試験対策:アンサンブル学習を行う代表的な方法とその特徴を理解しておきましょう。



問題7.

「サポートベクターマシン (SVM)」に関する以下の記述を読み、空欄(ア) (イ)に入る語句として最も適切な組み合わせを選べ。

2次元の特徴量をもつデータの2クラス分類タスクを考える。2つのクラスを分離する直線を引いたとき、この境界線に最も近い各クラスのデータをサポートベクターと呼ぶ。サポートベクターと境界線との距離をマージンと呼ぶ。SVMは、このマージンが(ア) となるような境界線を求めることで、2クラス分類タスクを解くことができる手法である。この境界線は直線であるが、SVMでは直線で分類できない問題についても(イ) 関数や (イ) トリックを利用して解くことが可能である。



解答7. B

サポートベクターマシン (SVM: Support Vector Machine) の仕組みについて問う問題です。

SVMは、教師あり学習の一手法です。線形分離可能な(データが直線で分類できる) 2クラス分類のタスクを考えます。SVMはマージンと呼ばれる考え方を導入してこのタスクを解きます。マージンとは、分類境界に最も近い各クラスのデータ(サポートベクター) と分類境界との距離を指します。

SVMの分類境界の概念図を次に示します。


SVMの分類境界の概念図


概念図において、各クラス(○と□) を分ける境界としては、たとえば、実線や破線を引くことができます。実線で引いた境界に着目すると、グレーの線で囲んだ範囲がマージンによって作られた領域です。破線で引いた境界で同じようにマージンを作ると、実線で引いた場合のマージンよりも明らかに小さくなることがわかります。SVMは、このマージンが最大になるような境界が、最適な分類境界であると考える手法です(ア)。

この境界線は線形(直線) であるため、このままでは線形分離不可能な(直線で分類できない) 問題を扱うことができません。そこでSVMでは、カーネル関数と呼ばれる関数を使用して、データをあえて高次元に写像することで線形分離可能な問題として扱うというアプローチをとります。また、その際に高次元空間での計算が複雑化しないよう、カーネルトリックと呼ばれる数学的なテクニックが用いられます(イ)。

以上のことから、(ア)には最大、(イ)にはカーネルが入ります(B)。

試験対策
サポートベクターマシン (SVM) の仕組みについて理解しておきましょう。



問題8.

自己回帰モデル (AR: AutoRegressive model) で分析を行うのに適した事例として、最も不適切なものを選べ。



解答8. D

自己回帰モデル (AR: AutoRegressive model) に関する知識を問う問題です。 自己回帰モデルは、時系列データにおける回帰タスクを扱う手法です。時系列データとは、時間軸に沿って記録されるデータのことです。自己回帰モデルでは、時系列データを過去の各時点のデータの線形和とノイズによってモデル化します。

自己回帰モデルは、時系列を1種類だけ使用する単変量時系列解析の手法です。複数の時系列データを扱うには、ベクトル自己回帰モデル (VAR: Vector AutoRegressive model)を使用します。

過去の気温データや世界人口の推移はそれぞれ1種類の時系列データであるため、単変量時系列解析で扱えるタスクです(A、C)。また、失業率の推移も時系列データであり、自己回帰モデルで扱えます。時系列解析では、過去の挙動と異なる動きを検出することも可能です (B)。ただし、扱う時系列データが複数ある場合は、自己回帰モデルではなく、ベクトル自己回帰モデルを使用します (D)。

試験対策:自己回帰モデルとベクトル自己回帰モデルの特徴と用途について確認しておきましょう。



問題9.

以下の記述を読み、空欄(ア) (イ) に入る語句として最も適切な組み合わせを選べ。
異なる特徴量の値の範囲を揃えることで、モデルの精度改善が見込める場合がある。その手法として、特徴量を最小値0、最大値1の範囲に変換する(ア)や、特徴量の平均が、標準偏差が1となるように変換する(イ)があげられる。



解答9. B

特徴量[解答1を参照]の値を変換し、その範囲を揃える手法を問う問題です。 特徴量ごとに値の分布が大きく異なると、モデルの精度に悪影響を及ぼす場合があります。そこで、正規化や標準化といった特徴量の値の範囲を揃える手法が利用されることがあります。 正規化は、データを0から1の範囲に変換する手法です(ア)。また、標準化はデータの平均が、標準偏差が1となるように変換する手法です(イ)。

白色化は、特徴量の間の相関を取り除いたあと、標準化を行う手法です。
以上のことから、(ア)に正規化、(イ)に標準化が入ります(B)。

試験対策:特徴量の値の範囲を揃える手法について理解しておきましょう。

参考:近年では、正規化は標準化を含む概念として扱われるケースが増えています。たとえば、ニューラルネットワークでは、隠れ層の入出力に対して正規化を行う「バッチ正規化」という手法を使用することがありますが、この場合の「正規化」は標準化を指します。 こうした背景から、本問題における正規化は「0-1正規化」と呼ばれることもあります。

ただし、G検定でデータに対する正規化を扱う場合は本問題の解説の定義が採用される可能性が高いため、こちらの定義で解答できるようにしておくとよいでしょう。また、バッチ正規化などの手法とデータに対する正規化を区別するため、本問題における正現化を「サンプル正規化」と呼ぶこともあります。



問題10.

以下の記述を読み、空欄 (ア) ~ (ウ)に入る語句として最も適切な組み合わせを選べ。

分析を行う前に得られている生データは多くの場合、そのまま機械学習アルゴリズムを適用することができない。そのため、生データを何らかの方法で分析に適した形に整形する必要がある。(ア)は、そのようなプロセスで生成された数値的な表現のことであり、そのプロセスのことを(イ)と呼ぶ。特に(ウ)を扱う場合には、構造化されていないさまざまな形式のデータを扱うケースも多く、機械学習アルゴリズムを適用するうえで適切な (イ)を行うことが重要である。



解答10. D

機械学習における特徴抽出についての理解を問う問題です。

分析を行う前に得られている生データは、多くの場合、分析に適した形になっていません。そのため、機械学習アルゴリズムを適用するために、何らかの方法で整形して分析に適した形にする必要があります。

特徴量とは、生データを加工して得られる、注目すべきデータの性質を量的に表したものです(ア)。また、特徴抽出とは、特徴量を生成する際の、生データの変形プロセスのことを指します(イ)。

特にビッグデータを扱う場合、画像やテキストなどのさまざまな非構造化データが含まれることがあります(ウ)。そのようなデータは多くの場合、機械学習アルゴリズムにそのまま入力することができないため、適切な特徴抽出が必要になります。

ハイパーパラメータ [第4章 解答29を参照]とは、モデルの挙動を制御する定数のことです。また、特徴量選択とは、何らかの基準や手法によって、得られた特徴量全体からその一部を抽出すること、あるいはそのための技術のことを指します。また、教師データとは、予測の対象となるデータや変数のことです。

以上のことから、(ア)に特徴量、(イ)に特徴抽出、(ウ) にビッグデータが入ります(D).

試験対策:特徴抽出の重要性について理解しておきましょう。なお、近年注目されているディープラーニングでは、特徴抽出のプロセス自体を学習することができ、非構造化データを扱う画像認識などの分野で大きな成功を収めています。



問題11.

以下の(ア) ~ (エ) のうち、教師なし学習の手法として適切な組み合わせを選べ。




解答11. A

教師なし学習の手法についての知識を問う問題です。

教師なし学習では、教師データを使用せず、データそのものの構造や特徴を学習します。主成分分析(PCA: Principal Component Analysis)は、多次元のデータをできるだけ情報を損なわないように次元圧縮する手法で、主に特徴量の次元削減に用いられます。教師データを必要としないため、教師なし学習に分類されます(ア)。

k-meansは、階層なしクラスタリングの手法のひとつであり、教師なし学習に分類されます(イ)。あらかじめクラスタ (グループ)の個数を決めておき、 データを分割します。

ランダムフォレストとサポートベクターマシン (SVM)は、教師あり学習における代表的な手法です(ウ、工)。

以上のことから、(ア)(イ)が適切な組み合わせです(A)。

試験対策:教師なし学習の特徴とその代表的な手法について理解しておきましょう。



問題12.

以下の(ア) ~ (エ) に示したクラスタリングに関する説明のうち、適切なものの組み合わせを選べ。




解答12. B

クラスタリング(クラスタ分析) に関する知識を問う問題です。

クラスタリングは、大量のデータから類似するデータを集めてグルーピングする手法であり、教師なし学習に分類されます。

クラスタリングは階層なしクラスタリング階層ありクラスタリングに分類されます。階層なしクラスタリングは、k-meansのようにデータを複数のグループに分割する手法です。これに対して、階層ありクラスタリングは、分割した各クラスタの階層構造を決定する手法で、ウォード法 [解答14を参照] が代表例です。

k-meansでは事前にクラスタ数を決定する必要がありますが、ウォード法のような階層ありクラスタリングではその必要はありません(ア)。

クラスタリングは教師なし学習に分類されます(イ)。また、クラスタリングでは、近い距離にあるデータを類似度が高いものと定義し、それらをグルーピングします(ウ)。

k-meansなどでは、クラスタの数を分析者が決定するため、主観が影響しやすいといえます。また、ウォード法のような階層なしクラスタリングでも、 階層のどの部分を用いてグルーピングするかという点において、分析者の主観が含まれます(工)。

以上のことから、(イ) (ウ)が適切な組み合わせです(B)。

試験対策 クラスタリングの分類とそれぞれの特徴、欠点について理解しておきましょう。



問題13.

以下は、ある手法でクラスタリングを行うアルゴリズムである。この手法の名称として、最も適切なものを選べ。

  1. クラスタの数nをあらかじめ決定しておき、n個のクラスタの中心をランダムに決める
  2. 各データを最も近い中心に対応するクラスタに振り分ける
  3. 各クラスタの重心を計算し、中心を重心に移動する
  4. クラスタの割り当てが収束するまで、上記の2~3を繰り返す



解答13. A

k-meansのアルゴリズムに関する知識を問う問題です。

k-meansは、階層なしクラスタリングの代表的な手法です。以下のアルゴリズムでクラスタの振り分けを行います(A)。

  1. クラスタの数をあらかじめ決定しておき、n個のクラスタの中心をランダムに決める
  2. 各データを最も近い中心に対応するクラスタに振り分ける
  3. 各クラスタの重心を計算し、中心を重心に移動する
  4. 上記の2~3を繰り返す

主成分分析 (PCA) と特異値分解 (SVD: Singular Value Decomposition)は、 次元削減で使用される手法です(B、D)。また、ウォード法は、最も距離の近いデータ点またはクラスタをまとめて1つのクラスタとし、この繰り返しによって逐次的にクラスタを構成する階層ありクラスタリングの手法です (C)。

試験対策:
k-meansのアルゴリズムの流れを把握しておきましょう。

参考:
アルゴリズムが収束したかどうかは、主に閾値を使用して判定します。k-meansの場合は、中心の位置における変化の総和を算出し、これが一定の値以下になった時点で終了するなどの方法が考えられます。



問題14.

階層ありクラスタリングの手法であるウォード法に関する説明として、 最も適切なものを選べ。



解答14. C

階層ありクラスタリングの一手法であるウォード法に関する知識を問う問題です。

ウォード法は、距離の最も近いデータ点またはクラスタをまとめて1つのクラスタとし、この繰り返しによって逐次的にクラスタを構成する手法です (C)

この作業の過程で、デンドログラム(Dendrogram) と呼ばれる樹形図が作成されます。デンドログラムを見ることで、クラスタ間の階層的な関係を視覚的に把握できます。なお、決定木は、特徴量の値に応じて分岐路を作成し、 最終的な予測値を決定する教師あり学習のアルゴリズムです(A).

k-meansなどではクラスタの個数をあらかじめ決定しておく必要がありますが、ウォード法ではその必要はありません(B)。また、ウォード法では、得られたデンドログラムのどの箇所でクラスタを区切るかによって、クラスタの数を含め多様な解釈が可能です(D)。

試験対策:
ウォード法の仕組みや結果の解釈方法について整理しておきましょう。



問題15.

レコメンデーションの一手法である協調フィルタリングに関する説明として、最も適切なものを選べ。



解答15. A

協調フィルタリングに関する知識を問う問題です。

協調フィルタリングは、複数のユーザーの過去の購買情報や評価情報を利用して、ユーザーの嗜好や関心にもとづく予測や推薦を行う手法です(A)。

一方、ユーザーではなく商品の特徴を利用して、ユーザーの購買履歴などから類似した商品を推薦する手法をコンテンツベースフィルタリングと呼びます。

よく検索されるデータを上位に表示する手法は、協調フィルタリングには該当しません(B).

商品の情報を利用して推薦する手法は、コンテンツベースフィルタリングに該当します(C、D)。

協調フィルタリングでは、ある特定の商品を推薦するために他のユーザーの購買履歴などが必要になるため、そうしたデータが蓄積していない新商品などが候補にあがりづらいという特性があります。このような現象はコールドスタート問題と呼ばれます。

試験対策
レコメンデーションの代表的な手法とその特徴を理解しておきましょう。



問題16.

以下の記述を読み、空欄(ア)~ (ウ) に入る語句として最も適切な組み合わせを選べ。

強化学習は、特定の環境において、エージェントが現在の状態からとるべき行動の系列を決定する問題を取り扱う。エージェントは(ア) を選択することで新しい状態を観測し、環境から新しい状態に依存した (イ)を獲得する。強化学習では、即時的な(イ)ではなく、 長期的(イ) の総和が最も多く得られるような(ア)を学習する。ただし、将来の(イ)を計算する際は、(ウ)を加味する場合が多い。



解答16. B

強化学習のフレームワークに関する理解を問う問題です。

強化学習は機械学習の一分野であり、エージェントが環境と相互作用しながら、試行錯誤を通じて最適な行動を学習します(ア)。

エージェントは、環境との相互作用を通じて、将来にわたって得られる報酬の総和(累積報酬) が最大となるような行動を学習します(イ)。ここで、将来の累積報酬を計算する際には時刻に応じて割引率 (Discount Rate) を乗じます(ウ)。割引率を導入することで、将来得られる報酬よりも、すぐに得られる報酬の方がより価値が高いことを、行動評価に組み入れることができます。

学習の主体であるエージェントは、環境と次のようなやり取りを行います。

  1. 時刻において環境の状態を観測し、行動を出力する
  2. 環境が状態へ遷移し、これに応じた報酬をエージェントが獲得する
  3. 得られた報酬をもとに、行動を評価して学習を行う
  4. 時刻をt+1に進め、上記の1~3を繰り返す

以上のことから、(ア)に行動、(イ)に報酬、(ウ)に割引率が入ります(B)。

試験対策
強化学習のフレームワークについて整理しておきましょう。

参考
時刻における将来の累積報酬の期待値は、割引率 r(0 < r < 1) を用いて以下のように表すことができます。


$$ R_t = r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} + \gamma^3 r_{t+4} + \cdots \\ = \sum_{k=1}^{\infty} \gamma^{k-1} r_{t+k} $$


将来の累積報酬の期待値をこのように表記することで、現在時刻に近い報酬がより重視されるように学習を行うことができます。



問題17.

当たりの出る確率がわからない複数のスロットマシンがある。このとき、 決められた回数内で当たりを多く引くにはどのように行動すればよいか考える問題を、多腕バンディット問題という。以下の (\mathcal{P}) sim(I) のうち、多腕バンディット問題を直接的に解くアルゴリズム (バンディットアルゴリズム)に該当するものとして適切な組み合わせを選べ。




解答17. C

多腕バンディット問題を解く際に用いられるアルゴリズムについて問う問題です。

多腕バンディット問題は、複数のスロットマシンから、決められた回数内で当たりを多く引くことを目指す問題です。この問題では、開始時にはどのスロットマシンも当たりが出る確率が不明なため、ある程度の回数を試行し、 確率を推定する必要があります。一方、ある程度の試行を実施したあとは、 過去の経験にもとづいてスロットマシンを選ぶ方が効率的かもしれません。

このような問題を、探索 (Exploration) と活用 (Exploitation) という考え方によって解くアルゴリズムがあります。代表的なものとして$ \epsilon $-greedy 方策(Epsilon-greedy Policy) があげられますが(イ)、ほかにもUCB方策(Upper-Confidence Bound Policy) といったアルゴリズムがあります (工)。

探索とは、未知の情報以外の情報を獲得するために行う行動であり、活用とは、既知の情報を利用して最大の報酬を得る行動を指します。$ \epsilon $-greedy方策では、確率とで探索を行い、確率1-とで活用を行います。探索ではすべてのスロットマシンからランダムに選択し、活用では過去の試行結果から最も当たりの多かったスロットマシンを選びます。なお、方策とは行動の選択肢を決定する戦略のことです。

方策勾配法[解答20を参照]は、方策をあるパラメータを使用した関数で表し、累積報酬を最大化するようにそのパラメータを学習することで、方策そのものを学習する手法です(ア)。

REINFORCE [解答21を参照]は、方策勾配法の計算を行うアルゴリズムです(ウ)。
以上のことから、(イ) (エ)が適切な組み合わせです(C)。

試験対策
多腕バンディット問題を解く際に使用される代表的なアルゴリズムを覚えておきましょう。



問題18.

強化学習では、「現在の状態から一時刻先の状態に遷移する確率は、現在の状態と取った行動のみに依存する」という仮定を置くことが多い。 このような仮定を置く手法の名称として、最も適切なものを選べ。



解答18. B

マルコフ決定過程(MDP: Markov Decision Process) に関する知識を問う問題です。

強化学習では、「現在の状態から一時刻先の状態に遷移する確率は、現在の状態と取った行動のみに依存する」という仮定を置いて問題を扱うことが多くあります。このような考え方をマルコフ決定過程と呼びます (B)。こうした仮定を置くことで、現在の状態等を決定するために1つ前の時刻のみを考慮すればよいことになり、計算を簡略化することができます。

カーネルトリックは、教師あり学習の手法であるサポートベクターマシン (SVM) で使用される計算量を抑えるテクニックです(A)。

k-meansは、教師なし学習の手法です。あらかじめ分類するクラスタ (グループ)の個数を決め、データを類似したクラスタに分割します(C)。

アンサンブル学習は、複数の弱学習器を組み合わせて予測を行う手法の総称です(D)。

試験対策
マルコフ決定過程の考え方を理解しておきましょう。また、誤答の選択肢も重要です。内容を説明できるようにしておきましょう。



問題19.

以下の記述を読み、空欄(ア)(イ)に入る語句として最も適切な組み合わせを選べ。

強化学習では、将来の累積報酬を(ア)と呼ぶ。状態(ア) 関数と行動(ア) 関数は、状態と行動それぞれの(ア)を表す関数である。また、行動(ア) 関数は(イ)と呼ばれることがある。行動(ア) 関数を最適化することにより、最適な行動を選択できるようになる。



解答19. B

強化学習における価値関数について問う問題です。

強化学習では、行動の選択肢を決定する戦略のことを方策 (Policy) と呼びます。一般に、最適な方策を直接見つけることは困難な場合が多いため、現在の状態や行動に価値という概念を導入し、その価値が最大になるよう学習を行うアプローチがあります。

価値とは、ある状態や行動によって得られる将来の累積報酬です(ア)。また、状態と行動それぞれの価値を表す関数として、状態価値関数(State-Value Function) と行動価値関数 (Action-Value Function)があります。行動価値関数はQ値 (Q-Value) とも呼ばれ、また単に価値関数と呼ばれることもあります(イ)。行動価値関数を最適化することで、適切な行動を学習できます。その手法として、Q学習(Q-Learning) やSARSA (State-Action-Reward-State-Action) があげられます。

以上のことから、(ア)に価値、(イ)にQ値が入ります(B)。

試験対策
強化学習で用いられる概念や用語について整理しておきましょう。



問題20.

以下の記述を読み、空欄(ア)に入る語句として最も適切なものを選べ。

(ア)は、あるパラメータを使用した関数で方策を表し、状態価値を最大化するようにそのパラメータを学習することで、最適な方策を求める手法である。



解答20. A

方策勾配法(Policy Gradient Method) に関する知識を問う問題です。

方策勾配法は、あるパラメータを使用した関数で方策を表し、状態価値を最大化するようにそのパラメータを学習することで、方策そのものを学習する手法です(A)。価値関数を使用して間接的に方策を最適化するアプローチと異なり、方策勾配法では方策を直接学習することができます。このようなアプローチは、行動の選択肢が膨大なロボット制御などのタスクに適しています。

Q学習は、Q値(行動価値関数)を最適化する手法です(B)。また、方策改善法と呼ばれる手法は一般的ではありません(C)。さらに、-greedy方策[解答17を参照は、探索と活用のバランスを取ることで多腕バンディット問題などを解くことができるアルゴリズムです(D)。

試験対策
方策勾配法の仕組みや価値関数を使用したアプローチとの差異について整理しておきましょう。



問題21.

方策勾配法に関連するアルゴリズムとして、最も不適切なものを選べ。



解答21. C

方策勾配法に関連するアルゴリズムについて問う問題です。

REINFORCEは、状態価値の近似として累積報酬を用いる方策勾配法のひとつです。AlphaGo [第6章 解答30を参照] に活用されていることで知られています。(A)。

Actor-Critic [解答22を参照]は、価値関数のアプローチと方策勾配法のアプローチを組み合わせた手法です(B)。

A3C (Asynchronous Advantage Actor-Critic)は、Actor-Criticの応用手法です(D)。

SVM (サポートベクターマシン)は、教師あり学習に用いられる手法であり、 方策勾配法には関連しません (C)。

試験対策
方策勾配法に関連する代表的な手法やアルゴリズムを覚えておきましょう。



問題22.

Actor-Criticに関する説明として、最も不適切なものを選べ。



解答22. A

Actor-Criticに関する知識を問う問題です。

Actor-Criticは、価値関数のアプローチと方策勾配法のアプローチを組み合
わせた手法で(A)、行動を決定するActor (行動器)と方策を評価するCritic (評価器)から構成されます(D)。

Actor-CriticにはA3Cなどの応用手法が複数考えられています(B)。また、Actor-Criticで採用されている方策勾配法によるアプローチは、ロボット制御など行動の選択肢が膨大なタスクに適しています(C)。

試験対策
Actor-Criticの特徴について理解を深めておきましょう。



問題23.

教師あり学習におけるデータの分割方法に関する以下の記述を読み、空欄(ア)~(ウ)に入る語句として、最も適切な組み合わせを選べ。

(ア)は、モデルの学習に用いられるデータである。(ア)のみを使用して学習を行ったのち、(イ)のみを使用してモデルの性能を評価する。なお、モデルのハイパーパラメータなどを調整する目的で、 さらに(ア)を分割することがある。このデータは (ウ)と呼ばれる。



解答23. A

教師あり学習における性能評価のためのデータ分割方法について問う問題です。

教師あり学習の目的は、未知のデータに対して良い予測を行うことです。そこで、手元のデータを分割し、疑似的に未知のデータを作成してモデルの評価を行います。このような未知のデータに対するモデルの性能を汎化性能と呼びます。

教師あり学習では、データを訓練データテストデータに分割することが一般的です。訓練データはモデルの学習に使用します(ア)。このデータは学習のみに使用し、評価には使用しません。訓練データによる学習後は、テストデータを使用してモデルの汎化性能を見積もります(イ)。モデルの良し悪しは、必ずこの段階で評価する必要があります。

また、モデルのハイパーパラメータなどをテストデータによる評価前に最適化する目的で、訓練データをさらに分割することがあります。このようなデータを検証データと呼びます(ウ)。ハイパーパラメータとは、モデルを構築する際にあらかじめ決定しておく必要のある定数のことで、学習後に検証データに対する評価を行い、その評価結果をもとに調整を行います。

以上のことから、(ア)に訓練データ、(イ)にテストデータ、(ウ)に検証データが入ります (A)。

試験対策
訓練データ、検証データ、テストデータのそれぞれの役割を理解しておきましょう。



問題24.

機械学習におけるモデルの性能評価を行う手法のひとつとして、ホールドアウト検証があげられる。ホールドアウト検証に関する説明として、 最も適切なものを選べ。



解答24. B

データの分割を行う代表的な手法について問う問題です。
モデルの汎化性能 [解答23を参照] を評価するデータの分割手法の代表例として、ホールドアウト検証k-分割交差検証があげられます。

ホールドアウト検証は、データを訓練用とテスト用に分割し、訓練データでモデルを学習させ、テストデータでモデルの性能を評価する方法です(B)。

これに対してk-分割交差検証は、まずデータをk個のプロックに均等に分割し、そのうちの1個のブロックをテストデータ、残りのプロックを訓練用デー夕として学習・評価を行います。この過程をk回繰り返し、k回の評価結果の平均を最終的な評価とします (A).

ホールドアウト検証は簡単な手法ですが、特にデータが少ない場合は、テストデータにおける評価が偶然高くなる可能性があります。一方、k-分割交差検証は計算負荷が大きいですが、データが少ない場合でも汎化性能を正確に見積もりやすくなります。

ホールドアウト検証では、評価を複数回にわたって繰り返すことはありません(C)。また、学習に使用したのと同じデータを評価に使用するのは、適切ではありません(D)。

試験対策
汎化性能を正しく評価することは非常に重要です。そのためのデー夕分割手法についてしっかり理解しておきましょう。

参考
時系列データでは、選択肢Cの記述のように、訓練データよりも過去のデータがテストデータに紛れ込まないように、データを分割する手法が有効な場合があります。このような手法はTime Series Splitとも呼ばれます。



問題25.

以下の記述を読み、空欄(ア) (イ) に入る語句として最も適切な組み合わせを選べ。

機械学習モデルの性能評価において、(ア) は訓練データに対するモデルの予測誤差であり、(イ)は未知のデータに対するモデルの予測誤差の期待値である。



解答25. B

機械学習モデルの誤差について問う問題です。

訓練データに対するモデルの予測値との誤差を訓練誤差と呼びます(ア)。機械学習モデルは、この訓練誤差を小さくするように学習を行います。

一方、学習済みモデルについて、これから入力される新しいデータに対する予測誤差の期待値を汎化誤差と呼びます(イ)。

期待値とは、ある分布に従って確率的に生成される変数の平均を指す概念です。汎化誤差の考え方では、これから入力される未知のデータが確率的であると捉え、それらとモデルの予測値との誤差についての平均を考えます。したがって、汎化誤差を見積もるためには未知データの情報が必要となりますが、通常これは手に入りません。そこで、学習に使わないテストデータを分離しておき、汎化誤差の推定に用います。

以上のことから、(ア)に訓練誤差、(イ)に汎化誤差が入ります(B)。

試験対策
学習時に最適化するのは訓練誤差ですが、実際に求められるのは汎化誤差の小さいモデルであるため、ここにギャップが生じます。このことを理解しておくことは、汎化性能を向上させるために重要です。



問題26.

以下の記述を読み、空欄 (ア) (イ) に入る語句として、最も適切な組み合わせを選べ。

(ア)とは、機械学習モデルが十分に学習できておらず、訓練誤差と汎化誤差がともに大きい状態のことである。(イ)とは、モデルが訓練データに対して過剰に適合した結果、訓練誤差は小さいが、汎化誤差は大きい状態のことである。



解答26. C

未学習過学習についての知識を問う問題です。

未学習とは、モデルが十分に学習できておらず、訓練誤差と汎化誤差がともに大きい状態を指します(ア)。また、過学習とは、モデルが訓練データに対して過度に適合し、訓練誤差は小さいが、汎化誤差は大きい (新しいデー夕に対する予測能力が低い) 状態を指します(イ)。

過学習は、機械学習において最も注意すべき問題のひとつです。通学習に陥っているかどうかを正しく判断できるよう、訓練誤差と汎化誤差の両方をモニタリングする必要があります。
以上のことから、(ア)に未学習、(イ)に過学習が入ります(C)。

試験対策
未学習と通学習の内容について、訓練誤差、汎化誤差と関連付けて説明できるようにしておきましょう。

試験対策
未学習と通学習は、バイアスバリアンスによって説明されることがあります。バイアスが高い状態とは、モデルの表現力が小さく、複雑なデータを説明しきれないことで予測値が制限され、偏った予測をしてしまう状態を指します。これは未学習によって引き起こされます。表現力が小さいモデルとして、線形回帰のような単純なモデルや、正則化を過度に適用したモデルなどがあげられます。

一方、バリアンスが高い状態とは、モデルの表現力がデータに対して大きすぎる場合に、予測に必要のないノイズまで学習してしまうことで、予測値が不安定になる状態を指します。このとき、 モデルの訓練誤差は小さく、汎化誤差は大きくなるため、週学習に陥っているといえます。表現力が大きいモデルの代表例として、 ディープニューラルネットワーク [第4章 解答1を参照]などがあげられます。



問題27.

機械学習では、過学習と呼ばれる問題が発生することがある。過学習の原因と状態に関する説明として、最も適切なものを選べ。



解答27. D

過学習の状態や原因について問う問題です。

過学習とは、訓練データに対しては予測精度が高い一方で、未知のデータに対する予測精度(汎化性能)が低い状態を表します(D)。

過学習は、モデルが訓練データのみに過剰に適合してしまうことにより発生します。過学習を抑制するために、モデルのパラメータに対して正則化を行うことがあります。正則化によってモデルのパラメータ値の範囲を制限することで、モデルが訓練データに過度に適合することを抑制することが可能です。ただし、正則化の影響が大きすぎる場合は適切に学習が進まず、未学習の問題が発生します(A)。

汎化性能が高い場合には、通学習が発生しているとはいえません(B)。また、 モデルの学習が不十分なために未知のデータに対する性能が低い状態は、未学習であるといえます(C)。

試験対策
過学習の状態や原因について整理しておきましょう。



問題28.

機械学習において発生する問題のひとつに未学習がある。未学習を引き起こす原因として、最も適切なものを選べ。



解答28. C

未学習についての知識を問う問題です。

未学習とは、モデルの学習が不十分であり、訓練データと未知データ双方で予測精度が低い状態を表します。

未学習が発生する原因として、正則化の影響が強すぎること、データの複雑さに対してモデルの表現力が低いことなどがあげられます(C)。一方、モデルの表現力が高すぎる場合には、過学習が発生しやすくなります(B)。また、 学習データの量は一般に多い方が汎化性能が高くなりやすく、未学習、通学習ともに発生しづらくなります(A)。

訓練データにテストデータの一部が混入することを、データリーケージと呼びます。データリーケージが発生すると汎化性能が不当に高く評価されますが、このことは未学習とは関連がありません(D).

試験対策
未学習を引き起こす原因について理解しておきましょう。



問題29.

回帰タスクにおいて用いられる評価指標として、最も不適切なものを選べ。



解答29. B

回帰タスクにおける代表的な評価指標について問う問題です。

回帰タスク 【解答2を参照】では、MSE (Mean Squared Error:平均二乗誤差)、RMSE (Root Mean Squared Error:平均平方二乗誤差)、MAE (Mean Absolute Error: 平均絶対誤差) などのさまざまな評価指標が使用されます。 MSEは、予測値と正解値の誤差の二乗和を平均した値で、回帰タスクで使用される評価指標です(A)。

MAEは、予測値と正解値の誤差の絶対値を平均した評価指標であり、回帰タスクで使用されます。MSEよりも外れ値の影響を受けづらいため、外れ値を多く含むデータを扱う際に有効です (C)。

RMSEは、MSEの平方根を取った評価指標であり、回帰タスクで使用されます。平方根を取ることにより目的変数の元の尺度が再現されるため、よりモデルの評価を行いやすく、広く利用されている評価指標です(D)。

AUC (Area Under the Curve) は、ROC曲線 (Receiver Operating Characteristic curve) [解答34を参照]と呼ばれる曲線の下部の面積によって計算される指標であり、分類タスクで使用されます(B)。

試験対策
回帰タスクで使用される代表的な評価指標の計算方法と特徴について覚えておきましょう。



問題30.

以下の記述を読み、空欄(ア)~(ウ)に入る語句として、最も適切な組み合わせを選べ。

(ア)は、分類タスクにおいてモデルの性能を評価するために使用される。2クラス分類では、予測ラベルと正解ラベルの対応に応じてデー夕を4つに分類でき、(ア)はそれらを表にしたものである。(イ) は、実際には陽性であるにも関わらず、モデルが陰性と予測したデータのことである。また、(ウ)は、実際には陰性であるにも関わらず、 モデルが陽性と予測したデータのことである。



解答30. D

分類タスクにおけるモデルの性能評価に用いられる混同行列について問う問題です。

2クラス分類 [解答2を参照] について考えるとき、各データの正解ラベルと予測値の組み合わせは、全部で4通りあります。これらを表にまとめたものを混同行列と呼びます(ア)。

【混同行列】


予測 陽性 (Positive) 予測 陰性 (Negative)
正解 陽性 真陽性 (True Positive : TP) 偽陰性 (False Negative : FN)
正解 陰性 偽陽性 (False Positive : FP) 真陰性 (True Negative : TN)

2クラス分類では、それぞれのクラスを陽性陰性と呼びます。

偽陰性は、実際には陽性であるにも関わらず、モデルが間違って陰性と予測したデータです(イ)。また、偽陽性は、実際には陰性であるにも関わらず、 モデルが間違って陽性と予測したデータです(ウ)。

真陽性は、実際に陽性であり、モデルも陽性と予測した場合に対応します。
同様に真陰性は、実際に陰性であり、モデルも陰性と予測した場合に対応します。
また、AUCは分類タスクで使用される評価指標ですが、数値で良し悪しを測る指標であり、表形式をとるものではありません。

以上のことから、(ア)に混同行列、(イ)に偽陰性、(ウ)に偽陽性が入ります(D)。

試験対策
混同行列の要素の名称は非常に覚えづらいですが、分類タスクにおける各評価指標を理解するうえで非常に重要です。しっかり覚えておきましょう。



問題31.

以下の数式では、TP、TN、FP、FNはそれぞれ真陽性、真陰性、偽陽性、 偽陰性を示す。このとき、適合率の計算方法として、最も適切な数式を選べ。


問題31の数式



解答31. B

分類タスクにおける代表的な評価指標の計算方法について問う問題です。

正解率(Accuracy)は、予測結果全体に対して、どれだけ正しく予測できたかを表す指標です(A)。

TP+TN Accuracy TP+TN+FP+FN

$$ \text{Accuracy} = \frac{TP+TN}{TP+TN+FP+FN} $$

適合率(Precision)は、陽性と予測されたデータのうち、実際に陽性であった割合を表す指標です。偽陽性を避け、確信度の高い予測のみを陽性と判定したい場合に有効です(B)。

$$ \text{Precision} = \frac{TP}{TP+FP} $$

再現率(Recall)は、実際に陽性であるデータのうち、陽性と予測された割合を表す指標です。実際に陽性であるデータの見逃しを防ぎたい場合に有効です(D)。

$$ \text{Recall} = \frac{TP}{TP+FN} $$

Cの式を表す一般的な名称はありません。

試験対策
代表的な評価指標の定義だけでなく、使い分けについても整理しておきましょう。



問題32.

以下の数式では、Accuracy、Precision、Recallはそれぞれ正解率、 適合率、再現率を示す。このとき、F値の計算方法として、最も適切な数式を選べ。


問題32の数式



解答32. A

F値 (F Measure) の計算方法について問う問題です。

F値は、分類タスクにおける代表的な評価指標のひとつであり、適合率 (Precision)と再現率 (Recall) の調和平均によって求めることができます (A)。

2x Precision × Recall F Measure = Precision+Recall

$$ \text{F Measure} = \frac{2 \times \text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}} $$

適合率と再現率はトレードオフの関係にあります。F値は両者のバランスを取った評価指標であり、広く使用されています。

試験対策
F値の定義式や特徴について理解しておきましょう。



問題33.

機械学習による病気の診断において、本当は病状がある (陽性) にもかかわらず健常(陰性) であると誤診しないことを重視したい場合に用いられる評価指標として、最も適切なものを選べ。



解答33. D

目的に応じて、適切な評価指標を選択できるかを問う問題です。

再現率は、実際に陽性であったデータのうち、モデルが陽性と予測した割合を指す評価指標です。医療現場における病気の発見など、陽性の見逃しをできる限り避けたい場面では、再現率を評価指標に設定するのが適切です(D)。

正解率は、たとえば、すべてのデータを健常(陰性)と予測するなど、非常に偏った予測を行う場合でも大きな値をとることがあります。特に病気の診断など、一般に陽性データが少ないようなタスクでは、このことは大きな問題になります (A)。

適合率は、モデルが陽性と予測したデータのうち、実際に陽性であった割合を指す評価指標です。適合率の値は、確信度の高いデータのみを陽性と予測するように調整することで高めることができますが、そうすると実際に陽性であるデータの見逃しが増えやすくなります(B)。
F値は、適合率と再現率の調和平均で表され、適合率と再現率のバランスを取った指標です。そのため本問のケースでは、再現率を使用する方がより適しています(C),

試験対策
実際のビジネス課題などに応じて評価指標を適切に選択することは、 非常に重要です。それぞれの評価指標の特性を理解し、目的に応じて使い分けられるようにしておきましょう。



問題34.

以下のROC曲線(Receiver Operating Characteristic curve) から算出したAUC (Area Under the Curve) の値として、最も適切なものを選べ。


問題34の図



解答34. C

AUC (Area Under the Curve) の算出方法に関する知識を問う問題です。

ROC曲線(Receiver Operating Characteristic curve)は、分類タスクにおけるモデルの性能を評価する際に使われるツールのひとつです。

分類タスクにおいて、モデルの予測値は通常0~1の確率で与えられます。そのため、ある値(開値) で予測値を区切り、陽性か陰性かを判定する必要があります。基本的には0.5を閾値としますが、この値を変えることで予測結果が変わってきます。

ROC曲線は、この閾値を0から1に変化させたとき、モデルの予測性能がどのように変化するかを描いた曲線です。具体的には、真陽性率(True Positive Rate: TPR)を縦軸に、偽陽性率(False Positive Rate: FPR)を横軸にとり、閾値ごとの両者の値をプロットしたグラフがROC曲線です。
真陽性率とは、実際に陽性のデータのうち、予測モデルも陽性と判断できた割合のことで、名称は違いますが再現率と同じ定義です [解答31を参照」。 また、偽陽性率とは、実際に陰性のデータのうち予測モデルが誤って陽性と判断した割合のことです。

$$ \text{TPR} = \frac{TP}{TP+FN} $$

$$ \text{FPR} = \frac{FP}{FP+TN} $$

AUCは分類タスクにおける評価指標のひとつであり、ROC曲線の下部の面積で表されます。モデルの予測性能が高いほどAUCの値は大きくなります。 AUCは0~1までの値で表され、予測がすべて正しい場合は1になります。完全にランダムな推測をした場合、ROC曲線は原点を通る傾き1の直線となり、 AUCの値は0.5となります。

本問のグラフでは、1つのマス目の面積が0.01で、ROC曲線の下部にあるマス目の数は合計79なので、AUCは0.79となります(C)。

試験対策
AUCとROC曲線の定義および関係性を覚えておきましょう。



問題35.

「ある事柄を説明するためには、必要以上に多くを仮定するべきでない」 というモデル構築の指針を示す用語として、最も適切なものを選べ。



解答35. C

オッカムの剃刀 (Occam's Razor/Ockham's Razor) について問う問題です。
オッカムの剃刀は、「ある事柄を説明するためには、必要以上に多くを仮定するべきでない」 というモデル構築の指針です。

機械学習モデルは数多く存在し、それぞれ複雑さが異なります。モデルが複雑であればあるほど、難しいタスクをこなせる可能性が高まりますが、同時に通学習のリスクも高まります。また、複雑なモデルはそれだけ計算コストも高い場合が多く、学習に時間がかかります。これらのことから、オッカムの剃刀の指針に従い、複数の選択肢から最も単純なモデルを選択することは合理的であると考えられます (C)。

次元の呪い [第1章 解答4を参照]は、次元の増加に伴い計算量などが指数的に増える現象です(A)。

ノーフリーランチ定理は、あらゆる問題において優れた汎化性能をもつモデルは存在しないということを示す定理です(B)。

カーネルトリックは、教師あり学習の手法であるサポートベクターマシン (SVM) において、線形分離不可能な問題を扱う際に用いられる数学的なテクニックです (D)。

試験対策
機械学習モデルを選ぶ際には精度だけでなく、複雑さも考慮すべきであることを覚えておきましょう。



問題36.

モデル選定を行う際には、モデルの複雑さと予測性能のバランスを取ることが重要である。このようなことを考慮できる評価指標として、最も適切なものを選べ。



解答36. B

赤池情報量基準(Akaike's Information Criterion: AIC) についての知識を問う問題です。

モデル選定を行う際には、モデルの複雑さと予測性能のバランスを取ることが重要です。赤池情報量基準は、そうしたトレードオフを考慮できる評価指標であり、以下の式で表されます。

$$ \text{AIC} = - 2\log(L) + 2k $$

※$ L $はモデルの尤度、$ k $はモデルのパラメータ数

AICは、値が小さいほど良い評価指標です。AICの値はモデルの精度が高いほど小さくなりますが、モデルのパラメータが増える(複雑性が増す) ほど大きくなります。AICが最小となるモデルを選択することで、精度と複雑さのバランスを取ることができます(B)。なお、AICと同様の目的をもつ評価指標としてBIC (Bayesian Information Criterion) という指標も存在します。

BICはAICと似ていますが、データ数も考慮した評価指標です。

F値 [解答32を参照] は分類タスクにおける評価指標のひとつで、適合率と再現率の調和平均で表されます (A)。

適合率[解答31、33を参照]は分類タスクにおける評価指標のひとつで、陽性と予測されたデータのうち、実際に陽性であった割合を表す指標です(C)。 平均二乗誤差[解答29を参照] は回帰タスクにおける評価指標のひとつで、 正解値と予測値の差の二乗和を平均した値です(D)。

試験対策
モデルの複雑さを考慮した評価指標について覚えておきましょう。

← → キーで移動 / Ctrl+P でPDF保存