ニューラルネットワークに関する記述として、最も不適切なものを選べ。
ニューラルネットワークの概要について問う問題です。
ニューラルネットワークは、人間の脳の神経回路網を模した機械学習モデルです。
基本的なニューラルネットワークである多層パーセプトロン 【解答5を参照] の概念図を次に示します。入力層、隠れ層(中間層)、出力層を基本とした構造で、入力層から隠れ層を経て、出力層へ情報を伝達するネットワークを形成しています。各層は複数のユニットで構成されており、各ユニットが人間の脳のニューロンに対応します(A、B)。
ディープラーニングでは、学習によって最適な特徴量の抽出方法が獲得される。このことを表す用語として、最も適切なものを選べ。
ディープラーニング [解答3を参照] における学習の特徴について問う問題です。
ディープラーニング以外の一般的な機械学習では、特徴量(データの特徴を表す変数)を人の手によって抽出し、入力データを作成する必要がありました。一方、ディープラーニングでは、特徴量の抽出過程そのものを学習することが可能です。これを特徴表現学習と呼びます (B)。
能動学習は、アノテーション対象のデータの中から、学習することで性能向上が見込めるものを戦略に従って選び抜き、限られたコストで精度の高いモデルを開発することを狙う手法です(A)。
教師なし学習は、教師データを使用せずに行う学習の総称です(C)。
強化学習は、エージェントが環境と相互作用しながら、試行錯誤を通じて最適な行動を学習する機械学習の一分野です(D)。
試験対策
特徴表現学習はディープラーニングの重要な特徴です。その内容を理解しておきましょう。
ディープラーニングに関する記述として、最も不適切なものを選べ。
ディープラーニングに関する知識を問う問題です。
ディープラーニングは、ニューラルネットワークの層の数を非常に大きくすることで、複雑な問題を解けるようにした学習手法です。ディープラーニングに用いられる深いニューラルネットワークをディープニューラルネットワークと呼びます(A)。
ディープラーニングは複雑な問題を扱うことができますが、多くの場合、学習には大量のデータが必要になります。データが少ない場合はネットワークが学習データに過剰に適合し、過学習が発生しやすくなります (B)。
また、ディープラーニングは、画像認識や自然言語処理など多くの分野で従来手法を超える高い精度を実現し、技術的ブレークスルーをもたらしました(C)。 さらに、ディープラーニングはアルゴリズムが非常に複雑であり、判断の理由を明確に示すことが難しいことから、ブラックボックスモデルと呼ばれています(D)。
試験対策
ディープラーニングとニューラルネットワークの関係について整理しておきましょう。
1958年に発表された単純パーセプトロンに関する説明として、最も不適切なものを選べ。
単純パーセプトロンに関する知識を問う問題です。
単純パーセプトロンは、入力層と出力層のみを備え、隠れ層を持たないニューラルネットワークです(C)。複数の隠れ層を備えたニューラルネットワークは、多層パーセプトロン [解答5を参照] と呼ばれます。単純パーセプトロンは1958年に米国の心理学者であるフランク・ローゼンブラットにより提案されたもので、ニューラルネットワークの元祖と呼ばれることがあります (A).
単純パーセプトロンは、その単純な構造から線形分離不可能な問題を扱うことができません (B)。線形分離不可能とは、直線によってデータを分離できないことを指します。また、単純パーセプトロンは、線形分離可能な2クラス分類タスクを解くことができます(D)。
試験対策
単純パーセプトロンの仕組みや概要を理解しておきましょう。
以下の文章を読み、空欄(ア) (イ) に入る語句として最も適切な組み合わせを選べ。
多層パーセプトロンは、入力層と複数の隠れ層および出力層で構成されるニューラルネットワークである。各層のニューロンでは、前の層の各ニューロンからの入力に (ア)をかけて足し合わせ、(イ)を適用して出力を生成する。
A. (ア) パラメータ
(イ)損失関数
B. (ア) パラメータ (イ)活性化関数
C.
(ア)正則化項
(イ)損失関数
D. (ア) 正則化項
(イ)活性化関数
多層パーセプトロンの構造に関する知識を問う問題です。
多層パーセプトロンは、入力層と1層以上の隠れ層および出力層で構成されるニューラルネットワークです。
多層パーセプトロンにおける各ニューロンでは、前の層の各ニューロンからの入力にパラメータをかけて足し合わせ(ア)、活性化関数 [解答9を参照] を適用して出力を生成します(イ)。このパラメータを学習することで、さまざまなタスクを解くことができます。
活性化関数として、シグモイド関数やReLU (Rectified Linear Unit) 【解答 9を参照】など、非線形な関数が用いられます。これにより、単純パーセプトロンでは解けなかった非線形な問題も扱うことができます。
損失関数(誤差関数)とは、教師データとモデルの予測値との差を評価した関数のことです [解答13を参照]。また、正則化項とは、モデルが過学習に陥ることを防ぐために、損失関数に追加される項のことです。パラメータの大きさにペナルティを与えるような項を加えることで、一部のパラメータの値が過大にならないようにする効果があります。
以上のことから、(ア)にパラメータ、(イ)に活性化関数が入ります(B)。
試験対策
多層パーセプトロンの構成要素を確認しておきましょう。参考
正確には、パラメータとは重みとバイアスを指すことが多く、各ニューロンでは前の層からの入力に重みをかけ、バイアスを足し合わせて出力を行います。ただし、G検定では、パラメータのことを重みと表現する可能性が高いため、注意しましょう。
ディープラーニングの学習に必要なデータに関する説明として、最も適切なものを選べ。
ディープラーニングにおいて必要となるデータ量について問う問題です。
ディープラーニングを含む機械学習ではさまざまなタスクを扱いますが、タスクによってデータの複雑さが異なるため、事前に必要なデータ量を正確に見積もることは一般に難しいとされています(C)。
ただし、ディープラーニングでは膨大な数のパラメータを最適化する必要があり、大量のデータが必要になることは間違いありません(A)。たとえば、画像認識の分野で使用されるデータセットであるImageNet [第7章 解答12 を参照]は、およそ1,400万枚の画像で構成されます。このデータ数はひとつの目安にしかなりませんが、ディープラーニングがいかに大量のデータを必要とするか理解できるでしょう。
ディープラーニングの学習では、パラメータ数と同等のデータ量が必要になるとは限りません(B)。また、データ量が少ない場合は、ほかの機械学習手法を検討する方がよい場合があります(D)。
コンピュータの演算処理装置のひとつとしてGPU (Graphics Processing Unit)がある。GPUに関する説明として、最も適切なものを選べ。
コンピュータの演算処理装置に関する知識を問う問題です。
コンピュータの代表的な演算処理装置として、CPU (Central Processing Unit) とGPU(Graphics Processing Unit) があります。
CPUは、コンピュータ全般に関わる作業を順に処理するための演算処理装置です(A)。一方、GPUは並列処理を得意とする演算処理装置であり、画像
や動画の処理に長けています(B、C)。
ディープラーニングでは、大規模な行列演算が必要になります。そこで、 GPUの並列処理の技術を応用し、その演算を効率化することができます。
ただし、GPUは一定の演算を並列処理することは得意ですが、条件分岐を含むなどして処理方法が異なるような演算を同時に対処することは不得意です(D)。
試験対策
GPUはディープラーニングにおいて欠かせない存在です。その特徴を説明できるようにしておきましょう。
以下の(ア)~(エ)に示した、ディープラーニングに使用される演算処理装置に関する説明のうち、適切なものの組み合わせを選べ。
ディープラーニングに使用される演算処理装置に関する知識を問う問題です。
GPU(Graphics Processing Unit)は並列演算機能に長けており、主に画像処理に応用されている演算処理装置です。
GPUの並列演算機能をディープラーニングに活かせるように、画像処理以外の目的(主に行列演算) に最適化されたGPUが開発されています。それがGPGPU (General-Purpose computing on GPU) です(ア)。GPGPUを利用することで、ディープニューラルネットワークの学習を効率的に行うことができます(ウ)。
また、グーグルは、テンソル(行列やベクトル)の計算処理に最適化されたTPU (Tensor Processing Unit) と呼ばれる演算処理装置を独自に開発しています(イ)。
CPU (Central Processing Unit) は大規模な並列演算を行うには不向きであり、ディープラーニングの学習では通常は使用されません。ただし、学習ができないということではありません(工)。
以上のことから、(ア) (ウ)が適切な組み合わせです(A)。
試験対策
ディープラーニングに使用される代表的な演算処理装置の概要を覚えておきましょう。
ニューラルネットワークにおける活性化関数に関する説明として、最も適切なものを選べ。
ニューラルネットワークにおける活性化関数と勾配消失問題について問う問題です。
活性化関数は、ニューラルネットワークの各ニューロンにおいて、入力を出力に変換する関数です。また、ニューラルネットワークの学習では、ネットワークの出力と教師データとの誤差を、出力層から入力層にかけてフィードバックしてパラメータを学習します。これを誤差逆伝播法と呼びます。
誤差逆伝播法では、その過程で活性化関数の勾配の値を必要とします。ニューラルネットワークの隠れ暦 (中間層) において勾配の最大値が1未満となる活性化関数を使用した場合、伝播すべき誤差の情報が入力層まで伝わらなくなりパラメータが正常に更新されにくくなります。この問題は勾配消失問題と呼ばれます。
シグモイド関数はこれまで広く使用されてきた活性化関数でしたが、勾配消失問題が発生しやすいことがわかり、昨今のニューラルネットワークの実装ではほとんど使われなくなりました(A)。
ReLU (Rectified Linear Unit) は、入力が負のときに0を出力し、0以上のときは入力をそのまま出力する関数です。勾配消失問題が発生しにくい関数として、広く使用されています (B)。
Leaky ReLU (Leaky Rectified Linear Unit) [解答11を参照] はReLUに少し改変を施した関数で、入力が負の場合にはその入力に0.01などの小さな値を乗じて出力します。入力が0以上の場合はReLUと同様に入力の値をそのまま出力するため、その領域で非線形な出力はしません(C)。
tanh (ハイパポリックタンジェント) 関数は、シグモイド関数よりは勾配消失問題が発生しにくいですが、ReLUと比べると発生しやすいとされています(D)。
試験対策
活性化関数の役割や代表的な関数について理解しておきましょう。参考
ReLUとLeaky ReLUは、現在も広く使用されている活性化関数ですが、タスクによって有効性が異なり、どちらがよいか一概にはいえません。実際に実験を行い、より高い精度を実現できる方を選ぶとよいでしょう。
ニューラルネットワークを使用して線形分離不可能な問題を解く際に、 隠れ層の活性化関数に必ず求められる条件として、最も適切なものを選べ。
隠れ層の活性化関数に求められる条件を問う問題です。
ニューラルネットワークの隠れ層における活性化関数は通常、非線形な(直線でない) 関数を使用します(A、D)。ニューラルネットワークでは、隠れ層で非線形変換を繰り返すことで、線形分離不可能な複雑な問題を解くことができます。なお、隠れ層における活性化関数では、入力や出力に関する特段の制約はありません(B、C)。
試験対策
ニューラルネットワークにおける活性化関数の役割について整理しておきましょう。
活性化関数のひとつであるLeaky ReLU (Leaky Rectified Linear Unit) に関する説明として、最も適切なものを選べ。
Leaky ReLU (Leaky Rectified Linear Unit) に関する知識を問う問題です。 通常のReLUでは、入力が0未満の場合に微分が0となり、学習が進みづらくなることがあるという問題がありました。それを解決するために、0未満の入力に対してもわずかな傾きをもつように改良した関数がLeaky ReLUです。 そのため、入力が負の領域に対しても微分値が0にならず、勾配消失が生じにくいといえます(D)。
Leaky ReLUは、入力が0以上の場合にはReLUと同様に入力と同じ値を出力し、入力が0未満の場合には入力に定数を乗じた値を出力します。よって、 入力が0未満の場合に-1を定数として出力する関数ではありません(A)。
また、Leaky ReLUは勾配消失がまったく発生しないわけではなく(B)、傾きが一定の線形関数でもありません(C)。
試験対策
Leaky ReLUの特徴を覚えておきましょう。
参考
Leaky ReLUにおける負の入力に対する傾きはハイパーパラメータ[解答29を参照]ですが、一般に0.01程度の値が使用されることが多いです。
分類タスクを解くためのニューラルネットワークの出力層に適用する活性化関数として、最も適切なものを選べ。
ニューラルネットワークの出力層に適用する活性化関数に関する問題です。
出力層では、タスクに応じて適切に活性化関数を設定する必要があります。 回帰タスクでは、予測値をそのまま出力するため、通常は活性化関数として恒等写像関数を使用します(A)。
一方、分類タスクでは、予測値を各クラスが属する確率に変換する必要があります。この変換を実現する関数として、シグモイド関数とソフトマックス関数があげられます。シグモイド関数は2クラス分類、ソフトマックス関数は多クラス分類に使用される活性化関数です。これらの関数は、分類タスクにおいて出力層で使用されます (C)。
また、ReLUやLeaky ReLUは通常、隠れ層で使用される活性化関数です(B、D)。
試験対策
出力層で使用される活性化関数について整理しておきましょう。参考
恒等写像関数とは、入力と同じ値を返す関数のことです。回帰夕スクでは出力値を変換する必要がないため、出力層の活性化関数として使用されます。G検定ではこの関数を指して線形関数と呼ぶ可能性があるので、注意しておきましょう。
機械学習モデルの予測値と教師データとの誤差を計算するための関数として、最も適切なものを選べ。
損失関数(誤差関数) に関する知識を問う問題です。
機械学習モデルの予測値と教師データとの誤差を、損失関数といいます。機械学習では、訓練データを使用して損失関数を最小化するようにパラメータを更新していきます(A)。
差分関数、残差関数、分散関数という用語はいずれも一般的ではありません (B. C. D)。
試験対策
損失関数の概要と役割を覚えておきましょう。参考
損失関数を誤差関数と呼ぶ場合があるため、注意しましょう。
以下の文章を読み、空欄(ア) (イ) に入る語句として最も適切な組み合わせを選べ。
回帰タスクで損失関数としてよく用いられるのは(ア)である。 方、分類タスクで損失関数としてよく用いられるのは(イ)である。 機械学習において(イ)を最小化することは、予測の分布と正解の分布の異なり具合を表す(ウ)を最小化することと等価である。
タスクに応じた損失関数の選択について問う問題です。
平均二乗誤差(MSE: Mean Squared Error)は、回帰タスクにおける損失関数として広く使用されています(ア)。これはモデルの予測値と教師データとの差(誤差)の二乗を平均するもので、誤差が大きい場合にペナルティがより大きくなるという性質があります。
交差エントロピー (Cross-Entropy)は、分類タスクにおける損失関数として広く使用されています(イ)。モデルが出力するクラスの確率分布と真のクラスの確率分布との間の異なり具合を測る尺度で、モデルの予測確率が真のクラスからどれだけ離れているかを示します。
このほかにも、2つの確率分布の異なり具合を測る指標として、カルバック・ ライブラー情報量(Kullback-Leibler (KL) Divergence) があります。機械学習において交差エントロピーを最小化することと、カルバック・ライブラー情報量を最小化することは等価です(ウ)。
平均絶対誤差(MAE: Mean Absolute Error) は、予測値と教師データの差の絶対値を平均する関数です。回帰タスクで使用され、平均二乗誤差と比較して外れ値に強いという性質があります。また、赤池情報量基準(AIC)は、 モデルの複雑さと予測精度のバランスを取るための評価指標です。
以上のことから、(ア)に平均二乗誤差、(イ)に交差エントロピー、(ウ)にカルバック・ライブラー情報量が入ります(B)。
試験対策
タスクに応じた代表的な損失関数について覚えておきましょう。
深層距離学習で用いられる損失に関する以下の記述を読み、空欄(ア) (イ)に入る語句として最も適切な組み合わせを選べ。
(ア)は、ペアのデータ間の距離に関する損失であり、2005年に提案された。(イ)は、3つのデータ間の距離から計算される損失であり、2015年に提案された。
深層距離学習に用いられる損失について問う問題です。
データのペアに対し、ニューラルネットワークを用いてその類似度(距離) を学習する手法を、深層距離学習といいます。
深層距離学習では、2つ以上のデータの組みに対して、距離の情報を考慮した損失を計算します。代表的な損失として、Contrastive Loss Triplet Loss があげられます。
以下では画像データを例に説明します。
ニューラルネットワークを用いて画像データをベクトルに変換することで、 画像データ間の距離を求めることができます。このベクトルを埋め込みベクトルなどと呼びます。
Contrastive Lossは、2つのデータの組みを用いて計算される損失です(ア)。この損失を用いると、同じクラス同士の組みはそれらの距離が小さくなり、 異なるクラス同士の組みは距離が大きくなるように学習が進みます。画像データの場合、ペアの画像が異なるクラスに属する場合は、下図に示すm-d に基づいて損失が計算され、ペアの画像が同じクラスに属する場合は、dに基づいて損失が計算されます。この損失を用いると、異なるクラスに属するペア画像のm-dが小さくなり、同じクラスに属するペアの画像のdが小さくなるように学習が進みます。なお、mはハイパーパラメータ [解答29を参照] です。
Triplet Lossは、3つのデータの組みを使用して計算される損失です(イ)。この損失を用いると、下図に示すdpos+a-dnegを小さくするように学習が進みます。dpos+a-dnegが小さいということは、画像Xと画像Pが近く、画像 Xと画像Nが遠いということです。画像Pは画像Xと同じクラスの画像です。 画像Nは画像Xと異なるクラスの画像です。aはハイパーパラメータ [解答 29を参照]です。
Controversial Loss. Dist Lossという損失は一般的ではありません。
以上のことから、(ア)にContrastive Loss、(イ) にTriplet Lossが入ります(B)。
試験対策
タスクに応じてさまざまな損失関数を定義することができます。代表的なものを覚えておきましょう。
機械学習における正則化の主要な目的として、最も適切なものを選べ。
正則化に関する知識を問う問題です。
正則化は、モデルの複雑さにペナルティを与えるテクニックであり、これによりモデルが訓練データに過剰に適合すること(過学習)を防ぎます。
過学習は、訓練データに対しては高い予測性能を発揮する一方で、未知のデータに対する予測性能 (汎化性能)が低くなる現象です。したがって、正則化の主な目的は、過学習を防いで汎化性能を向上させることにあります(D)。
正則化の主目的は、データの外れ値の影響を小さくすることや、モデルの学習速度を上げることではありません(A、B)。さらに、正則化は、モデルに入力する特徴量を作り出すこととは関連しません(C)。正則化を応用すると特徴量の削減を行うことは可能です。
試験対策
正則化について、過学習や汎化といった単語を使用して説明できるようにしておきましょう。
L1正則化に関する説明として、最も適切なものを選べ。
モデルのパラメータを正則化する具体的な手法について問う問題です。
正則化は、損失関数にパラメータの取り得る値を制限するような項を加えることで、過学習を抑えるテクニックです。代表的なものに、L0正則化やL1正則化、L2正則化と呼ばれる手法があります。
L0正則化は、0でない大きさを持つパラメータの総数を損失関数に加える手法です(C)。
L1正則化は、パラメータの大きさの絶対値の総和を損失関数に加える手法で (B)、パラメータの数を削減することによって、過学習を抑える効果があります。
L2正則化は、パラメータの大きさの2乗和を損失関数に加える手法です。パラメータの値を原点に近づけることによって、過学習を抑える効果があります(A)。
パラメータの大きさをすべてかけ合わせた値を損失関数に加える手法は、正則化を行う手法として一般的ではありません (D)。
試験対策
正則化を行う代表的な手法について理解しておきましょう。
ニューラルネットワークの学習に用いられるドロップアウトに関する説明として、最も不適切なものを選べ。
ニューラルネットワークの学習に用いられるドロップアウトに関する知識を問う問題です。
ドロップアウトは、ニューラルネットワークの訓練時にランダムにニューロンを除外する手法です(B)。訓練時、ランダムに選ばれたいくつかのニューロンの重みを0として計算します。ドロップアウトを適用することで、過学習を抑制しやすくなることが知られています(C)。
ドロップアウトでは、学習を繰り返すたびに除外されるニューロンがランダムに決定されるため、毎回異なる構造のネットワークを学習していることになります。したがって、ドロップアウトを用いた学習はアンサンブル学習とみなすことができます(D)。
なお、ドロップアウトは、学習時に訓練データを除外する手法ではありません(A)。
試験対策
ドロップアウトは過学習を抑制する重要な手法です。その仕組みを覚えておきましょう。
以下の文章を読み、空欄 (ア) (イ) に入る語句として最も適切な組み合わせを選べ。
(ア)は、ニューラルネットワークの学習時に使用されるパラメータを最適化する手法である。それぞれのパラメータについて損失関数に対する勾配を求め、勾配を下る方向にパラメータの値を繰り返し更新することで、損失関数を最小化することを目指す。勾配を計算する際は、 通常(イ)を用いる。(イ)は、出力層で計算した誤差を出力層から入力層に向けてフィードバックすることで、各パラメータの勾配を算出する手法である。
ニューラルネットワークの学習の仕組みについて問う問題です。
勾配降下法は、目的とする関数の現在の入力値における勾配(接線の傾き)
を求め、勾配を下る方向(関数の値が小さくなる方向)に入力値を補正することを繰り返して、関数の最小値を探索する手法です(ア)。
ニューラルネットワークでは、それぞれのパラメータに対して勾配降下法を適用し、パラメータの更新を繰り返すことによって学習を行います。
勾配を計算する際には、一般に誤差逆伝播法を使用します。誤差逆伝播法は、 出力層で計算した誤差を出力層から入力層にかけて伝播させ、各パラメータの勾配を算出する手法です(イ)。誤差逆伝播法の中では、偏微分の連鎖律という性質が用いられており、パラメータの更新に必要な勾配の算出を効率的に実施することができます。
なお、方策勾配法は、強化学習において方策を直接学習する手法です。
以上のことから、(ア)に勾配降下法、(イ)に誤差逆伝播法が入ります (B)。
試験対策
ニューラルネットワークの学習の仕組みについて説明できるようにしておきましょう。
ニューラルネットワークの学習時に発生する問題に関する以下の文章を読み、空欄(ア) (イ) に入る語句として最も適切な組み合わせを選べ。
(ア)は、出力層における勾配が入力層まで伝わらず、入力層付近のパラメータの更新が滞ってしまう現象である。この現象は、隠れ層の数を増やすほど発生しやすくなる。逆に、(イ)は、学習の途中で勾配が大きくなり過ぎることで、安定的に学習を進められなくなる現象である。
ニューラルネットワークの学習時における課題について問う問題です。
誤差逆伝播法を用いてパラメータを更新する際に、ネットワークの出力層から遠ざかるにつれて勾配が小さくなり、入力層付近でパラメータが正常に更新できなくなることがあります。このような現象を勾配消失問題と呼びます(ア)。 一方、学習の途中で勾配が大きくなり過ぎることで、パラメータの更新幅が非常に大きくなり、学習が安定しなくなる現象を勾配爆発問題と呼びます(イ)。 なお、ニューラルネットワークにおいて、各ニューロンが出力を改善するために、予測結果からどのようにフィードバックを受ければよいかという問いに答えるのは簡単ではありません。このような問題を信用割当問題と呼びます。誤差逆伝播法は、出力層から勾配を順にフィードバックすることで、信用割当問題を解決していると考えることができます。また、勾配損失問題という名称は一般的に使用されません。
以上のことから、(ア)に勾配消失問題、(イ)に勾配爆発問題が入ります(A)。
試験対策
ニューラルネットワークの学習における課題について整理しておきましょう。
以下の文章を読み、空欄(ア) (イ) に入る語句として最も適切な組み合わせを選べ。
確率的勾配降下法(SGD)は、訓練データ中の(ア)のデータを使用して勾配を推定することを繰り返す手法である。このSGDは、 (イ)で用いられる。
確率的勾配降下法(SGD: Stochastic Gradient Descent) に関する知識を問う問題です。
勾配降下法は、勾配の計算にすべての訓練データを使用するため、訓練データ量が増えるにつれて計算量が増大するという問題があります。そこで、確率的勾配降下法が考案されました。確率的勾配降下法は、訓練データからランダムに抽出した一部のデータを使用して勾配を推定することで、学習を高速化できるアルゴリズムです(ア)。
このように、訓練データから一部のデータをランダムに抽出して学習する手法をミニバッチ学習と呼びます (イ)。また、訓練データから一度に1つのデータのみを取り出して学習する手法をオンライン学習と呼びます。一方、勾配降下法のように、訓練データすべてを使用して学習する手法をバッチ学習と呼びます。
以上のことから、(ア)に一部、(イ)にミニバッチ学習が入ります(B)。
試験対策
確率的勾配降下法がミニバッチ学習の一手法であることを覚えておきましょう。
勾配降下法の課題に関する以下の文章を読み、空欄(ア)に入る語句として最も適切なものを選べ。
(ア)は、ある次元では極小であるが、別のある次元では極大となるような点を指す。この(ア)に陥ると、学習が進みにくくなってしまう。
勾配降下法の課題に関する知識を問う問題です。
鞍点は、次の図に示すように、ある次元では極小となる一方で、別のある次元では極大となる点を指します。
鞍点は勾配の小さな領域に囲まれていることが多いため、その周辺で学習が停滞し、パラメータがほとんど更新されなくなることがあります。
一方、局所最適解とは、その周辺では最小値 (極小)となるものの、定義域全体を見た場合の最適解 (大域最適解)ではない解のことです(A、B)。また、 原点とは座標軸が交わる点を指します(D)。
以上のことから、(ア)には鞍点が入ります(C)。
試験対策
勾配降下法の課題である局所最適解や鞍点について整理しておきましょう。単純な勾配降下法では、一度局所最適解や破点に陥ると、 そこから抜け出すことは困難です。
以下の文章を読み、空欄(ア) に入る用語として最も適切なものを選べ。
(ア)は勾配降下法の手法のひとつであり、勾配を効率的に下る手法である。この方法を用いると、鞍点などで学習が停滞することを防げる場合がある。
勾配降下法の一手法であるモーメンタムに関する知識を問う問題です。
モーメンタムは、勾配降下法における学習率を学習中に適切に調整することで、鞍点などでの学習の停滞を回避する手法です(C)。なお、学習率とは、 勾配降下法において、求めた勾配に従ってどの程度パラメータを更新するかを決定する定数(ハイパーパラメータ [解答29を参照])のことです。
ドロップアウト [解答18を参照]は、ニューラルネットワークの訓練時にランダムにニューロンを除外するテクニックです(A)。
確率的勾配降下法 [解答21を参照]は、訓練データからランダムに抽出した
一部のデータを用いて勾配を推定する手法です (B)。
早期終了 [解答26を参照]は、過学習を抑制するために学習を途中で打ち切る手法です(D)。
試験対策
勾配降下法の一手法であるモーメンタムの概要を覚えておきましょう。
勾配降下法にはさまざまな手法が存在する。それらのうち、AdaGrad 以降に提案された手法として、最も不適切なものを選べ。
勾配降下法の代表的な手法について問う問題です。
勾配降下法では、学習を効率的に進めるために工夫されたさまざまな手法が提案されています。代表的な手法として、発表の古い順にモーメンタム、NAG、 AdaGrad, AdaDelta、RMSprop、Adam、AdaBound、AMSBoundなどがあげられます(B、C、D)。なお、AdaBoundとAMS Boundは同じ論文で提案されたものです。
なお、NAG (Nesterov's Accelerated Gradient) は1983年に提案された手法で、2011年に提案されたAdaGradよりも古典的な手法です(A)。
試験対策
勾配降下法の代表的な手法を覚えておきましょう。参考
どの手法が最適かはタスクによって異なるため一概にはいえませんが、一般に新しい手法ほどよく使用される傾向があります。
エポックは、ニューラルネットワークの学習を行う際に使用される概念である。エポックに関する説明として、最も適切なものを選べ。
ニューラルネットワークの学習の繰り返しに関する用語を問う問題です。
エポックは、訓練データ全体に対する学習の反復回数を表す概念です。一般に、すべての訓練データを一度ずつ使用してパラメータを更新したときに、1 エポックと数えます(A)。
なお、パラメータの更新は主に確率的勾配降下法により行われるため、実際のパラメータの更新は訓練データからサンプリングした一部のデータによって行われます。このパラメータの更新の単位はイテレーションと呼ばれます。 複数回のイテレーションによってパラメータの更新を繰り返し、すべての訓練データを一巡した段階が1エポックということになります。
試験対策
ニューラルネットワークの学習を行う具体的な方法について理解しておきましょう。
以下の記述を読み、空欄 (ア) (イ) に入る語句として最も適切な組み合わせを選べ。
早期終了は、機械学習において(ア)を防ぐために使用される手法である。たとえば、ニューラルネットワークでは、学習時のエポックごとに(イ)に対する誤差を評価し、この誤差が改善しなくなった時点で学習を停止する。
機械学習における早期終了 (Early Stopping) に関する知識を問う問題です。
早期終了とは、機械学習においてモデルの学習を途中で打ち切る手法です。
ニューラルネットワークにおける早期終了では、学習時のエポックごとに検証データにおける誤差を評価し、この誤差がエポックを進めても改善しなくなった時点で学習を打ち切ります(イ)。
多くの場合、エポックを進めるにつれて訓練誤差は減少し続けますが、テストデータにおける誤差 (汎化誤差の推定値)は、ある時点を境に増加してしまいます。これは過学習が発生している場合に観測される現象です(ア)。早期終了は、このような過学習の予兆を察知し、学習を打ち切ることで汎化性能を向上するテクニックであるといえます。
以上のことから、(ア)に過学習、(イ)に検証データが入ります(C)。
試験対策
早期終了は、ニューラルネットワークを含むさまざまな機械学習モデルに適用できる強力な手法です。覚えておきましょう。参考
テストデータは最終的にモデルの汎化性能を評価する際に使用するため、早期終了のために使用するのは適切ではありません。
ニューラルネットワークの学習において、二重降下現象と呼ばれる現象が発生することがある。二重降下現象に関する説明として、最も適切なものを選べ。
二重降下現象に関する知識を問う問題です。
二重降下現象は、学習中に減少していたテストデータに対する誤差が一度増加したあと、再び減少する現象です(D)。
学習中に訓練データにおける誤差が減少し、テストデータにおける誤差が増加している場合、過学習が発生しているといえます。ただし、この現象は二重降下現象とは呼びません(A)。また、学習中に訓練データとテストデータにおける誤差が共に減少している現象は二重降下現象とは呼びません(B)。
この場合は適切に学習が進んでいると考えられます。さらに、ニューラルネットワークの層数が増えるとネットワーク構造が複雑になり、過学習のリスクが高まりますが、この現象は二重降下現象とは呼びません(C)。
試験対策
二重降下現象について理解しておきましょう。参考
二重降下現象は、汎化誤差を縦軸に、イテレーションやエポックを横軸にとったグラフによって表現できます。ただし、二重降下現象が最初に提案された論文では、横軸はモデルの複雑さでした。 近年では、横軸にイテレーションやエポックをとって二重降下現象を議論することが増えており、本問ではこちらの定義を扱っています。G検定でも、本問の定義で二重降下現象が出題される可能性が高いため、注意しましょう。
ノーフリーランチ定理は、1995年に証明され、今日の機械学習においてもよく参照される定理である。ノーフリーランチ定理に関する説明として、最も適切なものを選べ。
ノーフリーランチ定理に関する知識を問う問題です。
ノーフリーランチ定理とは、あらゆる問題において優れた汎化性能を持つモ
デルは存在しないことを示す定理です(C)。
あるモデルが特定の問題に対して優れた性能を示したとしても、別の問題で同様に優れた性能を発揮できるとは限りません。問題に応じて適切なモデルを選択することが重要になります。
ノーフリーランチ定理は、モデルの複雑さや推論の根拠、予測誤差に関する定理ではありません (A、B、D)。
試験対策
ノーフリーランチ定理の内容を理解しておきましょう。
機械学習では、ハイパーパラメータと呼ばれる概念がある。ハイパーパラメータに関する説明として、最も適切なものを選べ。
ハイパーパラメータに関する知識を問う問題です。
機械学習モデルには、学習によって最適化できるパラメータと、そうでないパラメータがあります。後者のパラメータのことをハイパーパラメータといいます。
ハイパーパラメータは、モデルの構造などを決定する定数であり、学習前にあらかじめ設定するものです (B)。たとえば、ニューラルネットワークでは、 隠れ層の数や正則化の係数などが該当します。ハイパーパラメータは通常学習によって最適化できませんが、学習の効率やモデルの性能に大きな影響を与えます。
ハイパーパラメータは、機械学習アルゴリズムそのものによって調整されるものではありません(A)。また、ハイパーパラメータはモデルが学習可能なパラメータではありません(C)。さらに、ハイパーパラメータはモデルの性能に大きな影響を与えます (D)。
試験対策
ハイパーパラメータと学習可能なパラメータを区別できるようにしておきましょう。
ハイパーパラメータを探索する手法のひとつにグリッドサーチがある。 グリッドサーチに関する説明として、最も適切なものを選べ。
ニューラルネットワークの層の数を非常に大きくしたネットワークをディープニューラルネットワークと呼びます。なお、ディープニューラルネットワークを用いた機械学習手法をディープラーニング [解答3を参照] と呼びます (C)。
ニューラルネットワークは、回帰や分類などさまざまなタスクを解くことができます(D)。
試験対策
ニューラルネットワークの概要や構造について理解しておきましょう。
ハイパーパラメータの探索手法について問う問題です。
ハイパーパラメータは一般的に学習によって最適化できないため、パラメータの候補に対して学習と汎化誤差の評価を繰り返すことで、最適な組み合わせを探索します。この過程はチューニングとも呼ばれます。
ハイパーパラメータをチューニングする代表的な手法として、グリッドサーチとランダムサーチがあげられます。
グリッドサーチは、指定されたハイパーパラメータの候補について、すべての組み合わせを網羅的に探索する手法です(B)。
ランダムサーチは、ハイパーパラメータの候補からランダムに選択して探索する手法です(A)。グリッドサーチよりも少ない回数で最適な組み合わせを見つけられる場合がありますが、すべての組み合わせを探索するわけではないため、最適な組み合わせが見つかるとは限りません。
グリッドサーチは、その時点までの探索結果を利用する探索手法ではありません(C)。
突然変異や世代交代といった概念を用いる手法として遺伝的アルゴリズムがありますが、グリッドサーチとは関連しません (D)。
参考
モデルの構造やハイパーパラメータへの理解が深い場合、問題やデータの特性に応じて手動で調整するのが有効な場合もあります。