機械学習において「損失関数」が果たす主な役割として、最も適切なものはどれか。
正解:1. モデルの予測値と教師データ(正解)との誤差を計算する。
(解説)
損失関数は、モデルが予測した値と、実際の正解(教師データ)がどれだけ離れているかを数値化するための関数です。機械学習の学習フェーズでは、この損失関数の値を最小化するようにモデルのパラメータが更新されます。
「交差エントロピー」が機械学習において最も頻繁に用いられるタスクはどれか。
正解:2. ラベルを予測する「分類」タスク
(解説)
交差エントロピーは、確率分布の間の差異を測定する指標であり、分類タスクにおいてモデルの出力(各クラスの予測確率)と正解ラベル(One-hotエンコーディングされた分布など)の乖離を計算するために広く利用されます。
損失関数とその具体例の組み合わせとして、不適切なものはどれか。
正解:4. 次元の圧縮:Triplet Loss
(解説)
Triplet Lossは、相対的な類似度(距離関係)を学習するための損失関数であり、次元圧縮そのものを目的とした関数ではありません。1〜3は一般的な用途との正しい組み合わせです。回帰にはMSE、分類には交差エントロピー、分布の近さを測るにはKLダイバージェンスが用いられます。
深層学習における「Contrastive Loss (対照学習損失)」の基本的な考え方として、正しいものはどれか。
正解:3. 似たデータは近く、異なるデータは遠くなるようにペアデータの距離を調整する。
(解説)
Contrastive Lossは、対照学習(Contrastive Learning)で用いられる損失関数です。ペアとなる2つのデータが「同じカテゴリ(ポジティブ)」であれば距離を小さくし、「異なるカテゴリ(ネガティブ)」であれば一定の境界以上に距離を離すように学習を進めます。
「Triplet Loss」において、相対的な類似度を学習するために用いられる3つのデータの組み合わせとして、正しいものはどれか。
正解:3. アンカー、ポジティブ、ネガティブ
(解説)
Triplet Lossは、基準となる「アンカー(Anchor)」、アンカーと同じクラスの「ポジティブ(Positive)」、アンカーと異なるクラスの「ネガティブ(Negative)」の3つのデータセット(トリプレット)を使用します。「アンカーとポジティブの距離」が「アンカーとネガティブの距離」よりも十分に小さくなるように学習を行います。
「L0正則化」が損失関数に課すペナルティの内容として、最も適切なものはどれか。
正解:3. 非ゼロであるパラメータの個数
(解説)
L0正則化は、モデル内の「0ではない(非ゼロ)パラメータの数」をカウントし、それを損失関数へのペナルティとして加える手法です。これにより、不要なパラメータを削減しモデルを簡略化することを目指しますが、組み合わせ最適化の問題となるため計算が困難という特徴があります。
「L1正則化(ラッソ回帰)」を適用した際、モデルに現れる主な効果として正しいものはどれか。
正解:2. 不要な特徴量の重みが完全にゼロになりやすく、特徴量選択が行われる。
(解説)
L1正則化は、パラメータの絶対値の和を損失関数に加えます。この形式により、重要度の低い特徴量の重みがちょうど0になりやすい(スパース性を持つ)という性質があるため、自動的な特徴量選択の効果が期待できます。
「L2正則化(リッジ回帰)」に関する記述として、最も適切なものはどれか。
正解:1. パラメータの2乗和を損失に加え、重みを小さく抑えることで過学習を防ぐ。
(解説)
L2正則化は、パラメータの2乗和をペナルティとして加える手法です。各パラメータが極端に大きな値を持たないように(Weight Decay:重み減衰)制御することで、特定のデータに過剰に適合する「過学習」を抑制する効果があります。
深層学習における「ドロップアウト(Dropout)」の説明として、正しいものはどれか。
正解:2. 訓練時にランダムにニューロンを無効化し、過学習を防ぐ。
(解説)
ドロップアウトは、訓練時にネットワーク内のニューロンをランダムに選んで無効化(出力を0に)する手法です。これにより、ネットワークが特定のニューロンの組み合わせに依存しすぎることを防ぎます。これは、複数の異なるモデルの予測を平均化する「アンサンブル学習」を効率的に近似しているとも言われます。
「確率的勾配降下法(SGD)」におけるパラメータ更新の一般的な特徴はどれか。
正解:3. 一部のデータ(ミニバッチ)を使用して勾配を推定し、頻繁に更新を繰り返す。
(解説)
SGD(厳密にはミニバッチ勾配降下法を指すことが多い)は、全データではなくランダムに抽出した一部のデータを使って勾配を求め、パラメータを更新します。全データを使うよりも計算コストが低く、またノイズが含まれることで局所解(ローカルオプティマ)を抜け出しやすくなるメリットがあります。
勾配降下法における「モーメンタム(Momentum)」の主な役割はどれか。
正解:3. 前回の更新量を「慣性」として加味し、鞍点や局所解での停滞を回避すること。
(解説)
モーメンタムは、物理的な「慣性」の概念を導入した最適化手法です。過去の勾配の移動平均を考慮して更新を行うため、勾配が緩やかな場所(鞍点など)でも進み続けたり、振動を抑えて効率的に最適解へ向かったりすることが可能になります。
「バッチ正規化(Batch Normalization)」を導入することで得られる主なメリットはどれか。
正解:2. 各層の出力をミニバッチごとに正規化し、学習の安定化と高速化を図る。
(解説)
バッチ正規化は、各層の活性化関数の出力をミニバッチ単位で平均0、分散1になるよう調整する手法です。これにより、学習が進むにつれて各層への入力分布が変化してしまう「内部共変量シフト」の問題が軽減され、学習が安定し、大きな学習率を設定しても収束しやすくなります。
「ロジスティック回帰」に関する記述として、正しいものはどれか。
正解:2. シグモイド関数を用いて、出力を0から1の範囲(確率)に調整する。
(解説)
ロジスティック回帰は、名前に「回帰」と付いていますが、主に「分類」タスクに用いられる線形モデルです。線形な予測値をシグモイド関数(ロジスティック関数)に通すことで、特定のクラスに属する確率(0〜1)として解釈できる形式で出力します。
強化学習における「行動価値関数($Q$関数)」の定義として、最も適切なものはどれか。
正解:1. ある状態で特定の行動をとった際に、将来得られる報酬の期待値を表す関数。
(解説)
行動価値関数($Q$関数)は、ある状態 $s$ で特定の行動 $a$ を選択したとき、その後どれだけの報酬(割引報酬和)が得られるかの期待値を表します。Q学習やSARSAといったアルゴリズムでは、この $Q$値を正確に推定・更新することで最適な行動選択を目指します。
「状態価値関数」が表す内容として、正しいものはどれか。
正解:3. ある状態において、特定の方策に従い続けた場合に得られる期待報酬(その状態にいること自体の価値)。
(解説)
状態価値関数は、ある状態 $s$ にいるとき、現在の「方策(アクションの選択ルール)」に従って行動し続けた場合に、将来得られる報酬の合計期待値を表します。行動を固定する $Q$関数とは異なり、「その状態にいること自体の良さ」を評価する指標です。
「方策勾配法」に関する説明として、最も適切なものはどれか。
正解:1. 価値関数を介さず、行動を選択する「方策」そのものをパラメータ化し、報酬を最大化するように直接学習する。
(解説)
方策勾配法は、エージェントの行動ルールである「方策」をニューラルネットワークなどで直接表現し、得られた報酬の勾配を用いてそのパラメータを更新する手法です。代表的なアルゴリズムにREINFORCEなどがあり、連続的な行動空間の扱いにも適しています。
強化学習のアルゴリズムの例として、不適切なものはどれか。
正解:4. k-means
(解説)
k-meansは教師なし学習におけるクラスタリングのアルゴリズムであり、強化学習のアルゴリズムではありません。REINFORCEは方策勾配法、Actor-Criticは価値関数と方策の両方を学習する手法、A3CはそのActor-Criticを非同期・並列化した発展的なアルゴリズムです。
多腕バンディット問題において重要となる「探索(Exploration)」と「利用(Exploitation)」の説明として、正しいものはどれか。
正解:2. 「探索」は未知の選択肢を試すことであり、「利用」は現時点で最良と思われる選択肢を選ぶことである。
(解説)
多腕バンディット問題では、限られた試行回数の中で報酬を最大化するために、「今はまだ価値が不明だが将来有望かもしれない選択肢を試す(探索)」と「今分かっている中で一番良い選択肢を選ぶ(利用)」のバランス(トレードオフ)を制御する必要があります。
多腕バンディット問題において、探索と利用を制御するための「$\epsilon$-greedy法」の説明として、正しいものはどれか。
正解:2. 一定の確率 $\epsilon$ でランダムに行動を選択(探索)し、残りの確率で現時点の最良行動を選択(利用)する。
(解説)
$\epsilon$-greedy(イプシロン・グリーディ)法は、非常にシンプルかつ強力な手法です。小さな確率 $\epsilon$ を設定し、その確率でランダムな行動(探索)を行い、それ以外の場合($1-\epsilon$)は最も高い価値を持つ行動(利用/貪欲な選択)を行うことで、バランスをとります。また、UCB方策などは「不確実性の高さ」に基づいてより洗練された探索を行います。
「オンライン強化学習」の特徴として、最も適切なものはどれか。
正解:3. 事前のモデルを用意せず、エージェントが環境と相互作用して逐次的に得られるデータをもとに学習を進める。
(解説)
オンライン強化学習は、環境のダイナミクスが未知の状態からスタートし、実際にエージェントを動かして得られた経験(状態、行動、報酬のセット)をその都度、またはミニバッチ的に使って逐次的に学習を更新していく手法です。
「One-Hot Encoding(ワンホットエンコーディング)」を用いて単語を表現する際の説明として、最も適切なものはどれか。
正解:2. 単語IDに対応する要素のみを1とし、それ以外の全ての要素を0とするベクトルで表現する。
(解説)
One-Hot Encodingは、語彙数と同じ次元を持つベクトルを用意し、該当する単語のインデックスだけを「1(Hot)」、それ以外を「0」にする単純な表現手法です。実装が容易ですが、語彙数が増えるとベクトルが非常に高次元かつ稀薄(スパース)になり、単語間の意味の近さを表現できないという課題があります。
Transformerなどのモデルで使用される「位置エンコーディング (Positional Encoding)」の主な目的はどれか。
正解:3. RNN(再帰型ニューラルネットワーク)を使わないモデルにおいて、単語の入力順序(位置情報)を保持するため。
(解説)
TransformerはRNNと異なり、データを逐次的にではなく並列に処理します。そのため、そのままでは「どの単語が何番目にあるか」という順序情報が失われてしまいます。これを防ぐため、単語の埋め込みベクトルに位置に応じた特定の計算値(サイン・コサイン関数など)を加算するのが位置エンコーディングです。
Encoder-Decoder構造において、デコーダ側がエンコーダ側のどの情報に注目すべきかを決定する仕組みを何と呼ぶか。
正解:3. Source-Target Attention
(解説)
Source-Target Attention(またはCross-Attention)は、翻訳などのタスクにおいて、デコーダが現在の単語を生成する際、入力文(ソース)のどの部分に関連があるかを計算する仕組みです。これに対し、Self-Attentionは同じ文の中での単語同士の関連性を計算するものを指します。
Facebook(現Meta)が提案した「FastText」が、訓練データにない「未知語」に対して強い耐性を持つ主な理由はどれか。
正解:2. 単語を文字単位(n-gram)に分割して内部的に扱うため、未知語でも部分的な文字列から意味を推定できるから。
(解説)
FastTextは、単語を「apple」という一塊としてだけでなく、「ap」「ppl」「le」といった部分文字列(サブワード)の集合として学習します。これにより、初めて見る単語(未知語)であっても、その中に含まれる部分文字列の情報を組み合わせて、妥当なベクトルを生成することが可能になります。
音声学や言語学における「音素(Phoneme)」の説明として、最も適切なものはどれか。
正解:2. 特定の言語において、意味を区別することができる最小の音の単位。
(解説)
「音素」は、それ自体に意味はありませんが、入れ替えることで言葉の意味が変わる最小の単位です(例:「かた」と「はた」における /k/ と /h/)。一方「音韻(Phonology)」は、それらの音がその言語の中でどのように体系化され、人間がどう抽象的に認識しているかを扱う概念を指します。
大量の文書データから、そこに潜在する「話題(トピック)」を統計的に抽出する手法を何と呼ぶか。
正解:1. トピックモデル
(解説)
トピックモデルは教師なし学習の一種であり、文書集合の中にどのような話題が混ざっているかを自動的に推定します。代表的な手法にLDA(潜在的ディリクレ配分法)があり、ニュース記事の自動分類や、マーケティングにおける口コミ分析などに利用されます。
「積層オートエンコーダ(Stacked Autoencoder)」の主な用途として、歴史的に重要だったものはどれか。
正解:3. 複数のオートエンコーダを重ね、深層ニューラルネットワークの事前学習(Pre-training)として用いるため。
(解説)
積層オートエンコーダは、1層ずつ順番に学習(逐次的な自己符号化)を行い、それを積み重ねることで深いネットワークを構成します。これは、深層学習の初期において、勾配消失問題などで深い層の学習が困難だった時期に、良い初期値を設定するための「事前学習」手法として非常に重要な役割を果たしました。
「VAE (変分オートエンコーダ)」と、通常のオートエンコーダの最大の違いはどれか。
正解:2. VAEは潜在変数を固定の値ではなく、確率分布として扱う。
(解説)
通常のオートエンコーダは入力を特定の一点(ベクトル)に圧縮しますが、VAEは「平均」と「分散」を持つ確率分布へとエンコードします。その分布からサンプリングを行うことで、元のデータに似た「新しいデータ」を生成することができるため、生成モデルとして広く利用されています。
「U-Net」というネットワーク構造の最大の特徴であり、セグメンテーション(領域抽出)の精度向上に寄与している仕組みはどれか。
正解:2. エンコーダ側の特徴マップを、デコーダ側の対応する層へ直接渡す「スキップ結合」。
(解説)
U-Netは、エンコーダ(収縮パス)で抽出された位置情報などの詳細な特徴を、デコーダ(拡張パス)の対応する層に直接結合(スキップ結合)します。これにより、デコーダで画像を復元する際に、失われがちな細かい輪郭などの情報を保持することができ、高精度なセグメンテーションが可能になります。
機械学習モデルの評価手法である「ホールドアウト検証」の説明として、最も適切なものはどれか。
正解:1. 手持ちのデータを「学習用」と「テスト用」に一度だけ分割し、精度を評価する。
(解説)
ホールドアウト検証は、最もシンプルで計算負荷の低い評価手法です。元のデータセットから一定割合(例:80%)をモデルの訓練に使い、残りの「一度も見せていないデータ(例:20%)」で最終的な精度を測ります。ただし、データの分割の仕方に結果が左右されやすいという弱点があります。
「k-分割交差検証(k-fold Cross Validation)」の手順として、正しいものはどれか。
正解:1. データをk個の等しいブロックに分け、各ブロックを一度ずつテスト用、残りを学習用として合計k回の評価を行う。
(解説)
k-分割交差検証は、ホールドアウト検証の弱点を補う手法です。全データをk個(例えば5個や10個)に分割し、そのうちの1つを評価用、残りを学習用とするサイクルを、評価用ブロックを入れ替えながらk回繰り返します。最後にk個の精度の平均をとることで、データの偏りに強い、より信頼性の高い評価が可能になります。
機械学習において、モデルが最終的に最小化を目指すべき「目標」として最も適切なものはどれか。
正解:2. 汎化誤差(未知のデータに対する予測誤差)
(解説)
機械学習の真の目的は、手元の学習データを覚えることではなく、これから出会う「未知のデータ」に対して正しく予測することです。訓練誤差が小さくても汎化誤差が大きい状態は「過学習(Overfitting)」と呼ばれます。優れたモデルとは、汎化誤差が最小になるように設計されたモデルのことです。
「統計的仮説検定」における基本的な考え方として、正しいものはどれか。
正解:2. 「効果がない・差がない」とする帰無仮説を立て、それが起こる確率が極めて低いことを示して棄却する。
(解説)
統計的仮説検定は「背理法」に近い考え方です。本来主張したい内容(対立仮説)を直接証明するのではなく、その逆の「差がない」という仮説(帰無仮説)を立て、それが統計的に「あり得ない(棄却される)」ことを示すことで、間接的に主張の妥当性を裏付けます。
深層学習などで重要な概念である「表現学習(Representation Learning)」を説明したものはどれか。
正解:2. 予測に有用な特徴量を、人間が手動で定義するのではなく、モデル自らがデータから自動的に学習するプロセス。
(解説)
従来の機械学習では、人間が「どのデータが重要か(特徴量)」を考えて抽出していましたが、深層学習ではニューラルネットワークが層を経るごとに、生データから抽象的で高度な特徴を自ら獲得していきます。これを表現学習と呼び、深層学習が高い性能を発揮する大きな要因の一つです。
多次元の損失関数において、ある次元では極小(谷)だが、別の次元では極大(山)となっている点を何と呼ぶか。
正解:3. 鞍点 (Saddle Point)
(解説)
鞍点は、馬の鞍(くら)のような形をした点です。そこでは勾配(傾き)がゼロになるため、最適化アルゴリズム(SGDなど)が「ここが解だ」と勘違いして進まなくなり、学習が停滞する原因となります。高次元の深層学習においては、局所解よりもこの鞍点が学習を妨げる要因として注目されます。
「Permutation Importance」によって特徴量の重要度を計測する際の手順として、正しいものはどれか。
正解:3. 特定の特徴量の値をランダムに入れ替えて(シャッフルして)、予測精度がどの程度低下するかを確認する。
(解説)
Permutation Importanceは、ある特徴量の情報を「壊した(ランダムにした)」ときに、どれだけモデルが困るか(精度が落ちるか)を見る手法です。精度が大きく落ちるほど、その特徴量は予測に重要であったと判断できます。モデルを再学習させる必要がないため、効率的に重要度を評価できます。
日本の不正競争防止法において、保護の対象となる「営業秘密」として認められるために必要な3つの条件として、正しい組み合わせはどれか。
正解:2. 非公知性、有用性、秘密管理性
(解説)
企業の情報が「営業秘密」として法的保護を受けるには、以下の3要件を全て満たす必要があります。
- 非公知性:一般に知られていないこと。
- 有用性:事業活動に役立つ情報であること。
- 秘密管理性:アクセス制限や「部外秘」の表示など、秘密として管理されていることが客観的にわかること。
このうち、特に「秘密管理性」の不備で保護が認められないケースが多く、実務上重要です。