03_G検定_用語集

問題1

機械学習において「損失関数」が果たす主な役割として、最も適切なものはどれか。

モデルの予測値と教師データ（正解）との誤差を計算する。
入力データの次元を削減し、計算を高速化する。
学習データの不足を補うために、擬似的なデータを生成する。
モデルのハイパーパラメータを自動的に最適化する。

解答1

正解：1. モデルの予測値と教師データ（正解）との誤差を計算する。

（解説）
損失関数は、モデルが予測した値と、実際の正解（教師データ）がどれだけ離れているかを数値化するための関数です。機械学習の学習フェーズでは、この損失関数の値を最小化するようにモデルのパラメータが更新されます。

問題2

「交差エントロピー」が機械学習において最も頻繁に用いられるタスクはどれか。

数値を予測する「回帰」タスク
ラベルを予測する「分類」タスク
データのグループ化を行う「クラスタリング」タスク
データの異常を検知する「異常検知」タスク

解答2

正解：2. ラベルを予測する「分類」タスク

（解説）
交差エントロピーは、確率分布の間の差異を測定する指標であり、分類タスクにおいてモデルの出力（各クラスの予測確率）と正解ラベル（One-hotエンコーディングされた分布など）の乖離を計算するために広く利用されます。

問題3

損失関数とその具体例の組み合わせとして、不適切なものはどれか。

回帰：平均二乗誤差 (MSE)
分類：交差エントロピー
分布の比較：カルバック・ライブラー情報量 (KLダイバージェンス)
次元の圧縮：Triplet Loss

解答3

正解：4. 次元の圧縮：Triplet Loss

（解説）
Triplet Lossは、相対的な類似度（距離関係）を学習するための損失関数であり、次元圧縮そのものを目的とした関数ではありません。1〜3は一般的な用途との正しい組み合わせです。回帰にはMSE、分類には交差エントロピー、分布の近さを測るにはKLダイバージェンスが用いられます。

問題4

深層学習における「Contrastive Loss (対照学習損失)」の基本的な考え方として、正しいものはどれか。

全てのデータの距離が均一になるように重みを調整する。
似たデータ間の距離を遠ざけ、異なるデータ間の距離を近づける。
似たデータは近く、異なるデータは遠くなるようにペアデータの距離を調整する。
正解データが存在しない場合に、データの平均値を損失として計算する。

解答4

正解：3. 似たデータは近く、異なるデータは遠くなるようにペアデータの距離を調整する。

（解説）
Contrastive Lossは、対照学習（Contrastive Learning）で用いられる損失関数です。ペアとなる2つのデータが「同じカテゴリ（ポジティブ）」であれば距離を小さくし、「異なるカテゴリ（ネガティブ）」であれば一定の境界以上に距離を離すように学習を進めます。

問題5

「Triplet Loss」において、相対的な類似度を学習するために用いられる3つのデータの組み合わせとして、正しいものはどれか。

入力、中間、出力
学習、検証、テスト
アンカー、ポジティブ、ネガティブ
特徴量、ラベル、バイアス

解答5

正解：3. アンカー、ポジティブ、ネガティブ

（解説）
Triplet Lossは、基準となる「アンカー（Anchor）」、アンカーと同じクラスの「ポジティブ（Positive）」、アンカーと異なるクラスの「ネガティブ（Negative）」の3つのデータセット（トリプレット）を使用します。「アンカーとポジティブの距離」が「アンカーとネガティブの距離」よりも十分に小さくなるように学習を行います。

問題6

「L0正則化」が損失関数に課すペナルティの内容として、最も適切なものはどれか。

パラメータの絶対値の総和
パラメータの2乗和
非ゼロであるパラメータの個数
パラメータの最大値と最小値の差

解答6

正解：3. 非ゼロであるパラメータの個数

（解説）
L0正則化は、モデル内の「0ではない（非ゼロ）パラメータの数」をカウントし、それを損失関数へのペナルティとして加える手法です。これにより、不要なパラメータを削減しモデルを簡略化することを目指しますが、組み合わせ最適化の問題となるため計算が困難という特徴があります。

問題7

「L1正則化（ラッソ回帰）」を適用した際、モデルに現れる主な効果として正しいものはどれか。

全ての重みが一律に同じ値になる。
不要な特徴量の重みが完全にゼロになりやすく、特徴量選択が行われる。
学習率が自動的に最適化される。
外れ値の影響を全く受けなくなる。

解答7

正解：2. 不要な特徴量の重みが完全にゼロになりやすく、特徴量選択が行われる。

（解説）
L1正則化は、パラメータの絶対値の和を損失関数に加えます。この形式により、重要度の低い特徴量の重みがちょうど0になりやすい（スパース性を持つ）という性質があるため、自動的な特徴量選択の効果が期待できます。

問題8

「L2正則化（リッジ回帰）」に関する記述として、最も適切なものはどれか。

パラメータの2乗和を損失に加え、重みを小さく抑えることで過学習を防ぐ。
特定のニューロンをランダムに削除することで計算を高速化する。
入力データに微小なノイズを加える手法である。
分類タスクにおいて出力を0か1の二値に変換する。

解答8

正解：1. パラメータの2乗和を損失に加え、重みを小さく抑えることで過学習を防ぐ。

（解説）
L2正則化は、パラメータの2乗和をペナルティとして加える手法です。各パラメータが極端に大きな値を持たないように（Weight Decay：重み減衰）制御することで、特定のデータに過剰に適合する「過学習」を抑制する効果があります。

問題9

深層学習における「ドロップアウト（Dropout）」の説明として、正しいものはどれか。

学習が一定時間進まない場合に、学習を途中で打ち切る。
訓練時にランダムにニューロンを無効化し、過学習を防ぐ。
テストデータの一部をランダムに除外して精度を検証する。
勾配が消失しないように、重みを初期化し直す。

解答9

正解：2. 訓練時にランダムにニューロンを無効化し、過学習を防ぐ。

（解説）
ドロップアウトは、訓練時にネットワーク内のニューロンをランダムに選んで無効化（出力を0に）する手法です。これにより、ネットワークが特定のニューロンの組み合わせに依存しすぎることを防ぎます。これは、複数の異なるモデルの予測を平均化する「アンサンブル学習」を効率的に近似しているとも言われます。

問題10

「確率的勾配降下法（SGD）」におけるパラメータ更新の一般的な特徴はどれか。

学習データ全件を使用して、一度に正確な勾配を計算する。
データの平均値を基準に、パラメータをランダムな値に置き換える。
一部のデータ（ミニバッチ）を使用して勾配を推定し、頻繁に更新を繰り返す。
損失関数が最小になるまで、一切の更新を停止する。

解答10

正解：3. 一部のデータ（ミニバッチ）を使用して勾配を推定し、頻繁に更新を繰り返す。

（解説）
SGD（厳密にはミニバッチ勾配降下法を指すことが多い）は、全データではなくランダムに抽出した一部のデータを使って勾配を求め、パラメータを更新します。全データを使うよりも計算コストが低く、またノイズが含まれることで局所解（ローカルオプティマ）を抜け出しやすくなるメリットがあります。

問題11

勾配降下法における「モーメンタム（Momentum）」の主な役割はどれか。

データを平均0、分散1に変換すること。
学習中に損失関数の種類を切り替えること。
前回の更新量を「慣性」として加味し、鞍点や局所解での停滞を回避すること。
学習データの中から重複したサンプルを排除すること。

解答11

正解：3. 前回の更新量を「慣性」として加味し、鞍点や局所解での停滞を回避すること。

（解説）
モーメンタムは、物理的な「慣性」の概念を導入した最適化手法です。過去の勾配の移動平均を考慮して更新を行うため、勾配が緩やかな場所（鞍点など）でも進み続けたり、振動を抑えて効率的に最適解へ向かったりすることが可能になります。

問題12

「バッチ正規化（Batch Normalization）」を導入することで得られる主なメリットはどれか。

入力データの欠損値を自動的に補完できる。
各層の出力をミニバッチごとに正規化し、学習の安定化と高速化を図る。
隠れ層の数を自動的に決定してくれる。
モデルの出力を必ず整数値に制限できる。

解答12

正解：2. 各層の出力をミニバッチごとに正規化し、学習の安定化と高速化を図る。

（解説）
バッチ正規化は、各層の活性化関数の出力をミニバッチ単位で平均0、分散1になるよう調整する手法です。これにより、学習が進むにつれて各層への入力分布が変化してしまう「内部共変量シフト」の問題が軽減され、学習が安定し、大きな学習率を設定しても収束しやすくなります。

問題13

「ロジスティック回帰」に関する記述として、正しいものはどれか。

連続した数値を予測する「回帰」タスク専用の手法である。
シグモイド関数を用いて、出力を0から1の範囲（確率）に調整する。
3つ以上のクラス分類には、原理的に適用することができない。
特徴量同士の相互作用を自動的に学習する非線形モデルである。

解答13

正解：2. シグモイド関数を用いて、出力を0から1の範囲（確率）に調整する。

（解説）
ロジスティック回帰は、名前に「回帰」と付いていますが、主に「分類」タスクに用いられる線形モデルです。線形な予測値をシグモイド関数（ロジスティック関数）に通すことで、特定のクラスに属する確率（0〜1）として解釈できる形式で出力します。

問題14

強化学習における「行動価値関数（$Q$関数）」の定義として、最も適切なものはどれか。

ある状態で特定の行動をとった際に、将来得られる報酬の期待値を表す関数。
エージェントが次に取るべき最適な行動を確率的に決定する関数。
学習データの中に含まれる「正解」との誤差を計算する関数。
環境が次にどのような状態に遷移するかを予測する関数。

解答14

正解：1. ある状態で特定の行動をとった際に、将来得られる報酬の期待値を表す関数。

（解説）
行動価値関数（$Q$関数）は、ある状態 $s$ で特定の行動 $a$ を選択したとき、その後どれだけの報酬（割引報酬和）が得られるかの期待値を表します。Q学習やSARSAといったアルゴリズムでは、この $Q$値を正確に推定・更新することで最適な行動選択を目指します。

問題15

「状態価値関数」が表す内容として、正しいものはどれか。

特定の行動をとった直後に得られる即時報酬の大きさ。
ネットワークの重みパラメータがどれだけ最適に近いか。
ある状態において、特定の方策に従い続けた場合に得られる期待報酬（その状態にいること自体の価値）。
エージェントが学習を終了するまでに要するステップ数。

解答15

正解：3. ある状態において、特定の方策に従い続けた場合に得られる期待報酬（その状態にいること自体の価値）。

（解説）
状態価値関数は、ある状態 $s$ にいるとき、現在の「方策（アクションの選択ルール）」に従って行動し続けた場合に、将来得られる報酬の合計期待値を表します。行動を固定する $Q$関数とは異なり、「その状態にいること自体の良さ」を評価する指標です。

問題16

「方策勾配法」に関する説明として、最も適切なものはどれか。

価値関数を介さず、行動を選択する「方策」そのものをパラメータ化し、報酬を最大化するように直接学習する。
過去の全てのデータをメモリに保存し、その中からランダムにデータを抽出して学習する。
常に最も報酬が高いと推定される行動のみを選択し続ける。
迷路のような離散的な状態空間において、最短経路のみを探索する。

解答16

正解：1. 価値関数を介さず、行動を選択する「方策」そのものをパラメータ化し、報酬を最大化するように直接学習する。

（解説）
方策勾配法は、エージェントの行動ルールである「方策」をニューラルネットワークなどで直接表現し、得られた報酬の勾配を用いてそのパラメータを更新する手法です。代表的なアルゴリズムにREINFORCEなどがあり、連続的な行動空間の扱いにも適しています。

問題17

強化学習のアルゴリズムの例として、不適切なものはどれか。

REINFORCE
Actor-Critic
A3C
k-means

解答17

正解：4. k-means

（解説）
k-meansは教師なし学習におけるクラスタリングのアルゴリズムであり、強化学習のアルゴリズムではありません。REINFORCEは方策勾配法、Actor-Criticは価値関数と方策の両方を学習する手法、A3CはそのActor-Criticを非同期・並列化した発展的なアルゴリズムです。

問題18

多腕バンディット問題において重要となる「探索（Exploration）」と「利用（Exploitation）」の説明として、正しいものはどれか。

「探索」は既知の最良の選択肢を選ぶことであり、「利用」は未知の選択肢を試すことである。
「探索」は未知の選択肢を試すことであり、「利用」は現時点で最良と思われる選択肢を選ぶことである。
「探索」は学習を終了することであり、「利用」は学習を継続することである。
「探索」と「利用」は常に同じ比率で同時に行わなければならない。

解答18

正解：2. 「探索」は未知の選択肢を試すことであり、「利用」は現時点で最良と思われる選択肢を選ぶことである。

（解説）
多腕バンディット問題では、限られた試行回数の中で報酬を最大化するために、「今はまだ価値が不明だが将来有望かもしれない選択肢を試す（探索）」と「今分かっている中で一番良い選択肢を選ぶ（利用）」のバランス（トレードオフ）を制御する必要があります。

問題19

多腕バンディット問題において、探索と利用を制御するための「$\epsilon$-greedy法」の説明として、正しいものはどれか。

常に確率100%で、現時点で最高の報酬が得られる行動を選択する。
一定の確率 $\epsilon$ でランダムに行動を選択（探索）し、残りの確率で現時点の最良行動を選択（利用）する。
試行回数が増えるにつれて、全ての行動を順番に均等に選択する。
過去に一度も選ばなかった行動がある場合、それ以外の行動は一切選ばない。

解答19

正解：2. 一定の確率 $\epsilon$ でランダムに行動を選択（探索）し、残りの確率で現時点の最良行動を選択（利用）する。

（解説）
$\epsilon$-greedy（イプシロン・グリーディ）法は、非常にシンプルかつ強力な手法です。小さな確率 $\epsilon$ を設定し、その確率でランダムな行動（探索）を行い、それ以外の場合（$1-\epsilon$）は最も高い価値を持つ行動（利用/貪欲な選択）を行うことで、バランスをとります。また、UCB方策などは「不確実性の高さ」に基づいてより洗練された探索を行います。

問題20

「オンライン強化学習」の特徴として、最も適切なものはどれか。

環境の完璧なモデル（遷移確率など）を事前に完全に把握した状態から計算を開始する。
全ての学習データをサーバーに蓄積し、学習が完了してから初めてエージェントを動かす。
事前のモデルを用意せず、エージェントが環境と相互作用して逐次的に得られるデータをもとに学習を進める。
インターネット接続が切断された状態では、一切のパラメータ更新ができない手法を指す。

解答20

正解：3. 事前のモデルを用意せず、エージェントが環境と相互作用して逐次的に得られるデータをもとに学習を進める。

（解説）
オンライン強化学習は、環境のダイナミクスが未知の状態からスタートし、実際にエージェントを動かして得られた経験（状態、行動、報酬のセット）をその都度、またはミニバッチ的に使って逐次的に学習を更新していく手法です。

問題21

「One-Hot Encoding（ワンホットエンコーディング）」を用いて単語を表現する際の説明として、最も適切なものはどれか。

単語の意味的な類似度を計算し、低次元の密なベクトルで表現する。
単語IDに対応する要素のみを1とし、それ以外の全ての要素を0とするベクトルで表現する。
文脈に応じて、同じ単語でも異なるベクトルを割り当てる。
単語を文字単位に分解し、その出現頻度を統計的に処理する。

解答21

正解：2. 単語IDに対応する要素のみを1とし、それ以外の全ての要素を0とするベクトルで表現する。

（解説）
One-Hot Encodingは、語彙数と同じ次元を持つベクトルを用意し、該当する単語のインデックスだけを「1（Hot）」、それ以外を「0」にする単純な表現手法です。実装が容易ですが、語彙数が増えるとベクトルが非常に高次元かつ稀薄（スパース）になり、単語間の意味の近さを表現できないという課題があります。

問題22

Transformerなどのモデルで使用される「位置エンコーディング (Positional Encoding)」の主な目的はどれか。

モデルが計算を行う際に、入力データの値を0から1の範囲に正規化するため。
単語を暗号化し、データのプライバシーを保護するため。
RNN（再帰型ニューラルネットワーク）を使わないモデルにおいて、単語の入力順序（位置情報）を保持するため。
勾配消失問題を解決するために、各層の重みを定数で加算するため。

解答22

正解：3. RNN（再帰型ニューラルネットワーク）を使わないモデルにおいて、単語の入力順序（位置情報）を保持するため。

（解説）
TransformerはRNNと異なり、データを逐次的にではなく並列に処理します。そのため、そのままでは「どの単語が何番目にあるか」という順序情報が失われてしまいます。これを防ぐため、単語の埋め込みベクトルに位置に応じた特定の計算値（サイン・コサイン関数など）を加算するのが位置エンコーディングです。

問題23

Encoder-Decoder構造において、デコーダ側がエンコーダ側のどの情報に注目すべきかを決定する仕組みを何と呼ぶか。

Self-Attention
Multi-Head Attention
Source-Target Attention
Masked Attention

解答23

正解：3. Source-Target Attention

（解説）
Source-Target Attention（またはCross-Attention）は、翻訳などのタスクにおいて、デコーダが現在の単語を生成する際、入力文（ソース）のどの部分に関連があるかを計算する仕組みです。これに対し、Self-Attentionは同じ文の中での単語同士の関連性を計算するものを指します。

問題24

Facebook（現Meta）が提案した「FastText」が、訓練データにない「未知語」に対して強い耐性を持つ主な理由はどれか。

非常に巨大なメモリを使用して、地球上の全ての単語をあらかじめ記憶しているから。
単語を文字単位（n-gram）に分割して内部的に扱うため、未知語でも部分的な文字列から意味を推定できるから。
未知語が出現するたびに、インターネット経由でリアルタイムに学習をやり直すから。
単語の意味を無視して、文字の長さだけでベクトル化を行うから。

解答24

正解：2. 単語を文字単位（n-gram）に分割して内部的に扱うため、未知語でも部分的な文字列から意味を推定できるから。

（解説）
FastTextは、単語を「apple」という一塊としてだけでなく、「ap」「ppl」「le」といった部分文字列（サブワード）の集合として学習します。これにより、初めて見る単語（未知語）であっても、その中に含まれる部分文字列の情報を組み合わせて、妥当なベクトルを生成することが可能になります。

問題25

音声学や言語学における「音素（Phoneme）」の説明として、最も適切なものはどれか。

文の文法的な正しさを判定するための最小の単位。
特定の言語において、意味を区別することができる最小の音の単位。
人間の耳では聞き取ることが不可能な、超音波領域の音の波形。
単語の綴り（スペル）と発音の不一致を補正するためのルール。

解答25

正解：2. 特定の言語において、意味を区別することができる最小の音の単位。

（解説）
「音素」は、それ自体に意味はありませんが、入れ替えることで言葉の意味が変わる最小の単位です（例：「かた」と「はた」における /k/ と /h/）。一方「音韻（Phonology）」は、それらの音がその言語の中でどのように体系化され、人間がどう抽象的に認識しているかを扱う概念を指します。

問題26

大量の文書データから、そこに潜在する「話題（トピック）」を統計的に抽出する手法を何と呼ぶか。

トピックモデル
感情分析モデル
文法校正モデル
機械翻訳モデル

解答26

正解：1. トピックモデル

（解説）
トピックモデルは教師なし学習の一種であり、文書集合の中にどのような話題が混ざっているかを自動的に推定します。代表的な手法にLDA（潜在的ディリクレ配分法）があり、ニュース記事の自動分類や、マーケティングにおける口コミ分析などに利用されます。

問題27

「積層オートエンコーダ（Stacked Autoencoder）」の主な用途として、歴史的に重要だったものはどれか。

入力データの画像サイズを拡大（超解像）するため。
学習済みモデルを圧縮し、スマートフォンのような低スペック端末で動かすため。
複数のオートエンコーダを重ね、深層ニューラルネットワークの事前学習（Pre-training）として用いるため。
ニューラルネットワークの層を減らし、モデルを単純化するため。

解答27

正解：3. 複数のオートエンコーダを重ね、深層ニューラルネットワークの事前学習（Pre-training）として用いるため。

（解説）
積層オートエンコーダは、1層ずつ順番に学習（逐次的な自己符号化）を行い、それを積み重ねることで深いネットワークを構成します。これは、深層学習の初期において、勾配消失問題などで深い層の学習が困難だった時期に、良い初期値を設定するための「事前学習」手法として非常に重要な役割を果たしました。

問題28

「VAE (変分オートエンコーダ)」と、通常のオートエンコーダの最大の違いはどれか。

VAEはデータの圧縮のみを行い、復元を行うことができない。
VAEは潜在変数を固定の値ではなく、確率分布として扱う。
VAEは教師あり学習であり、全てのデータにラベルが必要である。
VAEは画像データには適用できず、数値データ専用である。

解答28

正解：2. VAEは潜在変数を固定の値ではなく、確率分布として扱う。

（解説）
通常のオートエンコーダは入力を特定の一点（ベクトル）に圧縮しますが、VAEは「平均」と「分散」を持つ確率分布へとエンコードします。その分布からサンプリングを行うことで、元のデータに似た「新しいデータ」を生成することができるため、生成モデルとして広く利用されています。

問題29

「U-Net」というネットワーク構造の最大の特徴であり、セグメンテーション（領域抽出）の精度向上に寄与している仕組みはどれか。

全ての層の活性化関数にシグモイド関数を使用している。
エンコーダ側の特徴マップを、デコーダ側の対応する層へ直接渡す「スキップ結合」。
学習中にランダムに全ての重みをリセットする機能。
画像を一度音声データに変換してから処理を行う仕組み。

解答29

正解：2. エンコーダ側の特徴マップを、デコーダ側の対応する層へ直接渡す「スキップ結合」。

（解説）
U-Netは、エンコーダ（収縮パス）で抽出された位置情報などの詳細な特徴を、デコーダ（拡張パス）の対応する層に直接結合（スキップ結合）します。これにより、デコーダで画像を復元する際に、失われがちな細かい輪郭などの情報を保持することができ、高精度なセグメンテーションが可能になります。

問題30

機械学習モデルの評価手法である「ホールドアウト検証」の説明として、最も適切なものはどれか。

手持ちのデータを「学習用」と「テスト用」に一度だけ分割し、精度を評価する。
データを1件ずつ抜き出し、それをテスト用、残りを学習用として全データ分繰り返す。
学習データを100倍に増やし、モデルが過学習するかどうかを判定する。
正解ラベルをあえて隠し、モデルに正解を予測させるプロセス全般を指す。

解答30

正解：1. 手持ちのデータを「学習用」と「テスト用」に一度だけ分割し、精度を評価する。

（解説）
ホールドアウト検証は、最もシンプルで計算負荷の低い評価手法です。元のデータセットから一定割合（例：80%）をモデルの訓練に使い、残りの「一度も見せていないデータ（例：20%）」で最終的な精度を測ります。ただし、データの分割の仕方に結果が左右されやすいという弱点があります。

問題31

「k-分割交差検証（k-fold Cross Validation）」の手順として、正しいものはどれか。

データをk個の等しいブロックに分け、各ブロックを一度ずつテスト用、残りを学習用として合計k回の評価を行う。
モデルのパラメータをk個用意し、それぞれを異なるコンピュータで並列に学習させる。
学習が終わるたびに、上位k個のデータのみを残して残りを破棄する。
テストデータをk回ランダムにシャッフルし、その平均精度を算出する。

解答31

正解：1. データをk個の等しいブロックに分け、各ブロックを一度ずつテスト用、残りを学習用として合計k回の評価を行う。

（解説）
k-分割交差検証は、ホールドアウト検証の弱点を補う手法です。全データをk個（例えば5個や10個）に分割し、そのうちの1つを評価用、残りを学習用とするサイクルを、評価用ブロックを入れ替えながらk回繰り返します。最後にk個の精度の平均をとることで、データの偏りに強い、より信頼性の高い評価が可能になります。

問題32

機械学習において、モデルが最終的に最小化を目指すべき「目標」として最も適切なものはどれか。

訓練誤差（学習用データに対する誤差）
汎化誤差（未知のデータに対する予測誤差）
学習時間（1エポックあたりの計算コスト）
特徴量の数（モデルに入力する変数の総数）

解答32

正解：2. 汎化誤差（未知のデータに対する予測誤差）

（解説）
機械学習の真の目的は、手元の学習データを覚えることではなく、これから出会う「未知のデータ」に対して正しく予測することです。訓練誤差が小さくても汎化誤差が大きい状態は「過学習（Overfitting）」と呼ばれます。優れたモデルとは、汎化誤差が最小になるように設計されたモデルのことです。

問題33

「統計的仮説検定」における基本的な考え方として、正しいものはどれか。

主張したい仮説が正しいことを、大量のデータを使って直接的に証明する。
「効果がない・差がない」とする帰無仮説を立て、それが起こる確率が極めて低いことを示して棄却する。
実験を行う前に、結論がどちらになるかをあらかじめ予測して固定する。
データの平均値と中央値が一致する場合にのみ、その仮説を正しいと判断する。

解答33

正解：2. 「効果がない・差がない」とする帰無仮説を立て、それが起こる確率が極めて低いことを示して棄却する。

（解説）
統計的仮説検定は「背理法」に近い考え方です。本来主張したい内容（対立仮説）を直接証明するのではなく、その逆の「差がない」という仮説（帰無仮説）を立て、それが統計的に「あり得ない（棄却される）」ことを示すことで、間接的に主張の妥当性を裏付けます。

問題34

深層学習などで重要な概念である「表現学習（Representation Learning）」を説明したものはどれか。

モデルの予測結果を、人間が理解しやすいグラフや図で表現する手法。
予測に有用な特徴量を、人間が手動で定義するのではなく、モデル自らがデータから自動的に学習するプロセス。
学習データのラベルを、別の言語に翻訳してモデルに入力すること。
学習済みのモデルを別のタスクに転用（転移学習）することの別名。

解答34

正解：2. 予測に有用な特徴量を、人間が手動で定義するのではなく、モデル自らがデータから自動的に学習するプロセス。

（解説）
従来の機械学習では、人間が「どのデータが重要か（特徴量）」を考えて抽出していましたが、深層学習ではニューラルネットワークが層を経るごとに、生データから抽象的で高度な特徴を自ら獲得していきます。これを表現学習と呼び、深層学習が高い性能を発揮する大きな要因の一つです。

問題35

多次元の損失関数において、ある次元では極小（谷）だが、別の次元では極大（山）となっている点を何と呼ぶか。

全域最適点
局所解
鞍点 (Saddle Point)
勾配消失点

解答35

正解：3. 鞍点 (Saddle Point)

（解説）
鞍点は、馬の鞍（くら）のような形をした点です。そこでは勾配（傾き）がゼロになるため、最適化アルゴリズム（SGDなど）が「ここが解だ」と勘違いして進まなくなり、学習が停滞する原因となります。高次元の深層学習においては、局所解よりもこの鞍点が学習を妨げる要因として注目されます。

問題36

「Permutation Importance」によって特徴量の重要度を計測する際の手順として、正しいものはどれか。

その特徴量のデータを「ゼロ」に書き換えて、精度を計測する。
その特徴量だけを学習から除外して、モデルを作り直す。
特定の特徴量の値をランダムに入れ替えて（シャッフルして）、予測精度がどの程度低下するかを確認する。
全ての特徴量を平均値に置き換えて、モデルの出力を比較する。

解答36

正解：3. 特定の特徴量の値をランダムに入れ替えて（シャッフルして）、予測精度がどの程度低下するかを確認する。

（解説）
Permutation Importanceは、ある特徴量の情報を「壊した（ランダムにした）」ときに、どれだけモデルが困るか（精度が落ちるか）を見る手法です。精度が大きく落ちるほど、その特徴量は予測に重要であったと判断できます。モデルを再学習させる必要がないため、効率的に重要度を評価できます。

問題37

日本の不正競争防止法において、保護の対象となる「営業秘密」として認められるために必要な3つの条件として、正しい組み合わせはどれか。

独創性、新規性、産業上の利用可能性
非公知性、有用性、秘密管理性
著作権性、商標性、特許性
継続性、経済性、公開性

解答37

正解：2. 非公知性、有用性、秘密管理性

（解説）
企業の情報が「営業秘密」として法的保護を受けるには、以下の3要件を全て満たす必要があります。
- 非公知性：一般に知られていないこと。
- 有用性：事業活動に役立つ情報であること。
- 秘密管理性：アクセス制限や「部外秘」の表示など、秘密として管理されていることが客観的にわかること。
このうち、特に「秘密管理性」の不備で保護が認められないケースが多く、実務上重要です。