51-01_類題_GPT_データサイエンス力

01_類題_データサイエンス力

問題1

【カテゴリ：データサイエンス力】
次の行列
$$ A=\begin{pmatrix} 3 & 1\\ 0 & 2 \end{pmatrix} $$
の固有値の組み合わせとして最も適切なものを選べ。

A $1$と$6$
B $2$と$3$
C $-2$と$-3$
D $3$と$5$

解答1

解答：(解答記号：B)

解説

固有値$\lambda$は、次の固有方程式を満たす値である。
$$ \det(A-\lambda I)=0 $$
ここで$A-\lambda I$は
$$ A-\lambda I=\begin{pmatrix} 3-\lambda & 1\\ 0 & 2-\lambda \end{pmatrix} $$
よって行列式は上三角行列なので対角成分の積となり、
$$ \det(A-\lambda I)=(3-\lambda)(2-\lambda) $$
したがって
$$ (3-\lambda)(2-\lambda)=0 $$
より、固有値は$\lambda=3,\;2$である。よって正解は「$2$と$3$」でB。

A：$1$と$6$は、対角成分の和$3+2=5$や積$3\times2=6$などを混同した選択肢である。固有値は「行列の要素を適当に掛け算して作る値」ではない。
C：$-2$と$-3$は、$A-\lambda I$の対角成分を$-(2-\lambda),-(3-\lambda)$のように誤って符号反転したイメージに引きずられた誤りである。固有方程式は$\det(A-\lambda I)=0$であり、固有値が自動的に負になるわけではない。
D：$3$と$5$は、固有値の1つを対角の$3$としつつ、もう1つをトレース$\operatorname{tr}(A)=3+2=5$と取り違えた選択肢である。トレースは固有値の総和に等しいが、トレース自体が固有値になるとは限らない（この例でも固有値は$2$と$3$で、$5$は総和）。

問題2

【カテゴリ：データサイエンス力】
データ行列$X$（各列が変数、各行が観測）を平均0に中心化したとき、共分散行列$S$を
$$ S=\frac{1}{n-1}X^\top X $$
で定義する。このとき$S$について正しい性質として最も適切なものを選べ。

A $S$は一般に直交行列である（$S^\top S=I$が成り立つ）
B $S$は一般に反対称行列である（$S^\top=-S$が成り立つ）
C $S$は常に対称行列であり、任意のベクトル$z$に対して$z^\top Sz\ge0$が成り立つ
D $S$は常に対角行列であり、対角成分は分散に一致する

解答2

解答：(解答記号：C)

解説

中心化済みデータ行列$X$に対して
$$ S=\frac{1}{n-1}X^\top X $$
と定義される共分散行列$S$には、次の重要な性質がある。

1) 対称行列である
$X^\top X$は常に対称である。実際に
$$ (X^\top X)^\top=X^\top (X^\top)^\top=X^\top X $$
なので$S^\top=S$が成り立つ。

2) 半正定値（正半定）である
任意のベクトル$z$に対し
$$ z^\top Sz=\frac{1}{n-1}z^\top X^\top X z=\frac{1}{n-1}(Xz)^\top (Xz) $$
ここで$(Xz)^\top(Xz)$はベクトルの内積であり、必ず$0$以上になる。よって
$$ z^\top Sz\ge0 $$
が成り立つ。したがってCが正解。

A：直交行列とは、列（または行）が互いに直交し長さ1で、$Q^\top Q=I$を満たす行列である。共分散行列$S$は一般に直交行列ではない。$S$は「分散や共分散」を表すもので、長さ保存（回転）を表す行列とは役割が異なる。
B：反対称行列は$A^\top=-A$を満たす行列で、対角成分が必ず0になる。共分散行列の対角成分は各変数の分散であり通常0ではないため、反対称にはならない。ここは「対称」と「反対称」の取り違えが典型的な誤りである。
D：$S$が対角行列になるのは、変数同士の共分散（非対角成分）がすべて0のときだけである。一般には変数間に相関があるため非対角成分は0にならない。なお「対角成分が分散に一致する」は正しいが、「常に対角行列」は誤り。

問題3

【カテゴリ：ビジネス力】
製造ラインで温度・圧力・流量など複数センサ（変数）が強く相関しており、特徴量が冗長でモデル学習が不安定になっている。次のうち、主成分分析（PCA）を用いた対処として最も適切な説明を選べ。ここで、中心化したデータの共分散行列を$S$とする。

A $S$の固有ベクトルを主成分方向として用い、固有値が大きい順に上位の主成分へ射影して次元削減する
B $S$の各要素を平均との差で割り、値が最大の要素を選んで特徴量選択する（これがPCAである）
C $S$が対称なので、固有値は必ずすべて負になる。したがって負の固有値が大きい順に主成分を選ぶ
D PCAは教師あり学習であり、目的変数$y$との相関が最も高い方向を固有値分解から直接得る

解答3

解答：(解答記号：A)

解説

PCAは、相関のある複数変数を「情報（分散）をなるべく保ったまま」少数の合成変数にまとめる代表的な方法である。中心化データに対する共分散行列$S$を用いると、PCAは次の枠組みで説明できる。

$S$の固有ベクトルが主成分方向（データの分散が大きくなる方向）になる。
対応する固有値は、その主成分方向に沿った分散（情報量）の大きさを表す。
よって、固有値が大きい順に上位$k$個の固有ベクトルを選び、データをその部分空間に射影することで次元削減を行う。

したがってAが正解。

B：これはPCAではなく、単純な「要素の大きさに基づく特徴量選択」の発想である。PCAは行列$S$の要素の大小で特徴を選ぶのではなく、$S$の固有値分解（または特異値分解）により「合成変数（主成分）」を作って射影する点が本質である。
C：$S$は対称であり、さらに共分散行列は半正定値なので固有値は$0$以上になる（負にはならない）。「対称だから負になる」は誤りで、対称行列は固有値が実数になるのが正しい性質である。負になるかどうかは半正定値かどうかに依存する。
D：PCAは教師なし学習であり、目的変数$y$を使わずに入力特徴量の分散構造だけから主成分を求める。目的変数との関係を最大化したいなら、偏最小二乗法（PLS）や線形判別分析（LDA）など、目的変数を利用する手法が候補になる。PCAを「$y$との相関が最大の方向を求める手法」とするのは定義の誤りである。

問題4

【カテゴリ：データサイエンス力】
次の行列
$$ A=\begin{pmatrix} 2 & 0\\ 1 & 2 \end{pmatrix} $$
の固有値の組み合わせとして最も適切なものを選べ。

A $2$と$2$
B $1$と$3$
C $0$と$4$
D $-2$と$-2$

解答4

解答：(解答記号：A)

解説

固有値$\lambda$は次を満たす。
$$ \det(A-\lambda I)=0 $$
まず
$$ A-\lambda I=\begin{pmatrix} 2-\lambda & 0\\ 1 & 2-\lambda \end{pmatrix} $$
よって行列式は
$$ \det(A-\lambda I)=(2-\lambda)(2-\lambda)-0\cdot1=(2-\lambda)^2 $$
したがって
$$ (2-\lambda)^2=0 $$
より$\lambda=2$（重複度2）である。ゆえに正解はA。

A：正しい。固有値は$2$が2回出る（重複固有値、代数的重複度が2）。
B：$1$と$3$は「対角成分の平均が2なので、そこから±1ずれる」といった根拠のない推測を誘う紛らわしい選択肢である。固有値は必ず固有方程式から求める必要がある。
C：$0$と$4$は、トレース$\operatorname{tr}(A)=2+2=4$と行列式$\det(A)=4$を混同し、「積が4なら$0$と$4$でも…」のような誤解を狙ったもの。固有値の積は行列式に等しいが、$0$と$4$なら積は0であり行列式4と一致しないため誤り。
D：$-2$と$-2$は、$A-\lambda I$の$2-\lambda$を$-(2-\lambda)$のように誤って符号反転してしまう典型ミスを狙ったもの。固有値が負になるかどうかは行列の性質次第であり、この行列では固有方程式から$\lambda=2$のみが得られる。

問題5

【カテゴリ：データサイエンス力】
中心化済みのデータ行列$X$（$n$行$p$列）から共分散行列を
$$ S=\frac{1}{n-1}X^\top X $$
と定義する。このとき、$S$の固有値について最も適切な説明を選べ。

A 固有値は一般に複素数になりうるので、主成分分析では実数部だけを使う
B 固有値は必ず$1$になる（正規化されているため）
C 固有値はすべて実数で、かつ$0$以上である
D 固有値は必ず負であり、絶対値が大きいものほど分散が大きい

解答5

解答：(解答記号：C)

解説

共分散行列$S$は
$$ S=\frac{1}{n-1}X^\top X $$
で定義される。この形から、$S$には次の性質がある。

1) 対称行列
$$ S^\top=\left(\frac{1}{n-1}X^\top X\right)^\top=\frac{1}{n-1}(X^\top X)^\top=\frac{1}{n-1}X^\top X=S $$
よって$S$は対称である。対称行列の固有値は実数になる。

2) 半正定値（正半定）
任意のベクトル$z$に対して
$$ z^\top S z=\frac{1}{n-1}z^\top X^\top X z=\frac{1}{n-1}(Xz)^\top(Xz) $$
右辺はベクトルの内積なので$0$以上である。したがって$S$は半正定値であり、固有値はすべて$0$以上になる。

以上より「固有値はすべて実数で、かつ$0$以上」が正しいためCが正解。

A：これは一般の（非対称な）行列の話と混同している。共分散行列$S$は対称行列なので固有値は実数であり、「実数部だけを使う」という操作は不要で誤り。
B：固有値が必ず$1$になるのは誤り。固有値はデータの分散構造に依存し、一般にさまざまな値をとる。「正規化（標準化）」をしても、共分散行列が単位行列になるとは限らない（相関が残るため）。
D：半正定値であるため固有値は負にならない。負の固有値を前提に「絶対値が大きいほど分散が大きい」とするのは、分散（本来0以上）という概念と矛盾している。

問題6

【カテゴリ：ビジネス力】
製造現場のセンサデータ（温度・圧力・流量など）を用いて異常検知モデルを作るにあたり、変数間の相関が強く多重共線性が疑われる。PCAで次元削減してからモデル化する方針を説明する文として最も適切なものを選べ。ここで共分散行列を$S$とする。

A PCAは目的変数を用いる手法であり、異常ラベルが無いと適用できない
B $S$の固有値が小さい主成分から順に選ぶと、ノイズが減って説明力が最大化される
C PCAでは$S$の固有ベクトルを用いてデータを回転し、固有値が大きい主成分ほど分散（情報量）が大きいので、上位の主成分を残して次元削減する
D PCAは各変数の平均との差を足し合わせて1変数にする手法であり、固有値分解は不要である

解答6

解答：(解答記号：C)

解説

PCA（主成分分析）は、入力変数間の相関が強いときに「情報（分散）をできるだけ保ったまま」少数の合成変数にまとめる教師なし学習の代表的手法である。中心化データの共分散行列$S$について

$S$の固有ベクトル：主成分方向（データの分散が大きくなる直交方向）
対応する固有値：その主成分方向の分散（情報量）

を表す。したがって、固有値が大きい順に上位の主成分を選び、そこへ射影して次元削減する説明が適切である。よってCが正解。

A：PCAは教師なし学習であり、目的変数やラベルを使わない。ラベルなしデータでも適用できるため誤り。ラベルを使う手法の例としては、線形判別分析（LDA）などがある。
B：固有値が小さい主成分は分散が小さく、一般に「情報量が少ない方向」である。ノイズ成分が含まれる場合もあるが、「小さい固有値から順に選ぶと説明力が最大化」は逆である。PCAの基本は「固有値が大きい主成分を残す」。
D：これは単なる加算集約の説明でありPCAではない。PCAは固有値分解（または特異値分解）により直交基底（主成分）を求め、射影することで合成変数を作る。固有値分解が不要という主張は誤り。

問題7

【カテゴリ：データサイエンス力】
次の行列
$$ A=\begin{pmatrix} 4 & 2\\ 1 & 3 \end{pmatrix} $$
の固有値の組み合わせとして最も適切なものを選べ。

A $7$と$0$
B $5$と$2$
C $4$と$3$
D $1$と$6$

解答7

解答：(解答記号：B)

解説

固有値$\lambda$は固有方程式
$$ \det(A-\lambda I)=0 $$
を満たす。まず
$$ A-\lambda I=\begin{pmatrix} 4-\lambda & 2\\ 1 & 3-\lambda \end{pmatrix} $$
よって行列式は
$$ \det(A-\lambda I)=(4-\lambda)(3-\lambda)-2\cdot1 $$
展開して
$$ (4-\lambda)(3-\lambda)-2=12-7\lambda+\lambda^2-2 $$
したがって
$$ \lambda^2-7\lambda+10=0 $$
因数分解すると
$$ (\lambda-5)(\lambda-2)=0 $$
より固有値は$5$と$2$。よって正解はB。

A：$7$と$0$は、トレース$\operatorname{tr}(A)=4+3=7$を「固有値の1つ」と誤解し、もう1つを$0$にしてしまう誤りである。固有値の和はトレースに等しいが、トレース自体が固有値になるとは限らない。また$7$と$0$の積は$0$で、行列式$\det(A)=4\cdot3-2\cdot1=10$と一致しない点でも誤り。
B：正しい。固有方程式から$5$と$2$が得られる。
C：$4$と$3$は「対角成分がそのまま固有値になる」と思い込む典型ミスを狙った選択肢である。三角行列（上三角・下三角）なら対角成分が固有値だが、この行列は三角行列ではないため一般には成り立たない。
D：$1$と$6$は、和が$7$でトレースと一致するため一見もっともらしいが、積が$6$となり行列式$10$と一致しない。固有値の和=トレース、固有値の積=行列式の両方を同時に満たす必要がある点が誤り。

問題8

【カテゴリ：データサイエンス力】
相関係数$r$について、最も適切な説明を選べ。

A $r$は共分散を各変数の標準偏差で割って得られ、$-1$から$1$の範囲をとる
B $r$は外れ値の影響を一切受けないため、常に頑健（ロバスト）な指標である
C $r$は因果関係の強さを表し、$|r|$が大きいほど必ず因果が強い
D $r$はデータ数$n$に依存せず、どのようなデータでも必ず$0$になる

解答8

解答：(解答記号：A)

解説

相関係数$r$（ピアソンの積率相関係数）は、2変数の線形関係の強さを表す代表的な指標である。中心化した2変数を$x$と$y$とすると、相関係数は「共分散を標準偏差で規格化したもの」として理解できる。したがって$r$は$-1$から$1$の範囲をとる。よってAが正解。

A：正しい。相関係数は共分散を標準偏差で割って規格化することで、単位の影響を取り除き、$-1$から$1$の範囲に収めた指標である。$r=1$は完全な正の線形関係、$r=-1$は完全な負の線形関係を表す。
B：誤り。ピアソンの相関係数は平均や分散を用いるため、外れ値の影響を受けやすい。外れ値に頑健な指標としては、順位に基づくスピアマンの順位相関係数などが用いられることがある。
C：誤り。相関はあくまで「同時に変動する傾向」を表すもので、因果関係を直接示すものではない。交絡要因があると、因果がなくても相関が高く見えることがある。これは「相関と因果の混同」という典型的な誤りである。
D：誤り。$r$はデータに依存してさまざまな値をとる。データ数$n$が変わると推定のばらつきや検定の有意性は変わりうるが、値が「必ず0になる」ことはない。これは「相関がない場合の理想値（0）」をすべてのデータに当てはめてしまう誤りである。

問題9

【カテゴリ：ビジネス力】
営業データで「訪問回数」と「受注金額」の相関係数$r$を計算したところ、$r=0.80$と高かった。これを踏まえた次の判断として最も適切なものを選べ。

A $r=0.80$なので、訪問回数を増やせば必ず受注金額が増えると結論できる
B 高い相関は「線形に一緒に動く傾向」を示すが、因果を主張するには交絡の検討や追加分析が必要である
C $r=0.80$は$1$に近いので、データに外れ値が混じっていても結果は変わらない
D 相関係数が高いときは、必ずPCAを実施して1変数に圧縮しないといけない

解答9

解答：(解答記号：B)

解説

相関係数$r=0.80$は「訪問回数が多いほど受注金額も大きい傾向がある」という線形の関連を示す。一方で、相関が高いことだけで「訪問回数を増やせば受注が増える」といった因果関係は結論できない。例えば、優良顧客ほど訪問回数も多く受注金額も大きい（顧客規模が交絡している）場合、訪問回数と受注金額の相関は高くなるが、訪問回数自体が受注を増やす原因とは限らない。よってBが正解。

A：誤り。これは相関と因果の混同である。相関が高くても、交絡要因や逆因果（受注が見込めるから訪問が増える）などの可能性があるため、「必ず増える」とは言えない。
B：正しい。因果を検討するには、顧客規模や担当者の違いなどの交絡を考え、層別、回帰分析、A/Bテストなどの追加分析が必要になる。
C：誤り。ピアソンの相関係数は外れ値の影響を受けやすい。$r$が高くても、少数の外れ値が相関を押し上げている可能性があるため、散布図の確認やロバスト指標の併用が重要である。
D：誤り。PCAは多数の相関した変数を「情報を保ちながら低次元にする」ための手法であり、相関が高い2変数を必ず1変数に圧縮するための義務的手順ではない。ビジネス上は解釈性（訪問回数という行動指標）も重要で、目的に応じて回帰や因果推論の枠組みを検討すべきである。