01_類題_データサイエンス力



問題1

【カテゴリ:データサイエンス力】
次の行列
$$ A=\begin{pmatrix} 3 & 1\\ 0 & 2 \end{pmatrix} $$
の固有値の組み合わせとして最も適切なものを選べ。



解答1

解答:(解答記号:B)

解説

固有値$\lambda$は、次の固有方程式を満たす値である。
$$ \det(A-\lambda I)=0 $$
ここで$A-\lambda I$は
$$ A-\lambda I=\begin{pmatrix} 3-\lambda & 1\\ 0 & 2-\lambda \end{pmatrix} $$
よって行列式は上三角行列なので対角成分の積となり、
$$ \det(A-\lambda I)=(3-\lambda)(2-\lambda) $$
したがって
$$ (3-\lambda)(2-\lambda)=0 $$
より、固有値は$\lambda=3,\;2$である。よって正解は「$2$と$3$」でB。



問題2

【カテゴリ:データサイエンス力】
データ行列$X$(各列が変数、各行が観測)を平均0に中心化したとき、共分散行列$S$を
$$ S=\frac{1}{n-1}X^\top X $$
で定義する。このとき$S$について正しい性質として最も適切なものを選べ。



解答2

解答:(解答記号:C)

解説

中心化済みデータ行列$X$に対して
$$ S=\frac{1}{n-1}X^\top X $$
と定義される共分散行列$S$には、次の重要な性質がある。

1) 対称行列である
$X^\top X$は常に対称である。実際に
$$ (X^\top X)^\top=X^\top (X^\top)^\top=X^\top X $$
なので$S^\top=S$が成り立つ。

2) 半正定値(正半定)である
任意のベクトル$z$に対し
$$ z^\top Sz=\frac{1}{n-1}z^\top X^\top X z=\frac{1}{n-1}(Xz)^\top (Xz) $$
ここで$(Xz)^\top(Xz)$はベクトルの内積であり、必ず$0$以上になる。よって
$$ z^\top Sz\ge0 $$
が成り立つ。したがってCが正解。



問題3

【カテゴリ:ビジネス力】
製造ラインで温度・圧力・流量など複数センサ(変数)が強く相関しており、特徴量が冗長でモデル学習が不安定になっている。次のうち、主成分分析(PCA)を用いた対処として最も適切な説明を選べ。ここで、中心化したデータの共分散行列を$S$とする。



解答3

解答:(解答記号:A)

解説

PCAは、相関のある複数変数を「情報(分散)をなるべく保ったまま」少数の合成変数にまとめる代表的な方法である。中心化データに対する共分散行列$S$を用いると、PCAは次の枠組みで説明できる。

したがってAが正解。



問題4

【カテゴリ:データサイエンス力】
次の行列
$$ A=\begin{pmatrix} 2 & 0\\ 1 & 2 \end{pmatrix} $$
の固有値の組み合わせとして最も適切なものを選べ。



解答4

解答:(解答記号:A)

解説

固有値$\lambda$は次を満たす。
$$ \det(A-\lambda I)=0 $$
まず
$$ A-\lambda I=\begin{pmatrix} 2-\lambda & 0\\ 1 & 2-\lambda \end{pmatrix} $$
よって行列式は
$$ \det(A-\lambda I)=(2-\lambda)(2-\lambda)-0\cdot1=(2-\lambda)^2 $$
したがって
$$ (2-\lambda)^2=0 $$
より$\lambda=2$(重複度2)である。ゆえに正解はA。



問題5

【カテゴリ:データサイエンス力】
中心化済みのデータ行列$X$($n$行$p$列)から共分散行列を
$$ S=\frac{1}{n-1}X^\top X $$
と定義する。このとき、$S$の固有値について最も適切な説明を選べ。



解答5

解答:(解答記号:C)

解説

共分散行列$S$は
$$ S=\frac{1}{n-1}X^\top X $$
で定義される。この形から、$S$には次の性質がある。

1) 対称行列
$$ S^\top=\left(\frac{1}{n-1}X^\top X\right)^\top=\frac{1}{n-1}(X^\top X)^\top=\frac{1}{n-1}X^\top X=S $$
よって$S$は対称である。対称行列の固有値は実数になる。

2) 半正定値(正半定)
任意のベクトル$z$に対して
$$ z^\top S z=\frac{1}{n-1}z^\top X^\top X z=\frac{1}{n-1}(Xz)^\top(Xz) $$
右辺はベクトルの内積なので$0$以上である。したがって$S$は半正定値であり、固有値はすべて$0$以上になる。

以上より「固有値はすべて実数で、かつ$0$以上」が正しいためCが正解。



問題6

【カテゴリ:ビジネス力】
製造現場のセンサデータ(温度・圧力・流量など)を用いて異常検知モデルを作るにあたり、変数間の相関が強く多重共線性が疑われる。PCAで次元削減してからモデル化する方針を説明する文として最も適切なものを選べ。ここで共分散行列を$S$とする。



解答6

解答:(解答記号:C)

解説

PCA(主成分分析)は、入力変数間の相関が強いときに「情報(分散)をできるだけ保ったまま」少数の合成変数にまとめる教師なし学習の代表的手法である。中心化データの共分散行列$S$について

を表す。したがって、固有値が大きい順に上位の主成分を選び、そこへ射影して次元削減する説明が適切である。よってCが正解。



問題7

【カテゴリ:データサイエンス力】
次の行列
$$ A=\begin{pmatrix} 4 & 2\\ 1 & 3 \end{pmatrix} $$
の固有値の組み合わせとして最も適切なものを選べ。



解答7

解答:(解答記号:B)

解説

固有値$\lambda$は固有方程式
$$ \det(A-\lambda I)=0 $$
を満たす。まず
$$ A-\lambda I=\begin{pmatrix} 4-\lambda & 2\\ 1 & 3-\lambda \end{pmatrix} $$
よって行列式は
$$ \det(A-\lambda I)=(4-\lambda)(3-\lambda)-2\cdot1 $$
展開して
$$ (4-\lambda)(3-\lambda)-2=12-7\lambda+\lambda^2-2 $$
したがって
$$ \lambda^2-7\lambda+10=0 $$
因数分解すると
$$ (\lambda-5)(\lambda-2)=0 $$
より固有値は$5$と$2$。よって正解はB。



問題8

【カテゴリ:データサイエンス力】
相関係数$r$について、最も適切な説明を選べ。



解答8

解答:(解答記号:A)

解説

相関係数$r$(ピアソンの積率相関係数)は、2変数の線形関係の強さを表す代表的な指標である。中心化した2変数を$x$と$y$とすると、相関係数は「共分散を標準偏差で規格化したもの」として理解できる。したがって$r$は$-1$から$1$の範囲をとる。よってAが正解。



問題9

【カテゴリ:ビジネス力】
営業データで「訪問回数」と「受注金額」の相関係数$r$を計算したところ、$r=0.80$と高かった。これを踏まえた次の判断として最も適切なものを選べ。



解答9

解答:(解答記号:B)

解説

相関係数$r=0.80$は「訪問回数が多いほど受注金額も大きい傾向がある」という線形の関連を示す。一方で、相関が高いことだけで「訪問回数を増やせば受注が増える」といった因果関係は結論できない。例えば、優良顧客ほど訪問回数も多く受注金額も大きい(顧客規模が交絡している)場合、訪問回数と受注金額の相関は高くなるが、訪問回数自体が受注を増やす原因とは限らない。よってBが正解。



← → キーで移動 / Ctrl+P でPDF保存