第8章 AIに必要な数理・統計知識



問題1. 確率変数に関する以下の文章を読み、空欄(ア)(イ)に入る語句として最も適切な組み合わせを選べ。 ➡P224

確率変数は、サイコロを振ったときの出目のように、ランダムに変動する変数である。確率変数がとり得る値と、それぞれの値が観測される確率との対応を表現したものを(ア)という。気温などのように連続的な確率変数の場合、(ア)は(イ)関数によって表される。



解答1. A ➡P220

統計学における基礎的な概念について問う問題です。

確率変数は、観測するたびにランダムに変動する変数です。確率変数の例として、サイコロを振ったときの出目や気温などがあげられます。

確率分布は、確率変数がとり得る値と、それぞれの値が観測される確率との対応を表現したものです(ア)。サイコロの出目の例では、1~6までの目が出る確率をまとめたものが確率分布になります。このような離散的な確率変数における確率分布は、離散型分布と呼ばれます。

一方、気温のように連続的な確率変数の場合には、確率密度関数という関数を用いて確率分布を表現します(イ)。この場合の確率分布は、連続型分布と呼ばれます。また、ある確率変数の観測値に対応する確率密度関数の値は確率密度と呼ばれます。確率密度関数では、確率変数がある範囲のの値をとる確率を、下図のように関数の面積から求めることができます。図中のy=f(x)は確率密度関数、P(a≦X≦b)は確率変数Xがaからbの範囲内の値をとる確率です。

なお、連続確率関数という用語は一般的に使用されません。

以上のことから、(ア)に確率分布、(イ)に確率密度が入ります(A)。

試験対策
統計学における基礎的な概念を理解しておきましょう。



問題2. ある事象Aが起きたという条件のもとで、別の事象Bが起こる確率を指す用語として最も適切なものを選べ。 ➡P225



解答2. A ➡P220

条件付き確率に関する知識を問う問題です。

ある事象Aが起きたという条件のもとで、別の事象Bが起こる確率P(B|A)を条件付き確率と呼び、P(B|A)のように表記します(A)。事象Bの起こりやすさが事象Aに依存している場合、事象Bの起こる確率P(B)と条件付き確率P(B|A)が異なることがあります。たとえば、平時に火災が発生する確率よりも、地震発生後に火災が発生する確率の方が高いといったケースが考えられます。

なお、削除付き確率や推移確率という用語は一般的に使用されません(B、C)。また、同時確率とは、事象Aと事象Bが同時に起こる確率を指します(D)。

試験対策
条件付き確率の定義を覚えておきましょう。

参考
事象がBが起こる確率及び条件付き確率をP(B)とP(B|A)と略し、「AとBは独立である」といいます。これは事象Bの起こる確率が事象Aと無関係であることを意味します。



問題3. 数値データの特徴を表す値について説明する以下の文章を読み、空欄(ア)~(ウ)に入る語句として最も適切な組み合わせを選べ。 ➡P225

(ア)は、データを大きさの順に並べたときに中央に位置する値である。また、(イ)はデータの散らばりの度合いを表現する値であり、(イ)の正の平方根が(ウ)である。



解答3. C ➡P220

数値データの特徴を表す基本的な値についての知識を問う問題です。

中央値は、データを大きさの順に並べたときに中央に位置する値です(ア)。平均値と比較して、外れ値(ほかのデータから著しく離れたデータ)の影響を受けにくい特徴があります。なお、データ数が偶数の場合は、中央に位置する2つの値を平均して中央値を求めます。

分散は、データの散らばりの度合いを表現する値です(イ)。各データとデータ全体の平均との差を二乗し、それらを平均します。また、分散の正の平方根を標準偏差と呼びます(ウ)。分散や標準偏差の値が大きいほど、各データがよりばらついていると考えることができます。

また、期待値とは、ある確率分布に従って値を取り出すとき、最も取り出されやすいと考えられる代表的な値です。統計学では、データは複数の試行(確率変数を観測すること)によって得られた実現値(実際に観測された値)の集合であると考えます。つまり、各試行では、ある確率分布で定められた確率によって数値が決定し、各データ(実現値)が得られることになります。一般的に統計学で平均という場合は、観測されたデータの平均を指します。試行を重ねてデータ数を増加させることで、その平均値は期待値に近づいていきます。

以上のことから、(ア) に中央値、(イ) に分散、(ウ) に標準偏差が入ります (C)。

試験対策
数値データの性質を表す代表的な値を覚えておきましょう。



問題4. サイコロを振ったときの出目のように、離散型の確率変数に対応する確率分布を離散型分布と呼ぶ。離散型分布として、最も不適切なものを選べ。 ➡P226



解答4. B <- P221

代表的な確率分布に関する知識を問う問題です。

離散的な確率変数に対応する確率分布を離散型分布、連続な確率変数に対応する確率分布を連続型分布と呼びます (解答群を参照)。代表的な離散型分布として、ベルヌーイ分布二項分布ポアソン分布などが挙げられます。一方、連続型分布として正規分布などが挙げられます。

正規分布は、期待値$\mu$と分散$\sigma^2$を持つ確率変数$X$が従う釣り鐘型の連続型分布です (B)。

ベルヌーイ分布は、コインを投げたときの表・裏のように、2つに1つの結果のみが起こるような事象が従う最も簡単な分布です。ベルヌーイ分布では、片方の事象が起こる確率$P$、もう片方の事象は確率$1-P$で起こると仮定します (A)。

二項分布は、上記のコイン投げのような試行 (ベルヌーイ試行と呼びます) を複数回繰り返したとき、その時点での成功回数 (確率$P$の事象が起こった回数) が従う離散型分布です。コイン投げの例で説明すると、コインを$n$回投げたときに表が$x$回出る$X$の従う分布が二項分布です (C)。

ポアソン分布は、ある確率で起こる事象が一定の時間内に起きる回数$X$を考えたとき、$\sigma^2$0が従う離散型分布です。ポアソン分布は、一定期間内に起きる交通事故の回数などのように、普段あまり起こらない事象に対して利用されることが多い確率分布です (D)。

試験対策
代表的な確率分布の名称と特徴を覚えておきましょう。



問題5. 共分散や相関係数に関する説明として、最も不適切なものを選べ。 ➡P227



解答5. D <- P221

共分散や相関係数に関する知識を問う問題です。

共分散や相関係数は、2つの変数間の相関の程度を表す数値です (A、B)。
共分散は、2つの変数に正の相関がみられる場合には正の値を、負の相関がみられる場合には負の値をとりますが、相関がみられない場合には0に近い値をとります。
共分散の値のスケールは、計算に使用する変数の単位の組合せによって大きく異なるため、異なる変数の組み合わせ同士では値を比較することができません。そこで、共分散を$-1$から$1$の値をとるように正規化した、相関係数が利用されることがあります。相関係数には、1に近いほど変数の正の相関が強く、$-1$に近いほど負の相関が強いという性質があります (C)。なお、共分散は$-1$から$1$の範囲外の値をとることがあります (D)。

試験対策
共分散や相関係数の概要を理解しておきましょう。



問題6. 以下の文章を読み、空欄(ア)(イ)に入る語句として最も適切な組み合わせを選べ。 ➡P227

確率変数Xと確率変数Yがともに別の確率変数Zと強く相関している場合、XとYの相関も高くなりやすい。このとき、XとYに因果関係が想定できない場合、このようなXとYの相関のことを(ア)と呼ぶ。このとき、Zの影響を取り除いたXとYの相関係数を(イ)と呼ぶ。



解答6. B <- P221

擬似相関と偏相関係数に関する理解を問う問題です。

擬似相関とは、確率変数$X$と確率変数$Y$がともに別の確率変数$Z$と相関していて、$X$と$Y$に直接関係が設定できないときに、$X$と$Y$の相関のことです (ア)。
擬似相関が生じている場合、$X$と$Y$の直接的な関係を調べるためには、$Z$の影響を取り除く必要があります。このように、ある変数の影響を除いた相関関係のことを、偏相関係数と呼びます (イ)。
なお、無相関検定、偏相関関係という用語は一般的に使用されません。
以上のことから、(ア) に擬似相関、(イ) に偏相関係数が入ります (B)。

試験対策
擬似相関と偏相関係数の関係性を理解しておきましょう。

「風が吹けば桶屋が儲かる」ということわざは、擬似相関の例として見ることができます。風が吹くことと桶屋の利益の間に直接的な因果関係はありませんが、何らかの間接的な要因によって、関連があるように見える場合があります。



問題7. 度数分布に関する説明として、最も適切なものを選べ。 ➡P228



解答7. C <- P222

度数分布に関する知識を問う問題です。

度数分布は、ある変数を複数の階級に区分し、各階級に属するデータの個数を一覧にしたものです (C)。階級は、データの個数を集計するために設けられる値の区間 (範囲) です。ある階級の区間内に含まれるデータの個数を、その階級における度数と呼びます。また、各階級の区間内の中央の値を階級値といい、最も度数の大きい階級の階級値を最頻値 (モード) と呼びます。
たとえば、複数人による試験の点数のデータは以下の表のようにまとめることができます。

【度数分布の例】

階級 (点) 度数 (人)
30 未満 1
30 ~ 40 4
40 ~ 50 2
50 ~ 60 7
60 ~ 70 9
70 ~ 80 5
80 ~ 90 3
30

なお、ポアソン分布は、ある確率で生じる事象の一定期間における発生回数が従う分布であり、正規分布は、ある平均と分散を持つ連続な確率変数が従う確率分布です (A、D) (解答4参照)。機械学習モデルの予測値と正解ラベルとの対応を一覧にしたものは、混同行列と呼ばれます (D) (第3章 解答30を参照)。

試験対策
度数分布について理解しておきましょう。

試験対策
度数分布の階級ごとの度数を棒グラフで可視化したものをヒストグラムと呼びます。



問題8. 以下の文章を読み、空欄(ア)に入る語句として最も適切なものを選べ。 ➡P229

勾配降下法は、機械学習において誤差関数を最小化するために用いられる手法である。勾配降下法では、パラメータに関する(ア)を計算することで、誤差関数の値が小さくなる方向に繰り返しパラメータの更新を行う。



解答8. A <- P222

最適化における微分の役割について問う問題です。

機械学習では、モデルが出力する予測と教師データとの誤差を表す損失関数を、パラメータに関して最適化 (最小化) することで学習を行います。この最適化には勾配降下法が使用されます。

勾配降下法は、現在のパラメータ点における損失関数の勾配 (傾き) を求め、勾配を下る (損失関数の値が小さくなる) 方向にパラメータの更新を繰り返す手法です。関数の勾配は、パラメータに関して微分を計算することで求めることができます (A)。

微分は、関数に隠される値の増減を計算する道具であり、勾配降下法の計算には使用されません (B)。また、移動平均は、時系列データにおいて特徴量として使用できる指標のひとつです。各時刻に対し、その時刻から過去$n$期間の観測値の平均を計算することで求めることができます。この$n$は窓$n$などと呼ばれます。移動平均は、勾配降下法の計算には使用されません (C)。

さらに、分散はデータの散らばりの度合いを表す値であり、勾配降下法の計算には使用されません (D) (解答3を参照)。

試験対策
最適化における微分の役割を理解しておきましょう。

試験対策
実際には、損失関数は多くのパラメータに関する多変数関数です。勾配降下法では、各パラメータに対して、その軸における微分をそれぞれ求めます。このような、ある変数のみに関する微分は偏微分と呼ばれます。



問題9. ある座標系において2点間の距離や類似度を求めることができる指標として、最も不適切なものを選べ。 ➡P230



解答9. C <- P222

ある座標軸における2点間の距離や類似度を求める代表的な指標に関する問題です。

機械学習において、モデルの入力となるデータは、各特徴量を軸にとった多次元座標空間上の点として表すことができます。これらの点同士の近さや類似性といった性質を分析することは有益です。そのための代表的な指標として、ユークリッド距離マハラノビス距離コサイン類似度などが挙げられます。

ユークリッド距離は、2点間を結ぶ線分の長さで定義される距離です。普段私たちが使っている距離の概念に最も近く、広く使用されています (A)。

また、マハラノビス距離は、尺度 (特徴量) 間の相関関係を考慮した距離です。たとえば、データが密集している領域に存在する$A$点と、それ程でもない$B$点を考え、データの平均からのユークリッド距離は$A$と$B$も同じであるとします。このときマハラノビス距離では、データの平均からの距離は$A$点の方が大きくなります (B)。

コサイン類似度は、2点間の類似度を表す指標のひとつです。2点をベクトルで表し、2つのベクトルのなす角度を計算することで求めることができます (D)。

なお、サイン類似度という指標は一般的ではありません (C)。

試験対策
2点間の距離や類似度を表す代表的な指標を覚えておきましょう。

試験対策
ユークリッド距離やマハラノビス距離のほかにも、マンハッタン距離と呼ばれる指標が使用されることもあります。マンハッタン距離は、2点間の対応する各成分の差の絶対値を足し合わせたものです。



問題10. 以下の文章を読み、空欄(ア)に入る語句として最も適切なものを選べ。 ➡P231

自己(ア)は、起こる確率が低い事象ほど大きい値をとる量である。また、相互(ア)は、ある2つの事象において、どちらか一方を知ることで、もう一方の情報がどれほど得られるかを表す量である。



解答10. B <- P223

情報量および相互情報量に関する知識を問う問題です。

自己情報量は、確率的に発生するある事象が持つ情報の大きさを定式化した値です。起きる確率が低い事象ほど大きな値をとる性質があります。自己情報量は、ある1つの確率変数の実現値から計算されます。

一方、相互情報量は2つの確率変数から計算される値で、どちらか一方を知ることで、もう一方の情報がどれほど得られるかを表します。

情報理論におけるエントロピーとは自己情報量の期待値のことですが、自己エントロピー相互エントロピーという用語は一般的には使用されません (A)。

ビットは情報量の単位として使用されることがありますが、自己ビットや相互ビットという用語は一般的には使用されません (C)。相関は、2つの確率変数の関連性を表す値ですが、自己相関という概念はありますが、相互相関という概念は一般的ではありません (D)。

以上のことから、(ア) に情報量が入ります (B)。

試験対策
情報理論における基礎的なキーワードを覚えておきましょう。



問題11. 統計的仮説検定に関する以下の文章を読み、空欄(ア)(イ)に入る語句として最も適切な組み合わせを選べ。 ➡P231

統計的仮説検定では、(ア)仮説とそれを否定した(イ)仮説を用いて仮説の検証を行う。(ア)仮説のもとではほぼ起こらない現象が起きていることをデータから示すことで、(ア)を棄却し、(イ)仮説が正しいことを主張することができる。



解答11. A <- P223

統計的仮説検定に関する基礎的な知識を問う問題です。

統計的仮説検定は、データに関するある仮説を検証したい場合に使用される統計的な枠組みです。統計的仮説検定では、まず帰無仮説と呼ばれる仮説を立て (ア)、それを否定した対立仮説を用意します (イ)。次に、データからある確率分布に従う統計量を計算し、帰無仮説が正しいとして$H_0$が得られる確率を計算します。ここで、$H_0$が得られる確率が非常に低ければ、帰無仮説を棄却 (正しくなかったとして否定) し、対立仮説が正しいことを主張することができます。なお、反証仮説という用語は一般的に使用されません。

以上のことから、(ア) に帰無、(イ) に対立が入ります (A)。

試験対策
統計的仮説検定の基本的な流れを理解しておきましょう。



問題12. ロジスティック回帰でパラメータを最適化する際に使用される手法として、最も適切なものを選べ。 ➡P232



解答12. D <- P223

ロジスティック回帰 [第3章 解答4を参照] の最適化手法について問う問題です。

ロジスティック回帰におけるパラメータは、一般的に、最尤法と勾配降下法を組み合わせて最適化されます。ある母数持つ確率分布から、手元のデータがどの程度生成されやすいかを示した指標を尤度(ゆうど)と呼びます。最尤法*は、尤度が最も高くなるような母数の値を、その母数の推定値として採用する手法です (D)。

最小二乗法は、線形回帰において一般的に用いられるパラメータ最適化の手法であり、ロジスティック回帰におけるパラメータ最適化には使用されません (A)。最小二乗法は、説明変数の線形和と目的変数の差(残差)の二乗和を最小化する手法です。線形回帰における最小二乗法では、微分をゼロとおいた方程式を解くことによって、最適なパラメータを直接求めることができます。

最大二乗法や最頻値法は、パラメータを最適化する手法として一般的ではありません (B、C)。

試験対策
線形回帰やロジスティック回帰におけるパラメータ推定のアプローチを理解しておきましょう。

参考
統計学の文脈では、機械学習における教師データに対応する変数を目的変数、特徴量に対応する変数を説明変数と呼びます。

← → キーで移動 / Ctrl+P でPDF保存