以下の記述を読み、空欄ア、イに入る語句の組み合わせとして、最も適切なものを選べ。
コインを投げて、表が出たか裏が出たかを記録することにする。表が出たときは1、裏が出たときは0をとる変数$X$が従う確率分布は( ア )で表現できる。コイン投げを$N$回繰り返した際の表が出る回数が従う分布は( イ )で表現できる。
A. (ア)ベルヌーイ分布 (イ)二項分布
B. (ア)正規分布 (イ)二項分布
C. (ア)ベルヌーイ分布 (イ)正規分布
D. (ア)二項分布 (イ)正規分布
確率変数とは、事象に対して、何らかの実数値を定める対応関係、あるいはその値のことを指します。例えば、さいころを投げた際に出る目の値は $1 \sim 6$ のいずれかであり、それぞれの目が出る確率は $1/6$ です。このため、さいころの出目の値は確率変数であるといえます。
確率分布は、確率変数がとり得る値と、その確率との対応を表した分布です。ベルヌーイ分布と二項分布はともに、変数が離散的な値 ($0, 1, 2, \dots$) をとる離散型確率分布です。結果が $0$ または $1$ (成功/失敗) の値をとる試行に対して、1回あたりの成功/失敗の確率を表した分布がベルヌーイ分布であり、その試行を $N$ 回繰り返した際の成功回数を確率変数とした分布が二項分布です。以上より、組み合わせが適切な選択肢 A が正解です。
また、離散型確率変数の各値に対する確率を定義する関数を確率質量関数といい、ベルヌーイ分布と二項分布の確率質量関数のグラフを示すと、以下のようになります。
正規分布(ガウス分布)は連続型確率分布の一種であり、結果が連続値となるような場合に用いられます。この問題のような、結果が離散的な試行に対して正規分布を用いることはできません (B、C、D)。
<図ID--->)に置換しました。$1/6$, $1 \sim 6$)に整えました。箱ひげ図を描画する際に用いられる統計量として、最も適切なものを選べ。
A. 分散
B. 標準偏差
C. 中央値
D. 相関係数
箱ひげ図はデータのばらつきを示すためのグラフです。箱ひげ図を描く方法はいくつかありますが、通常、四分位数(第一四分位数・中央値・第三四分位数)、最大値、最小値、平均値を用いて描かれます。
箱ひげ図の例を以下に示します。
【箱ひげ図の例】
箱の左側の枠線は第一四分位数、中央の線は中央値、右側の枠線は第三四分位数を表し、箱の中の×印は平均値を表します。
以上より、選択肢Cが正解です。
分散、標準偏差、相関係数などは、箱ひげ図を描く際に用いられません(A、B、D)。
<図PAGE_ID-n--->)に置換しました。ある企業における従業員280名の年間出張回数を調査し、その結果をヒストグラムで可視化した。結果を以下に示す。
データ分布の傾向から、年間出張回数に対する最頻値・中央値・平均値についての大小関係として、最も適切なものを選べ。
A. 最頻値 $\le$ 中央値 $\le$ 平均値
B. 最頻値 $\le$ 中央値 $=$ 平均値
C. 平均値 $=$ 中央値 $\le$ 最頻値
D. 平均値 $\le$ 中央値 $\le$ 最頻値
<図PAGE_ID-n--->)へ置換しました。代表値を表す統計量には、平均値、中央値、最頻値があります。
平均値は、すべてのデータを足したものをデータの数で割った値です。
ここでは、$N = 280 \,\text{名}$ に対するアンケートの結果をそれぞれ $x_i \, (i = 1, \cdots, N)$ と表すと、平均値は次のようになります。
$$ \bar{x} = \frac{x_1 + \cdots + x_N}{N} $$
中央値は、データ $x_i \, (i = 1, \cdots, N)$ を昇順に並べたときにちょうど中央に存在する値です。
例えば、「1, 4, 10, 12, 13」に対する中央値は10です。このように、データが奇数個の場合
055_165_1
データに対しては中央の値が一意に定まります。
一方、偶数個のデータの場合は中央の値が複数存在するので、その平均を中央値とします。例えば、「2, 5, 6, 8」に対して、このデータの中央に存在する値は「5, 6」です。よって、このデータの中央値は $5.5$ となります。
最頻値は、$x_i \, (i = 1, \cdots, N)$ の中で、最も頻繁に出現する値です。例えば、「1, 3, 3, 5, 5, 5, 8」の最頻値は5です。
平均値、中央値、最頻値は、データによってそれらの大小関係が異なります。その中でも、単峰(山が1つ)であって、右に裾が長い場合、または左に裾が長い場合には、それぞれ次のような並びとなることが多くなります。
右に裾が長い場合:
$$ \text{最頻値} < \text{中央値} < \text{平均値} $$
左に裾が長い場合:
$$ \text{平均値} < \text{中央値} < \text{最頻値} $$
図で表すと次のようになります。
【右に裾が長い場合】
056_165_2
【対称の場合】
【左に裾が長い場合】
本問においては、データが右に裾の長い分布をしています。
以上より、選択肢Aが正解です。
参考
平均値は、極端に大きい値や小さい値の影響を受けて、中央値や最頻値と乖離する場合があることに注意が必要です。
例えば、厚生労働省の統計「所得金額階級別世帯数」(2022(令和4)年 国民生活基礎調査の概況)の度数分布において、平均所得金額は $545.7 \,\text{万円}$ ですが、中央値は $423 \,\text{万円}$ となっています(https://www.mhlw.go.jp/toukei/saikin/hw/k-tyosa/k-tyosa22/dl/03.pdf)。
所得金額は右に裾が広いことが知られており、平均値と中央値の間で $100 \,\text{万円}$ 以上もの乖離が発生しています。
このような場合、多くの人にとって中央値のほうが実態にあう数値と感じられます。
\textを用いて数値との間にスペースを挿入しました。以下に示す確率密度関数のグラフのうち、標準正規分布として、最も適切なものを選べ。なお、$X$は確率変数である。
A.
B.
C.
D.
[図:...] を規定のマーカー形式( <図ID---> ... <---> )に置換。正規分布(ガウス分布)の確率密度関数のパラメータは平均と分散の2つです。
正規分布の確率密度関数を図に示すと、平均を中心とする釣鐘型の形が描かれます。この稜線は、分散の値が大きいほどなだらかな線を描きます。
特に、平均が $0$、分散が $1$ の正規分布を標準正規分布と呼びます。標準正規分布の確率密度関数のグラフは以下のようになります。
以上より、選択肢Bが正解です。
分散が $1$ の正規分布では、横軸の値が「平均 $\pm 1$」のとき、縦軸の値が $0.25$ となります。AとCの図は平均が $0$ ではないため、標準正規分布のグラフではありません。
Dの図は、離散型確率分布の1つである二項分布のグラフです。
**)で強調しました。<図...--->)へ変換しました。$0$, $1$ 等の前後をMarkdown形式として整えました。データ $(x, y)$ に直線的な関係があると推察できるときに、最小二乗法を用いると、直線 $y=ax+b$ (1次関数)を求めることができる。最小二乗法に関する記述として、最も適切なものを選べ。
A. 最小二乗法を用いると、実測値と予測値の誤差を二乗したものの総和が最も小さくなるパラメータが求められる
B. 最小二乗法を用いると、必ずすべてのデータを通過するパラメータが求められる
C. 最小二乗法では、繰り返し計算を行うことで予測精度を上げることができる
D. 同じデータに対して、最小二乗法を実行すると、毎回違うパラメータが得られる
データの組 $(x, y)$ に直線的な関係があると推察できるときに、最小二乗法を用いると、近似直線 $y=ax+b$(一次関数)の傾き $a$ と切片 $b$ を求めることができます。このとき、データと直線の距離(誤差)を二乗したものの総和は最小になります(A)。
最小二乗法で求められる直線 $y=ax+b$ は、すべてのデータを通過する直線とは限りません(B)。また、最小二乗法の最適解は、繰り返し計算(更新)を使っても求めることができますが、解析的に求めることも可能です(C)。したがって、同じデータ、同じモデルに対して最小二乗法を実行すると、必ず同じパラメータが得られます(D)。
ベクトル $\mathbf{k} = (3, 4, 5, 6)$ とベクトル $\mathbf{l} = (1, 2, 7, 8)$ の標準内積として、最も適切なものを選べ。
A. $(3, 8, 35, 48)$
B. $(24, 28, 10, 6)$
C. $94$
D. $\sqrt{94}$
ベクトルの内積(標準内積)は、ベクトルの各成分の値同士を掛け、それらを足し合わせたスカラー値として定義されます。
ベクトル $\mathbf{k}$ の成分を $(k_1, k_2, k_3, k_4)$、ベクトル $\mathbf{l}$ の成分を $(l_1, l_2, l_3, l_4)$ とおくと、$\mathbf{k}$ と $\mathbf{l}$ の内積は次のように表されます。
$$k_1 l_1 + k_2 l_2 + k_3 l_3 + k_4 l_4$$
設問では、$\mathbf{k}$ と $\mathbf{l}$ のそれぞれの各成分の値同士を掛けると $(3, 8, 35, 48)$ となり、それらを足し合わせると 94 となります(C)。
選択肢Bはベクトルの成分を互い違いに掛けており、AとBはベクトルの各成分を掛けたのみで足し合わせていないため不適切です。Dは、各成分の積の和を求めるまでは適切ですが、平方根をとる必要はないため不適切です。
$$...$$)へ変更。2つの行列 $M = \begin{pmatrix} m_{11} & m_{12} \\ m_{21} & m_{22} \end{pmatrix}, N = \begin{pmatrix} n_{11} & n_{12} \\ n_{21} & n_{22} \end{pmatrix}$ が与えられたとき、行列積 $MN$ を
$$ MN = \begin{pmatrix} m_{11}n_{11} + m_{12}n_{21} & m_{11}n_{12} + m_{12}n_{22} \\ m_{21}n_{11} + m_{22}n_{21} & m_{21}n_{12} + m_{22}n_{22} \end{pmatrix} $$
と定義する。以下の行列 $M$、行列 $N$ の行列積 $MN$ として、最も適切なものを選べ。
$$ M = \begin{pmatrix} 1 & 2 \\ 3 & 4 \end{pmatrix}, \quad N = \begin{pmatrix} 5 & 6 \\ 7 & 8 \end{pmatrix} $$
A. $\begin{pmatrix} 5 & 12 \\ 21 & 32 \end{pmatrix}$
B. $\begin{pmatrix} 17 & 23 \\ 39 & 49 \end{pmatrix}$
C. $\begin{pmatrix} 19 & 22 \\ 43 & 50 \end{pmatrix}$
D. $\begin{pmatrix} 23 & 34 \\ 31 & 46 \end{pmatrix}$
$$...$$)へ変更しました。行列積 $\mathbf{MN}$ の $i$ 行 $j$ 列の成分は、$\mathbf{M}$ の $i$ 行目の成分と $\mathbf{N}$ の $j$ 列目の成分の値同士を掛け、それらを足し合わせたものです。
設問における $\mathbf{MN}$ の各成分は、以下のようになります。
よって、
$$ \mathbf{MN} = \begin{pmatrix} 19 & 22 \\ 43 & 50 \end{pmatrix} $$
となり、選択肢Cが正解です。
Aは要素ごとの積(アダマール積)であり、一般的な行列積とは異なります。
Bは計算方法が不適切です。
Dは行列積 $\mathbf{MN}$ ではなく行列積 $\mathbf{NM}$ の値です。行列積はスカラーの積と異なり、どちらを左から掛けるかで値が変化します(非可換性)。
関数 $F(x, y) = (x+y)^2$ を $x$ について偏微分した結果として、最も適切なものを選べ。
A. $2x$
B. $2y$
C. $(x+y)$
D. $2(x+y)$
$F(x, y) = (x + y)^2 = x^2 + 2xy + y^2$ より、
$$ \frac{\partial F}{\partial x} = 2(x + y) $$
になります(D)。
多変数関数を特定の変数について偏微分する際は、対象の変数以外を定数とみなして微分を行います。$y^2$ は $x$ を含まない項であるため、$x$ について偏微分すると $0$ となります。
以下の方法でも解くことができます。
$z = (x + y)^2$、$t = x + y$ とおくと、$z = t^2$ です。
合成関数の微分の性質(連鎖律)を用いて、$z$ の $x$ についての偏微分 $\frac{\partial z}{\partial x}$ は、
$$ \frac{\partial z}{\partial x} = \left( \frac{\partial z}{\partial t} \right) \times \left( \frac{\partial t}{\partial x} \right) $$
と表すことができます。
$$ \frac{\partial z}{\partial t} = 2t, \quad \frac{\partial t}{\partial x} = 1 $$
となるため、
$$ \frac{\partial z}{\partial x} = 2t \times 1 = 2(x + y) $$
になります。
$0$ に統一しました。以下の記述を読み、空欄ア、イに入る語句の組み合わせとして、最も適切なものを選べ。
名義尺度のデータの例としては( ア )が挙げられる。
比例尺度のデータの例としては( イ )が挙げられる。
A. (ア)郵便番号 (イ)順位
B. (ア)郵便番号 (イ)身長
C. (ア)気温 (イ)身長
D. (ア)順位 (イ)気温
データはその性質によって、数値演算を行うことができない質的データ(質的変数)と、数値演算を行うことができる量的データ(量的変数)に分けられます。質的データはさらに名義尺度と順序尺度に、量的データはさらに間隔尺度と比例尺度に分けられます。
● 質的データ(質的変数)
・ 名義尺度$\cdots\cdots\cdots$個々のデータを識別するための名称や固有番号など(例:郵便番号、氏名)
・ 順序尺度$\cdots\cdots\cdots$大小関係や順序には意味があり、間隔や比率には意味がない数値(例:順位)
● 量的データ(量的変数)
・ 間隔尺度$\cdots\cdots\cdots$目盛りが等間隔になっており、その間隔に意味がある数値(例:点数、気温)
・ 比例尺度$\cdots\cdots\cdots$間隔に加えて比率にも意味がある数値(例:身長、値段)
以上より、組み合わせが適切な選択肢Bが正解です。
量的データ(量的変数)に関する以下の記述を読み、空欄ア、イに入る語句の組み合わせとして、最も適切なものを選べ。
間隔尺度のデータの例としては( ア )が挙げられる。
比例尺度のデータの例としては( イ )が挙げられる。
A. (ア)気温 (イ)順位
B. (ア)西暦 (イ)身長
C. (ア)睡眠時間 (イ)身長
D. (ア)郵便番号 (イ)気温
<<
量的データ(量的変数)に関する問題です。
量的データのうち、目盛りが等間隔になっており、その間隔に意味がある変数のことを間隔尺度といいます。間隔尺度の例として、気温や西暦、テストの点数などが挙げられます。気温は間隔には意味がありますがその比率には意味がないので、「気温が $19 \,\text{℃}$ から $1 \,\text{℃}$ 上昇し、$20 \,\text{℃}$ になった」という表現は成り立ちますが、「気温が $10 \,\text{℃}$ から $20 \,\text{℃}$ に上昇し、2倍になった」という表現は成り立ちません。
これに対し、間隔だけでなく比率にも意味がある量的データを比例尺度といいます。比例尺度の例として、身長、速度、睡眠時間などが挙げられます。身長は、$150 \,\text{cm}$ から $30 \,\text{cm}$ 伸びると $180 \,\text{cm}$ になります。身長は比例尺度の変数なので、この変化について「身長が1.2倍になった」と表現することができます。身長や睡眠時間の例からわかるように、比例尺度には物理的なゼロを表す原点が存在します。
以上より、組み合わせが適切な選択肢Bが正解です。
選択肢Dの「郵便番号」は、質的データの中に含まれる名義尺度にあたります。
また、選択肢Aの「順位」は、質的データの中に含まれる順序尺度にあたります。
\, )を挿入し、立体(\text{})に統一しました。**)で強調しました。ある修理工場では、製品Aと製品Bの2種類を取り扱っている。製品の個数の割合は、製品Aは $40 \,\%$、製品Bは $60 \,\%$ である。製品は検査後に、修理が必要と判断されれば修理対象棚に配置、必要ないと判断されれば保留棚に配置される。検査後に修理が必要と判断される確率は、製品Aにおいて 0.5、製品Bにおいて 0.4 であることがわかっている。このとき、修理対象棚からランダムに1つを抽出した製品が製品Aである確率を求めたい。
ベイズの定理を使って、次のように計算を行った。ランダムに選んだ製品がAである事象を $A$、Bである事象を $B$ とし、修理棚に配置されている事象を $S$ と表現する。
$$ P(A|S) = \frac{P(S|A)P((ア))}{P((イ))} = \frac{(ウ)}{0.5 \times 0.4 + 0.4 \times 0.6} $$
空欄(ア)~(ウ)に入る数式の組み合わせとして、正しいものを選べ。
A. (ア)$A$ (イ)$S$ (ウ)$0.4 \times 0.6$
B. (ア)$S$ (イ)$A \cup B$ (ウ)$0.5 \times 0.4$
C. (ア)$A$ (イ)$A \cup B$ (ウ)$0.5 \times 0.4$
D. (ア)$A$ (イ)$S$ (ウ)$0.5 \times 0.4$
$$` による独立行表示に昇格させ、視認性を向上させました。
* **単位・数値の整形**: パーセント表記をSI規定に準じ、数式モード内での立体 `$ \,\% $ 形式に整えました。## 11. をそのまま維持し、空欄(ア)~(ウ)の形式を保持しました。ベイズの定理、および確率や条件付き確率の理解を問う問題です。
事象 $A$ が起きたという条件の下で、事象 $S$ が起きるという条件付き確率 $P(S|A)$ の定義は以下です。
$$ \begin{aligned} P(S|A) &= \frac{P(A \cap S)}{P(A)} \\ P(A \cap S) &= P(S|A)P(A) \end{aligned} $$
この式を次のように変形すると、ベイズの定理の式になります。
$$ \begin{aligned} P(A \cap S) &= P(S \cap A) = P(A|S)P(S) \\ P(S|A)P(A) &= P(A|S)P(S) \end{aligned} $$
$$ P(A|S) = \frac{P(S|A)P(A)}{P(S)} $$
この $A$ や $S$ といった記号は、教科書や問題の定義によって異なりますが、公式において記号が現れる位置や順番は覚えておきましょう。
左辺では $P(A|S)$ だったものが、$P(S|A)$ に逆転しています。つまり、ベイズの定理は $P(A|S)$ はわからないものの、逆の条件付き確率である $P(S|A)$ はわかるというシーンにおいて役立ちます。なお、$P(A|S)$ は事後確率と呼ばれ、$P(S|A)$ は尤度、$P(A)$ は事前確率、$P(S)$ は周辺尤度もしくはエビデンスと呼ばれます。
$P(A)$ は、事象 $A$ が起きる確率です。ただし、条件付き確率ではないので、事象 $S$ であるかどうかについての検査とは関係のない数値となります。本問では「製品の個数の割合は、製品Aは $40\,\%$、製品Bは $60\,\%$ の割合を占めている」とあるので、$P(A) = 0.4$ です。$P(S|A)$ は、製品Aを検査対象としたとき、その上で事象 $S$ が発生する確率のことです。本問では「検査後に修理が必要と判断される確率は、製品Aにおいて $0.5$」とあるので、$P(S|A) = 0.5$ です。
したがって、分子は $P(S|A)P(A) = 0.5 \times 0.4$ であり、選択肢Dが正解です。
ちなみに、分母の $P(S)$ は、
$$ P(S) = P(S|A)P(A) + P(S|B)P(B) = 0.5 \times 0.4 + 0.4 \times 0.6 $$
となります。
\,)を挿入しました。aligned 環境内のカンマを整理し、視認性を向上させました。$$...$$)に昇格させ、視認性を高めました。$y = 10^x / 100$ のグラフは次のとおりである。
このとき、対数を活用することによってこの式を別の表現方法で表したグラフとして、最も適切なものを選べ。ただし、本問では $\log_{10} x = \log x$、$\log_{10} y = \log y$ と表記する。
[図:007_141_1-1:...] を、指定されたマーカー形式 <図007_141_1-1---> に置換しました。$x$ 軸の値に対して、$y$ 軸の値が指数関数的に変化するとき、グラフ上でデータの傾向を確認しづらいことがあります。
その際には、$x$ 軸、$y$ 軸のうちどちらかを対数軸にした片対数グラフや、$x, y$ 軸両方を対数軸にした両対数グラフが用いられます。
$$y = \frac{10^x}{100} = 10^{x-2}$$
の両辺に対して、底を 10 とする対数を取るとき、本問の表記法に従うと $\log y = x - 2$ となります。
つまり、$y$ 軸を $\log y$ に変更すると、$\log y = x - 2$ は、傾きが 1 で切片が $-2$ の直線になります。
この関係を正しく表現しているのは選択肢Aです。
また、$x$ 軸を対数に変換する片対数グラフを考えると、$x = 10^{\log x}$ であるため、式は $y = 10^{10^{\log x} - 2}$ のように変換され、そのグラフは次のようになります。
【$x$ 軸が対数の片対数グラフ】
選択肢Bの軸は $x$ 軸を変換した片対数グラフとなっていますが、直線のグラフとなっているため不適切です。
なお、片対数グラフの表現方法としては、以下のように目盛りの幅を変える表現もあります。
両対数グラフの場合には、べき関数 $y = ax^n$ を直線で表現することができます。
これは、$y = ax^n$ の両辺に対して、10を底とする対数を取るとき、
$$\log y = n \log x + \log a$$
となり、傾きが $n$ で切片が $\log a$ の直線となるためです。
例えば $y = \frac{1}{6}x^2$ を両対数グラフに変換する場合には、次のようになります。
本問における $y = 10^{x-2}$ を両対数グラフに変換する場合には、$10^{\log y} = 10^{10^{\log x}-2}$ なので、$\log y = 10^{\log x} - 2$ となり、次のグラフのようになります。
【$y = 10^{x-2}$ を両対数グラフに変換】
以上より、選択肢Aが正解です。
なお、片対数グラフ・両対数グラフの特徴を忘れてしまった場合は、実際の数値を代入するという方法もあります。選択肢A~Dを考えると、以下のようになります。
したがって、具体的な数値からも $y = 10^x / 100$ の関係を保っているグラフはAだけであることがわかります。
\frac{...}{...} に変更し、視認性向上のため一部の数式をディスプレイ数式($$`)に昇格させました。
* **図・キャプションの構造化**: 指定されたマーカー形式(`<図PAGE_ID-n--->`)に置換しました。
* **リスト構造の整理**: 数値代入による検証部分を箇条書き(`*`)にし、選択肢名を太字にしました。
* **LaTeX補完**: 指数部分の括弧 `${4/3}$ などを整形しました。以下のようなデータをヒストグラムにプロットすることを考える。
67, 54, 50, 32, 48, 47, 50, 44, 50, 46, 37, 58, 58, 67, 50, 46,
45, 35, 59, 39
このとき、階級幅として最も適切なものを選べ。
A. 1
B. 5
C. 25
D. 50
ヒストグラムは、データがどの値の周辺に多く分布しているかを知ることができる可視化方法です。
ヒストグラムを描く際、分析者は階級幅を決める必要があります。
選択肢をそれぞれ階級幅として設定したヒストグラムを示します。
【選択肢A~Dを階級幅として設定したヒストグラム】
Aのように階級幅を $1$ にすると、読み手側は分布の概形を確認することが難しくなります。出現頻度が $2$、$3$ 回となっている値の存在は確認できますが、それ以外は $0$ 回か $1$ 回であり、全体の傾向を確認しづらいです。
Dのように階級幅を $50$ にしてみると、$50$ 付近に値が存在するといった傾向がまったく読み取れなくなってしまいます。このように、階級幅が大きすぎることも問題です。
Cのように階級幅を $20$ にすると、かろうじて傾向は見て取れるものの、$50$ 付近の頻度が大きいといった情報がわからなくなっています。また、$30$ 未満の数や $70$ 以上の数は実際には存在しないのですが、$20$ で区切られたヒストグラムではそれを判別することができません。
B では、$40 \sim 60$ 近辺、特に $50$ 近辺の頻度が大きく、$30$ 未満の数や $70$ 以上の数は存在しないといったことを確認できます。したがって、B が最も適切です。
階級幅は、データの特徴が失われないように設定することが重要です。
<図PAGE_ID-n--->)へ置換しました。$ $)で統一し、視認性を高めました。以下の記述を読み、空欄ア〜ウに入る語句の組み合わせとして、最も適切なものを選べ。
高度情報通信ネットワーク社会推進戦略本部は、次の3つの条件のいずれにも該当する公開データのことをオープンデータと定義した。
A. (ア)一次利用 (イ)機械学習 (ウ)個人
B. (ア)一次利用 (イ)機械学習 (ウ)無償
C. (ア)三次利用 (イ)機械学習 (ウ)無償
D. (ア)二次利用 (イ)機械判読 (ウ)無償
<!-- 010_142_2 --> は、図のプレースホルダー([図:...]形式)ではないため、そのまま維持しています。特定の図表の挿入意図がある場合は、規定の形式に修正が必要です。オープンデータの定義に関する問題です。
高度情報通信ネットワーク社会推進戦略本部は、次の3つの条件のいずれにも該当する公開データのことをオープンデータと定義しました。
上記の3つの条件を満たす公開データをオープンデータとする定義は、高度情報通信ネットワーク社会推進戦略本部によるものです。したがって、他の団体の定義もあることに注意してください。
以上より、組み合わせが適切な選択肢Dが正解です。
参考
現在、政府や地方自治体から多数のオープンデータが公開されています。e-Stat(イースタット、https://www.e-stat.go.jp/)は、日本政府の各府省が公表するさまざまな統計情報の閲覧・検索・利用が可能なWebサイトであり、総務省所管の独立行政法人統計センターによって運営されています。
以下の記述を読み、空欄アに入る語句として、最も適切なものを選べ。
API (Application Programming Interface) は、プログラム同士をつなぐための仕組みである。( ア )は、APIのメソッドの1つである。( ア )を用いると、指定したリソースを取得することができる。
A. DELETE
B. GET
C. POST
D. PUT
API(Application Programming Interface)は、プログラム同士で通信を行うための仕様です。
Web APIを用いてデータの送受信を行う際は、次のようなHTTPメソッドが用いられます。
一般に、HTTPを利用するAPIをWeb APIという。ここでは、Web APIを利用して提供されるサービスのことをAPIサービスと呼ぶことにする。APIサービスを用いることで、APIサービス提供会社が保有しているデータを取得したり、APIサービス提供会社が提供するプログラムを外部から利用することができる。
Web APIについての説明として、最も適切でないものを選べ。
A. Web APIを実現する際に用いられる設計原則の1つにREST (Representational State Transfer)がある
B. Web APIを用いて画像データを送信することができる
C. Web APIでは画像データを取得することはできない
D. Web APIのメソッドとしてPOSTやGETがある
一般に、HTTP通信を利用するAPIをWeb APIといいます。設問では、Web APIを利用して提供されるサービスのことをAPIサービスと呼ぶことにしています。送受信されるデータの種類はAPIサービスによって異なりますが、通常は、XMLやJSONなどの形式が用いられます。
実際にAPIサービスでデータを取得する際には、HTTP通信のメソッドの1つであるGETメソッドや、POSTメソッドが使用できます(D)。これらを用いることで、画像データや音声データの送受信を行うことが可能です(B、C)。また、Web APIを実現する際に用いられる設計原則の1つをREST (Representational State Transfer) と呼びます(A)。
以上より、選択肢Cが正解です。
**)に設定しました。以下は通信プロトコルに関する記述である。空欄ア~ウに入る語句の組み合わせとして、最も適切なものを選べ。
( ア )はさまざまなデータ転送技術のベースとなっているファイル転送プロトコルであり、( ア )の通信においては情報は暗号化されない。( ア )のデメリットを改善したプロトコルとして登場した( イ )では、( ウ )によって通信を暗号化することで、安全にデータのやり取りを行う。
A. (ア) SCPS (イ) HTTP (ウ) SSH
B. (ア) FTP (イ) FTPS (ウ) SSL/TLS
C. (ア) SCP (イ) HTTP (ウ) SSH
D. (ア) FTPS (イ) FTP (ウ) SSL/TLS
ネットワークを介して通信を行う際の約束事を通信プロトコルといいます。通信プロトコルのうち、ファイル転送に用いられるものをファイル転送プロトコルといいます。主なファイル転送プロトコルを以下に示します。
FTP (File Transfer Protocol)
さまざまなデータ転送技術のベースとなっているファイル転送プロトコルです。FTP の通信においては、情報は暗号化されません。
FTPS (File Transfer Protocol Secure)
FTP の拡張機能として登場したファイル転送プロトコルの1つです。SSL/TLS (Secure Socket Layer/Transport Layer Security) と呼ばれるプロトコルによってネットワーク上の通信が暗号化されます。
HTTP (HyperText Transfer Protocol)
Web サーバとクライアント間で通信を行うためのプロトコルです。HTMLで記載されたテキストなどの転送に用いられます。通信は暗号化されません。
HTTPS (HyperText Transfer Protocol Secure)
SSL/TLSプロトコルによって暗号化されたセキュアな接続の上で行われるHTTP通信です。
SCP (Secure Copy Protocol)
SSHの提供する機能を用いてファイル転送を行うプロトコルです。SCPでは、パスワードの認証などを含むすべてのネットワーク上の通信が暗号化されます。SCPの場合、転送が中断されても途中から再開されることはありません。
● SFTP(SSH File Transfer Protocol)
SSH によって通信が暗号化されますが、SCP とは異なり、転送が中断された場合、その中断箇所から再開されます。
以上より、組み合わせが適切な選択肢Bが正解です。
**)で強調しました。## 17. B および HTMLコメント形式のマーカーをそのまま維持しました。あるデータベースに、学生テーブルと講義テーブルを作成した。2つのテーブルの関係をER図にすると、下図のようになる。下図におけるリレーションが示す多重度として、最も適切なものを選べ。ただし、モデルの記法はIE記法を用いている。
A. 1対1の関係
B. 1対多の関係
C. 多対多の関係
D. 1対0の関係
<図...--->)に置換しました。ER(Entity Relationship)図は、日本語で実体関連図と呼ばれているように、実体の関連を表現するための表現形式です。ER図は、データベースの構造を可視化するのに適しているため、データベースの設計や管理でよく用いられます。
データベースの構造をER図で表現する際は、記号や接続線を用いて、テーブル間の関連性を表現します。
データベースに特化した代表的な記法として、IE記法とIDEF1X記法があります。どちらも、エンティティ(データのまとまり)、アトリビュート(エンティティ内の各要素)、リレーション(エンティティ間のつながり)、カーディナリティ(多重度)という4つの要素でテーブル間の関係が表現されます。
設問で使用されているIE記法では、各テーブル間のリレーションを鳥の足のような3本線、縦棒($|$)、白丸($\bigcirc$)の組み合わせで表現します。
IE記法におけるカーディナリティの記号とそれらの意味を以下に示します。
【IE記法におけるカーディナリティの記号】
| 記号 | 意味 |
|---|---|
| $\bigcirc$ | 0 |
| $\vert$ | 1 |
| <図068_171_2-1---> 図068_171_2-1 鳥の足状の三本線記号 <---> |
2以上 |
設問のER図ではリレーションの両端が3本線で記載されているので、各エンティティ間に多対多の関係があることが読み取れます(C)。
**)に設定しました。[図:068_171_2-1:鳥の足状の三本線記号] を指定のマーカー形式に置換しました。$|$ がMarkdownテーブルの区切り線と干渉する可能性があるため、$\vert$ に置き換えて安全性を高めました。<br> を含めて整形しています。レンダラーによっては表示が崩れる可能性があるため、最終的な外観を確認してください。以下の記述を読み、空欄ア、イに入る語句の組み合わせとして、最も適切なものを選べ。
複数のCPUコアまたは複数のコンピュータで処理を分担することを分散処理という。分散処理フレームワークの1つであるSparkは、( ア )という仕組みを用いて( イ )上でデータを処理する。このため、Sparkでは、代表的な分散処理フレームワークの1つであるHadoopよりも高速な処理が実現されている。
A. (ア)RDD (イ)SSD
B. (ア)RDD (イ)メモリ
C. (ア)RDB (イ)SSD
D. (ア)RDB (イ)メモリ
## 19. およびメタデータ <page_num> の構造を維持しました。分散処理技術に関する問題です。
複数のCPUコアまたは複数のコンピュータで分担して処理を行うことを分散処理といいます。分散処理を行うためのフレームワークの例として、HadoopやSparkが挙げられます。
Hadoopは、分散ファイルシステムであるHDFS(Hadoop Distributed File System:Hadoop分散ファイルシステム)と、分散処理フレームワークであるHadoop MapReduceの2つから構成されます。Hadoopでは、HDDやSSDといったストレージがデータの格納場所として用いられます。
一方、Sparkでは、メモリがデータの格納場所として用いられます(イ)。メモリ上での分散処理は、RDD(Resilient Distribution Dataset)という仕組みによって実現されています(ア)。メモリ上にデータを格納する仕組みを採用したことで、Sparkではリアルタイム処理を行うことが可能となっています。
以上より、組み合わせが適切な選択肢Bが正解です。
RDBは、リレーショナルデータベース(Relational DataBase)の略称です。
システムを構築する環境として、クラウドとオンプレミスがある。クラウドと比較してオンプレミスが有利な点として、最も適切でないものを選べ。
A. サーバの管理を自社で行うため、既存の社内のシステムと連携しやすい
B. サーバの調達や管理を自社で行うため、初期導入費用が安い
C. サーバの管理を自社で行うため、情報漏洩のリスクが小さい
D. サーバの管理を自社で行うため、自社が求めるセキュリティレベルを実現しやすい
システムを構築する環境には、クラウドとオンプレミスがあります。オンプレミスは、自社にサーバを設置しシステムを構築する仕組みです。一方、クラウドは、サーバをインターネット上の仮想空間で保有する方法を指します。
クラウドには、初期費用が安い、拡張性が高い、物理的な場所の確保が不要などの利点があります。しかし、クラウドは、クラウド事業者が提供するサービスやシステムに大きく依存します。そのため、クラウドを利用した場合、他クラウド事業者のサービスやシステムへの切り替えが困難になったり、システムの保守や拡張、改修などを行う際の自社内対応が難しくなるといったことがあります。これをベンダーロックインと呼びます。
一方で、オンプレミスには、自由に環境をカスタマイズできる、社内の他のシステムと連携しやすい、情報漏洩リスクが低いなどの利点があります(A、C、D)。逆に、オンプレミスには、初期費用が高い(B)、災害時のリスクが大きい、物理的なスペースが必要になる、といった欠点があります。
**)で強調しました。BI(Business Intelligence)ツールを用いて実現できることとして、最も適切でないものを選べ。
A. 複数のCSVデータを統合することができる
B. 一般にBIツールと呼ばれているものとノーコードAIツールは同一のものである
C. 収集したデータを分析の目的に合わせて加工することができる
D. 加工されているデータを分析し任意のグラフによって可視化することができる
BI(ビジネスインテリジェンス)とは、企業がもつ膨大なデータを、整理したり可視化したりすることで、ビジネスにおける意思決定に役立てようとする考え方です。
代表的なBIツールとして、TableauやGoogle Data Portalなどが挙げられます。
こうしたBIツールには、以下のような基本機能が備わっています。
・複数のデータの統合や収集したデータを最適な形式で蓄積する機能(A)
・加工したデータを分析する機能(C)
・データを可視化する機能(D)
こうしたツールを用いることで、グラフなどを使ったレポートの作成や、集約されたデータの管理が容易になります。
また一般に、ノーコードAIツールとは、コーディングを行うことなく機械学習を行ったり、AIを搭載したWebアプリを開発できる機能などをもったツールです。
以上より、選択肢Bが正解です。
以下のマルウェアに関する記述を読み、空欄ア〜ウに入る語句の組み合わせとして、最も適切なものを選べ。
( ア )は既存のプログラムの一部を改ざんし、自己増殖を行うことで、コンピュータに損害を与えるマルウェアである。また、( イ )は特定の条件を満たした際にコンピュータに損害を与えるマルウェアである。さらに、( ウ )は一見無害な画像や文章などのファイルやアプリケーションを装って侵入することで、コンピュータに損害を与えるマルウェアである。
A. (ア)ウイルス
(イ)トロイの木馬
(ウ)ロジックボム
B. (ア)ワーム
(イ)ウイルス
(ウ)トロイの木馬
C. (ア)ワーム
(イ)ウイルス
(ウ)ロジックボム
D. (ア)ウイルス
(イ)ロジックボム
(ウ)トロイの木馬
**)で強調しました。コンピュータにとって有害かつ悪意のあるソフトウェアを総称してマルウェアと呼びます。各マルウェアの違いを知っておくことは、セキュリティ対策を行ううえで重要です。
ウイルスは、プログラムの一部を改ざんして自己増殖を行います(ア)。
ロジックボムは、特定の条件を満たした際にコンピュータを攻撃します(イ)。
トロイの木馬は、無害なファイルを装って侵入し、コンピュータに損害を与えます(ウ)。
以上より、組み合わせが適切な選択肢Dが正解です。
ワームは、プログラムに寄生せず、単独で存在し自己増殖をしていくマルウェアです。
これらのマルウェアによって、情報の消失や漏洩、サービスの停止などの深刻な問題が引き起こされる恐れがあります。
マルウェア対策としては、ウイルス対策ソフトを利用する、OSを最新の状態にする、身に覚えのないメールや添付ファイルを開かない、所有者や内容に覚えのないUSBメモリなどを使用しない、信頼できないホームページは閲覧しない、などが効果的です。
現在のAI分野において一般的に用いられる汎用AI、特化型AIという言葉は、1980年にジョン・サールによって提唱された( ア )、( イ )という AI の発達の程度を表す概念に対応する。
A. (ア)理想 AI (イ)一般 AI
B. (ア)総合 AI (イ)特定 AI
C. (ア)強い AI (イ)弱い AI
D. (ア)万能 AI (イ)専用 AI
ジョン・サールは、1980年に強いAI、弱いAIという概念を提唱しました。この概念はそれぞれ、現在のAI分野において一般的に用いられる汎用AI、特化型AIに対応します(C)。
汎用AIとは、人間のような総合的な問題解決能力があり、処理するタスクを限定しないAIを指します。あらかじめ製作者が何らかの特定のケースを想定してプログラムを作成しなくても、また、特定のデータを与えなくても、状況に応じてAI自らが判断できるのが特徴です。
これに対し、特化型AIは、個別の分野や領域の問題を処理することに特化したAIを指します。現在、さまざまなサービスで用いられているようなAIはこちらに該当します。
選択肢A、B、Dのような用語はありません。
以下の記述を読み、空欄ア、イに入る語句の組み合わせとして、最も適切なものを選べ。
機械学習の手法の 1 つである( ア )は、( イ )問題に対して用いられる。
A. (ア)線形回帰 (イ)分類
B. (ア)重回帰 (イ)回帰
C. (ア)主成分分析 (イ)回帰
D. (ア)$k$-means法 (イ)回帰
回帰とは、ある入力データに対して適切な連続値を出力することです。また、分類とは、ある入力データに対して適切なカテゴリ(病気である/病気でないなど)を出力することです。
線形回帰は、説明変数に対する重み付け和によって連続値を出力する手法であり、回帰問題で用いられます(A)。
重回帰は、回帰分析において複数の説明変数から目的変数の値を予測する手法であり、回帰問題で用いられます(B)。
主成分分析は、変数を合成し新たな主成分を作ることで変数の数を減らし、データを要約するための手法であり、回帰分析の手法としては適しません(C)(解答52参照)。
$k\text{-means}$法は、クラスタリングに用いられる手法です。ランダムな位置にクラスタの重心(中心点)を定めた後、クラスタの平均と各データの距離を用いて、データを $k$ 個のクラスタに分類します(D)。
なお、主成分分析やクラスタリングは、教師ラベルが与えられていない「教師なし学習」に該当します。
$k$-means法 を $k\text{-means}$法 に、変数の $k$ を適切に数式モードで維持しました。機械学習におけるモデルの性能評価にはさまざまな指標が用いられる。次のうち、回帰問題の性能評価指標として、最も適切なものを選べ。
A. Accuracy
B. Recall
C. AUC
D. MAE
機械学習モデルの性能のよさを評価する指標(関数)を、性能評価指標(評価関数)といいます。問26で言及されている損失関数と同じ関数が、モデルの性能評価指標として用いられる場合もあります。損失関数はモデルを学習させる過程で予測値と実測値の誤差を計算するために使用されます。一方、性能評価指標は学習済みモデルの性能を評価するために使用されます。
回帰、分類それぞれの性能評価指標は以下のようになります。
● 回帰における性能評価指標
・RMSE ……… 予測と実際の差の二乗の平均の平方根 (Root Mean Square Error:平均平方二乗誤差)
・MAE ……… 予測と実際の差の絶対値の平均 (D) (Mean Absolute Error:平均絶対誤差)
・MSE ……… 予測と実際の差の二乗の平均 (Mean Square Error:平均二乗誤差)
・MSLE ……… 予測の対数と実際の対数との差を二乗したものの平均 (Mean Squared Logarithmic Error:平均二乗対数誤差)
● 分類における性能評価指標
・Accuracy(正解率)…… 予測結果のうち、真の値と一致しているものの割合 (A)
・Recall(再現率)……… 実際に陽性であるもののうち、陽性であると予測された割合 (B)
・Precision(適合率)…… 陽性と予測されたもののうち、実際に陽性である割合
AUC (Area Under Curve) は、ROC 曲線 (Receiver Operating Characteristic curve) の下側の面積です。ROC 曲線は、グラフ上にクラス判定のしきい値を $0$ から $1$ の範囲で変化させながら真陽性率と偽陽性率の組をプロットした曲線です (C)(詳細は第2章の解答7を参照)。
** で強調しました。$0$, $1$ )に統一しました。回帰用の誤差関数(損失関数)として、最も適切でないものを選べ。
A. 平均二乗対数誤差 (MSLE)
B. 交差エントロピー誤差
C. 平均二乗誤差 (MSE)
D. 平均絶対誤差 (MAE)
**)で強調しました。誤差関数(損失関数)は、機械学習モデルの予測値が実測値とどの程度乖離しているか(誤差がどの程度あるか)を算出するために用いられる関数です。機械学習モデルの中には、この関数によって計算された誤差を最小化(指標によっては最大化)するように学習が進むものがあります。
平均二乗対数誤差(MSLE)、平均二乗誤差(MSE)、平均絶対誤差(MAE)は、いずれも回帰用のモデルで用いられる誤差関数です(A、C、D)。それぞれ以下のような特徴があります。
・平均二乗対数誤差(MSLE) …… 正解値の分布が大きい場合でも適切に誤差を評価できる
・平均二乗誤差(MSE) ………………… 大きな間違いをより重要視する
・平均絶対誤差(MAE) ………………… 外れ値の影響を受けにくい
交差エントロピー誤差はクロスエントロピー誤差とも呼ばれ、分類用のモデルで用いられます(B)。
回帰用のモデルで用いられる誤差関数では値の誤差を直接計算しますが、交差エントロピーでは、確率分布としての誤差を計算します。このため、交差エントロピー誤差は分類問題に適しています。
**)で強調しました。## 26. B)およびリスト構造を維持しました。以下の記述を読み、空欄ア、イに入る語句の組み合わせとして、最も適切なものを選べ。
学習済みモデルの汎化性能を推定する手法として、ホールドアウト法や交差検証法が挙げられる。
今、用意されているデータは1万件である。訓練データと検証データを $6:4$ で分割してホールドアウト法を行う場合、( ア )のデータに対してテストを行う。また、全データを $5$ 分割して交差検証法を行う場合、交差検証法全体で( イ )のデータに対してテストを行う。
A. (ア)4000件 (イ)1万件
B. (ア)6000件 (イ)2000件
C. (ア)1万件 (イ)8000件
D. (ア)1万件 (イ)1万件
$6:4$, $5$)に統一。モデルの学習において、学習に用いるデータを訓練データ(学習データ)、汎化性能の推定に用いるデータを検証データ(テストデータ)と呼びます。データ集合は、これらのデータを大きな集まりとして表現するときに用いる用語です。
学習に使えるデータの数が少ない場合、ホールドアウト法では、学習用データ全体を一定の割合で訓練データと検証データに分けるため、検証に使えるデータの数も少なくなります。このような状況のとき、交差検証法では、用意したデータを $k$ 個に分割し、1 回目の学習ではそのうちの 1 つを検証データとして評価します。2 回目以降は、これまで用いたデータとは別の部分を検証データとして評価します。これを $k$ 回繰り返すことで、精度の検証に使えるデータの数が実質的に多くなり、検証の確からしさ(確度)が向上します。交差検証法のうち、訓練集合を $k$ 個に分割する手法を、特に$k$ 分割交差検証($k$-fold CV)と呼びます。
以下の記述を読み、空欄アに入る語句として、最も適切なものを選べ。
データの前処理のうち、データの平均が $0$、分散が $1$ になるように変換する処理を( ア )という。
A. 白色化
B. 0-1 正規化
C. 標準化
D. 無相関化
$0$, $1$)に統一。データの分布を調整する方法の一例として、正規化や標準化があります。前処理の段階でこれらを行うと、データ内のノイズや、スケールの違いなどによる不要な数値の偏りを抑制できる場合があるため、学習の安定化や、モデルの予測性能の向上が見込めます。
0-1 正規化は、データの範囲が $0 \sim 1$ の間に収まるように変換する処理(B)、無相関化は、共分散を $0$ にすることでデータ間の相関をなくす処理(D)、白色化は、データ同士を無相関化したうえで、平均を $0$、分散を $1$ にする処理のことです(A)。
例えば、次図に示すように 0-1 正規化では、身長と体重のようにスケールの異なるデータを $0 \text{--} 1$ のスケールで処理することができます。標準化とは、平均値が $0$、分散(標準偏差)が $1$ となるように処理することです(C)。
【0-1正規化と標準化の例】
| 身長 [cm] | 体重 [kg] |
|---|---|
| 167 | 65 |
| 180 | 77 |
| 155 | 62 |
| 172 | 80 |
<図075_175_1-1--->
図075_175_1-1 元のデータから0-1正規化および標準化への変換フロー図
<--->
0-1 正規化
| 身長 | 体重 |
| :--- | :--- |
| 0.48 | 0.1666666667 |
| 1 | 0.8333333333 |
| 0 | 0 |
| 0.68 | 1 |
標準化
| 身長 | 体重 |
| :--- | :--- |
| -0.1432365782 | -0.6793662205 |
| 1.098147099 | 0.6793662205 |
| -1.289129204 | -1.019049331 |
| 0.3342186824 | 1.019049331 |
<図PAGE_ID-n--->)に置換しました。$0 \sim 1$ や $0 \text{--} 1$ の数式表記を整理しました。## 28. C を維持し、表構造もそのまま保持しています。[cm] や [kg] は表の見出し(テキスト)として記述されているため、通常のテキストとして維持しています(数式モード内での出現はありませんでした)。以下の記述を読み、空欄ア、イに入る語句の組み合わせとして、最も適切なものを選べ。
機械学習モデルの学習や検証において、データに対する2種類の「誤差」を考慮してモデルの作り込みを行わなければならない。例えば、( ア )が十分小さいにもかかわらず、( イ )が大きい場合、モデルは学習用データに過学習しており、( ア )と( イ )がともに大きいままであれば学習モデルは適切に学習を終えたとはいえない。このような状態に陥ることを未然に防ぐには、モデルやデータセットに対する見直しが不可欠である。
016_145_2
A. (ア)汎化誤差 (イ)訓練誤差
B. (ア)汎化誤差 (イ)標準誤差
C. (ア)訓練誤差 (イ)汎化誤差
D. (ア)訓練誤差 (イ)標準誤差
**)で強調しました。016_145_2 は、図のプレースホルダー形式([図:...])ではなかったため、管理番号または図番号としてそのまま残しています。もしこれが特定の図を指す場合は、指定のマーカー形式に変換する必要があります。訓練誤差とは、学習に用いたデータに対する誤差であり、この値が小さければ、そのモデルは学習データに対しては正確な予測が行えることを示します。
汎化誤差とは、未知のデータに対する誤差の期待値であり、この値が小さければ、そのモデルは未知のデータに対して正確な予測が期待できることを示します。この汎化誤差を最小にすることが、機械学習の大きな目的です。
また、これらの2種類の誤差の大きさによっては、モデルの過学習(オーバーフィッティング)や未学習(アンダーフィッティング)が起こります。
よって、組み合わせが適切な選択肢Cが正解です。
通常、モデルの検証には、学習に用いていない未知のデータを用います。しかし、データの数によっては、交差検証法(クロスバリデーション)などを用いて学習とテストのデータグループを入れ替えながら検証を行うこともあります。
標準誤差は、統計学における母集団の平均の標準偏差のことであり、今回の誤差とは異なります。
<!-- 076_175_2 --> は図のプレースホルダーの規定形式([図:...])ではなかったため、そのまま維持しています。画像挿入が必要な箇所か確認してください。時間的な順序を伴いながら観測されたデータを時系列データと呼ぶ。時系列データの扱い方に関する記述として、最も適切なものを選べ。なお、ここでは観測されたデータを原系列と呼ぶことにする。
A. 原系列の細かな変動をトレンドという
B. 原系列の移動平均をノイズという
C. 原系列にノイズを加えたものをトレンドという
D. 原系列に対しフーリエ変換を行うと、原系列がもつ周波数成分を可視化することができる
**)で強調しました。時系列データにおいて、細かな変動を除去した長期的な傾向をトレンドといいます(A、C)。
時系列データにおけるノイズとは、自己相関のない完全な雑音のようなデータのことであり、原系列の移動平均を指す言葉ではありません(B)。移動平均とは、一定間隔で連続して平均値を計算することです。局所的な変動が小さくなるため、長期的な傾向をとらえやすくなります。
また、原系列に対しフーリエ変換を行うと、原系列がもつ周波数成分を可視化することが可能です(D)。
以下の記述を読み、空欄ア、イに入る語句の組み合わせとして、最も適切なものを選べ。
現在、自然言語処理では、機械翻訳やテキストマイニングなどをはじめ、さまざまなタスクが扱われている。自然言語処理における代表的な前処理として、文章を自然言語の最小単位に分割する( ア )と、文章の文節の関係性を割り出す( イ )が挙げられる。
A. (ア)形態素解析 (イ)文脈解析
B. (ア)形態素解析 (イ)係り受け解析
C. (ア)文脈解析 (イ)形態素解析
D. (ア)文脈解析 (イ)係り受け解析
ある文章の文法構造を構築もしくは解析する技術を構文解析といい、形態素解析や係り受け解析はこの中に位置付けられます。
形態素解析とは、文章を自然言語の最小単位である形態素に分割し、各品詞などを割り出すことです。この技術は主に、全文検索や機械翻訳のタスクで用いられています。この解析に関しては、MeCabやJUMAN++をはじめ、専門外の人でも扱いやすいようなSudachiといった代表的なツールが用意されています。
係り受け解析とは、形態素や、形態素を複数組み合わせた文節同士の関係性を割り出すことです。文節の関係性を把握することで、文章の重要な部分の抽出などにも応用が可能です。
よって、組み合わせが適切な選択肢Bが正解です。
文脈解析は、複数の文章のつながりを解析する技術です。
**)で強調しました。<!-- 077_176_1 -->)を維持し、見出し行も変更せずに出力しました。以下の記述を読み、空欄ア、イに入る語句の組み合わせとして、最も適切なものを選べ。
一般物体認識は、画像中の物体の名称や種別をコンピュータに認識・識別させることを目的とした研究分野である。一般物体認識で扱われるタスクには、( ア )や物体検出が挙げられる。物体検出の分野においては、近年、( イ )のような深層学習の手法が多数提案されている。
A. (ア)画像分類 (イ)YOLO(You Only Look Once)
B. (ア)画像分類 (イ)U-net
C. (ア)二値化 (イ)YOLO(You Only Look Once)
D. (ア)二値化 (イ)U-net
**)で強調しました。画像処理の分野における代表的なタスクとして、物体や顔、文字などの認識などが挙げられます。なかでも一般物体認識は、画像中の物体の名称や種別をコンピュータに認識・識別させる研究分野です。一般物体認識の分野では、以下のような代表的な処理が行われています。
二値化は画像の画素を一定の条件下で白か黒の画素に変化させることです。現在では、深層学習の発展により、YOLO(You Only Look Once)などの物体検出用の手法が多数提案されています。また、U-netは、画像内のオブジェクトを背景から切り出す深層学習を用いたセマンティックセグメンテーションの手法です。
以上より、組み合わせが適切な選択肢Aが正解です。
画像加工処理の1つであるフィルタ処理の目的として、最も適切でないものを選べ。
A. 画像のサイズを大きくする
B. 被写体の輪郭を強調する
C. 画像をぼかす
D. 画像のノイズを除去する
<!-- 018_146_2 --> は規定の図プレースホルダー形式([図:...内容])ではないため、メタデータとしてそのまま維持しています。画像データを分析する際に、画像がもつ特徴を強調するための処理を行う場合があります。フィルタ処理(線形フィルタリング処理)は、このような目的で行われる画像加工処理の1つです。
フィルタ処理では、処理対象の画像に対してフィルタ(カーネルともいう)を用いた畳み込み演算を行い、画像を加工します。
フィルタ処理の具体的な目的の例として、ノイズの除去や輪郭の強調、画像のぼかし加工などが挙げられます(B、C、D)。
画像のサイズを大きくすることはリサイズ処理にあたるため、適切ではありません(A)。
**)で強調しました。<pb:078_176_2> は指定の図プレースホルダー形式([図:...])ではなかったため、構造維持の観点からそのまま残しています。画像データの代表的な保存形式に関する以下の記述を読み、空欄ア〜ウに入る語句の組み合わせとして、最も適切なものを選べ。
( ア ) は、扱うことができる色数が非常に多く、色数の少ない画像から多い画像まで表現することが可能である。また、色の透過に関する情報も保存することが可能である。
( イ ) は色数の多い情報を表現でき、ファイルサイズも比較的小さいが、色の少ない画像を表現する際には画質の劣化が発生するという特徴がある。
( ウ ) は256色しか表現することができないが、ファイルサイズが非常に小さい。また、複数の画像をパラパラ漫画のような動画として保存することが可能である。
A. (ア) JPG (イ) PNG (ウ) GIF
B. (ア) GIF (イ) JPG (ウ) PNG
C. (ア) JPG (イ) GIF (ウ) PNG
D. (ア) PNG (イ) JPG (ウ) GIF
画像データの代表的な保存形式として、PNG、JPG、GIFなどがあります。
PNG形式は、約 $1,677\,\text{万色}$(フルカラー)を表現することができ、色数の多い画像も色数の少ない画像も表現可能なファイル形式です(ア)。
JPG形式は、約 $1,677\,\text{万色}$(フルカラー)を表現することができ、色数の多い画像を効率よく圧縮することが可能な形式です。また、非可逆圧縮(一度圧縮を行うと圧縮前の状態に戻せない)形式であるため、保存を繰り返すたびに画質が劣化しますが、PNG形式に比べてファイルサイズが小さいという特徴があります(イ)。
GIF形式は、$256\,\text{色}$しか表現することができませんが、それゆえにファイルサイズを比較的小さく抑えることができます。また、複数の画像を用いて、アニメーション(パラパラ漫画のような動画)として保存することができます(ウ)。
以上より、組み合わせが適切な選択肢Dが正解です。
**)で強調しました。\, を挿入し、単位部分を \text{} で囲うことで、SI規定の記法に準じた読みやすい数式表現に整えました。## 34. D および文章構造をそのまま維持しました。音声を用いた機械学習のタスクに関する以下の記述を読み、空欄ア〜ウに入る語句の組み合わせとして適切なものを選べ。
( ア ) : 人間が発話した内容から単語列を推定するタスクである
( イ ) : ある人物による発声の発声内容を保持しつつ、別人の声に聞こえるような変換を行うタスクである
( ウ ) : ある発話区間が誰の声によるものであるかを推定するタスクである
A. (ア) 音声認識 (イ) 声質変換 (ウ) 話者認識
B. (ア) 話者認識 (イ) 音声合成 (ウ) 音声認識
C. (ア) 音源分離 (イ) 音声合成 (ウ) 話者認識
D. (ア) 話者認識 (イ) 声質変換 (ウ) 音声認識
**)で強調しました。## 35. および HTMLコメント形式のID(<!-- 019_147_1 -->)を維持しました。[図:PAGE_ID-n:内容] の形式のプレースホルダーが含まれていなかったため、図のマーカー変換は行っていません。末尾の <!-- 019_147_1 --> はそのまま残しています。音声認識は、人間が発話した内容から単語列を推定するタスクです(ア)。
声質変換は、ある人物による発声の発言内容を保持し、別人の声に聞こえるような変換を行うタスクです(イ)。
話者認識は、ある発話区間が誰の声によるものであるかを推定するタスクです(ウ)。
以上より、組み合わせが適切な選択肢Aが正解です。
なお、音声を用いた機械学習における他の代表的なタスクとして、話者分離、対話などがあります。話者分離は、複数人の話者が同時に発言しているデータを用いて、発話内容を人ごとに分けるタスクです。対話は、人による質問に対して、その答えを音声で返すタスクです。
参考
Speech to Textに代表される音声認識のAPIを利用することで、さまざまなソースの音声を正確に文字起こしすることができます。
**)で強調しました。以下の記述のうち、回帰問題の例として、最も適切でないものを選べ。
A. 過去の相場のデータから今後の株価を予測する
B. 広告予算の増加による商品の販売額を予測する
C. 過去の購買情報から顧客をグルーピングする
D. とある商業施設の来場者数の推移を予測する
教師ラベルが付与されたデータを用いて学習を行う手法を教師あり学習といいます。教師あり学習は、回帰と分類の2つに分けられます。
回帰とは、連続した数値(連続値)を予測することです。回帰に用いられる代表的な手法としては、線形回帰や決定木などが挙げられます。株価や商品の販売額、施設の来場者数は、いずれも連続値です(A、B、D)。
一方、分類は、入力の属するカテゴリを予測することです。分類に用いられる代表的な手法としては、ロジスティック回帰やサポートベクターマシンなどが挙げられます。
過去の購買情報から顧客をグルーピングすることは、対象をいくつかのグループに分けるタスクの一例であり、回帰でも分類でもありません(C)。このタスクは、教師なし学習に位置付けられます。
教師あり学習は回帰と分類に大別される。以下に、分類に用いられる手法とタスクの組み合わせを示す。このうち、学習を行う際にシグモイド関数を用いるものを選べ。
A. ロジスティック回帰を用いて、将来エンジニアになるか否かの判別を行う
B. 決定木を用いて、猫と犬とウサギの分類を行う
C. ランダムフォレストを用いて、将来エンジニアになるか否かの判別を行う
D. ランダムフォレストを用いて、猫と犬とウサギの分類を行う
シグモイド関数は、入力が大きくなるにつれて出力が $0$ から $1$ までなめらかに変化する関数であり、予測結果を $0 \sim 1$ の確率という形で表すことができます。設問で示された選択肢のうち、シグモイド関数が用いられるのは、ロジスティック回帰のみです(A)。ただし、ロジスティック回帰において $3$ クラス以上の分類を行う場合は、ソフトマックス関数を用います。この点に注意しましょう。
決定木は、回帰と分類の両方に用いられる手法です。決定木の分類においては、あるノードに含まれる過去のデータの割合によって、最終的な結果が示されます(B)。
ランダムフォレストは、複数の決定木の予測結果を用いて多数決をとり、最終出力を決定する手法です(C、D)。
教師なし学習を適用する場面として、最も適切なものを選べ。
A. 入力された画像に写っている動物の種類を自動で判別する
B. 過去の売上実績から未来の売上を予測する
C. イベント参加者をある特徴でグループ分けする
D. 住宅ローン申込者への融資リスクの有無を判断する
予測した結果が正しいか否かを判断する必要がある場面では、通常、教師あり学習が用いられます。
選択肢Aでは動物の種類が、Bでは過去の売上の実績値が、Dでは過去の融資記録が、それぞれ教師データとして利用されます。したがって、選択肢A、B、Dは教師あり学習を適用する場面の例といえます。
<図082_295-1--->
図082_295-1
<--->
イベント参加者をある特徴だけでグループ分け(クラスタリング)するような場合には、データに基づいたグループを生成するため、通常、教師なし学習が用いられます(C)。
教師なし学習では、学習時に教師データが用いられません。
<!-- 082_295_1 --> を、規定のマーカー形式 <図082_295-1---> に変換・整形しました。あなたは月額制サブスクリプションサービスの運用を担当している。顧客のサービス継続期間は平均して $1\,\text{年}$ ほどであったが、離脱率を低減させるため、顧客の離脱予測を行う分類モデルを運用することにした。顧客の属性情報、定期的なサービス利用状況、顧客満足度アンケートスコア(平均回答率 $5\,\%$)、ダイレクトメールへの反応(平均反応率 $5\,\%$)に関するデータを使用し、 $3\,\text{か月}$ 以内に解約するかどうかを予測することとした。しかしながら、PoC(概念実証)として直近 $3\,\text{年}$ 以内のデータを使用し勾配ブースティングのモデルを作成したところ、期待する精度を $20\,\%$ 以上も下回っていた。このとき、精度向上に向けPoC初期段階に取り組むべきこととして、最も不適切なものを選べ。
A. 欠損値処理のロジックを確認し、不適切な部分があれば修正する
B. 登録後1週間以内の解約など、極端な離脱ケースを訓練データおよびテストデータから外す
C. 勾配ブースティングのモデルについて、すべてのハイパーパラメータの組み合わせを試す
D. $3\,\text{年}$ 以内に自社が不定期に実施したキャンペーン情報を収集し、そのキャンペーンへの参加有無の情報を特徴量として追加する
\, を挿入し、単位記号および単位名称を数式モード内で立体(デフォルトまたは \text{})に統一しました。$...$)で記述し、視認性を高めました。機械学習モデルの開発時に、期待する性能が得られない場合の取り組みについて問う問題です。
モデルの性能が不十分な場合、それまでの取り組みを見直すことになります。主な検討事項として、タスク定義の見直し、訓練データの質の確保、モデルの再設計、ハイパーパラメータの調整という点が挙げられます。
タスク定義の見直しとは、解決しようとしている問題を異なる角度からとらえ、新しい問題として定義し直すことです。例えば、顧客の離脱予測を行う代わりに顧客生涯価値を予測し、それをもとに離脱の可能性を評価する方法が考えられます。モデルの作り方を大きく変えることになるため、労力が大きくなります。
訓練データの質の確保とは、データの欠損や外れ値・異常値などを低減するか適切に処理することで、モデルの学習が適切に進むような値の分布を得ることです。品質が保証されたデータの量を増やすことが、モデルの性能改善につながります。
モデルの再設計やハイパーパラメータの調整は、あまり時間をかけずに試せる方法です。ただし、データの質や量が担保されていない段階で実施しても根本的な性能改善にはつながらないことが多いです。
本問の設定では、アンケートスコアなど欠損が多いデータを含んでいるため、それらの処理が適切であるか見直すことは重要です(A)。また、非常に短い期間で離脱した顧客は特殊な事情をもつ可能性が高く、データから除外するのは妥当です(B)。
キャンペーンへの反応の有無は、顧客のサービスへの関心を表す重要な情報です(D)。
モデルのハイパーパラメータ調整も性能向上に寄与します。しかし、データの質や量の問題が解決されていない場合、限定的な効果しか得られないことがほとんどです。PoC初期段階ではモデルのハイパーパラメータ調整に執着せず、データの質と量を確保するなどの動きをとることが望ましいといえます(C)。
<<
ある製品を製造する工場では、製品が正しく機能しているか確認するために検査を行っている。この検査の効率化を図るために、測定されたデータを「正常」と「異常」に二値分類する機械学習モデルを開発することにした。なお、手元にあるデータは、正常な製品のデータが $99500$ 件、異常な製品のデータが $500$ 件である。この開発状況におけるデータセットの準備方法として、最も不適切なものを選べ。
A. 異常な製品に関するデータを追加で取得し、データ数を増やした
B. 少数派である異常データを少し加工しながら複製することで、データ数を増やした
C. 多数派である正常データをランダムにサンプリングし、それを異常データに加えることによって、異常データを増やした
D. 多数派である正常データをランダムに破棄して、データ数を減らした
**)に設定。$...$)で囲い、視認性を向上。二値分類を行うときの学習データセットにおいて、片方のクラスのデータが極端に多く、もう片方が少ない場合、不均衡データ(インバランスデータ)であるといわれます。
不均衡データを用いて学習を行うと、偏った予測を行うモデルになってしまうことがあります。これを防ぐ方法としては、学習前に、データセットの不均衡を是正しておくことが有効です。
異常な製品に関するデータを追加で取得し、データ数を増やすことは、不均衡の是正につながります (A)。
少数派である異常データを少し加工しながら複製することで、データ数を増やすことは、不均衡の是正につながります (B)。この処理はデータ拡張と呼ばれます。
少数派である異常データをランダムにサンプリングしてデータを増やすことをオーバーサンプリングといい、多数派である正常データをランダムに破棄してデータを減らすことをアンダーサンプリングといいます。これらもデータの不均衡を是正する方法として有効です (D)。
多数派である正常データをランダムにサンプリングし、それを異常データに加えることによって、異常データを増やしたとしても不均衡は是正されません。むしろ、不正確な教師データが増えることによって、モデルの性能が低下します (C)。
【参考】
オーバーサンプリングを行う場合、データを破棄しないため情報をフルに活用できるというメリットがありますが、過学習のリスクと計算時間の増大のデメリットがあります。逆に、アンダーサンプリングを行う場合、計算時間は高速になりますが、少数派データが少なすぎるとデータが不足してしまうというデメリットがあります。サンプリングの手法についても、得られているデータの状況に応じて使い分けることが重要です。
教師なし学習の1つであるクラスタリングの手法として、最も適切なものを選べ。
A. 主成分分析 (PCA)
B. $k$-means法
C. $t$-SNE
D. UMAP
**)で強調しました。$k$-means法 および $t$-SNE 内の数式記号($k$, $t$)を適切に数式モードで維持しました。教師なし学習のクラスタリングには、階層型クラスタリングと非階層型クラスタリングという2つの方法があります。$k$-means法は非階層型クラスタリングの代表的な手法の1つです(B)。$k$-means法では、分析者が $k$ の値を設定し、$k$ 個のクラスタの中心点をランダムに配置します。その後、各データと中心点との距離を計算し、各データを最も近いクラスタに所属させ、重心を求めます。この重心を新たな中心点として距離の計算を繰り返すことでクラスタリングを行います。
主成分分析(PCA)、t-SNE、UMAPでは、いずれも次元削減や特徴量抽出を行うことで多次元のデータを可視化することができます(A、C、D)(主成分分析については解答52を参照)。
参考
UMAP (Uniform Manifold Approximation and Projection) は、2018年に新たに提案された次元削減手法です。t-SNEと同様に可視化に用いることができるほか、非線形次元削減にも用いることができます。t-SNEよりも高速に動作し、埋め込み次元数が増えても一定時間で動作するという特徴があります。
$k$ で統一しました。塾に通う生徒の学力と、塾に通わない生徒の学力に差があるかどうかを両側検定を用いて検証することを考える。このとき設定すべき帰無仮説と対立仮説の組み合わせとして、最も適切なものを選べ。
A. 帰無仮説:塾に通う生徒の方が学力が高い
対立仮説:塾に通う生徒の方が学力が低い
B. 帰無仮説:塾に通う生徒の方が学力が低い
対立仮説:塾に通う生徒の方が学力が高い
C. 帰無仮説:塾に通う生徒の方が学力が低い
対立仮説:塾に通う生徒と通わない生徒の学力に差はない
D. 帰無仮説:塾に通う生徒と通わない生徒の学力に差はない
対立仮説:塾に通う生徒と通わない生徒の学力には差がある
統計的仮説検定において、検定を行うために立てる仮説のことを帰無仮説といいます。また、帰無仮説に相対する仮説のことを対立仮説といいます。通常、本来証明したい事柄を対立仮説に設定します。
帰無仮説が正しいと仮定したときに、観測した事象よりも稀なことが起こることを確認するための指標を検定統計量といいます。この統計量をもとに$P$値を計算します。$P$値は、帰無仮説が正しいと仮定したときに、観測した事象よりも極端なことが起こる確率のことです。
設問では、塾に通う生徒と通わない生徒の間に学力差があることを示すために検定を行いました。そのため、帰無仮説は両者の学力に差がないことを仮定しています。
以上より、選択肢Dが正解です。
データの分布を表現する際にはグラフや表を用いる。空欄ア、イに入れる図の説明の組み合わせとして、最も適切なものを選べ。
( ア )
( イ )
(ア) 連続的なデータを複数の区間に区切り、各区間に所属するデータの個数を図示したグラフ
(イ) それぞれの階級のデータの個数(度数)を、観測値の階級ごとに分けた表
(ア) 縦軸と横軸に2項目の量や大きさ等を対応させ、データを点でプロットしたグラフ
(イ) ある2つのカテゴリの掛け合わせを考え、その掛け合わせに所属するデータの個数を集計した表
(ア) 縦軸と横軸に2項目の量や大きさ等を対応させ、データを点でプロットしたグラフ
(イ) それぞれの階級のデータの個数(度数)を、観測値の階級ごとに分けた表
(ア) 連続的なデータを複数の区間に区切り、各区間に所属するデータの個数を用い、データの分布を表現したグラフ
(イ) ある2つのカテゴリの掛け合わせを考え、その掛け合わせに所属するデータの個数を集計した表
[図:ID:内容] を <図ID---> 形式に置換しました。**)で強調しました。## 43. および Markdownテーブルの構造を正確に維持しました。(ア)の図は、ヒストグラムです。ヒストグラムは、連続的なデータを複数の区間に区切り、各区間に所属するデータの個数(度数)を図示することで、データの分布を表現したグラフです。ヒストグラムを用いることで、1つの連続したデータのばらつきを可視化することができます。
(イ)の図は、クロス集計表です。クロス集計表は、ある2つのカテゴリの掛け合わせを考え、その掛け合わせに所属するデータの個数を集計した表です。クロス集計表を用いることで、カテゴリ間の相互作用を確認することができます。
よって、組み合わせが適切な選択肢 D が正解です。
「縦軸と横軸に2項目の量や大きさ等を対応させ、データを点でプロットしたグラフ」は散布図の説明です。散布図を用いると、縦軸と横軸のそれぞれのデータの間に相関関係があるかどうかを一目で把握できます(B、C)。
「それぞれの階級のデータの個数(度数)を、観測値の階級ごとに分けた表」は度数分布表の説明です(A、C)。ヒストグラムはこの表をもとに作成されます。
以下の記述を読み、空欄ア、イに入る語句の組み合わせとして、最も適切なものを選べ。
標本調査の結果として得られた推計値と真の値との差を表す指標を( ア )という。推計値が真の値に近いほど( ア )は小さくなる。調査を行う際には、実験計画法を用いて、調査の効率化を図ることがある。実験計画法においては、Fisherの3原則がよく用いられる。Fisherの3原則によると、実験計画は( イ )、反復、無作為化の3つの原則に則って立案すべきであるとされている。
A. ( ア )分散 ( イ )Friedman検定
B. ( ア )分散 ( イ )ANOVA
C. ( ア )標本誤差 ( イ )post-hoc analysis
D. ( ア )標本誤差 ( イ )局所管理化
## 44. を変更せず維持しました。標本調査とは、調査の対象全体を調べるのではなく、対象全体から抽出された一部(サンプル)に対して実施される調査のことです。標本調査では、抽出された標本から得られる統計量と全体(母集団)から得られる統計量とが必ずしも一致しないため、両者から得られる統計量や各種の指標の間には誤差が生じます。この誤差のことを標本誤差といいます。
同一の調査、同一の項目においては、サンプル数が多いほど標本誤差は小さくなります(大数の法則)。逆に、サンプル数が少ないほど標本誤差は大きくなります。サンプル数を多くすると調査の手間や経費などが増加します。そのため、サンプル数は、通常、標本誤差の大きさと調査にかかるコストなどとの兼ね合いで決定されます。
実験計画法は、効率のよい実験方法を設計し、結果を適切に解析することを目的とした統計学の手法です。変数が多い調査を行う場合、すべての組み合わせで調査を行うと非常に時間がかかります。実験計画法を用いると、検証事柄に関する情報をできるだけ少ない実験回数で取得できます。
例えば、「地域」「肥料の種類」「育てる時期」という3つの変数を組み合わせて、「効率よく野菜を育てるにはどうすればよいか」を判断するために実験をするとします。組み合わせの総数は、地域($A, B$) $\times$ 肥料の種類($a, b$) $\times$ 育てる時期($1, 2$)の8パターン($2 \times 2 \times 2$)であるとします。すべてのパターンを試せば結論は出ますが、パターン数が多い場合はすべてのパターンを試
すのは効率的ではありません。このとき、実験計画法を用いると、実験回数を効果的に減らすことができます。
実験計画法では、Fisherの3原則という考え方がよく用いられます。Fisherの3原則は、局所管理化(local control)、反復(repetition、replication)、無作為化(randomization)からなります。これは、処理を実験単位に無作為に割り当て、実験を繰り返すことで処理間の比較を十分に正確にすることを保証しながら、実験全体を複数のブロックに分割し、系統誤差を取り除くという原則に則っています。
以上より、組み合わせが適切な選択肢Dが正解です。
Friedman検定やANOVA、post-hoc analysisは、いずれも実験計画法で定められている統計学的解析のことです(A、B、C)。
試験対策
実験計画法の基本的な3原則(局所管理化、反復、無作為化)について説明できるようにしておきましょう。
以下の記述を読み、空欄アに入る語句として、最も適切なものを選べ。
データの欠損や重複、表記揺れなどを特定、修正することによってデータの品質を高める処理を( ア )という。
A. データクレンジング
B. クラスタリング
C. データレイク
D. データオーギュメンテーション
**)を適用しました。データの欠損や重複、表記揺れなどを特定、修正することによってデータの品質を高める処理をデータクレンジングといいます。機械学習においてデータを扱うときにもデータクレンジングは行われ、データクレンジングを行うことで、性能のよいモデルを作りやすくなります(A)。
クラスタリングは教師なし学習の手法の1つであり、データ間の距離に基づいてデータをグループ化する手法です(B)。
データレイクは、データ蓄積に関する概念であり、データをそのままの形で蓄積できる場所です(C)。
データオーギュメンテーションは、機械学習において学習データを水増しする手法です(D)。
データ分析作業に着手する前に、入手したデータに対する前処理が必要な場合がある。前処理を行う必要があるデータの例として、最も適切でないものを選べ。
A. 欠損値を含むデータ
B. 極端に小さい値を含むデータ
C. 極端に大きい値を含むデータ
D. 平均値と中央値がまったく同じであるデータ
他のデータから見て極端に大きい/小さい値のことを外れ値といいます。何らかの理由により記録されなかった値を欠損値といいます。外れ値や欠損値がデータに含まれていると、その値が集計処理や分析の結果に悪影響を与えてしまう場合があります(A、B、C)。
また、平均値と中央値が同じ値であることは、それ単体では前処理を行う明確な理由にはなりません。ただし、前処理を行わなくてもよいといった意味ではないため注意しましょう。
以上より、選択肢Dが正解です。
外れ値の検出方法に関する以下の記述を読み、空欄ア、イに入る語句の組み合わせとして、最も適切なものを選べ。
第一四分位点、第三四分位点を用いて( ア )を計算し外れ値を検出、標準偏差と( イ )を用いて外れ値を検出する手法などが一般的である。
A. (ア)平均 (イ)最頻値
B. (ア)最頻値 (イ)四分位範囲
C. (ア)四分位範囲 (イ)平均
D. (ア)四分位範囲 (イ)最頻値
外れ値を検出する代表的な手法に、第一四分位数または第三四分位数といった、四分位範囲を用いるものがあります(ア)。
四分位範囲の定数倍を第一四分位点から引いて、それよりも小さいデータを外れ値と判断します。同様に、四分位範囲の定数倍($1.5$ 倍とすることが多い)を第三四分位点に足して、それよりも大きなデータは外れ値と判断します。
また、平均と標準偏差を用いて外れ値を検出する手法も一般的です(イ)。
この手法では、平均との差が標準偏差の定数倍以上となる点を外れ値と判断します。
以上より、組み合わせが適切な選択肢Cが正解です。
$1.5$)に整形しました。データを可視化する際には、目的に合わせて適切なグラフを利用することが重要である。(ア)〜(ウ)は、データの可視化手法に関する記述である。このうち適切でない記述を組み合わせたものを選べ。
(ア)商品Aと商品Bの価格差がなるべく小さく見えるようにするために、価格を示す棒グラフの目盛り間隔が狭くなるように軸の幅を調整した
(イ)ある商品の購入者の割合が20代、30代、40代でほぼ同数だった場合に、3Dの円グラフで立体的に表現し、強調したい項目を手前側にして大きく見えるように示した
(ウ)あるクラスの生徒の数学の点数と物理の点数の相関関係を確認するため、散布図を用いて2次元平面にプロットした
A. (ア)と(イ)
B. (イ)と(ウ)
C. (ア)と(ウ)
D. (ア)と(イ)と(ウ)
棒グラフはデータの値の大小を比較するのに適していますが、データの理解に関して誤認を招くような、軸幅の操作などは行うべきではありません。
円グラフは、データ全体を円で表し、割合を可視化することに適したグラフです。なお、2次元で表現できる円グラフを3Dで表示すると、遠近法によって手前にある扇形のほうが大きく見えるなど、誤解を生む可能性が高いため、避けたほうが無難です。
2変数に対する散布図は、データを2次元平面の1点としてプロットしたグラフであり、変数間の相関関係を見るのに適しています。
以上より、選択肢Aが正解です。
参考
グラフの内容を理解するために不要あるいは過剰な視覚要素や、見る者の注意をそらしてしまうような視覚要素を、チャートジャンクといいます。グラフ作成時には、なるべくグラフからチャートジャンクを排除するよう意識しましょう。
**)で強調しました。データを可視化する際には、主張を正当化するための意図的な操作や、誤解を招くような表現、過度な誇張などは避けるべきである。以下の4つのグラフから、最も誤解を招きにくいと考えられるものを選べ。
A. 売上比率
B.
C. 降雪日数
D
図
<図PAGE_ID-n--->)に置換しました。<!-- [FILE_NAME]: ... --> はメタデータとして維持しています。円グラフは、全体に対する各項目の割合を示す際に使用されます。アンケートの結果や、特定の地域ごとの生産割合を示すのに適しています。しかし、円グラフの $3\text{D}$表示は、面積に歪みが生じるため、実際の割合と異なる印象を与えてしまいます。例えば、選択肢Aの円グラフは、その他 $35\,\%$、AI事業 $30\,\%$ ですが、その他よりもAI事業の方が大きく見えてしまいます(A)。
帯グラフも円グラフと同様に各項目の構成比を示す際に用いられます。異なる地域や年代ごとの比較に適していますが、省略線の使用には注意が必要です。
選択肢Bでは、省略線により地域Cの反対派が半数を占めているように見えてしまいます。
折れ線グラフは、時間の経過に伴う変化を可視化するのに適しています。折れ線グラフで可視化する際には、横軸の時間間隔や縦軸の目盛りの設定に注意が必要です。
選択肢Cは、降雪日数の年次変化を可視化したグラフです。軸の時間間隔が均等であり、縦軸の目盛りも変化がわかりやすいように適切に設定されています。
一方、選択肢Dでは、横軸の時間間隔が均等でなく、縦軸の目盛りも省略されています。そのため、年度ごとの問い合わせ件数の変化を正確に把握することができません。
\, )を挿入しました(例:$35\,\%$)。\text{D})で維持されていることを確認しました。散布図に関する以下の記述を読み、空欄ア、イに入る語句の組み合わせとして、最も適切なものを選べ。
散布図は、( ア )を調べるための可視化表現である。ある学校に在籍している生徒の男女別の身長と体重の関係を可視化するために、( イ )した散布図を描いた。
A. (ア)データの相関関係
(イ)縦軸を身長、横軸を体重とし、男女別にデータ点を色分け
B. (ア)データの時間方向の推移
(イ)縦軸を身長、横軸を体重とし、すべてのデータ点を同色の同記号で表現
C. (ア)データの構成比
(イ)縦軸を男子の身長、横軸を女子の身長に設定
D. (ア)数値間の大小関係
(イ)縦軸を男子の身長、横軸を女子の体重に設定
## 50. および選択肢、末尾のコメントアウト(ID)を維持しました。<!-- 027_151_1 --> は図の参照IDと思われますが、指定の [図:PAGE_ID-n:内容] 形式ではなかったため、データの欠落を防ぐため原文のまま維持しています。散布図は、2項目の量や大きさを対応させ、データを点でプロットする可視化表現です(ア)。散布図は、縦軸と横軸それぞれのデータの間にある相関関係について調べるために用いられます。設問のように、ある学校に在籍している生徒の男女別の身長と体重の関係を可視化したい場合、散布図を用いることができます。
データを可視化する際には、可視化したい対象を適切に表現できるようにグラフの軸を設定したり、データをグループ分けしたりする必要があります。散布図の縦軸と横軸には、1対1で対応する項目を設定する必要があります。設問の例の場合、1つのデータ点は、ある個人の身長と体重の組を示していなければなりません。したがって、選択肢C・Dの(イ)の記述は不適切です。
データを何らかの切り口によってグループ分けした情報を散布図に付加したい場合には、通常、異なる色や記号を用いて各グループのデータ点をプロットします。設問の例の場合、男女別にデータ点を色分けすることで、男女別の身長と体重の分布を把握することができます。
以上より、選択肢Aが正解です。
**)で強調しました。あなたは多変量のデータを渡され、その性質を端的に表すためデータの可視化を行うことになった。このとき、用いる可視化表現として、最も適切でないものを選べ。
A. 3変数からなるデータのばらつきを見るために、3次元散布図を利用してデータを可視化した
B. 3変数からなるデータのばらつきを見るために、3色で色分けしたヒートマップを利用してデータを可視化した
C. 5変数からなるデータのばらつきを見るために、2変数を組み合わせた散布図行列を利用してデータを可視化した
D. 5変数の属性の違いを比較するために、平行座標を利用してデータを可視化した
3次元散布図は、3つの変数を座標軸とした散布図です。3次元のデータの可視化のために用いられます(A)。
散布図行列は、多変量データのヒストグラムと散布図を1回で列挙する可視化手法です。各行/各列が変数に対応しており、行番号に対応する変数と列番号に対応する変数の散布図が、行と列の要素として並びます。対角成分は各変数のヒストグラムになります(C)。
平行座標は、4次元以上のデータを可視化する手法の一種です。例えば「楽器の品番」と「大きさ・重さ・値段」がセットになったデータの場合、「楽器の品番」ごとに色分けし、横軸に「大きさ・重さ・値段」を並べ、縦軸に値の大きさをとって可視化を行います(D)。
ヒートマップは、任意の位置(マス)における変数の値の大小を色で表現した図です。以下の図に表すように、通常、ヒートマップにおいて色で表現することができるのは1つの変数の値のみです。3つの変数をそれぞれ別の色で表現する場合は、1つのマスを複数の色で塗る必要があり、効果的な可視化を行うことができません(B)。
【ヒートマップの例】
<図PAGE_ID-n--->)に置換。あなたはクライアントから、$10$変数からなるデータを受け取った。まずは可視化のために、このデータを情報の欠落を抑えつつ $2$次元に落とし込みたい。このとき行うべき処理として、最も適切なものを選べ。
A. 値の大きい$2$変数を抽出する
B. 分散の大きい$2$変数を抽出する
C. 主成分分析を行って、寄与率の大きい成分を採用する
D. 主成分分析を行って、寄与率の小さい成分を採用する
$10$, $2$)に統一しました。主成分分析(Principal Component Analysis, PCA)は、情報の損失を最小限にしつつ、データの次元数(説明変数の数)を減らす場合に用いられる手法です。主成分分析を行うと、高次元のデータをより少ない次元のデータに要約することができます。具体的な方法としては、各主成分の固有値をその総和で割ることで算出した寄与率を用いることで優位性を判断します。
選択肢A、Bのように、データから一部の変数を抽出する方法では、多くの場合、データの性質を表す重要な情報が欠落してしまいます。
また、主成分分析を用いて元のデータのもつ情報をより多く保存しつつ次元数を削減するためには、寄与率の大きい成分を採用する必要があるため、選択肢Dは不適切です。
以上より、選択肢Cが正解です。
参考
主成分分析の他にも、特異値分解(Singular Value Decomposition, SVD)、多次元尺度構成法(Multi-Dimensional Scaling, MDS)、$t$-SNE($t$-distributed Stochastic Neighbor Embedding)などの次元削減手法があります。特に $t$-SNE はデータの可視化の際によく用いられます。
**)で強調しました。$t$-SNE の変数部分がイタリックになるよう数式モードを適用・維持しました。ある模擬試験の結果を次の表に示す。このデータを元に作成したクロス集計表として、最も適切でないものを選べ。
【ある模擬試験の結果】
[図:PAGE_ID-n:内容])ではないため、マーカー形式への置換は行わず、原文を維持しています。クロス集計は、2つの変数を軸として頻度などを集計することです。クロス集計の結果を表で表したものをクロス集計表といいます。例えば、アンケート調査で得られたデータについて、年代とアンケートの回答(良い・悪い)を軸として頻度を算出する際に用いられます。
【クロス集計表の例】
| 全回答数 | 良い | 悪い | ||
|---|---|---|---|---|
| 全年齢 | 300 | 156 | 144 | |
| 年齢 | 20代 | 80 | 42 | 38 |
| 30代 | 120 | 61 | 59 | |
| 40代 | 100 | 53 | 47 |
クロス集計表の行名と列名の書き方にはさまざまな方法があります。例えば、選択肢Aのように合計のマスを設ける場合や、Bのように平均のマスを設けたり、変数名を表すマスを設けたりする場合があります。集計目的に合わせて見やすく作成することが重要です。
また、クロス集計表の作成にあたっては、適切な軸を選ぶことも重要です。例えば、選択肢Aのように、元の表から人数を算出する方法があります。CやDの表では受験者IDごとに集計を行っていますが、Dの表は集計結果が正しくありません。
以上より、選択肢Dが正解です。
以下の散布図は、ある期間の「アイスクリーム販売合計額」と「熱中症での救急搬送者数」の関係を示したものである。この散布図から読み取れることとして、最も適切なものを選べ。
A. 相関関係はあるが、因果関係があるかどうかはわからない
B. 因果関係はあるが、相関関係はない
C. 相関関係も因果関係もある
D. 相関関係も因果関係もない
<図PAGE_ID-n--->)に置換・整形しました。片方の値が変化すれば、もう片方も同じように変化する場合、それら2つの変数の間には相関関係が見られるといいます。また、2つの変数があり、それら2つの変数が原因と結果の関係にあるときは、因果関係が見られるといいます。
設問の「アイスクリームの販売合計額」と「熱中症での救急搬送者数」の散布図の場合、正の相関が見られます。しかし、この散布図だけでは、「アイスクリームの販売合計額」と「熱中症での救急搬送者数」に因果関係があるかどうかを判断することはできません。
以上より、選択肢Aが正解です。
なお、設問の「アイスクリームの販売合計額」と「熱中症での救急搬送者数」の散布図の場合、気温という別の因子によって相関関係が引き起こされている
と考えるのが自然です。このように、2つの変数以外の因子によって相関関係が引き起こされることを擬似相関といいます。
<!-- 304_304_1 -->)を挟んで「引き起こされてい」「ると」と分断されていた箇所を、自然な日本語として繋がるよう「引き起こされている」に整形しました。以下の記述を読み、空欄ア〜エに入る語句の組み合わせとして、最も適切なものを選べ。
以下の表は、ある店舗における購買履歴データである。商品Aと商品Bが同時に買われる確率は、( ア )である。これを支持度(support)という。また、全体の中で商品Bが買われる確率は( イ )であり、これを期待信頼度という。さらに、商品Aが買われたレシートの中で、商品Bが買われた確率は( ウ )であり、これを商品Aから見た商品Bの信頼度(confidence)という。( ウ )を( イ )で割ると( エ )となり、これを商品Aから見た商品Bのリフト値(lift)という。
【ある店舗における購買履歴データ】
A. (ア) $0.33$ (イ) $0.42$ (ウ) $0.63$ (エ) $1.19$
B. (ア) $0.75$ (イ) $0.17$ (ウ) $0.63$ (エ) $0.84$
C. (ア) $0.75$ (イ) $0.42$ (ウ) $0.50$ (エ) $0.84$
D. (ア) $0.33$ (イ) $0.42$ (ウ) $0.50$ (エ) $1.19$
$0.33$ などのインライン数式モードに統一しました。商品Aと商品Bが同時に買われる確率は、$$4 \div 12 = 0.33$$ です。そのような同時に起こる確率のことを支持度(サポート)といいます。
全体の中で商品Bが買われる確率は、$$5 \div 12 = 0.42$$ です。これを期待信頼度といいます。
商品Aが買われたレシートの中で商品Bが買われた確率は、$$4 \div 8 = 0.50$$ です。これを、商品Aから見た商品Bの信頼度(コンフィデンス)といいます。
商品Aから見た商品Bの信頼度を商品Bの期待信頼度で割ると、$$0.50 \div 0.42 \approx 1.19$$ となります。これを、商品Aから見た商品Bのリフト値といいます。
商品Aから見た商品Bのリフト値は、商品Aと一緒に商品Bも購入した人の割合(信頼度)が、すべてのデータの中で商品Bを購入した人の割合(期待信頼度)よりどれだけ多いかを倍率で示したものです。商品Aから見た商品Bのリフト値が大きいほど、「商品Aを買った人はついでに商品Bも買う傾向にある」といえます。
以上より、選択肢Dが正解です。
$$...$$)へ昇格させました。\approx)の検討も可能ですが、原文の数値を尊重しつつ整形しました。あるECサイトにおける顧客の購入ログデータをある基準に従って並べ替えたところ、下表のような結果を得た。この基準を説明している次の記述を読み、空欄ア、イに入る語句としての組み合わせとして最も適切なものを選べ。なお、並べ替えにあたって用いたキーの数は4つである。
第一に優先順位が高いルールは( ア )であり、第二に優先順位が高いルールは( イ )である。
【顧客の購入ログデータを並べ替えた結果】
A. (ア) 顧客IDの昇順 (イ) 顧客IDの昇順
B. (ア) 顧客IDの降順 (イ) 購入量の降順
C. (ア) 日付の昇順 (イ) 顧客IDの昇順
D. (ア) 日付の降順 (イ) 購入量の降順
表計算ソフト上でデータを複数キーで並べ替える方法に関する問題です。
日付に注目したいときは日付をキーとして並べ替えを行い、購入量の多いデータに着目したいときは購入量に対して並べ替えを行います。
並べ替えには、昇順と降順という考え方があります。昇順は、数字が小さい順やアルファベット順($A \rightarrow B \rightarrow C$)など、小さいものから大きいものへ、あるいは前方から後方へと向かう順序です。降順はその逆であり、数字が大きい順やアルファベットの逆順($Z \rightarrow Y \rightarrow X$)など、大きいものから小さいものへ、あるいは後方から前方へと向かう順序です。
日付の場合、古い日付から新しい日付への順序が昇順であり、新しい日付から古い日付への順序が降順です。
本問のデータでは、まず日付の昇順で並べ替えが行われています(空欄ア)。次に、5月8日や5月10日などのデータが複数ある日付に注目すると、顧客IDが昇順で並んでいるのが読み取れます。アイテムIDや購入量については、昇順や降順といった規則性が読み取れず、顧客IDの順序のほうが優先度が高いことがわかります(空欄イ)。
以上より、組み合わせが適切な選択肢Cが正解です。
MySQLにおいてテーブルを作成する際、カラムごとにデータ型を設定する必要がある。データ型には、小数点を含む数値を表す( ア )や、可変長の文字列を表す( イ )など、さまざまな種類がある。
A. (ア) NUMERIC (イ) CHAR
B. (ア) NUMERIC (イ) VARCHAR
C. (ア) BOOLEAN (イ) CHAR
D. (ア) INTEGER (イ) VARCHAR
MySQLにおいてテーブルを作成する際、カラムごとにデータ型を設定する必要があります。
データ型は、数値、文字列、日付、論理値のカテゴリに大別され、以下のようなデータ型があります。
・数値 ・・・・・・・・・・ INTEGER(整数値)、NUMERIC(小数点を含む数値)など
・文字列 ・・・・・・ CHAR(固定長の文字列)、VARCHAR(可変長の文字列)など
・日付 ・・・・・・・・ DATE(日付)、TIMESTAMP(日付と時間)など
・論理値 ・・・・・・ BOOLEAN(真偽値)など
以上より、組み合わせが適切な選択肢Bが正解です。
**)で強調しました。以下の記述を読み、空欄アに入る語句として、最も適切なものを選べ。
データの蓄積に関する概念の1つとして、( ア )がある。( ア )は、分析しやすい形に整形されたデータを蓄積する場所としての役割をもつ。
A. データレイク
B. データウェアハウス
C. データセット
D. データマート
**)で強調しました。## 58. を改変せず維持しました。データ蓄積に関する概念には、データレイク、データウェアハウス、データマートがあります。
・データレイク ・・・・・・・・・・・・収集されたデータをそのままの状態で蓄積する場所 (A)
・データウェアハウス ・・・・・・分析しやすい形に整形されたデータを蓄積する場所 (B)
・データセット ・・・・・・・・・・・・機械学習などで用いられるデータの集合 (C)。他の3つの概念とは直接の関係をもたない用語
・データマート ・・・・・・・・・・・・特定の利用目的のために抽出されたデータを蓄積する場所 (D)
試験対策
データウェアハウスは、DWH (Data Warehouse) と略表記される場合があります。DWHを構築する際には、DWH用のクラウドサービスやDWHアプライアンスが用いられます(それほど大量・高速な処理が要求されない場合には、一般的なRDBMSが用いられることもあります)。DWHアプライアンスとは、DWHを成立させるために必要なハードウェア(コンピュータ、ストレージ)とソフトウェアが統合された製品です。DWHアプライアンスの例として、Oracle Exadata Database Machine、IBM Integrated Analytics Systemなどが挙げられます。
データベースを操作する際に、正規表現という表現形式がよく用いられる。正規表現が用いられる場面として、最も適切なものを選べ。
A. ある列の要素がアルファベット順(A〜Z)になるようにデータを並べ替える
B. データを日時の古い順に表示する
C. 090で始まる合計11文字の電話番号を検索する
D. 数値データを昇順に並べ替え、データを整理する
データベースを操作する際に、正規表現と呼ばれる表現形式がよく用いられます。正規表現では、検索したいパターンを特有の記号の組み合わせで表現します。
例えば、「10,000円」と「¥10,000」のように、データベースの中で混在している文字列を「¥10,000」に統一したり、最後が句点(。)で終わる文字列を含むデータを検索したりする場合に正規表現が用いられます。
正規表現を用いると、特定の条件に当てはまる数値や文字列を検索できるため、その結果に対して、数値や文字列の置換を実行することもできます。よって、選択肢 $C$ が正解です。
ある列の要素がアルファベット順($A$-$Z$)になるようにデータを並べ替える($A$)、データを日時の古い順または新しい順に並べ替える($B$)、数値データを昇順に並べ替え、データを整理する($D$)ことは、いずれもソートの説明です。正規表現は用いられません。
ソートとは、複数のデータからなる列を、何らかの順序性に基づいて順番どおりになるよう並べ替えることを指します。数値列を大きい順または小さい順に並べたり、文字列をアルファベット順や五十音順に並べ替えたりすることがソートに該当します。
以下の記述を読み、空欄ア〜ウに入る語句の組み合わせとして、最も適切なものを選べ。
下図は、2つのテーブルに対する結合処理と、結合処理後に得られたテーブルを示している。この結合処理の名称として最も適切なものは( ア )である。また、SQLのUNION処理では、複数のSELECTの結果の和をとることができる。このとき、( イ )では重複が削除されるが、( ウ )では重複も含まれる。
A. (ア)完全外部結合
(イ)UNION ALL
(ウ)UNION
B. (ア)内部結合
(イ)UNION ALL
(ウ)UNION
C. (ア)交差結合
(イ)UNION
(ウ)UNION ALL
D. (ア)内部結合
(イ)UNION
(ウ)UNION ALL
<図PAGE_ID-n--->)に置換。UNION、UNION ALL、SELECT)をバックティックスによるコード形式に整形。UNION(重複削除)とUNION ALL(重複保持)の定義に基づくと、選択肢Dが論理的に一貫しています。完全外部結合とは、2つのテーブルに存在するすべてのデータを結合する処理のことです。
内部結合とは、2つのテーブルでそれぞれ結合の対象となるカラムを指定し、それぞれのカラムに同じ値が格納されているデータをカラムの値をもとに結合する処理のことです。
交差結合とは、2つのテーブルのデータのすべての組み合わせを抽出する処理のことです。
設問のテーブルでは、結合後に $C$ さんと $D$ さんのデータが消えていることに注目します。これは、所属学科IDと学科名を対応させるテーブル内に「 $4$ 」というIDの学科が存在しないため、結合の際に抽出されなかったと考えられます。よって、結合後のテーブルには結合前の両方のテーブルに存在しているデータのみが抽出されていることから、内部結合が行われていると結論づけられます。また、SQLの UNION 句では、複数の SELECT 句の実行結果の和をとることができます。このとき、UNION では重複が削除されますが、UNION ALL では重複が削除されません。
以上より、組み合わせが適切な選択肢 $D$ が正解です。
**)で強調しました。<!-- 095_185_1 --> を維持しました。データの質を向上させたいとき、データクレンジングを行う。データクレンジングの説明として、最も適切なものを選べ。
A. データ集合からデータをランダムまたは一定の間隔で抽出する
B. 学習データに平行移動、拡大縮小、回転、ノイズの付与などの処理を加えながらデータ数を人為的に増やす
C. データベースなどに保存されているデータの中から表記揺れや誤記、重複などを探し、それらに対して削除や修正を行う
D. 特定の条件に該当する行を抽出する
データクレンジングとは、データベースなどに保存されているデータの中から表記揺れや誤記、重複などを探し、それらに対して削除や修正を行う作業のことです(C)。データクレンジングを行うことで、データの質を向上させることができます。外れ値や異常値、欠損値といった、データの状況を正しく把握する妨げになるサンプルも、クレンジングの対象です。
その他の選択肢については、以下のとおりとなります。
以下の記述を読み、空欄ア、イに入る語句の組み合わせとして、最も適切なものを選べ。
データの移行やデータの統合を行う際に、異なる場所に存在するデータに対して、同じものを指している要素同士を関連付ける作業を( ア )という。また、データ集合からデータをランダムまたは一定の間隔で抽出する作業を( イ )という。
A. (ア)量子化
(イ)フィルタリング処理
B. (ア)フィルタリング処理
(イ)サンプリング処理
C. (ア)マッピング処理
(イ)サンプリング処理
D. (ア)グループ化
(イ)マッピング処理
**)に設定。## 62. および末尾のコメントアウト情報を維持。データの移行やデータの統合を行う際に、異なる2つのデータを関連付けたい場合には、異なる場所に存在するデータに対して、同じものを指している要素同士を関連付けるマッピング処理を行います(ア)。
例えば、「東京都文京区本駒込2」という住所と「緯度 $35.728287834526$、経度 $139.74869610784$」という地理座標は異なるデータのように見えますが、同じ場所を指しています。マッピング処理では、このように同じものを指している別種のデータを互いに関連付けます。
また、データ集合からデータをランダムまたは一定の間隔で抽出することをサンプリング処理といいます(イ)。統計において母集団全体を対象とすることが困難な場合に、集団を代表する少数の標本を抽出して対象とすることで、統計的に母集団の性質を推計することができます。
よって、組み合わせが適切な選択肢Cが正解です。
量子化は、サンプリングされたアナログ値を離散化する変換です。サンプリングと量子化は、アナログ信号をコンピュータ上で処理する際の一般的な前処理です。
フィルタリング処理は、特定の条件に該当する行を抽出する処理のことです。
グループ化は、データを特定のカテゴリごとに分類し、まとめる処理のことです。
**)で強調しました。$...$)に統一し、技術文書としての視認性を高めました。無作為抽出の具体的な利用例として、最も適切なものを選べ。
A. ある会社の社員100名に対してアンケートを実施し、この会社の男女の働き方に関する意識調査を行った。このとき、対象となる100名の性別や年代の分布が、この会社の社員全体の分布と同じになるように標本を抽出した
B. 特定の部署の社員の中から無作為に30名を選び、会社全体の働き方改革についてアンケートを実施した
C. ある会社が販売している商品の利用者200人に商品満足度の評価を調査するため、自社内でその商品を利用している人を見つけた。またその人の友人や知人で同じ商品を利用している人を紹介してもらい、200人を集めた
D. あるサービスの利用者の満足度を調査するために、コンピュータによって生成された一様乱数に基づいて選んだ利用者100人を対象とし、アンケート調査を実施した
無作為抽出では、母集団のすべての要素を対象としてランダムにサンプルを抽出します。
一様乱数に基づいて、あるサービスの利用者の中から100人を抽出すると、すべてのサービス利用者が等確率でアンケート回答者になり得ます。よって、この方法は無作為抽出として適切です(D)。
母集団を性別や年代などの何らかの属性によってあらかじめ層(グループ)化しておいたうえで、各層から標本を抽出することを層化抽出といいます。特に、各層から抽出する標本の割合を母集団内の各層の割合と一致するように抽出を行う手法のことを、比例配分法と呼ぶ場合があります。選択肢Aは層化抽出の例であり、無作為抽出としては不適切です。
会社全体に影響する働き方改革に関するアンケートを特定の部署の社員を対象に実施すると、取り上げられる意見に偏りが生じる可能性があります。よって、選択肢Bの方法は無作為抽出としては不適切です。
同じ商品を利用している人を紹介してもらうという抽出方法は、アンケート回答者に偏りが生じ、母集団全体の傾向を正確に表すことができない可能性が高くなります。よって、選択肢Cの方法は無作為抽出としては不適切です。
次の表は、ある大学の期末試験のデータである。試験結果のデータを集計するために、下のようなSQLコマンドを実行した。このコマンドの実行結果として、最も適切なものを選べ。
exam_score
SELECT COUNT(department_id) FROM exam_score WHERE department_id = '2';
A. 10
B. 5
C. 7
D. 82
SELECT文は、テーブルからデータを取得するための構文です。FROM句で、指定されたテーブルからデータを取り出します。
WHERE句を用いることで、抽出条件を設定できます。設問のコマンドでは、department_id が「2」であるデータが抽出されています。
COUNT関数では、抽出されたレコードの件数を返します。
したがって、設問のコマンドは、exam_score テーブルから、department_id が「2」であるデータを抽出し、その件数を取得する処理を実行するので、「5」が返されます(B)。
また、
SELECT COUNT(gender) FROM exam_score WHERE gender = '男';
とすることで、genderが「男」であるデータを抽出してその件数を返すなど、さまざまな情報を抽出できます。
リレーショナルデータベースの関係演算には、射影、選択、結合、差などがある。以下に、演算前のテーブルと演算後のテーブルを示す。演算前のテーブルに対して行われている関係演算の種類として、最も適切なものを選べ。
| 患者ID | 氏名 | 年齢 | 性別 |
|---|---|---|---|
| 100 | A | 60 | 男 |
| 101 | B | 23 | 男 |
| 102 | C | 56 | 女 |
| 103 | D | 45 | 男 |
| 104 | E | 37 | 女 |
| 105 | F | 48 | 女 |
| 106 | G | 60 | 男 |
| 107 | H | 68 | 女 |
| 108 | I | 72 | 男 |
| 109 | J | 71 | 女 |
+
| 患者ID | 最終来院日 |
|---|---|
| 100 | 2021/06/01 |
| 101 | 2021/06/05 |
| 102 | 2021/06/01 |
| 103 | 2021/06/03 |
| 104 | 2021/06/02 |
| 105 | 2021/06/02 |
| 106 | 2021/06/05 |
| 107 | 2021/06/04 |
| 108 | 2021/06/03 |
| 109 | 2021/06/01 |
↓
| 患者ID | 氏名 | 年齢 | 性別 | 最終来院日 |
|---|---|---|---|---|
| 100 | A | 60 | 男 | 2021/06/01 |
| 101 | B | 23 | 男 | 2021/06/05 |
| 102 | C | 56 | 女 | 2021/06/01 |
| 103 | D | 45 | 男 | 2021/06/03 |
| 104 | E | 37 | 女 | 2021/06/02 |
| 105 | F | 48 | 女 | 2021/06/02 |
| 106 | G | 60 | 男 | 2021/06/05 |
| 107 | H | 68 | 女 | 2021/06/04 |
| 108 | I | 72 | 男 | 2021/06/03 |
| 109 | j | 71 | 女 | 2021/06/01 |
A. 選択
B. 結合(自然結合)
C. 射影
D. 差
<図PAGE_ID-n---> 形式に置換しました。j となっていますが、1つ目のテーブルでは大文字の J です。原文のデータ不備の可能性がありますが、ルールに基づき内容の改変は行わず維持しています。設問では、患者ID、氏名、年齢、性別からなるテーブルと、患者ID、最終来院日からなるテーブルがあります。この2つのテーブルはそれぞれ患者IDのデータをもち、患者IDに基づいて2つのテーブルが結合されています。
結合は、複数のテーブルを一定の条件に沿って1つのテーブルにまとめる演算のことです。したがって、行われた演算は結合です(B)。
選択は、テーブルの中から条件に合った行のみを抽出する演算のことです(A)。
射影は、テーブルの中から特定の列を抽出する演算のことです(C)。
差は、あるテーブルから別のテーブルに含まれている行を取り除く演算のことです(D)。
CSVは、複数の項目をカンマで区切って記述するデータ形式であり、表形式のデータを扱う際に用いられることが多い。以下のCSVに関する記述のうち、適切な記述を組み合わせたものはどれか。
(ア) エスケープ処理を適切に行えば、CSVファイルの値の中にカンマを含めることができる
(イ) CSVファイルの値としてバイナリデータを使うことはできない
(ウ) それぞれのレコードは改行によって区切られる
A. (ア)と(イ)
B. (イ)と(ウ)
C. (ア)と(ウ)
D. (ア)と(イ)と(ウ)
CSV(Comma-Separated Values)は、複数の値をカンマで区切るデータ形式です。値をカンマで区切ったものが1つのレコードとなり、それぞれのレコードは改行によって区切られます(ウ)。
CSVはテキストデータの記法の1つです。CSVファイルの値としてバイナリデータを使うことは可能です(イ)。
CSVと類似のデータ形式として、タブ文字で値を区切るTSV(Tab-Separated Values)、空白で値を区切るSSV(Space-Separated Values)があります。CSVファイルやTSVファイルでは、カンマやタブのような区切り文字と同一の記号をそのまま値の中に含めてしまうと、その値が区切り文字として解釈されてしまいます。値の中にこうした記号を含めたい場合には、値に対してエスケープと呼ばれる処理を行う必要があります(ア)。
以上より、選択肢Cが正解です。
データ転送プロトコルの一種であるFTP(File Transfer Protocol)を用いてファイルを共有するためのサーバをFTPサーバという。通常、FTPサーバでは、ユーザーアカウントでの認証が必要であるが、不特定多数からのアクセスを許可しファイルを共有することもできる。これを可能にするための方法として、最も適切なものを選べ。
A. 管理者が anonymous というユーザーIDを作成し、ユーザーはこのIDと適当なパスワードを入力する
B. クライアントには必ず admin というユーザーIDが設定されており、ユーザーはこのIDを入力するだけでよい
C. クライアントが username というユーザーIDを作成し、ユーザーはこのIDを入力するだけでよい
D. クライアントに事前の設定は必要なく、ユーザーは no-name というIDと適当なパスワードを入力することで、不特定多数からのアクセス専用のファイルにできる
FTPサーバでは通常、あらかじめ登録したユーザーIDとパスワードによって認証を行います。
しかし、不特定多数のユーザーに対してファイルを共有する場合、全員にユーザーアカウントを発行することは現実的ではありません。そのような場合は、anonymousというユーザーIDを作成します。これによって、ユーザーは、anonymousというユーザーIDと任意のパスワードでログインできるようになります(A)。通常はこの際に、パスワードとしてクライアント側のメールアドレスを入力するようになっています。
admin というユーザーIDは administrator の略称であり、一般にサーバ管理者のためのIDです(B)。
選択肢C、Dのような認証方法はありません。
**)で強調しました。## 67. A)およびHTMLコメント(<!-- 098_186_2 -->)を維持しました。Jupyter Notebookは、オープンソースのアプリケーションである。Jupyter Notebookの説明として、最も適切でないものを選べ。
A. 方程式、グラフ、テキストを含むドキュメントを作成および共有ができる
B. 対話式の開発環境として用いられる
C. コンテナ仮想化を用いて、OSに影響されずに開発・配置・実行ができる
D. データのクリーニング、数値シミュレーション、データの可視化、機械学習などに用いられる
Jupyter Notebookは、ブラウザ上で動作する開発環境です。Jupyter Notebookでは、セルと呼ばれるブロック単位でプログラムを記述し、実行します。対話式でコードを記述し実行できる仕様になっているため、データ分析や機械学習の開発によく利用されます(B、D)。また、Jupyter Notebookを用いることで、方程式、グラフ、テキストを含むドキュメントの作成および共有が可能です(A)。
Jupyter Notebookが対象とする言語としては、Pythonをはじめ、RやRubyなどがあります。これらの言語はオブジェクト指向言語と呼ばれ、スーパークラス(親クラス)のプロパティやメソッドを適切に活用することで、コーディングの効率を上げることが可能です。
さらに、Pythonにおいては、数値計算に関する外部ライブラリの使用も有効です。外部ライブラリが提供する関数の戻り値を適切に把握し、活用することでコーディングにかかる工数を削減することができます。
また、Jupyter Notebookは、通常、「開発環境」に位置付けられますが、「厳密には開発環境ではない」と説明される場合もあります。発言者によって位置付けが変わることに注意が必要です。
選択肢Cは、Dockerに代表されるコンテナ型の仮想化プラットフォームに関する説明です。
参考
Pythonをはじめ、RやRubyなど多くのプログラミング言語では、ループ処理の機能が備わっています。
しかし、入れ子の繰り返し処理(二重ループ)などは計算負荷が高いロジックのため、処理に要する時間が長くなってしまいます。
よって、できるだけ二重ループ処理は避けるようにすることが、望ましいコーディング方法といえます。
試験対策
ソフトウェアの実行状況や利用状況を記録したものをログといいます。開発したソフトウェアにログを出力する機構を組み込んでおくことで、ソフトウェアの実行記録を残したり、不具合を早期に検知したりできます。トラブルを早期に察知するためにも、このような仕組みを作っておくことは重要です。Pythonでは、loggingというモジュールを用いることで、比較的簡単にログ出力を行うことができます。試験対策
近年では、クラウド上の統合開発環境(Amazon SageMaker Studio Lab、Google Colab、Azure Data Studio、IBM Watson Studioなど)で提供されるJupyter Notebookを用いてデータ分析を行う場面も増えてきました。このような環境は、Amazon SageMakerやAzure Machine Learning、Google Cloud Vertex AI、IBM Watson Studioのようなクラウド上のマネージドサービス(サーバの運用管理や保守、セキュリティ対策、障害対応などを請け負うサービス)を利用して構築されます。こうしたサービスを用いて機械学習モデルを開発するという選択肢があることを覚えておきましょう。
logging モジュールのバックチック記法を維持・確認しました。以下のWeb APIに関する記述を読み、空欄ア、イに入る語句の組み合わせとして、最も適切なものを選べ。
Web APIによるデータ送受信のためのデータ形式には、JavaScript オブジェクトに似た構文によって構造化されたテキストである( ア )や、フィールドを規定するタグと呼ばれる構文規則により構成される( イ )などがある。
A. (ア)XML (イ)PDF
B. (ア)JSON (イ)XML
C. (ア)PDF (イ)CSV
D. (ア)JSON (イ)CSV
解答16で述べたように、通常、HTTP通信を利用するAPIをWeb APIといいます。
JSONはデータフォーマットの1つで、JavaScriptオブジェクトに似た構文によって構造化されたテキストです。
XMLはデータフォーマットの1つで、タグやスラッシュを用いて文書の構造を定義するマークアップ言語によって記述されます。
PDFは、Adobeによって開発された電子文書ファイルの形式であり、ハードウェアに依存せず、文書を表示することができます。
CSVは、カンマによって区切られたテキストです(解答58参照)。
以上より、組み合わせが適切な選択肢Bが正解です。
あなたは、データサイエンティストとして、自社のデータベースをSQLで操作できる権限を与えられた。あなたに与えられた権限は、DML (Data Manipulation Language) の中のDELETEである。この権限によって実行できる操作として、最も適切なものを選べ。
A. テーブルの削除
B. レコードの更新
C. レコードの削除
D. テーブルの変更
SQLのコマンドは、大きく次の3つに分類できます。
● DDL(Data Definition Language)
データを定義する言語です。DDLのコマンドの例として、テーブルを作成するCREATEや、テーブルを削除するDROPなどが挙げられます(A、D)。
● DML(Data Manipulation Language)
データを操作する言語です。DMLのコマンドの例として、レコードを取得するSELECTや、レコードを削除するDELETEなどが挙げられます(B、C)。
● DCL(Data Control Language)
データを制御する言語です。DCLのコマンドの例として、ユーザーに対して権限を付与するGRANTや、ユーザーの権限を取り消すREVOKEなどが挙げられます。
**)で強調しました。以下の記述を読み、空欄ア、イに入る語句の組み合わせとして、最も適切なものを選べ。
データベースは、リレーショナルデータベースとNoSQLに大別される。( ア )と( イ )は、NoSQLの代表的なデータベースシステムである。
A. (ア)HBase (イ)Python
B. (ア)HBase (イ)MongoDB
C. (ア)Redis (イ)Oracle
D. (ア)MongoDB (イ)MySQL
リレーショナルデータベース(RDB)は、行と列をもつテーブルの集合で構成されます。RDBの代表的なシステムには、オープンソースデータベースであるMySQLやPostgreSQL、Oracle社が開発した商用のデータベースであるOracle Databaseなどが挙げられます。
NoSQLは、RDB以外のデータベースすべてを指します。NoSQLの代表的なシステムとしては、Apache HBase、Cassandra、MongoDB、CouchDB、Amazon DynamoDB、Azure Cosmos DB、Google Cloud Firestoreなどが挙げられます。NoSQLでは、分散処理によって高速にデータを読み込むことができます。
Pythonは、統計解析やデータ分析をはじめ、さまざまな用途で用いられる汎用プログラミング言語です。
以上より、組み合わせが適切な選択肢Bが正解です。
101_188_1
ある店舗における顧客の注文情報に関してデータベースを作成した。以下のテーブルのデータ正規化レベルとして、最も適切なものを選べ。
| 顧客名 | 商品ID | 注文日 | 商品ID | 注文日 |
|---|---|---|---|---|
| A | 01_C | 20XX/X/X | 02_C | 20YY/Y/Y |
| B | 03_C | 20VV/V/V | 04_C | 20ZZ/Z/Z |
A. 非正規形
B. 第一正規形
C. 第二正規形
D. 第三正規形
リレーショナルデータベース(RDB)において、テーブルから冗長性や不整合を取り除くことをテーブルの正規化といいます。
テーブルの正規化を行うと、データの追加や更新などに伴うデータの不整合が起こりにくくなります。データベースの正規化は、次のように段階的に考えます。
データに冗長性や不整合がある状態を非正規形といい、これらが解消された状態を第一正規形といいます。
そして、第一正規形を満たし、非キーが主キーの一部に従属するものを別テーブルに分離した後の状態を第二正規形といいます。
さらに、第二正規形を満たし、主キー以外の項目同士が従属関係をもつものを別のテーブルに分離した後の状態を第三正規形といいます。
設問で示されているテーブルには、商品IDと注文日の列が複数存在しています。したがって、このテーブルは冗長性が解消されておらず、正規化されていないテーブルであるといえます。
以上より、選択肢Aが正解です。
** で強調しました。以下の記述を読み、空欄ア、イに入る語句の組み合わせとして、最も適切なものを選べ。
あるデータに対して特別な処理を施すことで、そのままでは読めない特殊なデータに変換することを暗号化という。
暗号化と復号に同じ鍵を用いる暗号化方式を( ア )という。
暗号化と復号で異なる鍵を使う暗号化方式を( イ )という。
A. (ア)電子署名 (イ)共通鍵暗号方式
B. (ア)共通鍵暗号方式 (イ)公開鍵暗号方式
C. (ア)公開鍵暗号方式 (イ)共通鍵暗号方式
D. (ア)公開鍵暗号方式 (イ)電子署名
公開鍵暗号方式では、暗号化には公開鍵を用い、復号には秘密鍵を用います。公開鍵暗号方式は、共通鍵暗号方式に比べて安全性が高い半面、暗号化・復号の処理に時間がかかるという欠点があります。
共通鍵暗号方式は、暗号化と復号に同じ鍵を使う暗号方式であり、この共通する鍵を共通鍵と呼びます。共通鍵暗号方式を用いる場合、あらかじめ共通鍵を送信側から受信側に渡しておく必要があり、受信側では、共通鍵を第三者に利用されないように管理する必要があります。共通鍵暗号方式には、暗号化・復号の処理が公開鍵暗号方式よりも速いという特徴があります。
電子署名とは、本人が送ったデータか、また、データが改ざんされていないかどうかを確認できるものです。暗号化されたデータが、偽造されたものや、第三者がなりすまして送ったものでないことを証明するために、電子署名と公開鍵認証基盤が用いられます。
以上より、組み合わせが適切な選択肢Bが正解です。
## 73. B および末尾のコメント、段落構成を維持。データの改ざんを検知する仕組みを構築する際に、ハッシュ関数が用いられる。ハッシュ関数の役割として、最も適切なものを選べ。
A. 入力された文字列から不要な文字を取り除く
B. 入力された文字列に基づき、その文字列に応じた長さの出力値を返す
C. 入力がほんの少しでも違えばまったく違う出力を得ることができる
D. 入力された文字列の順番をランダムに入れ替える
入力された値に対して一定の手順で計算を行い、あらかじめ決められた固定長の出力値を返す関数を一般にハッシュ関数といいます。
ハッシュ関数は、入力値の長さにかかわらず、固定長の値を返します(B、C)。よって、入力された文字列から不要な文字列を取り除いたり、文字列をランダムに並べ替えたりする関数ではありません(A、D)。また、ハッシュ関数は同じ入力には必ず同じ出力を返します。
ハッシュ関数の主な用途の1つにデータ改ざんの検知があります。「正しいデータ」をハッシュ関数に通したものを事前に用意しておき、受け取ったデータをハッシュ関数に通してそれと比較することで、受け取ったデータが「正しいデータ」と同じものであるかを確かめることができます。
以下の記述を読み、空欄ア、イに入る語句の組み合わせとして、最も適切なものを選べ。
2018年から( ア )で運用が開始されたGDPRは、個人データを従来より強力に保護するために定められた規則である。GDPRの効力は、( ア )内でサービスを展開する( ア )外の企業にも及ぶ。2019年、( ア )の委員会は、「日本は、( ア )域内と同等の個人情報保護水準にある国」であることを認めた。これを( イ )という。
A. (ア)欧州連合 (イ)十分性認定
B. (ア)米国 (イ)必要性認定
C. (ア)欧州連合 (イ)必要性認定
D. (ア)米国 (イ)十分性認定
2018年から欧州連合(EU)で運用されているEU一般データ保護規則(GDPR:General Data Protection Regulation)は、個人データを保護するための規則です。GDPRは、EU域外に本拠を置いていてもEU内でサービスを展開する企業にも適用されるということで、日本でも大きな話題となりました。
GDPRでは、EUと同等の個人情報保護水準を有さない地域への個人データの持ち出しを禁ずる越境移転規制が定められていますが、欧州委員会によって「EU域内と同等の個人情報保護水準にある国」であることが認められれば、データを持ち出すことが許されます。これを十分性認定といいます。
以上より、組み合わせが適切な選択肢Aが正解です。
GDPRでは他にも、個人データの処理・移転に関する原則や、本人が自身の個人データに関して有する権利、個人データの管理者や処理者に課せられる義務などさまざまな規定が詳細に定められています。
ELSIは、新しい科学技術を社会実装する際に生じる可能性のある課題を一体的に検討するべきである、という考えに基づいた研究活動だが、このELSIに含まれる課題として、最も適切でないものを選べ。
A. 倫理的課題
B. 技術的課題
C. 法的課題
D. 社会的課題
**)で強調しました。ELSIは、新しい科学技術を社会実装する際に生じる可能性のある、倫理的、法的、社会的課題など、技術的課題以外のあらゆる課題を一体的に検討するべきであるという考え方です。「Ethical, Legal and Social Issues」(倫理的・法的・社会的課題)の頭文字をとった言葉であり、米国政府が資金提供する、ヒトのゲノムの全塩基配列を解析するプロジェクトであるヒトゲノム計画(HGP:Human Genome Project)においてはじめて用いられました。
ELSIの考え方は、コンピュータサイエンスの分野にも拡大し、データの管理者や処理者には、個人データの保護などさまざまな問題に対して崇高な倫理観をもつことが求められています。
以上より、選択肢Bが正解です。
** で強調しました。以下の個人情報の取り扱いに関する記述のうち、最も適切でないものを選べ。
A. 個人情報保護法が定めるところの要配慮個人情報を取得する場合、あらかじめ本人にその旨を通知し、本人の同意を必要とする。
B. 個人情報保護法が定める要配慮個人情報には、本籍地、門地、労働組合への加盟の有無などの情報が該当する。
C. 「金融分野における個人情報保護のガイドライン」では、人種、犯罪歴、病歴など一部の情報が機微情報とされている。これらの情報は、同意の有無にかかわらず、取得・利用・第三者への提供が禁じられている。
D. 「金融分野における個人情報保護のガイドライン」における機微情報の取り扱い基準は、個人情報保護法が定める要配慮個人情報の取り扱い基準よりも厳格である。
**)で強調しました。個人情報保護法によって定められる要配慮個人情報を取得する場合は、あらかじめ本人の同意を得る必要があります(A)。
要配慮個人情報には人種、信条、社会的身分などが該当します。また、本籍地、門地、労働組合への加盟の有無といった項目は、「金融分野における個人情報保護のガイドライン」における機微情報に含まれます(B、C)。
個人情報に関しては、法律とは別に各関係省庁などによって、特定分野におけるガイドラインが設けられています。その1つに個人情報保護委員会と金融庁が作成した「金融分野における個人情報保護のガイドライン」があります。同ガイドラインでは、機微情報(人種、犯罪歴、病歴など)について、同意の有無を問わず、取得、利用、第三者への提供のすべてを禁じています。この基準は、個人情報保護法における要配慮個人情報の取り扱い基準よりも厳格なものです(D)。
自社商品の購入者データを分析することになった。購入者データの取り扱いに関する記述として、最も適切でないものを選べ。
A. 購入者データから特定の個人を識別できる情報を取り除き、情報が復元できない状態にしたものを匿名加工情報として用いた
B. 購入者データから特定の個人を識別できる情報を取り除き、仮名加工情報として用いた。加工後のデータは、他の情報と照合することで復元可能な状態であった
C. 購入者データを仮名加工情報としたものを、購入者の同意を得ずに不特定の第三者に提供した
D. 顧客の情報を仮名加工情報に加工した。この仮名加工情報を、顧客の情報を取得した際に公表していた目的以外に使用した
**)で強調しました。匿名加工情報とは、個人情報から特定の個人を識別できる情報を取り除き、それを復元できないようにしたものです。匿名加工情報は、本人の同意を得ることなく、事業者間におけるデータ取引やデータ連携で利用することができます(A)。
仮名加工情報とは、個人情報から特定の個人を、他の情報と照合しない限りは識別できないようにしたもののことです。よって、個人情報を容易に復元できる状態にあるデータは仮名加工情報ではありません(B)。ただし、個人を特定するために仮名加工情報を復元する行為は禁止されています。
ある目的で取得した個人情報を仮名加工情報に加工した場合、この仮名加工情報は、個人情報取得時に公表していた目的以外に使用してもよいとされています(D)。
法令に基づく場合を除き、仮名加工情報の第三者提供は原則として禁止されています。業務委託や事業の継承などに伴う関係者間での提供が例外的に認められていますが、仮名加工情報を不特定の第三者に提供することはできません(C)。
なお、個人情報保護法23条5項1号より、一定の条件を満たせば、委託先や共同利用先は、第三者ではなく、個人情報取扱事業者とみなされます。そのため、一定の条件を満たしている委託先や共同利用者には、匿名化を行わなくてもデータを提供することが許されています。
データ分析プロジェクトにおいて、業務を外部に委託する場合、一般に、受注側企業との間で業務委託に関する契約を交わす。発注側企業と受注側企業の間で交わされる契約の種類として、請負契約と準委任契約がある。請負契約と準委任契約に関する記述として、最も適切でないものを選べ。
A. 請負契約は、受注側が仕事の完成を約束するものである。一方、準委任契約は、受注側が業務を行うことのみを約束するものである
B. 準委任契約を取り交わしている場合、受注側企業に仕事の完成義務は発生しない
C. どちらの契約の場合でも、報酬の請求タイミングは成果物を引き渡したときである
D. 請負契約では契約不適合責任が問われるが、準委任契約では契約不適合責任は問われない
**)で強調しました。請負契約は、受注側が仕事を完成することを約束する契約です。請負契約では、受注側に完成義務が発生し、成果物を引き渡したときに報酬を請求できます(A)。
一方、準委任契約は、仕事の完成ではなく、業務を行うことを約束する契約です。準委任契約では、完成義務は発生せず、業務が完了した段階で報酬を請求できます(B、C)。
契約不適合責任とは、契約に基づいて発注側へ引き渡された成果物が、その種類や品質、数や量について「契約内容に適合していない」と判断された場合、受注側が発注側に対して負う責任のことです。契約不適合責任は、請負契約の場合に発生します。
準委任契約の場合、契約不適合責任は発生しませんが、善管注意義務が課せられます(D)。善管注意義務とは、受注側の職業や専門家としての能力、社会的地位などから考えて通常期待される注意義務のことです。
**)で強調し、視認性を向上させました。ある仮説に基づいてデータ分析を行った結果、仮説と異なる結果が得られた。このような場合にとるべき行動として、最も適切なものを選べ。
A. データ分析に不備があった可能性があるため、仮説どおりの結果になるまで何度もデータ分析をやり直す
B. データそのものに不備があった可能性があるため、仮説どおりの結果になるまで何度もデータ収集をやり直す
C. 重要な知見を得られた可能性があるため、その結果を詳しく検証する
D. 重要な知見を得られた可能性はあるが、仮説とは異なるので報告書にはその結果を記載しない
**)で強調しました。<!-- 043_159_1 -->)を正確に維持しました。分析結果として仮説と異なるものが得られた場合、それは重大な知見になる可能性があります。よって、その結果を不採用にするのではなく、その結果をより詳しく検証するというアプローチが適切です($C$)。
この検証から新しい仮説を立て、必要に応じて再度データ収集・分析を行うことで、より質の高い分析結果を得ることができます。
そのため、望んだ結果が出るまでデータ収集をひたすら繰り返す行為や、分析結果が望ましい結果ではない場合に分析結果を隠蔽するなどの行為は適切であるとはいえません($A$、$B$、$D$)。
$ $ で統一しました。データは「独自に収集したデータ」と「公開/販売されているデータ」に大別される。「独自に収集したデータ」は一次データ、「公開/販売されているデータ」は二次データと呼ばれる。次のうち、一次データを用いることが望ましい事象として、最も適切なものを選べ。
A. 水族館内の魚を画像で認識し、その種類を教えてくれるモデルの開発
B. 特定の患者のCT画像から、悪性部位を判別するモデルの開発
C. 風景画像から、犬だけを検出するモデルの開発
D. 顔の映像で目や鼻の位置を認識するモデルの開発
**)で強調しました。「自分で集めたデータ」のことを一次データといいます。一次データは自分で集めるものであるため、データ収集にかかる労力は大きくなりますが、目的に特化した解析が可能です。一次データに対し、「公開/販売されているデータ」は二次データと呼ばれます。二次データは汎用的なものが多く、自分が必要とするデータと必ずしも合致するとは限りませんが、データ収集にかかる労力は小さくなります。
特定疾患に関わる病理画像は、個人情報保護の観点などから入手が困難であることが予想されるため、一次データを用いることが望ましいと考えられます(B)。
選択肢A、C、Dは、二次データでもモデルの開発が可能と考えられます。
オプトアウトは、一定条件下における個人情報の第三者提供について規定した個人情報保護法上の制度である。オプトアウトに関する記述として、最も適切なものを選べ。
A. オプトアウトによって、要配慮個人情報を第三者に提供することができる
B. 自分の個人情報がオプトアウトによって公開されていた場合、公開を差し止めるためには、公開元ではなく、個人情報保護委員会に連絡する必要がある
C. オプトアウトにより個人情報を第三者に提供する場合は、決められた事項を個人情報保護委員会に届け出る必要がある
D. オプトアウトは、一定の条件を満たした場合に、その都度本人の同意を経て個人情報を第三者に提供できる制度である
オプトアウトは、個人情報を本人の同意を得ずに第三者に提供できるようにする制度です。これは、個人情報保護法によって規定されています。また、一定の条件を満たした場合には、その都度本人の同意を経て個人情報を第三者に提供できる制度はオプトインと呼ばれます(D)。
オプトアウトにより個人情報を公開する事業者は、内閣府の外局である個人情報保護委員会に必要な事項を届け出る義務を負います(C)。
オプトアウトにより個人情報を公開する事業者は、公開している個人情報の本人から要求があれば、公開を差し止めなければなりません(B)。
要配慮個人情報をオプトアウトによって提供することはできません(A)。
オプトアウトで個人情報を公開する際は、公開元は、その個人情報の所持者本人に対して、第三者への提供を利用目的とすること、提供される個人情報の項目、提供の方法、本人の求めに応じて個人情報の提供を停止すること、本人の求めを受け付ける方法をあらかじめ通達するか、本人が公開状況を容易に知ることができる状態にする必要があります。
<!-- 106_190_2 --> は、指定された図のプレースホルダー形式([図:...])ではなかったため、そのままコメントとして維持しています。図として扱う必要がある場合は、適宜形式を修正してください。あなたは、データサイエンティストとして、あるデータ分析プロジェクトに参加することとなった。データ分析を行う際のあなたのとるべき行動として、最も適切でないものを選べ。
A. 実際にデータと関わりのある現場に赴き、ヒアリングなどの調査を重ねる
B. クライアントの主張が正しいのか話し合いの場を設け、よく吟味する
C. クライアントが提供したデータ以外に必要なものがあれば、適宜追加で収集する
D. クライアントから提供された生データのまま、データ分析を進める
プロジェクトに着手する際、データサイエンティストとしては、「解決すべき課題の把握」や「問題の明確化」を行うことが非常に重要です。取り組むべき問題の明確化を実施することで、解決に向かうための適切な仮説立案を行うことができます。
問題の状況によっては、データに直接アプローチするだけでなく、データが収集される現場に赴いて一次情報に接することが重要です(A)。現場で何が起きているかを直接見聞きすることで、課題に対して誤った解決方法をとるリスクを減らすことができます。
単に依頼どおりにタスクをこなすのではなく、プロジェクトを進めるうえで正しく仮説立案や検証が行われているかどうかを逐次確認し、適宜、軌道修正する必要があります(B、C)。特にデータ分析に関しては、生データのままでは分析に適さない場合があるため、一定のデータ加工を念頭に置き、プロジェクトを進行する必要があります(D)。
携帯電話の利用実態に関する調査を行うために、携帯電話の利用者に対してアンケートを実施することにした。MECE(Mutually Exclusive and Collectively Exhaustive)の要件を満たすアンケートの設問として、最も適切なものを選べ。
A. 次の項目について教えてください。
・性別:男性 女性
・生年月日:西暦 年 月 日
・年代: 歳代
B. 次のうち、該当する年代に〇をつけてください。
20代 30代 40代 50代 60代以上
C. 次のうち、あなたに関して該当するものに〇をつけてください。
女性 男性 子ども
D. 1日の間に携帯電話を何時間程度操作しますか。
1時間未満 1時間以上2時間未満 2時間以上3時間未満
3時間以上4時間未満 4時間以上
## 84. および末尾のIDコメントを維持しました。MECEは、ビジネス課題を解決する際に、漏れと重複がないように課題点を洗い出すための思考法です。MECEは、Mutually(互いに)、Exclusive(重複せず)、Collectively(全体に)、Exhaustive(漏れがない)の頭文字をとった用語です。
「1時間未満」「1時間以上2時間未満」「2時間以上3時間未満」「3時間以上4時間未満」「4時間以上」は、携帯電話の使用時間に着目した選択肢です。下端側と上端側とに「1時間未満」と「4時間以上」という選択肢が含まれているため、これらの選択肢によって、1日の間の携帯電話の使用時間を網羅することができます。また、これらの選択肢それぞれが指している時間の範囲には、重複が存在しません。よって、この設問は、MECEであるといえます(D)。
「性別」「生年月日」「年代」は、携帯電話を購入する顧客に着目した設問です。このうち、「生年月日」「年代」の情報は、年齢に関しての質問が重複しています。よって、この設問はMECEでないといえます(A)。
「20代」「30代」「40代」「50代」「60代以上」という分類は、20歳未満の年代に関する質問が漏れています。よって、この設問はMECEでないといえます(B)。「女性」「男性」「子ども」という分類は、「子ども」という項目が、男性もしくは女性と重複する可能性が高いです。よって、この設問はMECEでないといえます(C)。
<pb: 85_1> はページ区切り(Page Break)のマーカーとして維持していますが、図のプレースホルダー形式([図:...])ではなかったため、そのままの表記としています。データ分析を行う際には、データのねつ造や改ざんを行わないように気をつける必要がある。データのねつ造や改ざんととらえられる可能性が最も高いものを選べ。
A. ある企業から、「ある施策の効果を検証してほしい」と依頼があった。データを分析したところ、その施策の効果は見られなかったが、ある条件のデータだけに限定すると、効果が大きくなることに気がついた。そこで、この考察結果とともに分析結果を顧客に報告した
B. 顧客から受け取ったデータに欠損値が含まれていたため、欠損値を適切な値で埋めた。そのデータを用いて、機械学習のモデルを作り、顧客に提出した。顧客には、欠損値を適切な値で埋めたことは報告したが、具体的な数値は報告しなかった
C. 顧客から提供されたデータを用いて機械学習のモデルを作ったが、データの量が少なかったため学習がうまくいかなかった。そこで、データ拡張という手法を用いてデータ量を水増しし、モデルを学習し直した。すると、性能の高いモデルとなったためその結果を顧客に提出した。なお、顧客にはデータ拡張を行ったことを報告した
D. ある企業から、「ある施策の効果を検証してほしい」と依頼があった。データを分析したところ、その施策の効果は見られなかったが、効果があると次の案件の受注につながるため、効果が最も大きくなるようにデータを恣意的に選び、データ分析を行った。依頼元の企業には、データを恣意的に選んだことは伝えずに、結果だけを提出した
**)で強調しました。## 85. および末尾の識別子を改変せずに維持しました。データ分析を行う際には、データのねつ造や改ざんを行わないように気をつける必要があります。
文部科学省では、研究活動に関する「ねつ造」と「改ざん」をそれぞれ以下のように定義しています。
データ分析における「ねつ造」と「改ざん」についても、これらの定義がおおむね当てはまります。
「効果があると次の案件の受注につながるため、効果が最も大きくなるようにデータを恣意的に選び、データ分析を行った」という行為は、故意にデータ分析の過程を操作するものであり、結果を真正でないものに加工しています。そのため、顧客には、「分析結果を改ざんされた」ととらえられる可能性が高いといえます(D)。
「ある条件のデータだけに限定すると、効果が大きくなることに気がついた。そこで、この考察結果とともに分析結果を顧客に報告した」という行為は、データ分析の結果を顧客に報告しているだけで、結果を加工しているわけではありません。よって、データのねつ造や改ざんには該当しません(A)。
「顧客から受け取ったデータに欠損値が含まれていたため、欠損値を適切な値で埋めた」という行為は、データの前処理を適切に行っただけにすぎません。よって、データのねつ造や改ざんには該当しません(B)。
「データ拡張(Data Augmentation)」という手法を用いて、データ量を水増しし、モデルを学習し直した」という行為は、結果の真正を保ちながらデータ全体を増やしているだけにすぎません。データを恣意的に選んで水増ししているわけではありません。よって、データのねつ造や改ざんには該当しません(C)。
* 形式へ整えました。データ分析プロジェクトに関する以下の記述を読み、最も適切なものを選べ。
A. 新たな概念やアイデアの実現可能性を検証するPoCでは、AIモデルの構築や性能評価を行う
B. 自社の競争優位性を探るために用いられる手法である5フォース分析では、業界内の5つの競争要因について検討を行う
C. 顧客への理解を深めるために用いられる分析手法であるクラスタ分析では、顧客のセグメンテーションが行われる
D. 事象の関連性を分析する手法であるRFM分析は、購買履歴データを分析する際によく用いられる
プロジェクトの運営には、ビジネスや業務全体を俯瞰して現状を把握することが非常に重要です。以下のような事業環境や顧客を分析するフレームワークを用いることがあります。
以上より、選択肢Cが正解です。
参考
AIOps(Artificial Intelligence for IT Operations, Algorithmic IT Operations)は、「IT運用のための人工知能」という意味をもちます。この概念を提唱したガードナー社は、AIOpsを「ビッグデータと機械学習を組み合わせ、イベントの相関関係、異常検知、因果関係の判定などのIT運用プロセスを自動化するもの」と定義しています。もう少し分かりやすく言えば、「IT運用の自動化をAIを活用しながら実現すること」とも表現できます。現在、さまざまな企業がAIOpsによるAIプロジェクトの高度化・自動化の実現に取り組んでいるため、AIOpsの概念を把握しておくとよいでしょう。
あなたは、データサイエンティストとして、あるデータ分析プロジェクトに関わっている。プロジェクトにおける検証を終えたため、検証結果をビジネス視点で記述した報告書を作成することとなった。今回報告書にて結論として書くべきことが決まっている中で、その根拠を正しく伝えるための手法として、最も適切なものを選べ。
A. 序論→本論→結論の一般的な構成
B. 問題解決型
C. トップダウン型
D. 起承転結型
**)で強調しました。報告書を作成する際は、読み手が理解しやすい構成になるように心がけることが重要です。報告書に入れるべき事柄として、「課題の定義」「仮説」「検証結果」「考察結果」「施策の提案」の5つが挙げられます。
一般的な報告書は、「序論→アプローチ→検討結果→考察」の流れで構成されます(A)。これは時系列どおりに報告する際に非常に効果的な方法といえます。
さらに、「問題解決型」と呼ばれる、問題提起→解決策の提案を行う方法があります。これは、まずどのような問題があるかを明確にすべき場合に効果的な方法といえます(B)。
また、「トップダウン型」と呼ばれる、自身が主張したいことをまず述べ、その後細かい根拠などを列挙するという方法も存在します。今回の問題においては、主張したいことが明確であるため、この構成が効果的であるといえます(C)。
「起承転結型」と呼ばれる構成は、時系列で文章を書きます。この構成を用いることで、事象のつながりをわかりやすく伝えることができます(D)。
プロジェクトの検証の状況やクライアントの要望に従い、わかりやすい報告書を作成するために、以上のような構成を適宜使い分ける必要があります。
データ分析を実施した後、分析結果を報告書にまとめた。その際に行ったこととして、最も適切でないものを選べ。
A. 分析に用いたデータに関する説明を入れた
B. 8ページで収まる内容であったが、報告書は量が重要であるため、ページ数を15ページにした
C. 課題背景、アプローチ、検討結果、意味合い、ネクストステップといった項目を立てて、論理的に資料をまとめた
D. 読み手が理解しやすいように図や表を添えた
**)で強調しました。<!-- 047_161_1 --> は図のプレースホルダー([図:...]形式)ではなく、出典やIDを示すコメントアウトと判断したため、元のまま維持しています。データサイエンティストには、適切なドキュメント(報告書)を作成する能力が求められます。ドキュメントは、データ分析の内容に応じて、適切に構成されるべきです。よって、「8ページで収まる内容であったが、報告書は量が重要であるため、ページ数を15ページにした」という行動は適切なものではありません(B)。
ドキュメントを作成する際は、課題背景、アプローチ、検討結果、意味合い、ネクストステップといった項目を立てると、内容がまとまりやすくなります(C)。
分析に用いたデータのサンプル数や行・列の数、出所、収集方法といったデータの概要に関する説明を報告書に入れることで、そのデータから導かれた分析結果の信頼性を示すことができます(A)。
また、図や表を適宜挿入することで、視覚的にもわかりやすくすることができます(D)。
あなたは、データサイエンティストとして取り組んだプロジェクトにおいて、検証結果の中間報告を行うこととなった。以下の記述のうち、プロジェクトの経緯を把握していない相手にわかりやすくプレゼンテーションを行う際の行為として、最も適切でないものを選べ。
A. 見栄えを良くするために、不必要な情報も一部記載することでスライド枚数を増やす
B. プロジェクトの全体像を把握できるようにスライドの枚数はできるだけ少なくし、図表を効率よく使う
C. プレゼンテーションの最初にプロジェクトにおける課題の提起やその背景を伝える
D. プレゼンテーションの最後にプロジェクトの今後の展望などネクストステップを明確化する
データサイエンティストにとって、高い専門性は非常に重要です。しかし、専門知識のないクライアントに報告する際、分析結果をそのまま報告しても十分に伝わらない場合があります。
そのため、データ分析をわかりやすく説明するドキュメンテーションやプレゼンテーションスキルが求められます。
分析依頼者にデータ分析結果を理解してもらうためには、データやグラフの説明だけを充実させるのではなく、課題の提起、アプローチ、検証結果、意味合い、ネクストステップを正しく伝えることが大切です。そのため、見栄えを良くするために不必要な情報も一部記載しスライド枚数を増やす、といった行為は、最も伝えたいことは何なのか見失ってしまう可能性があるため、必ずしも正しいとはいえません。
以上より、選択肢Aが正解です。
あなたは、家電用品メーカーY社の商品開発部門のデータサイエンティストである。上司から「当社の製品が他社よりも環境に優しい製品であることを世間に発信したい」という依頼を受けた。早速、あなたは自社製品の機能に関するアンケートを、自社サイトの会員に対して実施した。しかし、上司からは「その調査方法では当社の製品が環境に優しいという根拠にならない」という指摘を受けた。上司がこのように述べた理由として、最も適切でないものを選べ。
A. 今回のアンケートでは自社製品についてのみヒアリングしており、他社との比較ができていないため
B. 顧客の評価ではなく、自社製品の環境性能について調査する必要があるため
C. 自社サイトの会員に偏ったアンケート結果では、世論の正しい計測ができないため
D. 環境視点についてのみ聞くのではなく、費用や使いやすさについても聞いた方が今後の役に立つため
## 90. および末尾の識別コード <!-- 048_161_2 --> を正確に維持しました。データサイエンティストには、結果や考察をわかりやすく伝える説明能力が求められます。行った検証やその結果を、飛躍のない明快なストーリーによってまとめ、論理的な報告を行わなければなりません。論理が破綻しているような主張がないか、特に注意して説明を行わなければなりません。
今回行ったアンケートの実施方法には以下のような問題点があります。
また、環境視点についてのみ聞くのではなく、費用や使いやすさについても聞くという行為は、今回の「環境に優しい製品であることを世間に発信したい」という目的に関連のない行為です。
以上より、選択肢Dが正解です。
**)で囲い、可読性を向上させました。*)に統一しました。以下の記述を読み、空欄ア、イに入る語句の組み合わせとして、最も適切なものを選べ。
KPI (Key Performance Indicator) では、ある目的を達成するために行われた施策がもたらした効果を( ア )に表す必要がある。また、目的に応じたKPIの( イ )を設定することで、施策の達成度を評価する。
A. (ア)直感的 (イ)施策期間
B. (ア)定量的 (イ)達成水準
C. (ア)定量的 (イ)施策期間
D. (ア)直感的 (イ)達成水準
**)で強調しました。KPI(Key Performance Indicator)は、ある目的を達成するためのプロセスの効果を評価する指標です。目的を達成するために行われた施策がもたらした効果を、定量的に測るために設定されます。
事業目標を達成するためには、具体的な指標を設定し、進捗を管理していくことが大切です。KPIを用いることで、事業目標に到達するまでの段階的な目標の達成度を評価できます。
KPIは、数値として直接的に測定できる指標である必要があり、具体例としては、売上高やECサイトへの訪問回数などが挙げられます。達成水準は、「KPIが2カ月以内に20%の増加」などのように、KPIから計算される定量的な評価指標である必要があります。
以上より、組み合わせが適切な選択肢Bが正解です。
## 91. B および本文の構造を維持しました。データサイエンティストであるあなたは、ある小売業を行うA社のデータ活用について依頼された。クライアントの責任者から「自社のデータを分析し、売上の向上を目指したい」と依頼を受けた。クライアントのもつデータは非常に大量であり、すべて解析するにはかなりの時間を要する。そのため、データを活用するプロジェクトの実施にあたり、限られた時間で解析を行うためにまずプロジェクトの対象範囲を決定したい。
以下の記述のうち、本プロジェクトの対象範囲の決定について最も適切でないものを選べ。
A. Recency・Frequency・Monetary の3つの指標に基づいて顧客をグループ分けするRFM分析を行い、クライアントの商品の主な顧客層のデータを抽出し、解析する
B. クライアントが特に売上を伸ばしたい商品についてヒアリングを行い、競合他社の代替品や代替サービスの脅威を考慮したデータの解析を行うようにする
C. 売り手や買い手の交渉力を考慮することで、現在市場でどのようなものが求められているのか明確化し、その商品を中心に解析するようにする
D. 既存の競合だけを意識し、自社の商品の優位性や他社からの脅威が考えられるかどうかをクライアントとよく協議した上で、最も強みのある商品を中心に解析する
<!-- 049_162_1 --> は図のプレースホルダー形式([図:...])ではなかったため、管理用IDと判断しそのまま維持しています。データ分析プロジェクトでは、データ分析作業に着手する前に、プロジェクトの目標と対象範囲(スコープ)を明確に設定しておく必要があります。対象範囲を決める際には、現状、抱える課題、プロジェクトの予算、プロジェクトの期間を踏まえ、確実に実行できる現実的な対象範囲を検討します。
特に、RFM分析や5フォース分析などを行うことで、データの重要な部分の抽出を試みます。
RFM分析は、顧客への理解を深めるために用いられる分析手法であり、顧客のセグメンテーションが行われます。
5フォース分析は、以下の5つの競争要因について考えます。
よって、選択肢A、B、Cは適切な記述です。
設問の場合は、自社と競合他社の比較だけでなく、競合他社同士や新規参入の企業など業界全体の考慮が必要となります(D)。
112_193_2
あなたは、食品卸企業から売上減少の原因について分析してほしいと依頼を受けた。分析データ入手の際に行うべき行動として、最も適切でないものを選べ。
A. 食品業界に関するデータをひととおりリスト化し、依頼元が保有しているデータについても確認する
B. 依頼主のシステムにあるデータの中で、今回の分析に関係するであろうデータを依頼元に選択させ、データを送付してもらうよう手配する
C. データ入手時に別途追加費用が必要なデータがないかを確認する
D. ステークホルダーへのヒアリング結果を元に売上減少の原因について仮説を立案し、必要なデータを特定する
プロジェクトを行う際、仮説や既知の問題が与えられた中で、必要なデータにあたりをつけ、そのデータへのアクセスを確保できることはデータの入手において重要となります (A)。特にデータから必要なもののみ抽出することは、分析の時間の節約以外にプライバシーの保護に役立ちます。
また、分析に必要となるデータをあらかじめ想定し、自ら準備できるデータは前もって準備しておきましょう。また、データ入手時に別途追加費用が必要なデータがないかを確認したり、売上減少の原因について仮説を立案したり、必要なデータを特定することは円滑なプロジェクト推進に欠かせません (C、D)。
依頼主のシステムにあるデータの中で、今回の分析に関係するであろうデータを依頼元に選択させてしまうと、大切な内容を含むデータが欠落してしまう可能性もあるため、必ずしも正しい行為であるとはいえません。
以上より、選択肢Bが正解です。
参考
データを分析する際には、交絡の存在に注意しましょう。交絡とは、要因と結果の両方に影響を及ぼすもので、その結果、一見関係のない要因と結果に因果関係があるように見えてしまうような変数を指す言葉です。
全国に食品スーパーを展開する小売企業A社における、ビッグデータ活用のプロジェクトを遂行することを考える。A社は、「商品販売量は来店客数に比例する」「来店客数は季節・曜日・天気・立地から予測可能」という仮説をもとに、「不良在庫廃棄に要する費用を $30\,\text{\%}$ 削減する」ことを最終目標として掲げている。また、需要予測モデルを各店舗で利用することを検討している。仮説検証の結果を評価する際の記述として、最も適切でないものを選べ。
A. KPIとして、来店客数予測の精度と商品販売量予測の精度を算出する
B. 不良在庫廃棄に要する費用を $30\,\text{\%}$ 削減できそうか否かを定量的に見積もる
C. 需要予測モデルを各店舗で利用するためのツール開発費と運用コストを見積もり、費用対効果を算出する
D. 仮説検証に必要なデータ量を確保する
$30\,\text{\%}$ とし、数値と記号の間に適切なスペース( \, )を挿入、および記号を立体表記に整えました。仮説検証の結果を評価する際は、KPI (Key Performance Indicator) をしっかりとモニタリングすることが重要です。明確なKPIを立ててモニタリングすることは、プロジェクトの最終目標の達成につながります。特に、来店客数の正確な予測が実現すれば、適切な数の商品を発注できるようになり、不良在庫廃棄を減らすことにつながります (A)。
また、仮説検証の結果を評価する際は、プロジェクトの最終目標を達成しているかどうかを確認することも重要です。達成していない場合は、仮説を見直さなければなりません。
また、そもそも目標が達成できそうな内容であるかを知るために、実現可能か否かを定量的に見積もるといった行為は分析の前段階では有効な手段です (B)。
さらに、施策を実行した場合の費用対効果を算出し、コストの見直しを検討することも重要です (C)。
仮説検証に必要なデータの確保は、仮説検証の結果を評価するときではなく、仮説検証時に行います (D)。
データ分析プロジェクトでは、プロジェクトに関わるリソース(人材など)を適切に管理することが重要である。リソースマネジメントに関する記述として、最も適切でないものを選べ。
A. 社内に人材がいなかったが、すぐにプロジェクトを開始したかったので、プロジェクトの大部分を外部に委託した
B. データ分析の工程を前半(データ取得〜データ可視化)と後半(機械学習モデル構築、モデルの性能評価)に分け、それぞれに担当者をつけた
C. 機械学習に詳しい人材が社内にいなかったので、機械学習モデルを構築する部分をプロジェクトから除外した
D. プロジェクトの進行が当初のスケジュールよりも大幅に遅れていたため、追加の人材を投入した
## 95. および選択肢の構造を正確に維持しました。データ分析プロジェクトでは、プロジェクトに関わるリソース(人材など)を適切に管理することが重要です。
データ分析プロジェクトは、社内のリソースだけで進行する必要はありません。社内に人材がいない場合は、外部に委託することも検討します(A)。データ分析の工程を区分けし、それぞれに担当者をつけ業務の細分化を行うといった方法も、業務効率を上げる方法として有効と考えられます(B)。機械学習に詳しい人材が社内にいない場合は、機械学習モデルを構築する部分を外部に委託することもできます(C)。
プロジェクトの進行が当初のスケジュールよりも遅れている場合は、追加の人材を投入するなどの改善策を検討します。追加の人材を投入する予算がない場合は、追加の予算の交渉や、スケジュールの再調整を行います(D)。
システム開発の進め方に関する方法論についての記述として、最も適切でないものを選べ。
A. ウォータフォール開発では、開発対象の機能を初期に確定させた上で、開発を開始する
B. アジャイル開発では、数週間や数カ月といった短い期間で、動作するソフトウェアを作ることを重要視する
C. アジャイル開発の代表的手法として、スクラムがある。スクラムでは、スプリントという開発サイクルを繰り返す。スプリントの期間は、通常3カ月で設定される
D. ウォータフォール開発の利点は、工程ごとの専門家を教育または採用しやすいことである。一方、欠点は、仕様や計画の変更がしにくいことである
<図051_163_1--->
図051_163_1
<--->
<図PAGE_ID-n--->)に変換しました。ウォータフォール開発とアジャイル開発は、どちらもシステム開発の進め方に関する方法論です。
ウォータフォール開発では、その名のとおり、上流工程から下流工程へ滝が流れ落ちるように開発を進めていきます。ウォータフォール開発では、最終ゴールや要件を明確にしてから開発に着手します(A)。後述するアジャイル開発と比較して、完成品の品質を担保しやすい、スケジューリングや見積もりもしやすい、工程ごとの専門家を教育・採用しやすい、という利点があります(D)。逆に、アジャイル開発と比較して、開発期間が長期化しやすい、仕様や計画の変更がしにくいという欠点があります。
アジャイル開発では、数週間や数カ月といった短い期間で、動作するソフトウェアを作ることを重要視します(B)。開発対象の機能は、イテレーションごとに決定します。ウォータフォール開発と比較して、クライアントやユーザーのフィードバックを柔軟に反映できる、速いスピードでプロダクトや新機能を提供できる、開発途中での仕様・要求の変化に対応しやすい、という利点があります。逆に、ウォータフォール開発と比較して、方針を明確にしておかないと開発の方向性がぶれやすいという欠点があります。
アジャイル開発の代表的手法にスクラムがあります。スクラムでは、開発対象の機能をいくつかの段階に分け、優先度の高い順に反復して開発します。この反復の単位をスプリントといいます。スプリントの期間は、通常、$1\,\text{カ月}$以内で設定されます(C)。この期間中に、仕様の確定から詳細設計、開発、
テストまで、システム開発に必要なほぼすべての業務が行われます。
参考
スキルチェックリスト ver.5の範囲外ですが、システム開発の代表的手法について押さえておきましょう。
$1\,\text{カ月}$)に整形しました。以下の記述を読み、空欄ア〜ウに入る語句の組み合わせとして、最も適切なものを選べ。
セキュリティについて考える際は、機密性・可用性・完全性の3つの視点をもつことが重要である。誰でもアクセスできる共用PCにデータを置いてしまうことは( ア )が低いという。さらに、接続のアクセス履歴と改変履歴が残らないような管理は( イ )が低いという。メンテナンスの頻度が多いシステムや、災害発生時になかなか復旧できないようなシステムは( ウ )が低いという。
A. (ア)機密性 (イ)完全性 (ウ)可用性
B. (ア)完全性 (イ)機密性 (ウ)可用性
C. (ア)機密性 (イ)可用性 (ウ)完全性
D. (ア)可用性 (イ)機密性 (ウ)完全性
情報セキュリティに関する3つの要素を以下にまとめます。
以上より、選択肢Aが正解です。
**)で強調しました。あなたは、ある小売店に勤務するデータサイエンティストである。上司の依頼を受け、「サイトに頻繁にアクセスする顧客は、他の顧客よりも商品を多く購入する傾向がある」という前提の下、調査を行った。調査の結果が上司が期待するものでなかった場合、次にとるべき行動として、最も適切でないものを選べ。
A. 仮説が正しいと考えられる期間にデータを絞り、再度仮説の検証を行う
B. 頻繁にアクセスする顧客がどのページにアクセスしているのかについて、解析を行う
C. 想定外の結果であるため、なぜこのような結果になったのかについて議論の場を設ける
D. 分析方法に誤りがなかったかを再度確認する
設問のようなケースでは、頻繁にアクセスする顧客がどのページにアクセスしているのか解析を行うなど、分析の方針を変更したり、分析方法に誤りがなかったかを再度確認したりするなどの方法が次の行動として考えられます (B、D)。また、このような結果となってしまった原因について議論の場を設けることも有効です (C)。
ただし、仮説が正しいと考えられる期間にデータを絞る行為は、データの改ざんに近い行為のため、行わないほうがよいと考えられます (A)。
参考
特定の要素を変更したAパターン、Bパターンを作成し、ランダムにユーザーに表示し、それぞれの成果(クリック数など)を比較することで、より高い成果を得られるパターンを見つける方法をA/Bテストといいます。
あなたはデータエンジニアとして、ある機械学習プロジェクトのデータ前処理プログラムを開発している。開発効率を向上させるために生成AIを活用する場合の取り組みとして、最も不適切なものを選べ。
A. 類似したプロジェクトのコードをもとに、プロジェクト間で汎用性のあるロジックのコードを生成AIに提案してもらい、それを微調整して他のプロジェクトに共有した
B. ある関数のコードを生成AIに渡してそのコード内に適切なコメントを付加してもらい、適宜内容を補足した
C. コードの記述中、リアルタイムに生成AIからコードの改善提案を受け、そのコードをそのまま利用した
D. 自身が書いたコードのバグに遭遇した際に問題のあるコードを生成AIに渡し、修正案のアドバイスを参考にしながらそのバグを修正した
生成AIによるコーディング支援のあり方について問う問題です。
生成AIの主要な用途の一つとして、テキストで記述するプログラムコードの生成やレビューが挙げられます。テストコードの作成、コードの改善提案、コードへのコメント付加など、さまざまなタスクで使用可能です。
既存のプロジェクトの分析とそれをもとにしたコード生成は、主要なユースケースです(A)。
コードへのコメント付加も主要なユースケースの一つです。コードにコメントを付けることは、プログラムの理解を助けたり、将来のメンテナンスコストを削減したりすることにつながります(B)。
バグの原因が複雑である場合は、標準のエラーメッセージ以外の追加情報として生成AIからのアドバイスを活用することも効果的です(D)。
生成AIがリアルタイムで提案するコードをそのまま採用すると生産性が向上しているように見えますが、この方法はリスクを伴います。たとえば、生成されたコードのロジックは正しい一方、実行効率が悪かったり、セキュリティ上の問題を含んでいたりする可能性があります。このため、AIの提案内容をコーディング担当者が検証し、必要に応じて修正することが重要です(C)。
参考
生成AIを活用したソースコードのレビューやチェックは、バグ修正や性能改善に役立ちます。手動のコードレビューでは見落としがちな問題に対しても、生成AIが自動で検出し修正案を提示してくれます。直接的なコーディング支援のほかに、機能テストや検証用のダミーデータ生成などにも生成AIを利用できます。
このように、ソフトウェア開発に生成AIを用いることで、開発の品質と効率を向上させることができます。
## 99. C および末尾のタグ <pb:100_B> を原文通り維持しました。あなたは製品企画にあたり、ある業界の法規制に関する情報収集とその内容の理解を始めようとしている。法務担当者や顧問弁護士との連携体制は構築済みだが、一部のフローで生成AIを活用し、調査の効率化を計画した。このとき、活用の方法として最も不適切なものを選べ。
A. 業界団体が公開するガイドラインを収集し、生成AIにその文章を要約させ、その要約を読んだ後に本文を読むことにより、本文への理解を深める
B. その業界に固有な法規制について生成AIに質問し、回答で得られた項目をチェックリスト化して、そのチェックリストをそのまま製品企画時に利用する
C. 具体例をイメージしにくい条項があったため、生成AIに内容の要約と例示を行わせ、その結果が適切かを顧問弁護士に確認する
D. 社内に構築した複数の生成AIに製品情報と特定の法規制情報を渡してその適用例を記述させ、結果を法務部門と共同レビューする
生成AI利用時のリスク管理について問う問題です。
生成AIは有用なツールですが、誤った情報を提供することもあります。特に法規制のような分野では、小さな誤りが重大な問題につながるため、活用方法を慎重に検討する必要があります。問題文の設定では生成AI以外に専門家との協力体制が構築済みとされているため、適切な質問・情報連携をすることでリスクのコントロールが可能です。
選択肢A、C、Dでは、生成AIによる出力を人間が確認するプロセスが想定されています。これにより、AIが生成した誤情報やハルシネーションを見逃しにくくなります。また、複数の生成AIを使用することも、情報の一貫性の確認ができ、ハルシネーションの発見につながることがあります。
一方で、選択肢Bは生成AIの回答を基準にしてチェックリストを作成しています。この生成AIの回答が正確かどうかの検証が行われていないため、誤った情報に基づくチェックリストによって製品企画が進められてしまうリスクがあります。