02_G検定_用語集

問題1

CRISP-DM（データマイニングのための標準的プロセスモデル）において、ビジネス課題をデータマイニングの課題に翻訳し、プロジェクトの計画を立てるフェーズはどれですか。

Data Understanding（データの理解）
Business Understanding（ビジネスの理解）
Data Preparation（データの準備）
Modeling（モデリング）

解答1

正解：2. Business Understanding（ビジネスの理解）

（解説）
Business Understandingは、プロジェクトの目的や要件をビジネスの視点から理解し、それをデータマイニングの定義に変換して初期計画を策定する、CRISP-DMの最初のフェーズです。

問題2

CRISP-DMの6つのフェーズのうち、「Modeling（モデリング）」の直前に行われるフェーズとして適切なものはどれですか。

Data Preparation（データの準備）
Data Understanding（データの理解）
Evaluation（評価）
Deployment（展開・運用）

解答2

正解：1. Data Preparation（データの準備）

（解説）
Modelingフェーズでアルゴリズムを適用するためには、データのクリーニング、変換、統合などの前処理が必要です。これを行うのが「Data Preparation（データの準備）」フェーズであり、モデリングの直前に行われます。

問題3

CRISP-ML（CRISP-ML(Q)）に関する説明として、最も適切なものはどれですか。

既存の業務プロセスを抜本的に見直すためのフレームワークである。
データマイニング全般に適用される、最も古い標準プロセスである。
機械学習（ML）プロジェクト特有のライフサイクルや品質管理に対応させたフレームワークである。
自然言語処理における知識ベースの構築を目的としたデータセットである。

解答3

正解：3. 機械学習（ML）プロジェクト特有のライフサイクルや品質管理に対応させたフレームワークである。

（解説）
CRISP-ML（またはCRISP-ML(Q)）は、CRISP-DMをベースにしつつ、モデルの監視や再学習、バイアスの管理など、機械学習（Machine Learning）に特化したプロセスや品質保証のステップを追加したAI開発フレームワークです。

問題4

MLOps（Machine Learning Operations）の主な目的として、最も適切なものはどれですか。

プロジェクトの初期段階でビジネス目標を定義すること。
AIモデルの開発と運用を連携させ、継続的な精度維持や改善を効率的に行うこと。
文彙ネットワークを構築し、単語間の概念的な関係を定義すること。
業務プロセスを一部自動化することで、短期的なコスト削減を行うこと。

解答4

正解：2. AIモデルの開発と運用を連携させ、継続的な精度維持や改善を効率的に行うこと。

（解説）
MLOpsは、機械学習モデルの構築（Dev）と運用（Ops）を統合する仕組みです。モデルは一度作って終わりではなく、時間の経過とともに精度が低下するため、継続的なデプロイや監視、自動的な再学習を通じて品質を維持することが求められます。

問題5

BPR（Business Process Re-engineering）を説明したものはどれですか。

既存の業務プロセス、組織、戦略を抜本的に見直し、再設計すること。
特定の作業をAIによって自動化し、作業効率を向上させること。
プロジェクトの成果物を最終的なビジネス環境へデプロイすること。
音声データを収集し、書き起こしテキストとペアにすること。

解答5

正解：1. 既存の業務プロセス、組織、戦略を抜本的に見直し、再設計すること。

（解説）
BPRは、業務の一部を改善するのではなく、目的を達成するために「本来どうあるべきか」という視点から業務プロセスそのものをゼロから再設計し、劇的なパフォーマンス向上を目指す手法です。

問題6

自然言語処理（NLP）において、概念間の意味関係を記述した辞書のような「WordNet」や、Wikipediaから抽出した構造化データを扱う「DBpedia」は、どのような分類に属しますか。

音声認識用データセット
画像認識用データセット
知識ベース（ナレッジベース）
評価用テストスクリプト

解答6

正解：3. 知識ベース（ナレッジベース）

（解説）
WordNetやDBpediaは、単語や概念の関係性を整理した「知識ベース」として、自然言語処理のタスク（意味解析や検索エンジンの高度化など）で広く利用されています。

問題7

データセット「LibriSpeech」の説明として適切なものはどれですか。

英語のオーディオブック（LibriVox）に基づいた、大規模な音声データセットである。
Twitterの投稿から収集された、多言語のテキストデータセットである。
医療画像に対して専門医がアノテーションを付与したデータセットである。
ECサイトの購買履歴から構築された、レコメンドエンジン用のデータセットである。

解答7

正解：1. 英語のオーディオブック（LibriVox）に基づいた、大規模な音声データセットである。

（解説）
LibriSpeechは、約1,000時間の読み上げ音声（オーディオブック）とそのテキストから構成されており、音声認識（ASR）モデルの学習や評価に欠かせない代表的なデータセットの一つです。

問題8

データを複数の区間（階級）に分け、それぞれの区間に属するデータの個数を整理したものを何と呼びますか。

累積分布
度数分布
分散
標準偏差

解答8

正解：2. 度数分布

（解説）
度数分布（Frequency Distribution）は、データの全体像を把握するために、値をいくつかの階級に分け、各階級に現れるデータの数（度数）を一覧表やグラフ（ヒストグラム）にしたものです。

問題9

「階層的クラスタリング」において、個体間の結合過程や類似度を木構造で視覚化した図を何と呼びますか。

散布図
ヒートマップ
デンドログラム
箱ひげ図

解答9

正解：3. デンドログラム

（解説）
デンドログラム（樹状図）は、似ているデータ同士を順にまとめていく階層的クラスタリングの過程を表現した図です。垂直方向の枝の長さは、クラスタ間の距離（類似度の低さ）を表します。

問題10

「コイントスを1回投げて、表が出るか裏が出るか」のように、結果が2通りしかない試行を1回だけ行った時の確率分布を何と呼びますか。

ベルヌーイ分布
二項分布
ポアソン分布
正規分布

解答10

正解：1. ベルヌーイ分布

（解説）
ベルヌーイ分布は、結果が「成功(1)」か「失敗(0)」のいずれかになる試行を1回行う際の分布です。このベルヌーイ試行を独立に $n$ 回繰り返したときに、成功する回数が従う分布が「二項分布」となります。

問題11

「1時間あたりにコールセンターにかかってくる電話の件数」や「1kmあたりの道路の亀裂の数」など、滅多に起こらない事象が一定の時間や範囲内で発生する回数を表す分布はどれですか。

一様分布
ベルヌーイ分布
ポアソン分布
二項分布

解答11

正解：3. ポアソン分布

（解説）
ポアソン分布は、滅多に発生しない事象（稀な事象）が、一定の期間や領域で何回発生するかを記述する離散確率分布です。単位時間あたりの平均発生回数 $\lambda$（ラムダ）のみで形が決まるのが特徴です。

問題12

2つの変数間に直接の因果関係はないにもかかわらず、第3の変数が双方に影響を与えることで、あたかも相関があるように見える現象を何と呼びますか。

正の相関
逆相関
疑似相関
偏相関

解答12

正解：3. 疑似相関

（解説）
疑似相関（見せかけの相関）は、見かけ上は相関関係があるように見えても、実際には背後にある「交絡因子（第3の変数）」が両方に影響を及ぼしているだけの状態を指します。例えば「アイスの売上」と「水難事故の数」には正の相関が見られますが、これは「気温」という第3の変数が原因であり、両者に直接の因果関係はありません。

問題13

3つの変数 $x, y, z$ があるとき、変数 $z$ の影響を取り除いた上で算出される、$x$ と $y$ の純粋な相関係数を何と呼びますか。

重相関係数
偏相関係数
自己相関係数
決定係数

解答13

正解：2. 偏相関係数

（解説）
偏相関係数は、他の特定の変数の影響を統計的に制御（除去）した状態で、注目する2変数間の線形な関係の強さを測る指標です。疑似相関に惑わされず、変数間の真のつながりを確認したい場合に用いられます。

問題14

ニューラルネットワークにおいて、線形な計算結果に非線形な性質を加え、複雑なデータの表現を可能にするために用いられる関数を何と呼びますか。

損失関数
最適化関数
活性化関数
正則化関数

解答14

正解：3. 活性化関数

（解説）
活性化関数（Activation Function）は、各ユニット（ニューロン）の出力を決定する関数です。これを用いることで、ネットワークに「非線形性」を導入し、単純な線形結合では解けない複雑なパターン（画像や自然言語など）を学習できるようになります。

問題15

かつては定番として使われていた「シグモイド関数」の出力範囲と、主な弱点の組み合わせとして適切なものはどれですか。

出力範囲：-1から1 ／弱点：出力が負にならない
出力範囲：0から1 ／弱点：層が深くなると勾配消失が起きやすい
出力範囲：0以上（上限なし）／弱点：計算コストが非常に高い
出力範囲：-∞から∞ ／弱点：微分の計算が不可能である

[Image of Sigmoid function graph]

解答15

正解：2. 出力範囲：0から1 ／弱点：層が深くなると勾配消失が起きやすい

（解説）
シグモイド関数は入力を0から1の範囲に変換します。しかし、入力の絶対値が大きくなると関数の傾き（微分値）がほぼ0になってしまうため、誤差逆伝播の際に勾配が消えてしまい、学習が進まなくなる「勾配消失問題」が発生しやすいという課題があります。

問題16

シグモイド関数と似た形状を持ちながら、出力範囲が「-1から1」である関数はどれですか。

ReLU
Softmax
tanh（双曲線正接関数）
Leaky ReLU

解答16

正解：3. tanh（双曲線正接関数）

（解説）
tanh関数は、シグモイド関数を原点を通るように引き伸ばしたような形状をしています。出力が -1 から 1 の範囲（平均が0に近い状態）になるため、シグモイド関数よりも学習が効率的に進みやすいとされていますが、シグモイド同様に勾配消失の問題は残っています。

問題17

現在の深層学習において最も一般的に利用されている「ReLU関数」の動作として正しいものはどれですか。

入力が0以下なら0、0より大きければ入力をそのまま出力する。
入力が0以下なら -1、0より大きければ 1 を出力する。
すべての入力を 0 から 1 の範囲に圧縮して出力する。
入力に関わらず、常に一定の小さな値（0.01など）を出力する。

解答17

正解：1. 入力が0以下なら0、0より大きければ入力をそのまま出力する。

（解説）
ReLUは $f(x) = \max(0, x)$ という非常に単純な計算式で表されます。正の領域では勾配が常に1であるため勾配消失が起きにくく、計算も高速なため、現在のディープラーニングの主流となっています。

問題18

ReLUの弱点である「死んだReLU（Dying ReLU：入力が負の時に勾配が0になり、ニューロンが全く更新されなくなる現象）」を改善するために提案された関数はどれですか。

シグモイド関数
Leaky ReLU
ステップ関数
tanh関数

解答18

正解：2. Leaky ReLU

（解説）
Leaky ReLUは、入力が負の領域において 0 にするのではなく、 $f(x) = ax$ （ $a$ は 0.01 などの小さな値）のようにわずかな傾きを持たせた関数です。これにより、負の入力に対しても勾配が伝わるようになり、ニューロンが完全に活動を停止してしまう問題を防いでいます。

問題19

1950年にアラン・チューリングによって提案された、ある機械が「人間と同等の知能を持っているか」を判定するためのテストを何と呼びますか。

鏡テスト
チューリング・テスト
ローゼンブラット・テスト
汎用人工知能テスト

解答19

正解：2. チューリング・テスト

（解説）
チューリング・テストは、人間が壁越しに機械および他の人間とテキストで対話し、どちらが機械であるかを判別できなかった場合、その機械には知能があるとみなすというテストです。AIの定義や哲学的な議論において非常に重要な概念です。

問題20

Web上の文書に、コンピュータが理解できる「意味（セマンティクス）」を付加することで、情報の収集や解釈を自動化しようとする構想を何と呼びますか。

メタバース
セマンティックWeb
ブロックチェーン
インターネット・オブ・シングス(IoT)

解答20

正解：2. セマンティックWeb

（解説）
セマンティックWebは、ティム・バーナーズ＝リーによって提唱された技術です。RDF（Resource Description Framework）などを用いて、単なるテキストデータに「これは著者の名前である」「これは価格である」といった意味情報を付与し、コンピュータによる高度な自動処理を実現することを目指しています。

問題21

Web上で、コンピュータが扱いやすい形式で公開され、互いに関連付けられたデータセットを何と呼びますか。データの構造化には「オントロジー（知識の体系化）」が活用されます。

Big Data
Dark Data
LOD (Linked Open Data)
Silo Data

解答21

正解：3. LOD (Linked Open Data)

（解説）
LOD（Linked Open Data）は、誰でも利用できる形で公開されたデータ（Open Data）を、URIなどの技術を用いて互いにリンクさせたものです。これにより、異なるソースにあるデータを統合して検索・分析することが容易になります。

問題22

アンサンブル学習手法の一つで、学習データから重複を許してランダムに一部を抽出し（ブートストラップサンプリング）、複数のモデルを独立に学習させて最後にそれらの結果を平均や多数決で統合する手法を何と呼びますか。

バギング (Bagging)
ブースティング (Boosting)
スタッキング (Stacking)
ホールドアウト法

解答22

正解：1. バギング (Bagging)

（解説）
バギングは「Bootstrap Aggregating」の略称です。複数のモデルを並列に学習させることで、モデルの分散（バリアンス）を抑え、過学習を防ぐ効果があります。代表的なアルゴリズムに「ランダムフォレスト」があります。

問題23

画像認識のタスクにおいて、画像全体に対してラベルを付けるのではなく、画像内の「すべての画素（ピクセル）」に対して、それがどのカテゴリに属するかを分類する手法を何と呼びますか。

物体検出 (Object Detection)
画像キャプション生成 (Image Captioning)
セマンティックセグメンテーション
画像クラスタリング

解答23

正解：3. セマンティックセグメンテーション

（解説）
セマンティックセグメンテーションは、ピクセル単位でクラス（人、車、道路、空など）を判別する高度な画像認識技術です。自動運転における走行可能領域の判定や、医療画像の解析（腫瘍部位の特定など）に広く応用されています。

問題24

法的拘束力を持ち、国家によって強制される規則（法律、条令など）を「ハードロー」と呼ぶのに対し、業界団体のガイドラインや自主規制など、法的拘束力はないが実質的な影響力を持つ規則を何と呼びますか。

ローカルロー
ソフトロー
慣習法
デファクトスタンダード

解答24

正解：2. ソフトロー

（解説）
ソフトローは、法律のような強制力（罰則など）はありませんが、関係者が遵守することを期待される合意や指針を指します。技術革新の速いAI分野などでは、柔軟に対応できるソフトロー（AIガイドラインなど）が重要な役割を果たします。

問題25

日本の個人情報保護法の定義において、「個人情報データベース等を構成する個人情報」を何と呼びますか。

保有個人データ
個人データ
特定個人情報
仮名加工情報

解答25

正解：2. 個人データ

（解説）
日本の個人情報保護法では、情報の状態によって呼び方が変わります。「個人情報」は生存する個人を識別できる情報全般を指し、それが検索できるように体系的に整理（データベース化）されると「個人データ」となります。

問題26

「特定の個人を識別できないようにし、かつ復元できないように加工した情報」であり、本人の同意なく目的外利用や第三者提供が最も柔軟に認められているものはどれですか。

個人データ
仮名加工情報
匿名加工情報
限定提供データ

解答26

正解：3. 匿名加工情報

（解説）
「匿名加工情報」は、完全に復元不可能な状態まで加工されているため、個人の権利利益を侵害するリスクが極めて低く、データの利活用が広く認められています。一方、「仮名加工情報」は他の情報と照合すれば個人を特定できる余地が残るため、第三者提供が原則禁止されるなど、匿名加工情報よりも制限があります。

問題27

不正競争防止法で保護される「限定提供データ」の定義として、誤っているものはどれですか。

相当量蓄積されていること。
特定の相手に提供されるものであること。
秘密として管理されている「営業秘密」であること。
IDやパスワード等のアクセス管理がなされていること。

解答27

正解：3. 秘密として管理されている「営業秘密」であること。

（解説）
限定提供データは、営業秘密（非公知のもの）には当たらないものの、一定の管理下で特定の相手に提供される価値あるデータ（例：自動車の走行データやPOSデータなど）を保護するための概念です。営業秘密とは、その「秘密性」の有無で区別されます。

問題28

AIの規制やセキュリティ対策において、一律に厳しいルールを適用するのではなく、対象がもたらす危険性の大きさに応じて対策の強度を変える考え方を何と呼びますか。

ゼロトラストモデル
リスクベースアプローチ
コンプライアンスファースト
プレコーショナリープリンシプル

解答28

正解：2. リスクベースアプローチ

（解説）
リスクベースアプローチは、リスクが高いものには厳重な規制や対策を課し、リスクが低いものには簡素な手続きを認めるという合理的な考え方です。EUのAI法（AI Act）など、現代のデジタル規制における主要な方針となっています。

問題29

直接観測することが難しい変数（例：個人の嗜好や健康状態）の代わりに用いられる変数を「代理変数」と呼びますが、プライバシー保護の観点から問題となる理由はどれですか。

代理変数を使うと、AIの計算速度が極端に低下するため。
代理変数自体が暗号化されているため、分析が不可能になるため。
センシティブな情報（人種や病歴など）を直接収集しなくても、他のデータからそれらを推測できてしまう（再識別）危険があるため。
代理変数は常にランダムな値を持つため、統計的な有意性が失われるため。

解答29

正解：3. センシティブな情報（人種や病歴など）を直接収集しなくても、他のデータからそれらを推測できてしまう（再識別）危険があるため。

（解説）
代理変数は、直接取得できないデータの代わりとして便利ですが、例えば「郵便番号」が「世帯年収」や「特定の人種」の強い代理変数となることがあります。このように、直接的な個人情報を隠していても、代理変数を組み合わせることで個人のプライバシーが暴かれるリスクが生じます。

問題30

AI（特に画像認識モデル）に対し、人間の目には判別できない程度の微細なノイズを加えることで、意図的に誤認を誘発させる入力データを何と呼びますか。

バックドア・サンプル
敵対的サンプル (Adversarial Example)
ホワイトノイズ・データ
異常値 (Outlier)

解答30

正解：2. 敵対的サンプル (Adversarial Example)

（解説）
敵対的サンプルは、AIの脆弱性を突く攻撃手法の一つです。例えば、道路標識の「一時停止」に特定のシール（ノイズ）を貼ることで、自動運転AIに「速度制限」と誤認させるような攻撃が研究されています。

問題31

攻撃者がAIサービスに対して大量の入出力を繰り返し、その反応を分析することで、非公開の「学習データ」の一部を特定したり、公開されていない「モデルの構造やパラメータ」を逆算して盗み出す攻撃はどれですか。

DoS攻撃
モデル抽出攻撃（インバージョン攻撃など）
ブルートフォース攻撃
中間者攻撃

解答31

正解：2. モデル抽出攻撃（インバージョン攻撃など）

（解説）
APIなどで公開されているAIに対し、入力を変えながら結果を観察することで、その中身をコピー（窃取）する手法です。これにより、企業の知的財産であるモデルが盗まれたり、学習に含まれていた機密情報が漏洩したりするリスクがあります。

問題32

機械学習の「学習フェーズ」において、攻撃者が悪意のあるデータを訓練データに混入させることで、特定の入力に対して誤った出力をするように仕向ける攻撃を何と呼びますか。

データクレンジング
データサイエンス
データ汚染 (Poisoning)
モデルドリフト

解答32

正解：3. データ汚染 (Poisoning)

（解説）
データ汚染（ポイズニング）は、学習データそのものを標的にします。例えば、スパムメールフィルタに「スパムではない」と偽ったスパムメールを大量に学習させることで、フィルタの機能を無効化させるといった攻撃がこれに該当します。

問題33

インターネット上で配布されている「事前学習済みモデル」に、悪意のあるプログラムやバックドアを仕込み、それを利用したユーザーの環境で不正な処理を実行させる攻撃を何と呼びますか。

モデル汚染
パラメータ調整
転移学習
ゼロデイ攻撃

解答33

正解：1. モデル汚染

（解説）
信頼できないソースからダウンロードしたモデルファイル（例：Hugging FaceやGitHub上の野良モデル）には、ウイルスのような実行コードが埋め込まれている可能性があります。利用者は利便性のためにモデルをロードしますが、その瞬間にPCが乗っ取られるリスクがあるため、モデルの「サプライチェーン・セキュリティ」が重要視されています。

問題34

有名人の氏名や肖像が持つ「顧客吸引力」という経済的な価値を、本人が独占的に利用できる権利を何と呼びますか。

プライバシー権
肖像権（人格権）
パブリシティ権
著作財産権

解答34

正解：3. パブリシティ権

（解説）
パブリシティ権は、個人の氏名・肖像などが持つ経済的価値を保護するための権利です。人格権としての肖像権（勝手に撮影・公開されない権利）とは異なり、その名前や顔を使って商品を売るような「ビジネス上の価値」をコントロールできる点が特徴です。生成AIが有名人の声を模倣したり、顔を合成したりする場面で非常に重要な議論となります。

問題35

人工知能が自ら標的を選別して攻撃を行う「LAWS（自律型致死兵器システム）」の規制について、現在、国際的な議論が行われている枠組みはどれですか。

ジュネーブ条約
核不拡散条約 (NPT)
特定通常兵器使用禁止制限条約 (CCW)
万国郵便連合 (UPU)

解答35

正解：3. 特定通常兵器使用禁止制限条約 (CCW)

（解説）
CCWは、地雷やレーザー兵器など、過度に傷害を与えたり、無差別に効果を及ぼしたりする特定の兵器の使用を禁止・制限する条約です。現在、AIを搭載した「自律型致死兵器システム（LAWS）」をどのように定義し、規制すべきかが、このCCWの枠組みの中で議論されています。

問題36

SNSなどで自分と同じような意見を持つ人ばかりをフォローした結果、自分たちの信念が肯定され続け、特定の考えが増幅・強化されてしまう現象を何と呼びますか。

フィルターバブル
エコーチェンバー
認知バイアス
グループ思考

解答36

正解：2. エコーチェンバー

（解説）
エコーチェンバー現象は、閉ざされた空間（SNSのコミュニティなど）で発した意見が、周囲から反響（エコー）のように肯定されることで、自分の意見が世の中の正解であると確信を深めてしまう状況を指します。これにより、社会の分断や極端な思想の強化が懸念されています。

問題37

検索エンジンやSNSのアルゴリズムが、ユーザーの過去の閲覧履歴に基づいて「その人が見たい情報」ばかりを優先的に提示することで、ユーザーが自分好みの情報だけに包まれ、反対意見や新しい視点から隔離されてしまう現象を何と呼びますか。

フィルターバブル
ステルスマーケティング
デジタルデバイド
インフォデミック

解答37

正解：1. フィルターバブル

（解説）
フィルターバブルは、インターネット上のアルゴリズム（情報のフィルター）によって、まるで「情報の泡」の中に閉じ込められたようになる現象です。エコーチェンバーが「人とのつながり」による現象であるのに対し、フィルターバブルは主に「プラットフォームの仕組み（パーソナライズ）」によって引き起こされる点が特徴です。