CRISP-DM(データマイニングのための標準的プロセスモデル)において、ビジネス課題をデータマイニングの課題に翻訳し、プロジェクトの計画を立てるフェーズはどれですか。
正解:2. Business Understanding(ビジネスの理解)
(解説)
Business Understandingは、プロジェクトの目的や要件をビジネスの視点から理解し、それをデータマイニングの定義に変換して初期計画を策定する、CRISP-DMの最初のフェーズです。
CRISP-DMの6つのフェーズのうち、「Modeling(モデリング)」の直前に行われるフェーズとして適切なものはどれですか。
正解:1. Data Preparation(データの準備)
(解説)
Modelingフェーズでアルゴリズムを適用するためには、データのクリーニング、変換、統合などの前処理が必要です。これを行うのが「Data Preparation(データの準備)」フェーズであり、モデリングの直前に行われます。
CRISP-ML(CRISP-ML(Q))に関する説明として、最も適切なものはどれですか。
正解:3. 機械学習(ML)プロジェクト特有のライフサイクルや品質管理に対応させたフレームワークである。
(解説)
CRISP-ML(またはCRISP-ML(Q))は、CRISP-DMをベースにしつつ、モデルの監視や再学習、バイアスの管理など、機械学習(Machine Learning)に特化したプロセスや品質保証のステップを追加したAI開発フレームワークです。
MLOps(Machine Learning Operations)の主な目的として、最も適切なものはどれですか。
正解:2. AIモデルの開発と運用を連携させ、継続的な精度維持や改善を効率的に行うこと。
(解説)
MLOpsは、機械学習モデルの構築(Dev)と運用(Ops)を統合する仕組みです。モデルは一度作って終わりではなく、時間の経過とともに精度が低下するため、継続的なデプロイや監視、自動的な再学習を通じて品質を維持することが求められます。
BPR(Business Process Re-engineering)を説明したものはどれですか。
正解:1. 既存の業務プロセス、組織、戦略を抜本的に見直し、再設計すること。
(解説)
BPRは、業務の一部を改善するのではなく、目的を達成するために「本来どうあるべきか」という視点から業務プロセスそのものをゼロから再設計し、劇的なパフォーマンス向上を目指す手法です。
自然言語処理(NLP)において、概念間の意味関係を記述した辞書のような「WordNet」や、Wikipediaから抽出した構造化データを扱う「DBpedia」は、どのような分類に属しますか。
正解:3. 知識ベース(ナレッジベース)
(解説)
WordNetやDBpediaは、単語や概念の関係性を整理した「知識ベース」として、自然言語処理のタスク(意味解析や検索エンジンの高度化など)で広く利用されています。
データセット「LibriSpeech」の説明として適切なものはどれですか。
正解:1. 英語のオーディオブック(LibriVox)に基づいた、大規模な音声データセットである。
(解説)
LibriSpeechは、約1,000時間の読み上げ音声(オーディオブック)とそのテキストから構成されており、音声認識(ASR)モデルの学習や評価に欠かせない代表的なデータセットの一つです。
データを複数の区間(階級)に分け、それぞれの区間に属するデータの個数を整理したものを何と呼びますか。
正解:2. 度数分布
(解説)
度数分布(Frequency Distribution)は、データの全体像を把握するために、値をいくつかの階級に分け、各階級に現れるデータの数(度数)を一覧表やグラフ(ヒストグラム)にしたものです。
「階層的クラスタリング」において、個体間の結合過程や類似度を木構造で視覚化した図を何と呼びますか。
正解:3. デンドログラム
(解説)
デンドログラム(樹状図)は、似ているデータ同士を順にまとめていく階層的クラスタリングの過程を表現した図です。垂直方向の枝の長さは、クラスタ間の距離(類似度の低さ)を表します。
「コイントスを1回投げて、表が出るか裏が出るか」のように、結果が2通りしかない試行を1回だけ行った時の確率分布を何と呼びますか。
正解:1. ベルヌーイ分布
(解説)
ベルヌーイ分布は、結果が「成功(1)」か「失敗(0)」のいずれかになる試行を1回行う際の分布です。このベルヌーイ試行を独立に $n$ 回繰り返したときに、成功する回数が従う分布が「二項分布」となります。
「1時間あたりにコールセンターにかかってくる電話の件数」や「1kmあたりの道路の亀裂の数」など、滅多に起こらない事象が一定の時間や範囲内で発生する回数を表す分布はどれですか。
正解:3. ポアソン分布
(解説)
ポアソン分布は、滅多に発生しない事象(稀な事象)が、一定の期間や領域で何回発生するかを記述する離散確率分布です。単位時間あたりの平均発生回数 $\lambda$(ラムダ)のみで形が決まるのが特徴です。
2つの変数間に直接の因果関係はないにもかかわらず、第3の変数が双方に影響を与えることで、あたかも相関があるように見える現象を何と呼びますか。
正解:3. 疑似相関
(解説)
疑似相関(見せかけの相関)は、見かけ上は相関関係があるように見えても、実際には背後にある「交絡因子(第3の変数)」が両方に影響を及ぼしているだけの状態を指します。例えば「アイスの売上」と「水難事故の数」には正の相関が見られますが、これは「気温」という第3の変数が原因であり、両者に直接の因果関係はありません。
3つの変数 $x, y, z$ があるとき、変数 $z$ の影響を取り除いた上で算出される、$x$ と $y$ の純粋な相関係数を何と呼びますか。
正解:2. 偏相関係数
(解説)
偏相関係数は、他の特定の変数の影響を統計的に制御(除去)した状態で、注目する2変数間の線形な関係の強さを測る指標です。疑似相関に惑わされず、変数間の真のつながりを確認したい場合に用いられます。
ニューラルネットワークにおいて、線形な計算結果に非線形な性質を加え、複雑なデータの表現を可能にするために用いられる関数を何と呼びますか。
正解:3. 活性化関数
(解説)
活性化関数(Activation Function)は、各ユニット(ニューロン)の出力を決定する関数です。これを用いることで、ネットワークに「非線形性」を導入し、単純な線形結合では解けない複雑なパターン(画像や自然言語など)を学習できるようになります。
かつては定番として使われていた「シグモイド関数」の出力範囲と、主な弱点の組み合わせとして適切なものはどれですか。
[Image of Sigmoid function graph]
正解:2. 出力範囲:0から1 / 弱点:層が深くなると勾配消失が起きやすい
(解説)
シグモイド関数は入力を0から1の範囲に変換します。しかし、入力の絶対値が大きくなると関数の傾き(微分値)がほぼ0になってしまうため、誤差逆伝播の際に勾配が消えてしまい、学習が進まなくなる「勾配消失問題」が発生しやすいという課題があります。
シグモイド関数と似た形状を持ちながら、出力範囲が「-1から1」である関数はどれですか。
正解:3. tanh(双曲線正接関数)
(解説)
tanh関数は、シグモイド関数を原点を通るように引き伸ばしたような形状をしています。出力が -1 から 1 の範囲(平均が0に近い状態)になるため、シグモイド関数よりも学習が効率的に進みやすいとされていますが、シグモイド同様に勾配消失の問題は残っています。
現在の深層学習において最も一般的に利用されている「ReLU関数」の動作として正しいものはどれですか。
正解:1. 入力が0以下なら0、0より大きければ入力をそのまま出力する。
(解説)
ReLUは $f(x) = \max(0, x)$ という非常に単純な計算式で表されます。正の領域では勾配が常に1であるため勾配消失が起きにくく、計算も高速なため、現在のディープラーニングの主流となっています。
ReLUの弱点である「死んだReLU(Dying ReLU:入力が負の時に勾配が0になり、ニューロンが全く更新されなくなる現象)」を改善するために提案された関数はどれですか。
正解:2. Leaky ReLU
(解説)
Leaky ReLUは、入力が負の領域において 0 にするのではなく、 $f(x) = ax$ ( $a$ は 0.01 などの小さな値)のようにわずかな傾きを持たせた関数です。これにより、負の入力に対しても勾配が伝わるようになり、ニューロンが完全に活動を停止してしまう問題を防いでいます。
1950年にアラン・チューリングによって提案された、ある機械が「人間と同等の知能を持っているか」を判定するためのテストを何と呼びますか。
正解:2. チューリング・テスト
(解説)
チューリング・テストは、人間が壁越しに機械および他の人間とテキストで対話し、どちらが機械であるかを判別できなかった場合、その機械には知能があるとみなすというテストです。AIの定義や哲学的な議論において非常に重要な概念です。
Web上の文書に、コンピュータが理解できる「意味(セマンティクス)」を付加することで、情報の収集や解釈を自動化しようとする構想を何と呼びますか。
正解:2. セマンティックWeb
(解説)
セマンティックWebは、ティム・バーナーズ=リーによって提唱された技術です。RDF(Resource Description Framework)などを用いて、単なるテキストデータに「これは著者の名前である」「これは価格である」といった意味情報を付与し、コンピュータによる高度な自動処理を実現することを目指しています。
Web上で、コンピュータが扱いやすい形式で公開され、互いに関連付けられたデータセットを何と呼びますか。データの構造化には「オントロジー(知識の体系化)」が活用されます。
正解:3. LOD (Linked Open Data)
(解説)
LOD(Linked Open Data)は、誰でも利用できる形で公開されたデータ(Open Data)を、URIなどの技術を用いて互いにリンクさせたものです。これにより、異なるソースにあるデータを統合して検索・分析することが容易になります。
アンサンブル学習手法の一つで、学習データから重複を許してランダムに一部を抽出し(ブートストラップサンプリング)、複数のモデルを独立に学習させて最後にそれらの結果を平均や多数決で統合する手法を何と呼びますか。
正解:1. バギング (Bagging)
(解説)
バギングは「Bootstrap Aggregating」の略称です。複数のモデルを並列に学習させることで、モデルの分散(バリアンス)を抑え、過学習を防ぐ効果があります。代表的なアルゴリズムに「ランダムフォレスト」があります。
画像認識のタスクにおいて、画像全体に対してラベルを付けるのではなく、画像内の「すべての画素(ピクセル)」に対して、それがどのカテゴリに属するかを分類する手法を何と呼びますか。
正解:3. セマンティックセグメンテーション
(解説)
セマンティックセグメンテーションは、ピクセル単位でクラス(人、車、道路、空など)を判別する高度な画像認識技術です。自動運転における走行可能領域の判定や、医療画像の解析(腫瘍部位の特定など)に広く応用されています。
法的拘束力を持ち、国家によって強制される規則(法律、条令など)を「ハードロー」と呼ぶのに対し、業界団体のガイドラインや自主規制など、法的拘束力はないが実質的な影響力を持つ規則を何と呼びますか。
正解:2. ソフトロー
(解説)
ソフトローは、法律のような強制力(罰則など)はありませんが、関係者が遵守することを期待される合意や指針を指します。技術革新の速いAI分野などでは、柔軟に対応できるソフトロー(AIガイドラインなど)が重要な役割を果たします。
日本の個人情報保護法の定義において、「個人情報データベース等を構成する個人情報」を何と呼びますか。
正解:2. 個人データ
(解説)
日本の個人情報保護法では、情報の状態によって呼び方が変わります。「個人情報」は生存する個人を識別できる情報全般を指し、それが検索できるように体系的に整理(データベース化)されると「個人データ」となります。
「特定の個人を識別できないようにし、かつ復元できないように加工した情報」であり、本人の同意なく目的外利用や第三者提供が最も柔軟に認められているものはどれですか。
正解:3. 匿名加工情報
(解説)
「匿名加工情報」は、完全に復元不可能な状態まで加工されているため、個人の権利利益を侵害するリスクが極めて低く、データの利活用が広く認められています。一方、「仮名加工情報」は他の情報と照合すれば個人を特定できる余地が残るため、第三者提供が原則禁止されるなど、匿名加工情報よりも制限があります。
不正競争防止法で保護される「限定提供データ」の定義として、誤っているものはどれですか。
正解:3. 秘密として管理されている「営業秘密」であること。
(解説)
限定提供データは、営業秘密(非公知のもの)には当たらないものの、一定の管理下で特定の相手に提供される価値あるデータ(例:自動車の走行データやPOSデータなど)を保護するための概念です。営業秘密とは、その「秘密性」の有無で区別されます。
AIの規制やセキュリティ対策において、一律に厳しいルールを適用するのではなく、対象がもたらす危険性の大きさに応じて対策の強度を変える考え方を何と呼びますか。
正解:2. リスクベースアプローチ
(解説)
リスクベースアプローチは、リスクが高いものには厳重な規制や対策を課し、リスクが低いものには簡素な手続きを認めるという合理的な考え方です。EUのAI法(AI Act)など、現代のデジタル規制における主要な方針となっています。
直接観測することが難しい変数(例:個人の嗜好や健康状態)の代わりに用いられる変数を「代理変数」と呼びますが、プライバシー保護の観点から問題となる理由はどれですか。
正解:3. センシティブな情報(人種や病歴など)を直接収集しなくても、他のデータからそれらを推測できてしまう(再識別)危険があるため。
(解説)
代理変数は、直接取得できないデータの代わりとして便利ですが、例えば「郵便番号」が「世帯年収」や「特定の人種」の強い代理変数となることがあります。このように、直接的な個人情報を隠していても、代理変数を組み合わせることで個人のプライバシーが暴かれるリスクが生じます。
AI(特に画像認識モデル)に対し、人間の目には判別できない程度の微細なノイズを加えることで、意図的に誤認を誘発させる入力データを何と呼びますか。
正解:2. 敵対的サンプル (Adversarial Example)
(解説)
敵対的サンプルは、AIの脆弱性を突く攻撃手法の一つです。例えば、道路標識の「一時停止」に特定のシール(ノイズ)を貼ることで、自動運転AIに「速度制限」と誤認させるような攻撃が研究されています。
攻撃者がAIサービスに対して大量の入出力を繰り返し、その反応を分析することで、非公開の「学習データ」の一部を特定したり、公開されていない「モデルの構造やパラメータ」を逆算して盗み出す攻撃はどれですか。
正解:2. モデル抽出攻撃(インバージョン攻撃など)
(解説)
APIなどで公開されているAIに対し、入力を変えながら結果を観察することで、その中身をコピー(窃取)する手法です。これにより、企業の知的財産であるモデルが盗まれたり、学習に含まれていた機密情報が漏洩したりするリスクがあります。
機械学習の「学習フェーズ」において、攻撃者が悪意のあるデータを訓練データに混入させることで、特定の入力に対して誤った出力をするように仕向ける攻撃を何と呼びますか。
正解:3. データ汚染 (Poisoning)
(解説)
データ汚染(ポイズニング)は、学習データそのものを標的にします。例えば、スパムメールフィルタに「スパムではない」と偽ったスパムメールを大量に学習させることで、フィルタの機能を無効化させるといった攻撃がこれに該当します。
インターネット上で配布されている「事前学習済みモデル」に、悪意のあるプログラムやバックドアを仕込み、それを利用したユーザーの環境で不正な処理を実行させる攻撃を何と呼びますか。
正解:1. モデル汚染
(解説)
信頼できないソースからダウンロードしたモデルファイル(例:Hugging FaceやGitHub上の野良モデル)には、ウイルスのような実行コードが埋め込まれている可能性があります。利用者は利便性のためにモデルをロードしますが、その瞬間にPCが乗っ取られるリスクがあるため、モデルの「サプライチェーン・セキュリティ」が重要視されています。
有名人の氏名や肖像が持つ「顧客吸引力」という経済的な価値を、本人が独占的に利用できる権利を何と呼びますか。
正解:3. パブリシティ権
(解説)
パブリシティ権は、個人の氏名・肖像などが持つ経済的価値を保護するための権利です。人格権としての肖像権(勝手に撮影・公開されない権利)とは異なり、その名前や顔を使って商品を売るような「ビジネス上の価値」をコントロールできる点が特徴です。生成AIが有名人の声を模倣したり、顔を合成したりする場面で非常に重要な議論となります。
人工知能が自ら標的を選別して攻撃を行う「LAWS(自律型致死兵器システム)」の規制について、現在、国際的な議論が行われている枠組みはどれですか。
正解:3. 特定通常兵器使用禁止制限条約 (CCW)
(解説)
CCWは、地雷やレーザー兵器など、過度に傷害を与えたり、無差別に効果を及ぼしたりする特定の兵器の使用を禁止・制限する条約です。現在、AIを搭載した「自律型致死兵器システム(LAWS)」をどのように定義し、規制すべきかが、このCCWの枠組みの中で議論されています。
SNSなどで自分と同じような意見を持つ人ばかりをフォローした結果、自分たちの信念が肯定され続け、特定の考えが増幅・強化されてしまう現象を何と呼びますか。
正解:2. エコーチェンバー
(解説)
エコーチェンバー現象は、閉ざされた空間(SNSのコミュニティなど)で発した意見が、周囲から反響(エコー)のように肯定されることで、自分の意見が世の中の正解であると確信を深めてしまう状況を指します。これにより、社会の分断や極端な思想の強化が懸念されています。
検索エンジンやSNSのアルゴリズムが、ユーザーの過去の閲覧履歴に基づいて「その人が見たい情報」ばかりを優先的に提示することで、ユーザーが自分好みの情報だけに包まれ、反対意見や新しい視点から隔離されてしまう現象を何と呼びますか。
正解:1. フィルターバブル
(解説)
フィルターバブルは、インターネット上のアルゴリズム(情報のフィルター)によって、まるで「情報の泡」の中に閉じ込められたようになる現象です。エコーチェンバーが「人とのつながり」による現象であるのに対し、フィルターバブルは主に「プラットフォームの仕組み(パーソナライズ)」によって引き起こされる点が特徴です。