2章 人工知能をめぐる動向

問題1

以下の文章を読み、空欄に当てはまる言葉の組み合わせとして、最も適切なものを1つ選べ。

迷路をコンピュータに理解できる構造で表現する方法の1つに(ア)がある。これは枝分かれする木のような構造をしており、それぞれの枝が条件の異なる場合分けに対応している。これは、場合分け(枝)を追って行けばいつか目的の条件に合致するものが見つかるという単純な考えを基礎にしている。枝を探索する方法には(イ)と(ウ)があり、( イ)であれば最短距離でゴールにたどり着く解を必ず見つけることができるが、探索中にメモリ不足となる可能性がある。 一方、(ウ)では、探索に大量のメモリを必要としないが、解が見つかったとしても最短距離でゴールにたどり着く解とは限らない。

  1. (ア) 検索木 (イ) 深さ優先探索 (ウ) 幅優先探索
  2. (ア) 検索木 (イ) 幅優先探索 (ウ) 深さ優先探索
  3. (ア) 探索木 (イ) 深さ優先探索 (ウ) 幅優先探索
  4. (ア) 探索木 (イ) 幅優先探索 (ウ) 深さ優先探索

📝 解答

4

🔍 解説

探索木は、迷路を枝分かれする木のような構造で表現する方法の1つです。幅優先探索は、最短距離でゴールにたどり着く解を必ず見つけることができますが、たどった場所を全て記憶しておかなければならないため、メモリ不足で処理が続行できなくなる可能性があります。深さ優先探索は、探索に失敗した場合は1つ手前の場所に戻って探索し直せば良いので、たどった場所の多くを記憶しておく必要はありません。そのため、メモリ不足になることはありませんが、最短距離でゴールにたどり着くとは限りません。
[参照]2-1 「1.1 迷路(探索木)」

問題2

下図のような木構造で表された迷路において、スタート (S) からゴール (G) までたどり着くパスを探索する場合、最も適
切なものを1つ選べ。

問題2

  1. 幅優先探索で3回
  2. 深さ優先探索で3回
  3. 幅優先探索で4回
  4. 深さ優先探索で4回

📝 解答

4

🔍 解説

幅優先探索でGにたどり着くことができるのは、左側優先で探索した場合は6回、右側優先で探索した場合は5回です。深さ優先探索では、左側優先で探索した場合は8回、右側優先で探索した場合は4回となります(新しいノードに移った後は、必ず先に右側を探索するので、3回でゴールすることはできません)。

問題3

以下の文章を読み、空欄に最もよく当てはまるものを1つ選べ。

ボードゲームをコンピュータで解く基本は探索である。代表的なボードゲームでは探索の組み合わせの数は( )の順に大きくなるが、その組み合わせは天文学的な数であるため、事実上全てを探索することはできない。

  1. オセロ < チェス < 将棋  < 囲碁
  2. チェス < オセロ < 囲碁  < 将棋
  3. オセロ < 将棋  < チェス < 囲碁
  4. チェス < オセロ < 将棋  < 囲碁

📝 解答

1

🔍 解説

探索の組み合わせが多いボードゲームほど難しいといえます。オセロとチェスは1997年に人工知能が人間のチャンピオンに勝利しました。将棋で人間のレベルを超えたのは2015年でしたが、囲碁では2015年時点でコンピュータの実力は人間のアマチュア6、7段程度でした。世界チャンピオンに勝つにはさらに10年はかかると思われていましたが、2016年3月9日に人工知能の囲碁プログラムAlphaGoが人間のチャンピオンに勝ち越しました。

問題4

探索空間が大きすぎて事実上すべてを探索できないという問題に対処する方法に関する説明として、不適切なものを1つ選べ。

  1. ヒューリスティックな知識を利用してコスト計算を行い、コストが高すぎる探索は行わないようにすることで探索効率を上げることができる。
  2. ブルートフォース法は、コンピュータが2人の仮想的なプレイヤーを演じて、完全にランダムに手を指し続ける方法でゲームをシミュレーションする方法である。
  3. Mini-Max法はカット、カットという枝刈りを行うことで探索効率を上げることができる。
  4. コンピュータが完全にランダムに手を指し続けて終局させてしまい、一番勝率が高い手を見つけ出す方法を「プレイアウト」と呼ぶ。

📝 解答

2

🔍 解説

探索してもあまり意味がない部分(つまり、探索コストが高すぎる部分)がはじめから分かっていれば、その部分を探索対象から外すことで、効率の良い探索を遂行できます。問題はコスト計算の根拠となるコストをどのように手に入れるかですが、あらかじめ知っている知識や経験(これを「ヒューリスティックな知識」と呼びます) をベースにコスト計算するのが1つの方法です(選択肢1の方法)。Mini-Max法の探索木の枝を切り落とすことで探索効率を上げる方法をẞ法と呼びます(選択肢3の方法)。αβ法では、スコアが大きくなる枝を探している時に行う枝刈りをカットと呼び、 スコアが小さくなる枝を探している時に行う枝刈りをカットと呼びます。

選択肢2は「ブルートフォース」ではなく「モンテカルロ法」の説明なので誤りです。そもそも「ブルートフォース (力任せ)」とは、コンピュータを使って力任せに処理を行うことなので、探索空間が大きすぎる場合は使えません。一方で、モンテカルロ法を使ってゲームをプレイアウトする方法は、ゲームをブルートフォースで押し切る方法だといえます(選択肢4の方法)。ゲーム後半は探索の組み合わせが少なくなるのでブルートフォースが可能になります。

【参照】2-1 「1.4 ボードゲーム(オセロ・チェス・将棋・囲碁)」

問題5

オントロジーに関する説明として、不適切なものを1つ選べ。

  1. オントロジーは、本来「存在論」という意味の哲学用語であるが、人工知能の用語としてはトム・グルーパーによる 「概念化の明示的な仕様」という定義が広く受け入れられている。
  2. オントロジーの研究は、エキスパートシステムのための知識ベースの開発と保守にはコストがかかるという問題意識に端を発している。
  3. オントロジーの目的は知識の共有と活用である。そのため、知識を記述するときに用いる「言葉(語彙)」や「その意味」、また、「それらの関係性」を他の人とも共有できるように、明確な約束事(仕様)を体系的に決めておく。
  4. Cyc (サイク) プロジェクトは一般常識を全てデータベース化しようとしたプロジェクトで、ダグラス・レナートにより1984年からスタートし2014年まで30年間続いた。

📝 解答

4

🔍 解説

オントロジーは「存在論」という意味の哲学用語です。対象とする世界に存在するものをモデル化するための概念体系(「概念化の明示的な仕様」) をオントロジーと呼ぶようになりました。オントロジーの目的は効率よく知識を共有し活用することでした。そのために必要な約束事 (仕様)がオントロジーです。Cycプロジェクトの「Cyc」は「Encyclopedia (百科事典)」に由来しています。一般常識を全てデータベース化しようとした野心的なCycプロジェクトは現在も続いています。

問題6

意味ネットワークに関する説明として、適切なものを1つ選べ。

意味ネットワークは「概念」と「概念問の関係」をネットワークとして表す。特に重要な関係として(ア)の関係と (イ)の関係がある。「哺乳類」と「動物」の関係は「(ア)の関係」、「足」と「犬」関係は「(イ)の関係」である。

  1. (ア) is-a (イ) named-from
  2. (7) named-from (イ) is-a
  3. (7) part-of (イ) named-from
  4. (7) named-from (イ) part-of
  5. (7) is-a (イ) part-of
  6. (7) part-of (イ) is-a

📝 解答

5

🔍 解説

この問題では、「哺乳類 is-a 動物」 (哺乳類は動物「である」)、「足 part-of 犬」(足は犬の「一部である」)という関係が正解です。意味ネットワークは人間にとって直感的で分かりやすく、また、ある概念に関連する知識がリンクを元にたどれるので知識の検索も容易です。

[参照]2-2「1.4 意味ネットワーク」

問題7

「is-a」の関係と「part-of」の関係に関する説明として、不適切なものを1つ選べ。

  1. オントロジーにおいて、概念間の関係を表す「is-a」の関係(「である」の関係)は上位概念と下位概念の継承関係を表し、「part-of」の関係(「一部である」の関係)は属性を表す。
  2. 「is-a」の関係は推移律が必ず成立する。「哺乳類 is-a動物」と「人間is-a哺乳類」という関係が成立すれば、「人間 is-a 動物」という関係が自動的に成立することを意味する。
  3. 「part-of」の関係でも推移律が必ず成立する。なぜなら、「日本 part-of アジア」と「東京 part-of 日本」と「東京 part-of アジア」が成立するからである。
  4. 「part-of」の関係には最低5つの関係があることが分かっており、コンピュータにこれを理解させるのは大変難しい。 これら全ての関係を正しくモデル化できるツールはまだ存在していない。

📝 解答

3

🔍 解説

「is-a」の関係は推移律が必ず成立しますが、「part-of」の関係では推移律が成立するとは限りません。たとえば、「指part-of 太郎」と「太郎 part-of 野球部」が成立しても「指 part-of 野球部」は成立しません。「指 part-of 太郎」は太郎の体の一部という文脈で成立し、「太郎 part-of 野球部」は太郎が野球部に所属しているという文脈で成立しており、それぞれ異なる文脈で役割が決まっている2つは噛み合いません。「part-of」の関係には他にもいろいろな種類のものがあり、最低5つの関係があることが分かっています。

問題8

オントロジーの構築に関する説明として、不適切なものを1つ選べ。

  1. オントロジーの研究(知識を共有するための概念体系に関する研究)が進むにつれ、知識を記述することの難しさが明らかになり、ヘビーウェイトオントロジー、ライトウェイトオントロジーという2つの流れが生まれた。
  2. ヘビーウェイトオントロジーは、対象世界の知識をどのように記述するかを哲学的にしっかり考えて行う。ライトウェイトオントロジーは、完全に正しいものでなくても使えるものであれば良いという考え方から、とにかくコンピュータにデータを読み込ませてできる限り自動的に行う。
  3. Webデータを解析して知識を取り出すウェブマイニングやビッグデータを解析して知識を取り出すデータマイニングは、ヘビーウェイトオントロジーと相性が良い。
  4. オントロジーの研究は、セマンティック WebやLOD (Linked Open Data) などの研究として展開されている。

📝 解答

3

🔍 解説

ウェブマイニングやデータマイニングと相性が良いのは、「コンピュータで概念間の関係を見つけよう」という現実的な思想を持つ「ライトウェイトオントロジー」です。セマンティックWebは、Webサイトが持つ意味をコンピュータに理解させ、コンピュータ同士で処理を行わせるための技術のことで、LODはWeb上でコンピュータ処理に適したデータを公開・共有するための技術のことです。セマンティックWebもLODもオントロジーの研究をベースにしています。

[参照]2-2「1.7 オントロジーの構築」

問題9

機械学習とデータに関する説明として、不適切なものを1つ選べ。

  1. 機械学習はサンプルデータの数が多いほど望ましい学習結果が得られる。
  2. 2000年以降、インターネットの普及により急増したデータがビッグデータとして利用できるようになり、機械学習が実用化できるレベルに至った。
  3. ディープラーニングが登場する前から利用されていたレコメンデーションエンジンやスパムフィルタは、高度な機械学習アルゴリズムを利用することで、ビッグデータを利用せずに実用化に成功したアプリケーションである。
  4. インターネット上のWebページの爆発的な増加により、単語単位ではなく複数の単語をひとまとまりにした単位(句または文単位)で用意された膨大な対訳データ (コーパス) を利用できるようになり、統計的自然言語処理を使って最も正解である確率が高い訳を選択できるようになった。

📝 解答

3

🔍 解説

機械学習はサンプルデータの数が少ないと精度が高い学習を達成できません。インターネットの普及により急増したデータが機械学習の研究を加速させました。レコメンデーションエンジンやスパムフィルターは、ビッグデータを利用した機械学習を利用することで実用化に成功したアプリケーションです。機械翻訳は古くから人工知能の研究対象であったが、膨大な対訳データ(コーパス) が利用可能になったおかげで統計的自然言語処理の研究が急速に進展し、翻訳精度が向上しました。

問題10

画像認識に関する説明として、不適切なものを1つ選べ。

  1. 2012年、画像認識の精度を争う競技会 「ILSVRC」でジェフリー・ヒントンが率いるトロント大学のチームが開発したニューラルネットワークであるSuperVisionが圧勝した。
  2. 2012年以前のILSVRCで、画像認識に機械学習を用いることは既に常識になっていたが、機械学習で用いる特徴量を決めるのは人間だった。
  3. 2012年以降のILSVRCのチャンピオンは全てディープラーニングを利用している。
  4. ディープラーニングは2015年に人間の画像認識エラーである4%を下回った。

📝 解答

1

🔍 解説

SuperVisionは、2012年の「ILSVRC」に参加したジェフリー・ヒントンが率いたチームの名前です。 に参加したジェフリー・ヒントンが率いたチームの名前です。SuperVisionが開発したニューラルネットワークは「AlexNet」と呼ばれています。SuperVisionは、2位である東大のISIチームのエラー率を10%以上引き離し、圧勝しました。2012年以降のILSVRCのチャンピオンは全てディープラーニングを利用しています。

問題11

第1次AIブームにおける「探索」に関する説明として、最も不適切なものを1つ選べ。

  1. 幅優先探索はメモリがそれほど必要ないが、深さ優先探索は途中ノードを全て記憶するため多くのメモリが必要になる。
  2. 迷路に対して道の分岐パターンを網羅していくと、探索木を作成することができる。
  3. 探索木は要するに場合分けであり、こうした単純な作業はコンピュータが非常に得意とする処理である。
  4. 解に到達するまでの時間は、問題とその探索方法により異なる。

📝 解答

1

🔍 解説

幅優先探索は、答えにたどり着くまでに立ち寄ったノードを全て記憶しておかなければならないため、メモリ不足になる可能性があります。深さ優先探索は、立ち寄ったノードが解ではない場合は、それを記憶せずに1つ手前のノードに戻って探索し直せば良いので、メモリはあまり必要ありません。

問題12

ビッグデータについて述べたものとして、最も適切なものを1つ選べ。

  1. ビッグデータとは、膨大な量のデータであり、データ量が1EB (10億GB) 以上のものを指す。
  2. ビッグデータとは、大容量のデータのうち構造化されたデータを指す。
  3. ビッグデータを利用した機械学習が活性化したことが、第3次AIブームの一因である。
  4. ビッグデータはそのデータ量が膨大であるため、データの更新頻度が低い。

📝 解答

3

🔍 解説

ビッグデータは膨大な量のデータを指しますが、その量に関する具体的な基準値は存在しません。あらかじめ定義された形式に従わないデータを非構造化データと呼びます。例えば、テキストデータ、画像データ、動画データ、オーディオデータなどが非構造化データの例ですが、これもデータ量が膨大な場合はビッグデータと呼ばれる対象になります。データ量が膨大だということとデータの更新頻度は無関係です。

問題13

Mini-Max法を改良し、効率よく同じ結果が得られるようにしたアルゴリズムの呼称として、最も適切なものを1つ選べ。

  1. モンテカルロ法
  2. ブルートフォース法
  3. プレイアウト法
  4. αβ法

📝 解答

4

🔍 解説

モンテカルロ法は数多くランダムに手を打ち、その中から最良の手を選ぶ方法です。「ブルートフォース (力任せ)」とはコンピュータを使って力任せに処理を行うことであり、プレイアウトとは最後までゲームを進めてしまう行為のことです。

問題14

以下の文章を読み、空欄に最もよく当てはまるものを1つ選べ。

() はロボットの行動計画などのプランニングのための手法であり、前提条件・行動・結果の3つで記述する。

  1. STRIPS
  2. SHRDLU
  3. Cycプロジェクト
  4. モンテカルロ法

📝 解答

1

🔍 解説

STRIPSは、ロボット工学やAIにおける行動計画作成のための言語およびアルゴリズムのセットとして設計され、後の多くの計画システムや理論の発展に影響を与えました。SHRDLUは音声認識を使った対話で指示を受け取り、「積み木の世界」に存在する物体を動かすことをプランニングできました。Cycプロジェクトは、全ての一般常識をコンピュータに取り込むことを目的に1984年にスタートし、現在もまだ続いています。モンテカルロ法は、数多くランダムに試行錯誤した結果から適切な解を推定する方法です。

問題15

以下の文章を読み、空欄に最もよく当てはまるものを1つ選べ。

大規模言語モデルは与えられた大量の文章を学習することで、一般的な言語の構造、文法、語彙などの基本を学ぶが、それだけでは人間が望ましいと考える回答を生成できないため ( ) と呼ばれる学習も行う。

  1. トランスフォーマー
  2. アテンション
  3. ファインチューニング
  4. プリトレーニング

📝 解答

3

🔍 解説

大規模言語モデルは、与えられた大量の文章を事前学習 (プリトレーニング) することで、一般的な言語の基本構造を学んだ後、ファインチューニングと呼ばれる学習を行うことで文脈を理解し、論理的かつ適切な解答を生成する能力を向上させます。

問題16

トランスフォーマーとそれを用いた大規模言語モデル (LLM) に関する説明として、最も不適切なものを1つ選べ。

  1. トランスフォーマーを利用することで、同じ単語でも文脈や状況で意味やニュアンスが変わることを効率よく学習でる。
  2. 大規模言語モデルの性能は、学習データ量に関係なくニューラルネットワークのパラメータの個数を増やせば増やしだけ向上する。
  3. 大規模言語モデルが特定の規模を超えると、事前に想定されていなかった能力を獲得することが報告されている。
  4. トランスフォーマーは文章中の単語の位置を考慮し、単語と単語の関係性を広範囲に学習する。

📝 解答

2

🔍 解説

大規模言語モデルを構成するニューラルネットワークのパラメータの個数を増やしても、学習データや計算リソースが十分に足りていなければ性能向上は期待できません。

問題17

以下の文章を読み、空欄 (A) (B) に最もよく当てはまるものを1つ選べ。

問題17

ある問題をコンピュータで解くため、図のような探索木を考えた。これを幅優先探索で解くことを考える。「スタートS」から「ゴールG」まで左側のノードを優先して探索を行った場合と、右側のノードを優先して探索を行った場合では、(A) の方が探索回数は少なくて済む。また、幅優先探索は深さ優先探索と比較して、一般的に (B) という特徴がある。

  1. (A) 左側優先 (B) ゴールに最短距離でたどり着く解を必ず見つけられる
  2. (A) 左側優先 (B) メモリの使用量が少なくて済む
  3. (A) 右側優先 (B) ゴールに最短距離でたどり着く解を必ず見つけられる
  4. (A) 右側優先 (B) メモリの使用量が少なくて済む

📝 解答

3

🔍 解説

左側優先(左側のノードを優先)して検索した場合、Gへは11ステップで到達します(図2.5参照)。一方、右側優先(右側のノードを優先)して検索した場合、Gへは8ステップでゴールに到達できます。幅優先検索では、メモリの使用量が多くなってしまうというデメリットがありますが、ゴールに最短距離で到達できる解を必ず見つけることができるというメリットがあります。

問題18

迷路の問題を解く際に用いる探索木の探索において、深さ優先探索の説明として、最も適切なものを1つ選べ。ここで迷路のスタートを探索木のルートとし、探索木の終端は行き止まりまたはゴールとする。

  1. 探索木のルートから先に順にたどっていく。行き止まりにたどり着いたら1つ上のノードに戻って別の経路を探索する。最短距離でゴールにたどり着く経路とは限らない。
  2. 探索木のルートから近いノードを優先して探索する。最短距離でゴールにたどり着く経路を見つけることができる。
  3. 探索木のルートから近いノードを優先して探索する。近いノード1つだけ選ぶのでメモリが必要ない。
  4. 探索木のルートから先に順にたどっていく。全ての経路を記憶するのでメモリが必要となる。

📝 解答

1

🔍 解説

深さ優先探索ではメモリの使用量が少なくて済みますが、最短距離でゴールにたどり着く経路とは限りません。

問題19

第3次AIブーム以降、ディープラーニングの活用が進んだ理由として、最も不適切なものを1つ選べ。

  1. インターネットのサービスの普及と発展によって、Web上でデータが扱われるようになったため。
  2. コンピュータのハードウェアの性能向上と共に、ビッグデータを扱えるような基盤が発展したため。
  3. ディープラーニングの優れたアルゴリズムの開発が進んだため。
  4. 実ビジネスでルールペースAIの有益性が低下したため。

📝 解答

4

🔍 解説

ルールベースのAIは、特定の用途に特化した場合、非常に高い精度と効率を達成することが可能です。現在でも、日用品から医療や金融システムなど、高速かつ高い信頼性が求められるシステムで広く利用されています。

問題20

意味ネットワークを構築する上で重要となる概念間の関係性として、最も適切なものを1つ選べ。

  1. 「is-a」の関係
  2. 「have-to」の関係
  3. 「to-be」の関係
  4. 「can-be」の関係

📝 解答

1

🔍 解説

「is-a」の関係(「である」の関係)は、概念間の継承関係を表します。選択肢2、3、4のような関係は、意味ネットワークでは定義されていません。

問題21

1964年から1966年にかけてジョセフ=ワイゼンバウムによって開発されたイライザ (ELIZA) の説明として、最も不適切なものを1つ選べ。

  1. 過去の膨大な会話ログから、機械が自律的に学習することで自然な応答パターンをルール化できた。
  2. あらかじめ用意されたパターンに合致すると、それに応じた発言を返答する仕組みになっている。
  3. 単純なルールに基づき機械的に生成された言葉でも、そこに知性があると感じて夢中になる人が現れた。
  4. 相手の発言を理解しているわけではなく機械的な処理で返答しているだけなので、人工無能と呼ばれる。

📝 解答

1

🔍 解説

イライザは相手の発言を理解しているわけではなく、基本的にオウム返しに相手の発言を再利用しているだけでしたが、イライザと対話しているとあたかも本物の人間と対話しているような錯覚 (イライザ効果) に陥る人が続出しました。

問題22

ウェブマイニングやデータマイニングにおいて知識を取り出す取り組みとして、最も適切なものを1つ選べ。

  1. 知識の関係性は必ず正しいとは限らないので、ライトウェイトオントロジーに属する。
  2. 知識の関係性は必ず決まっているので、ヘビーウェイトオントロジーに属する。
  3. 知識の関係性は必ず決まっているので、ライトウェイトオントロジーに属する。
  4. 知識はでたらめなこともあるので、モンテカルロ法に属する。

📝 解答

1

🔍 解説

ライトウェイトオントロジーの場合は、完全に正しいものでなくても使えるものであればいいという考えから、その構成要素の分類関係の正当性については深い考察は行わないという傾向があります。

問題23

以下の文章を読み、空欄に最もよく当てはまるものを1つ選べ。

()は、血液中のバクテリアの診断支援をするプログラムで、「もし (if) 以下の条件が成立すると、そうしたら (then)、その微生物は○○である」のルールに基づいて判定を行う。

  1. イライザ (ELIZA)
  2. エニアック (ENIAC)
  3. マイシン (MYCIN)
  4. アルファゼロ (Alpha Zero)

📝 解答

3

🔍 解説

マイシンは、あたかも感染症の専門医のように振る舞うことができました。

問題24

知識獲得のボトルネックの説明として、最も適切なものを1つ選べ。

  1. 人間から体系だった知識を引き出して、コンピュータに載せることが困難であること。
  2. 探索や推論を行う上で、組み合わせが指数関数や階乗のオーダーで爆発的に大きくなること。
  3. 大量の知識を処理する上で、コンピュータ計算速度が問題になったこと。
  4. 十分な知識を詰め込むためには、コンピュータの記憶容量は小さすぎたこと。

📝 解答

1

🔍 解説

人間が持っている知識は膨大で、専門知識だけでなく一般常識も含めた全ての知識をコンピュータに獲得させることは難しいとされています。この難しさを「知識獲得のボトルネック」と呼びます。

問題25

ディープラーニングによる機械学習が注目されるきっかけとなった2012年の出来事として、最も適切なものを1つ選べ。

  1. アメリカのクイズ番組Jeopardy! において、ディープラーニングによるアルゴリズムが人間の出演者に勝利した。
  2. 画像認識の精度に関する競技会のILSVRCにおいて、ディープラーニングが既存の手法を大きく上回る精度を達成した。
  3. 東京大学への入試問題において、ディープラーニングを用いた回答を行う「東口ポくん」が合格ラインを突破した。
  4. 囲碁の対戦において、ディープラーニングを用いた自己対戦により獲得されたモデルが人間の世界チャンピオンを破った。

📝 解答

2

🔍 解説

2012年に開催されたILSVRCでディープラーニングを用いた手法が圧勝し、ディープラーニングが大きな注目を集めるきっかけとなりました。

問題26

次元の呪いに関する説明として、最も不適切なものを1つ選べ。

  1. モデル作成時のデータの次元が高いと、機械学習の問題は解決が難しくなる場合が多い。
  2. 機械学習のモデルを作成する際に、想定できる最大の次元数まで増やさないと精度が出ないことが多い。
  3. データの次元数が大きくなりすぎると、汎化性能が悪くなることが多い。
  4. モデル作成時に利用するデータの次元数が増加すると、一連の変数に対して存在する構成のパターンが指数関数的に増加することが多い。

📝 解答

2

🔍 解説

精度に影響する特徴を適切な数だけ選択できれば、学習モデルは適切な精度を出すことができます。

問題27

次元の呪いについて、空欄(A) (B) に最もよく当てはまるものを1つ選べ。

次元の呪いは、特徴量が多くなりすぎると (A)の向上が困難となる現象のことをいう。それを避けるためには特徴量に見合った膨大な量のデータを用意するか、現実的には特徴量の中から必要なものを選び出す (B)や、できるだけ元の情報量を損なわないように低次元のデータに変換する次元削減といった手法が取られている。

  1. (A)汎化性能(B)特徵選択
  2. (A)汎化性能(B) モデル圧縮
  3. (A) 学習率 (B) 特徴選択
  4. (A) 学習率 (B) モデル圧縮

📝 解答

1

🔍 解説

特徴量が多くなりすぎると、データが不足している領域の予測が困難になります(汎化性能が向上しにくくなります)。そのため、次元削減という手法を使って特徴量を減らす必要があります。

問題28

特徴抽出の説明として、最も適切なものを1つ選べ。

  1. あるデータからディープラーニングによって抽出された特徴量は、分類などのタスクに有用である。
  2. ディープラーニングによる特徴抽出で得られた特徴は、サポートベクターマシン (SVM) などの他の機械学習モデルの入力としては使えない。
  3. 画像データは非常に複雑であるため、ディープラーニングによる特徴抽出は不可能である。
  4. 与えられたデータに対してニューラルネットワークなどのモデルで特徴抽出を行うと、必ずデータの次元は大きくなる。

📝 解答

1

🔍 解説

ディープラーニングによって抽出した特徴は、データの分類問題を解くときにも有用です。

← → キーで移動 / Ctrl+P でPDF保存