第7章 AIの社会実装に向けて

問題1. AIを活用するプロジェクトの進め方や体制に関する以下の文章を読み、空欄(ア)(イ)に入る語句として最も適切な組み合わせを選べ。

プロジェクトのチーム内において、( ア )は主に利用するデータの分析やAIの構築を担う。( ア )は、本格的なシステム開発の前に行う( イ )の段階からプロジェクトに携わることが多い。( イ )はプロジェクトの実現可能性を推し量るための工程であり、要求される精度をAIが達成できるかといったことを実験的に検証する。

➡ P210

解答1. A

➡ P204

AIを活用するプロジェクトの進め方や体制について問う問題です。
AIを活用するプロジェクトを推進するにあたって、データサイエンティストは必要不可欠な存在です。データサイエンティストはデータ分析やAIの専門家であり、プロジェクトの中核をなすAIの開発を担います(ア)。
AIを活用するプロジェクトでは、開発するAIの最終的な予測性能を事前に把握することは困難です。そこで、本格的な開発に着手する前に、データサイエンティストを中心にデータ分析や実験的なモデル構築などを行い、プロジェクトの実現可能性を見積るアプローチが取られることがあります。これをPoC(Proof of Concept)と呼びます(イ)。
これに対してデータエンジニアは、システムにおいてデータの管理を担います。データエンジニアは、データサイエンティストが扱うデータの抽出や整形などを担当する場合もありますが、データ分析やAIの専門家ではありません。また、IoT[解答2を参照]はあらゆるモノがインターネットに繋がり、情報をやり取りすることに関する概念です。
以上のことから、(ア)にデータサイエンティスト、(イ)にPoCが入ります(A)。

試験対策

データサイエンティストの役割を理解しましょう。また、PoCはAIを活用するプロジェクトを推進するうえで重要なプロセスです。その目的や内容を理解しておきましょう。

問題2. AIをビジネスに活用する際に考慮すべき内容として、最も不適切なものを選べ。

➡ P210

解答2. B

➡ P204

AIをビジネスに活用する際に考慮すべき内容を問う問題です。
AIを活用する際に陥りやすい状況として、AIを導入することそのものが目的化してしまうことがあげられます。AIはあくまでビジネス課題を解決するためのひとつの手段です。このような観点で、ビジネス課題の解決に焦点を当ててAIの活用を検討することが重要です(A)。
実世界におけるほとんどの課題において、予測精度が100%となるようなAIを実現することは不可能です。しかし、予測を誤ることがあるからといってAIを活用できないわけではありません。実現可能な予測精度に応じて、活用方法を検討していくことが重要になります(B)。
AIを業務プロセスに取り入れる際には、AIによって代替可能な業務を抽出し、業務プロセスそのものを設計しなおすことが有効な場合があります。このような業務プロセスの再設計をBPR(Business Process Re-engineering)と呼びます(C)。
AIを業務プロセスに取り入れる際には、業務の情報がデータとして記録されていることが重要です。しかし、コンピュータを用いない多くの業務では、このような情報は記録されません。このような場合に、IoT(Internet of Things)デバイスなどを活用できる場合があります。IoTとは、あらゆるものがインターネットに繋がり、情報のやり取りを行うという概念です。IoTデバイスを用いることで、従来はデータ化されなかったさまざまな業務プロセスをデータとして記録することができます(D)。

試験対策

AIを実際にビジネスで活用する際に考慮すべき内容を整理しておきましょう。

問題3. 以下の文章を読み、空欄(ア)(イ)に入る語句として最も適切な組み合わせを選べ。

( ア )は、データ分析を活用したプロジェクトを推進する際に使用される標準的なフレームワークである。( ア )はAI開発を伴うプロジェクトにも広く利用されてきたが、2021年にはAIの開発や運用の特性を考慮した( イ )と呼ばれるフレームワークも提案されている。

➡ P211

解答3. C

➡ P205

AIを活用したプロジェクトで利用されるフレームワークに関する知識を問う問題です。
CRISP-DM(Cross-Industry Standard Process for Data Mining)※1は、AIに限らず、データ分析を活用するプロジェクトを推進するための標準的なフレームワークです(ア)。次に示す図のように、まずビジネス課題や問題設計を詳しく理解する工程から始まり、データの理解、データの準備、モデル構築、評価、展開といった順に進みます。

【CRISP-DMのイメージ】

  1. ビジネスの理解
  2. データの理解
  3. データの準備
  4. モデル構築
  5. 評価
  6. 展開

[参考文献]
※1 Studer, Stefan, et al. “Towards CRISP-ML (Q): a machine learning process model with quality assurance methodology.” Machine learning and knowledge extraction 3.2 (2021): 392-413.

このCRISP-DMは汎用的なフレームワークであり、AIを活用したプロジェクトにも広く利用されています。一方で、運用時のモニタリングなど、AIの活用に特有な工程を加味した新たなフレームワークとして、CRISP-ML(CRoss-Industry Standard Process for Machine Learning)も提案されています(イ)。
なお、CRISP-AIという用語は一般的に使用されません。
以上のことから、(ア)にCRISP-DM、(イ)にCRISP-MLが入ります(C)。

試験対策

AIを活用したプロジェクトに用いられるフレームワークについて理解しておきましょう。

問題4. AIシステムを開発し、実運用する際には、モデルの学習以外にもデータ収集や精度のモニタリングなど、さまざまな工程を管理する必要がある。これらを統合し、AIの開発から運用までを円滑に進めることに関連する用語として、最も適切な語句を選べ。

➡ P212

解答4. D

➡ P205

MLOpsに関する問題です。
AIを活用したシステムを開発し、実運用するためには、モデルの学習以外にもさまざまな工程を管理する必要があります。たとえば、データを継続的に収集する基盤や、運用中のモデルの予測精度をモニタリングする仕組みなどが考えられます。これらのシステムの全体像において、モデルの開発や学習の工程は多くの場合でごく一部です。このようなAIを取り巻くシステム全体を統合的に運用管理する概念や方法論を、MLOpsと呼びます。MLOpsは、Machine Learning(機械学習)とOperations(運用)を組み合わせた造語です(D)。
これに対してBPR(Business Process Re-engineering)[解答2を参照]は、業務プロセスを見直して整理・再構築することを指します(A)。また、RPA(Robotic Process Automation)は、定型的な作業や業務を代行するソフトウェアや、それを実現する技術を指す概念です(B)。さらに、API(Application Programming Interface)[解答5を参照]は、システム間で情報の受け渡しを行うためのインターフェースです(C)。

試験対策

MLOpsの概要を理解しましょう。特にAIを活用するシステムの開発では、モデルの学習以外にもさまざまな開発が必要になることを覚えておきましょう。

問題5. 以下の文章を読み、空欄(ア)(イ)に入る語句として最も適切な組み合わせを選べ。

AIシステムをサービスとして提供する際には、( ア )と呼ばれるコンピュータ環境を使用することがある。( ア )を用いることで、インターネットを通じて、モデルの学習や予測に必要な計算リソースを必要な量だけ利用できる。( ア )上で動作するAIの予測結果をユーザーに提供する際には、( イ )が用いられることが多い。( イ )は、インターネットを介してシステム間でデータの受け渡しを行う代表的な仕組みである。

➡ P213

解答5. B

➡ P206

AIシステムの提供方法に関する知識を問う問題です。
AIシステムを提供する際には、AIによる予測をサービスとして提供するという形態を取ることができます。このとき、AIの予測に使用する入力データや予測結果をインターネットを介して受け渡しできると便利です。システム間でそうしたやり取りを可能にする仕組みとして、Web API(Application Programming Interface)があります(イ)。
Web APIを利用してシステムを展開するには、コンピュータ上でAIを動作させて、入力データを受け取れるようにしておく必要があります(これをデプロイと呼びます)。近年では、AIシステムをクラウド上にデプロイするケースが増えています。クラウドとは、コンピュータの計算資源(リソース)を、インターネットを介して必要な量と時間だけ利用できるコンピュータ環境です。クラウドを利用することで、AIモデルの規模などに応じて必要十分なリソースを確保でき、コストを最適化することができます(ア)。
これに対してエッジとは、AIを利用する現場に設置された機器類を指す用語です。たとえば、カメラなどのエッジデバイスにAIを組み込むことで、インターネットを介さずにその場で入力データを処理し、予測結果を出力することができます。
なお、GUI(Graphical User Interface)とは、コンピュータの操作を視覚的に行うための操作体系を指します。
以上のことから、(ア)にクラウド、(イ)にWeb APIが入ります(B)。

試験対策

インターネットを介したAIシステムの構築に関するキーワードを覚えておきましょう。

問題6. AIを活用したプロジェクトを推進する際には、マネージャー、エンジニア、データサイエンティスト、デザイナーといった人材が必要となる。それぞれの役職に関する説明として、最も不適切なものを選べ。

➡ P213

解答6. C

➡ P206

AIを活用したプロジェクトを推進する際に求められるチーム構成について問う問題です。
AIを活用したプロジェクトを推進するには、エンジニアやデータサイエンティストといった技術者だけでなく、さまざまな知識を有する専門家が必要になります。
マネージャーは、ビジネス的な観点を踏まえたプロジェクト管理や意思決定を担います(A)。また、エンジニアは、システム自体の開発や、システムへの学習済みモデルの組み込みを担います(B)。
また、顧客を含め、プロジェクトに対して利害関係を持つ人々をステークホルダーと呼びます。ステークホルダーのニーズを把握し、それらを満たすプロジェクトを立案することは重要ですが、これはデザイナーの役割ではありません。デザイナーは、システムを使う際の画面や操作方法などの設計を担います(C)。また、データサイエンティストは、データの分析やモデルの構築、分析結果の共有などを担います(D)。

試験対策

AIを活用したプロジェクトにおける適切なチーム構成や、それぞれの役割について理解しておきましょう。

問題7. 以下の文章を読み、空欄(ア)(イ)に入る語句として最も適切な組み合わせを選べ。

( ア )開発と( イ )開発は、システム開発の進め方に関する手法である。( ア )開発は、設計から実装、テスト、リリースまでの計画を事前に策定し、その計画に沿って開発を進める手法である。一方、( イ )開発は、設計からリリースまでのサイクルを小規模に繰り返しながら、開発を進める手法である。AIシステムの開発においては、事前にどの程度の精度を得られるかが明確に把握できないことが多いため、開発方針を柔軟に変更できる( イ )開発が採用される傾向にある。

➡ P214

解答7. C

➡ P207

システム開発の手法のうち、特にAI開発で採用される手法について問う問題です。
ウォーターフォール開発アジャイル開発は、システム開発の進め方によって分類される開発手法です。
ウォーターフォール開発は、設計から実装、テスト、リリースまでの計画を事前にすべて策定し、計画に沿って開発を進める手法です(ア)。これに対してアジャイル開発は、設計からリリースまでのサイクルを繰り返しながら開発を進める手法です(イ)。AIを使用するシステムでは、計画の段階で精度が保証できないことや、運用時にも精度が変動し得ることから、柔軟に方針を変更できるアジャイル開発が採用される傾向にあります。また、クラウド開発という用語は、手法名としては一般的に使用されません。
以上のことから、(ア)にはウォーターフォール、(イ)にはアジャイルが入ります(C)。

試験対策

ウォーターフォール開発とアジャイル開発の概要を押さえましょう。

問題8. 以下の記述を読み、空欄(ア)に入る最も適切な語句を選べ。

( ア )イノベーションは、技術やアイデアなどの資源を組織の外部と積極的に共有し、新たな価値を生み出すためのアプローチとして、2003年に経営学者のヘンリー・チェスブロウによって提唱された。

➡ P214

解答8. B

➡ P207

オープンイノベーションに対する理解を問う問題です。
オープンイノベーションは、技術やアイデアといった自組織の資源を外部組織と積極的に共有し、より効率的にイノベーションを生み出すためのアプローチです。AI業界を含むIT業界では、オープンソースによる共同開発を含む企業や他業種との連携、産学連携などが積極的に行われており、オープンイノベーションによるアプローチが受け入れられているといえます(B)。
一方、クローズドイノベーションは、自組織内で研究、開発から展開までをすべて完結させるアプローチであり、独自技術により競争優位性を確立しやすいというメリットがあります(A)。なお、クラウドイノベーションやシェアイノベーションという用語は、ヘンリー・チェスブロウ(Henry Chesbrough)によって定義されたものではなく、一般的な用語でもありません(C、D)。

試験対策

オープンイノベーションの概要を押さえましょう。

問題9. 機械学習モデルの開発環境に関する以下の文章を読み、空欄(ア)〜(ウ)に入る最も適切な語句の組み合わせを選べ。

( ア )は、機械学習モデルを開発する際に最もよく利用されるプログラミング言語である。ブラウザ上で( ア )のコードの編集や実行を手軽に行うことのできるツールとして( イ )がある。また、複数人での開発環境を揃えたり、開発環境と実運用環境を揃えたりするためのツールとしては、( ウ )が利用されることが多い。( ウ )では、コンテナ型仮想化と呼ばれる技術が採用されている。

➡ P215

解答9. C

➡ P208

機械学習モデルを開発するためのプログラミング言語や環境に関する知識を問う問題です。
機械学習モデルの開発やデータ分析を行う際に最もよく使用されているプログラミング言語として、Pythonがあげられます(ア)。Pythonコミュニティでは、データ分析や機械学習用のライブラリ(機能をまとめたツール)が多数公開されており、効率的にAIの開発を行うことができます。
また、Jupyter Notebookは、Pythonのコードの編集や実行をブラウザから手軽に行えるツールです。実行の結果をコードのまとまり(セル)ごとにわかりやすく管理することができ、分析や実験を効率的に行うことができます(イ)。
プログラムを実行する際の環境(コンピュータのOSやプログラミング言語のバージョンなど)が異なると、予期しない挙動を引き起こすことがあります。そのため、複数人での開発時や実運用への移行時にこのような問題が発生しないように、あらかじめ環境を揃えておく必要があります。Dockerは、コンテナ型仮想化と呼ばれる技術を利用して、OSのレベルから環境の一貫性を保つためのツールです(ウ)。
なお、Javaはプログラミング言語ですが、機械学習モデルの開発に最もよく使用されている言語ではありません。また、pyenvはPythonやそのライブラリのバージョンを保つためのツールですが、コンテナ型仮想化の技術は採用されていません。
以上のことから、(ア)にPython、(イ)にJupyter Notebook、(ウ)にDockerが入ります(C)。

試験対策

AI開発を行うためのプログラミング言語や環境に関するキーワードを覚えておきましょう。

問題10. 以下の文章を読み、空欄(ア)に入る最も適切な語句を選べ。

教師あり学習において、人がデータに正解ラベルを付与することを( ア )という。

➡ P216

解答10. A

➡ P208

アノテーションについての理解を問う問題です。
アノテーションとは、教師あり学習において、データに正解ラベルを付与する作業のことです(A)。教師あり学習では多くの学習データの正解ラベルを人間の手で付与する必要があります。たとえば、ある製品に "ヒビ" があるか否かをAIで判定したいとき、その製品の画像データを学習に使用することはできますが、通常は正解ラベル(ヒビがあるか否か)は人間が判断して付与することになります。このように、正解ラベルを整備したデータセットで学習することで、学習済みモデルは入力データのみから正解ラベルを予測できるようになります。
なお、メタデータとは、データ自体に関する情報を表したデータのことです(B)。また、アンサンブルは複数の機械学習モデルを組み合わせて予測することを指し(C)、バリデーションは検証データを使用してモデルの性能を評価することを指します(D)。

試験対策

アノテーションの役割を理解しておきましょう。特に、AIを活用して実際のビジネス課題を解決する際には、アノテーションが必要になる場合が多くあります。

問題11. 教師あり学習では、データリーケージと呼ばれる現象が発生することがある。データリーケージが発生した場合の主要な問題について、最も適切な記述を選べ。

➡ P216

解答11. D

➡ P208

教師あり学習におけるデータリーケージ (Data Leakage) に関する知識を問う問題です。
データリーケージとは、実際に予測を行うときには利用できないデータが訓練データに混入する現象です。特に、混入したデータが予測に有利な情報を含んでいた場合は、モデルの性能が不当に高く評価されてしまいます。たとえば、明日の売上を予測したい場合に、明日の店舗への来客数を特徴量に加えてしまうと、実際の予測時には明日の来客数は得られないため、データリーケージになります(D)。
以上のことから、データリーケージの発生における主要な問題は、過学習や未学習が起きやすくなることではありません(A、B)。
また、データリーケージが発生すると、特徴量と正解ラベルとの間の構造が変化するため、学習に要する時間が変動する可能性があります。ただし、これはデータリーケージの発生における主要な問題ではありません(C)。

試験対策

データリーケージの内容や、その問題点を理解しておきましょう。

参考

データリーケージは、主に特徴量などのデータ加工を誤った場合に発生しますが、訓練データや検証データ、テストデータの分割が適切でない場合にも発生することがあります。

問題12. オープンデータセットとは、インターネット上で公開されたデータセットであり、オープンデータセットは、機械学習における学習データとして利用されることがある。画像分類タスクの学習に利用できるオープンデータセットの名称として、最も適切なものを選べ。

➡ P217

解答12. B

➡ P209

代表的なオープンデータセットに関する知識を問う問題です。
オープンデータセットは、インターネット上で公開されているデータセットであり、機械学習における学習データとして利用できます。通常、学習データの収集やアノテーションには多大な時間と労力を要しますが、オープンデータセットを適切に利用することで、効率的に機械学習モデルを開発することができます。
ImageNetは、およそ1,400万枚の画像からなるオープンデータセットです。それぞれの画像に写っている物体のクラスが正解ラベルとして与えられており、画像分類タスクの学習に利用することができます(B)。
なお、WordNetやDBpediaは、自然言語処理タスクの学習に利用できるオープンデータセットで(A、C)、LibriSpeechは音声処理タスクの学習に利用できるオープンデータセットです(D)。

試験対策

代表的なオープンデータセットであるImageNetを覚えておきましょう。

問題13. 以下の文章を読み、空欄(ア)に入る最も適切な語句を選べ。

コーパスは、機械学習で使用される( ア )に関するデータセットの総称である。

➡ P217

解答13. D

➡ P209

コーパスに関する知識を問う問題です。
コーパスは、自然言語のデータを大規模に収集し、コンピュータで処理しやすいように整理されたデータセットの総称です(D)。近年では、さまざまな自然言語処理タスクのためのコーパスがオープンデータセットとして利用可能であり、ディープラーニングの研究に活用されています。コーパスの例として、2つの言語間の対訳データや、文章とそれに対する形態素の情報をまとめたデータなどがあります。

試験対策

コーパスの概要を覚えましょう。

参考

自然言語を扱うタスクでは、テキストデータだけでなく、会話などの音声データを扱う場合もあります。自然言語に関する音声のデータセットは、音声コーパスと呼ばれることがあります。

問題14. 以下の文章を読み、空欄(ア)に入る最も適切な語句を選べ。

( ア )は、データを収集する際に生じる偏りのことである。たとえば、全有権者の支持政党について分析を行いたいとする。このとき、利用者の大半が20代であるソーシャルメディア上でアンケート調査を実施し、その結果のみを使用して分析すると、回答者の年代に関する( ア )が生じる可能性がある。

➡ P218

解答14. B

➡ P209

サンプリングバイアスに関する理解を問う問題です。
機械学習でデータを収集する際には、目的とするタスクの性質を表すデータを網羅的に収集することが重要です。しかし、収集方法によってデータに偏りが生じてしまう場合があります。このような偏りをサンプリングバイアスと呼びます(B)。
たとえば、ある行動に関する年代ごとの傾向を分析したいとき、実施するアンケートを展開する方法によって、回答者の年代が偏る可能性があります。アンケート調査の例はわかりやすいですが、画像認識のようなタスクでもサンプリングバイアスが発生することがあります。たとえば、対象の物体を同じような場所で大量に撮影したとすると、画像の背景が似たようなものばかりになり、他の場所で撮影した画像を認識できなくなる可能性があります。
なお、サンプリングバリアンスやサンプリングアライアンス、サンプリングエビデンスといった用語は、いずれも一般的に使用されません(A、C、D)。

試験対策

データを収集する際に注意すべき事項を押さえましょう。

← → キーで移動 / Ctrl+P でPDF保存