第6章 ディープラーニングの応用例




問題1. 1989年に提案されたニューラルネットワークであるLeNetに採用されている層の名称として、最も不適切なものを選べ。



解答1. C

LeNetに関する知識を問う問題です。

LeNetは、1989年にヤン・ルカン (Yann LeCun) らによって提案された初期の畳み込みニューラルネットワーク (CNN) です。

LeNetは、畳み込み層とプーリング層を交互に複数回重ねたあと、全結合層を配置した構造になっています (A、B、D)。LeNetの全結合層は、多層パーセプトロンと同じ構造をもちます。この層では、抽出された特徴量をもとに、画像を分類するための処理などが行われます。

回帰結合層は、リカレントニューラルネットワーク (RNN) に用いられる再帰的な構造を持つ層であり、LeNetには用いられていません (C)。

試験対策
基本的なCNNであるLeNetの構造を覚えておきましょう。



問題2. 以下の(ア) ~ (エ) に示したGoogLeNetに関する説明のうち、適切なものの組み合わせを選べ。



解答2. A

GoogleNetに関する知識を問う問題です。

GoogLeNetは、画像認識の精度を競うコンペティションであるILSVRC [第2章 解答15を参照] 2014年に優勝したCNNで、Inceptionモジュールと呼ばれる複数の異なるカーネルサイズの畳み込み層を組み合わせた構造を採用しています。このGoogLeNetのInceptionモジュールは、プーリング層も含んでいます。

一方、GoogLeNetはスキップ結合 (Skip connection) [解答3を参照] を有するネットワークではありません。

以上のことから、(ア) (イ) が適切な組み合わせです (A)。

試験対策
GoogLeNetの特徴を覚えておきましょう。



問題3. 以下の文章を読み、空欄(ア) (イ) に入る語句として最も適切な組み合わせを選べ。

ResNet (Residual Network)は、(ア) を採用したことで勾配消失問題を解消し、非常に深いネットワーク構造の学習を可能にした。ResNetの登場以降、(イ) などのさまざまなネットワークで (ア)が取り入れられている。



解答3. B

ResNet (Residual Network) で採用されたスキップ結合に関する知識を問う問題です。

スキップ結合 (Skip connection) は、ネットワーク内の層間を飛び越えた結合を行うことで、出力層からの誤差を伝搬しやすくする手法です。ResNetは、スキップ結合を採用することで (ア)、152層などの非常に深いネットワーク構造の学習を可能にしています (イ)。

ResNetの登場以降、スキップ結合はDenseNetなどのさまざまなネットワークに導入されるようになりました。

ドロップアウトは、ResNetには採用されていません。また、AlexNetはCNNの一種ですが、スキップ結合は導入されていません。

以上のことから、(ア) にスキップ結合、(イ) にDenseNetが入ります (B)。

試験対策
スキップ結合はさまざまなネットワークに利用できる強力な手法で
す。よく理解しておきましょう。



問題4. 以下の文章を読み、空欄(ア) に入る語句として最も適切なものを選べ。

ResNet (Residual Network)では、高い精度を実現するためにネットワーク構造を深くする必要があった。ネットワーク構造を深くすると、それに応じて学習コストも大きくなる。この課題を克服するために、 (ア)が提案された。(ア)は、ResNetにおける畳み込みのチャンネル数を増やすことにより、深い構造のResNetを上回る精度をより浅いネットワーク構造によって実現した。



解答4. C

WideResNet (Wide Residual Network)※1に関する知識を問う問題です。

WideResNetはResNetを改良したCNNです。ResNetの層数を減らし、代わりに畳み込みのチャネル数を増やすことで高速かつ高精度なネットワークを実現しました (C)。

AlexNetは、2012年に開催されたILSVRC 2012で優勝したCNNであり、ResNet以前に開発されています (A)。また、DenseNetは、スキップ結合を工夫することにより、ResNetを改良したネットワークです (B)。さらに、SENet (Squeeze-and-Excitation Network) は、畳み込みが出力した特徴マップにAttention [第3章 解答16を参照] を適用することで精度を改善したCNNです (D)。

試験対策
代表的なCNNのそれぞれの特徴について確認しておきましょう。

※1 参考
[1] Sergey Zagoruyko, Nikos Komodakis, "Wide Residual Networks" arXiv preprint
arXiv:1605.07146 (2016).



問題5. 以下の文章を読み、空欄(ア) に入る語句として最も適切なものを選べ。

(ア)は、2017年にグーグルによって提案されたネットワークである。(ア)では、畳み込み層の構造を工夫することで、計算量が削減されている。



5. B

代表的なネットワークに関する知識を問う問題です。

MobileNetは、2017年にグーグルによって提案された軽量かつ高性能なCNNです。モバイル端末などで活用できるように設計されており、計算量やメモリ使用量が少ないことが特徴です (B)。

ResNet (Residual network) は、ILSVRC 2015で優勝したCNNであり、スキップ結合 (Skip connection) という構造を持っています (A)。

EfficientNetは、2019年にグーグルが発表したCNNで、ResNetやMobileNetなどのさまざまなCNNの構造を再検討し、ベンチマークにおいて従来のネットワークを大きく上回る性能を達成しました (C)。

GoogLeNetは、ILSVRC 2014で優勝したCNNであり、Inceptionモジュールが採用されています (D)。

試験対策
MobileNetの特徴を覚えましょう。また、問題文中で取り上げられているCNNはいずれも重要ですので、その特徴を覚えておきましょう。



問題6. Depthwise Separable Convolutionに関する説明として、最も不適切なものを選べ。



6. C

MobileNetに関する知識を問う問題です。

MobileNetは、Depthwise Separable Convolutionと呼ばれる畳み込み処理を採用することで、通常の畳み込みと比較して、非常に少ない計算量で出力を求めることを可能にしたネットワークです。

通常の畳み込みによる畳み込み処理では、空間方向 (画像の縦横の方向) とチャネル方向 (画像の色の重なり) の方向を同時に畳み込み、1チャネルの出力を得ます。一方、Depthwise Separable Convolutionは、それぞれを独立したフィルタで畳み込むことで、計算量を削減しています (A、D)。

空間方向の畳み込みはDepthwise Convolutionと呼ばれ、チャネルごとに畳み込みを行います。一方、チャネル方向の畳み込みはPointwise Convolutionと呼ばれ、1×1のフィルタを使用して画像のある一点のチャネル方向の畳み込みをします。

また、Depthwise Separable Convolutionは、通常の畳み込みと同様に、1つのネットワークの中に複数回配置することができます (B)。

なお、同じパラメータ数でより広い範囲を畳み込む手法は、Dilated Convolution [解答14を参照] と呼ばれます (C)。

試験対策
MobileNetについて、その構造の特徴を覚えておきましょう。



問題7. ニューラルネットワークの構造を探索すること、およびそのための技術を表す用語として、最も適切なものを選べ。



7. D

NAS (Neural Architecture Search) に関する知識を問う問題です。

NASはニューラルネットワークの構造自体が非常に深く、最適な構造を探索することが難しいといういわれています。そこで、最適な構造そのものを学習によって求める技術が研究されています。このような構造探索や、探索を行うための技術がNASと呼ばれます (D)。NASは、各種のフィルタサイズや層数、ネットワークの構造を決定するハイパーパラメータに関する学習を行い、適切なネットワークの構造を出力します。

VAE (変分オートエンコーダ) [第5章 解答21を参照] は、画像の生成などを行うことができる生成ネットワークの一種です (A)。

RandAugmentは、学習時に適用するデータ拡張手法を決定する問題のひとつです (B)。

LSTM (Long Short-Term Memory) [第5章 解答12を参照] はゲート機構を採用したRNNの一種です (C)。

試験対策
NASの概要について理解しておきましょう。



問題8. 以下の文章を読み、空欄(ア) に入る語句として最も適切なものを選べ。

NAS (Neural Architecture Search)の技術を利用した構造探索によって得られたネットワークとして、NASNetや (ア)があげられる。 (ア)の特徴として、計算量を少なく抑えられるように工夫して探索を行ったことがあげられる。



8. A

NAS (Neural Architecture Search) の技術を用いたネットワークに関す
る知識を問う問題です。

NASの技術を利用して構造探索を行ったネットワークとして、NASNetMnasNetがあります。MnasNetは、計算量と精度を抑えるように工夫して構造探索を行ったことで得られたネットワークで、高精度でありながら軽量という特徴があります (A)。

SENet (Squeeze-and-Excitation Network) [解答4を参照]、ResNet [解答3を参照] は、いずれも計算量を抑えるように工夫して構造探索を行った結果得られたネットワークではありません (B、C、D)。

試験対策
NASによって、最適なネットワーク構造が探索できることを覚えておきましょう。



問題9. 画像内に存在する物体の位置を特定し、その物体を識別するタスクとして最も適切なものを選べ。



9. B

物体検出に関する知識を問う問題です。

物体検出は、画像内に存在する物体の位置を特定し、その物体のクラスを識別するタスクです (B)。物体の位置はバウンディングボックスと呼ばれる矩形で表現されます。

これに対して物体識別は、物体のクラスを識別するタスクです。物体認識や画像認識と呼ぶ場合もあります (A)。

また、物体追跡 (追尾) は物体検出画像認識物体追跡に分類されます。

特定物体追跡は、画像内に写っている物体と全く同じ物体が写っているか否かを判別するタスクです。これに対し一般物体認識は、椅子や猫といった一般的な物体のカテゴリを判別するタスクです (C、D)。

試験対策
画像処理におけるタスクの種別について整理しておきましょう。



問題10. セマンティックセグメンテーションは、画像中のすべての画素に対して、 そのクラスを識別するタスクである。インスタンスセグメンテーションは、画像中のすべての物体に対して、そのクラスを識別し、物体ごとにIDを付与するタスクである。パノプティックセグメンテーションは、 画像中のすべての画素に対して、そのクラスを識別し、物体ごとにID を付与するタスクである。これらのタスクに関する説明として、最も不適切なものを選べ。



10. C

セグメンテーションの分類に関する知識を問う問題です。

セグメンテーションは、画像を画素の単位で識別するタスクの総称です。画素ごとに識別を行うことで、物体の境界を細かく抽出することができます。主なセグメンテーションタスクとして、セマンティックセグメンテーション (Semantic Segmentation)、インスタンスセグメンテーション(Instance Segmentation)、パノプティックセグメンテーション (Panoptic Segmentation) の3つがあげられます。

セマンティックセグメンテーションは、画像中のすべての画素のクラスを識別するタスクです。画像の背景を構成する画素やすべての画素が識別の対象になります (A)。セマンティックセグメンテーションでは、同じクラスに属する個別の物体は区別されず、自動車Aと自動車Bは同じ「自動車」というまとまりとして扱われます (C)。

インスタンスセグメンテーションは、画像中のすべての物体の識別と、それぞれの物体を構成する画素のクラス識別の両方を行うタスクです。セマンティックセグメンテーションとは異なり、背景を構成する画素は識別の対象になりません。インスタンスセグメンテーションでは、同一のクラスに属する個別の物体 (たとえば自動車Aと自動車B) は、個別のIDによって区別されます (D)。

パノプティックセグメンテーションは、セマンティックセグメンテーションとインスタンスセグメンテーションを組み合わせたタスクです。背景を含めた画像中のすべての画素が識別の対象となり、同一のクラスに属する個別の物体は区別されます (B)。

各タスクによる識別結果は次の画像のようになります。

【識別結果の例】

【出典】CVPR paper (Open access version), The Computer Vision Foundation. ※5

試験対策
セグメンテーションタスクの概要とその分類について整理しておきましょう。



問題11. 物体検出を行う手法として、画像中の物体の位置の特定を行ったあと、 その物体のクラスを識別するアプローチと、物体位置の特定およびクラス識別を同時に行うアプローチがある。前者のアプローチによって物体検出を行うネットワークとして、最も不適切なものを選べ。



11. D

物体検出を行う代表的なネットワークに関する知識を問う問題です。

物体検出を行うネットワークには、画像中の物体位置を特定したあとにその物体クラスを識別する2段階モデルと、物体位置の特定とクラス識別を同時に行う1段階モデルがあります。

代表的な2段階モデルとして、FPN (Feature Pyramid Network) ※6、
R-CNN (Regions with CNN features) およびその派生ネットワーク (Fast
R-CNN
※7、Faster R-CNN※8) があげられます (A、B、C)。

R-CNNは、Selective Searchと呼ばれる手法を使用して物体位置の候補領域を複数抽出し、それらを通常のCNNで識別したあと、最後にサポートベクターマシン (SVM: Support Vector Machine) [第3章 解答7を参照] を使用してクラス分類を行います。

Fast R-CNNは、画像全体を利用した学習とGPUを使用して物体位置の候補領域を予め絞りこむことで、R-CNNを高速化したネットワークです。また、Faster R-CNNは、物体位置の候補を出力するSelective SearchをCNNに置き換えることで、さらなる高速化を実現したネットワークです。

一方、1段階モデルの代表例として、YOLO (You Only Look Once) [解答12を参照] やSSD (Single Shot MultiBox Detector) ※10などがあげられます (D)。

これらのネットワークは、入力画像の各位置における物体候補から、一度に候補領域を出力できます。SSDは、解像度の異なる複数の畳み込み層から出力を行うことで、さまざまな大きさの物体を検出できるネットワークです。

試験対策
物体検出タスクにおける代表的なネットワークを覚えておきましょう。



問題12. 2016年に発表されたYOLO (You Only Look Once) に関する説明として、最も適切なものを選べ。



12. C

YOLO (You Only Look Once) ※11に関する知識を問う問題です。

YOLOは、画像中の物体位置の特定とクラス識別を同時に行うことができる1段階モデルです。入力画像の各位置における物体候補からとしと矩形領域を同時に出力できます (C)。

Selective Search [解答11を参照] は、R-CNNなどに使用される物体位置の候補を出力するアルゴリズムで、YOLOには使用されていません (A)。

U-Net [解答13を参照] は、セマンティックセグメンテーションに使用されるネットワークです。エンコーダとデコーダを備え、デコーダ側でエンコーダの特徴マップに直結した結合を行います。このU-Netは、YOLOの構造をもとにしたネットワークではありません (D)。

また、サイズの異なる特徴マップを出力層に接続するネットワークとして、SSD [解答11を参照] があげられますが、YOLOにはそのような構造は採用されていません (D)。

試験対策
YOLOやSSDの特徴を覚えておきましょう。



問題13. セマンティックセグメンテーションに用いられ、エンコーダ・デコーダ構造を持つネットワークの名称として、最も不適切なものを選べ。



13. B

セマンティックセグメンテーションに用いられる代表的なネットワークの概要について問う問題です。

セマンティックセグメンテーションは、画像の画素単位でクラス分類を行うタスクです。

セマンティックセグメンテーションでは、特徴マップを徐々に小さくして特徴を抽出するエンコーダと、特徴マップを拡大して出力を行うデコーダを組み合わせた構造のネットワークが使用されることがあります。こうした構造を持つネットワークの代表例として、SegNetU-NetPSPNet (Pyramid Scene Parsing Network) があります (A)。

SegNet※12は、エンコーダ・デコーダ構造を採用しており、エンコーダ側のプーリングで得られた位置情報をデコーダ側の処理に反映する仕組みを導入しています (A)。

FCN (Fully Convolutional Network) ※13は、畳み込み層とプーリング層のみで構成され、全結合層もないネットワークです。セマンティックセグメンテーションに使用されますが、エンコーダ・デコーダ構造は備えていません (B)。

U-Net [解答13を参照] は、Dilated Convolutionが取り入れられたニューラルネットワークではありません (A)。なお、U-Netはセマンティックセグメンテーションに用いられます。

Mask R-CNN※15は、Dilated Convolutionが取り入れられたネットワークではありません (C)。なお、Mask R-CNNは、インスタンスセグメンテーション (物体検出とセグメンテーションの両方を行うタスク) を行うネットワークです。

YOLOは、Dilated Convolutionが取り入れられたネットワークではありません (D)。なお、YOLOは、物体検出タスクに用いられます。

PSPNet※16は、エンコーダ・デコーダ構造の間にPyramid Pooling Moduleという複数の解像度で特徴を捉える構造を附加したネットワークです (D)。

試験対策
セマンティックセグメンテーションに使用される代表的なネット
ワークの名称とその構造の概要を覚えておきましょう。



問題14. Dilated Convolution (Atrous Convolution) が用いられたニューラルネットワークとして最も適切なものを選べ。



14. B

Dilated Convolution (Atrous Convolution) に関する知識を問う問題です。

Dilated Convolutionは、計算量を増やすことなく、より広い範囲の情報を集約する畳み込み処理の手法です。フィルタを適用する際に、フィルタの各要素間に間隔を設けることによって、同じ演算量でより広い領域を畳み込むことができます。

Dilated Convolutionを採用しているネットワークとして、DeepLab※17があげられます。DeepLabはセマンティックセグメンテーションに使用されるネットワークです (B)。

Dilated Convolutionが使用されている代表的なネットワークと、Atrous onvolutionでどういう処理を指すのか、どちらで問われても答えられるようにしておきましょう。



問題15. 以下の文章を読み、空欄(ア) に入る語句として最も適切なものを選べ。

(ア)は、2019年に発表されたソフトウェアであり、姿勢推定をリアルタイムで行うことができる。



15. D

姿勢推定タスクを扱うOpenPose※18に関する知識を問う問題です。

姿勢推定は、画像・動画内の人物の手足などの位置を推定するタスクです。姿勢推定をリアルタイムで行うことができるソフトウェアとして、OpenPoseがあげられます。OpenPoseは、複数人いる場合も個人の姿勢推定を同時に行うことができます (D)。

ChasePoseTrackPoseClosePoseは、姿勢推定を行うソフトウェアとして一般的ではありません (A、B、C)。

試験対策
画像や映像を扱うタスクにはさまざまな種類があります。代表的な
タスクやそれを解くネットワーク、ソフトウェアについて整理して
おきましょう。



問題16. 以下の記述を読み、空欄(ア) に入る語句として最も適切なものを選べ。

近年、農業分野では、作物や土壌の状態監視のためのリモートセンシングの活用が進んでいる。たとえば、複数の異なる波長域の光に関する情報が別個に記録された(ア)は、植物の生育状況を把握するために使用される。



16. B

マルチスペクトル画像の応用例について問う問題です。

マルチスペクトル画像は、複数の異なる波長の光(電磁波)の情報がそれぞれに記録された画像です。このような画像は、農業分野における農作物の生育状況の測定など、さまざまな用途に活用されます (B)。

紫外線画像と可視画像は、それぞれ紫外線あるいは可視光域の光(電磁波)の情報が記録された画像であり、いずれも複数の波長域の情報が記録された画像ではありません (A、C)。

また、OCR (Optical Character Recognition) は、手書き文字や印刷された文字を自動で読み取り、コンピュータが処理可能なテキストデータに変換する技術の総称です (D)。

試験対策
画像処理が実世界でどのように活用されているか、事例を覚えておきましょう。



問題17. 以下の(ア) ~ (エ)のうち、画像分類タスクに用いられるネットワークとして適切なものの組み合わせを選べ。



17. B

Transformer [第5章 解答16を参照] の画像認識への応用について問う問題です。

自然言語処理に用いられるTransformerの仕組みは非常に強力であり、この技術を画像認識分野に応用したネットワークがいくつか提案されています。たとえば、画像分類を行える代表的なネットワークとして、Vision Transformer (ViT) ※19やSwin Transformer※20があげられます (イ、ウ)。

BERT (Bidirectional Encoder Representations from Transformers) ※21 [解答22を参照] は、Transformerのエンコーダの構造を取り入れた事前学習モデルであり、自然言語処理に利用されます (ア)。

また、GPT-2 (Generative Pre-Training 2) [解答27を参照] は、Transformerのデコーダの構造を取り入れた事前学習モデルで、自然言語処理に利用されます (エ)。

以上のことから、(イ) (ウ) が適切な組み合わせです (B)。

【参考文献】
※19 Alexey, et al. "An image is worth 16x16 words: Transformers for image recognition at scale." arXiv preprint arXiv:2010.11929 (2020).
※20 Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, Baining Guo. "Swin Transformer: Hierarchical Vision Transformer using Shifted Windows." Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2021, pp. 10012-10022.
※21 Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding." arXiv preprint arXiv:1810.04805 (2018).



問題18. 文書をベクトルで表現する手法に関する以下の文章を読み、空欄 (ア) に入る語句として最も適切なものを選べ。

(ア) は、文章内の各単語の出現回数にもとづいてその文章をベクトル化する手法である。



18. D

テキストデータの処理方法に関する知識を問う問題です。

機械学習で自然言語処理を扱う場合、単語や文章を何らかの方法によってベクトルに変換するのが一般的なアプローチです。

n-gramは、隣り合うn個の単語や文字をひとまとまりとして扱う概念です (A)。n=1の場合はuni-gram (ユニグラム)、n=2の場合はbi-gram (バイグラム) と呼びます。たとえば、“This is a pen” という文章は “This is” “is a” “a pen” をbi-gramとして含みます。

One-hot Encodingは、カテゴリカルな変数の連番を付与し、カテゴリの個数に対応する要素数のベクトルで、他の要素が0となるようなベクトルでカテゴリを表現する手法です。このベクトルをワンホットベクトル (One-hot Vector) と呼びます。カテゴリを数値とみなせることで、テキストデータにも適用できます。ただし、この手法は単語をベクトルに変換する手法であり、文章内の情報は利用しません (B)。

word2vec [解答20を参照] は、単語のベクトル表現を学習する手法です (C)。Bag-of-Words (BoW) は、文章内の各単語の出現回数をもとに、文章をベクトルで表現する手法です (D)。BoWでは、単語の順番が無視され単語の出現回数によるベクトルを作成します。なお、単語をn-gramに置き換えることも可能で、この場合はBag-of-n-gramsと呼ばれます。

試験対策
テキストデータを扱う代表的な手法を覚えておきましょう。



問題19. TF-IDF (Term Frequency-Inverse Document Frequency) に関する説明として、最も適切なものを選べ。



19. A

TF-IDF (Term Frequency-Inverse Document Frequency) に関する知識を問う問題です。

TF-IDFは、文章をベクトルで表現する手法のひとつです。BoW (Bag-of-Words) [解答18を参照] は文章内の単語の出現に着目してベクトル化を行いますが、TF-IDFではデータセット全体の単語の出現回数も考慮します。データセット全体であまり出現しないものの、特定のテキストで多く出現するような単語に対して大きな重みを与えることで、単語の重要度を加味したベクトル表現を得ることができます (A)。

文章を個別の単語(単語に分割する手法は、形態素解析と呼ばれます (B))または、文章を複数のトピックに分類する手法は、トピックモデルに関連します。トピックモデルはクラスタリングの手法のひとつであり、1つのデータを複数のクラスタに割り当てる手法です。代表的な手法として潜在的ディリクレ配分法 (LDA: Latent Dirichlet Allocation) があげられ、文章の分類などに利用されます (C)。

さらに、TF-IDFなどを使用してベクトル化した文章に対し、コサイン類似度 [第5章 解答9を参照] などを使用することで文章間の類似度を求めることができます。ただし、TF-IDF自体は文章間の類似度を求める手法ではありません (D)。

試験対策
テキストデータを処理するさまざまな手法について整理しておきましょう。前問として記載された選択肢も重要です。



問題20. 文書が複数の潜在的なトピックから確率的に生成されると仮定したモデルをトピックモデルという。トピックモデルの一手法として最も適切なものを選べ。



20. C

トピックモデルの具体的な手法に関する知識を問う問題です。

文章が複数の潜在的なトピックから自動的に生成されると仮定したモデルをトピックモデルといいます。トピックモデルの代表的な手法として、LDA (潜在的ディリクレ配分法) があげられます (C)。LDAは、文章の分類などに利用されます。

word2vecは、単語の分散表現を獲得できるツールです (A)。単語の分散表現とは、単語の意味に基づき、単語をベクトルで表現することです。

fastText※22は、単語の分散表現の獲得と、文章の分類を行えるツールです (B)。fastTextの分散表現学習では、word2vecのskip-gramを背景に、単語の部分文字列(たとえば、“kindness” なら “kind” や “ness”)も考慮します。

ELMo (Embeddings from Language Models) は、文章全体の文脈を考慮した単語の分散表現を獲得できるネットワークです (D) [解答23を参照]。

【参考文献】
※22 Mikolov, Tomas, et al. "Efficient estimation of word representations in vector space." arXiv preprint arXiv:1301.3781 (2013).
※23 Bojanowski, Piotr, et al. "Enriching word vectors with subword information." Transactions of the association for computational linguistics 5 (2017): 135-146.



問題21. word2vecに関する以下の文章を読み、空欄 (ア) (イ) に入る語句として最も適切な組み合わせを選べ。

word2vecには、単語の分散表現を得るためのネットワークとして (ア) と (イ) が実装されている。(ア) は文章中のある単語に対してその周辺の単語を予測するネットワークであり、(イ) は文章中の周囲の単語から対象の単語を予測するネットワークである。



21. C

word2vecにおける具体的なネットワークであるskip-gramCBOW (Continuous Bag-of-Words) について問う問題です。

word2vecは単語のベクトル表現 (分散表現) を得る手法です。具体的なネットワーク構成として、skip-gramとCBOWが提案されています。

skip-gramは、ある単語が与えられたときに、その周辺にどのような単語が出現するかを予測します (ア)。また、CBOWは、ある単語の前後n単語 (文脈) から目的の単語を予測することを学習します (イ)。

これに対して、n-gram [解答18を参照] は隣り合うn個の単語や文字をひとまとまりとして扱う概念で、BoW [解答18を参照] は、文章内の各単語の出現回数をもとに文章をベクトルで表現する手法です。

以上のことから、(ア) にskip-gram、(イ) にCBOWが入ります (C)。

試験対策
word2vecの仕組みを理解しておきましょう。



問題22. 以下の文章を読み、空欄 (ア) (イ) に入る語句として最も適切な組み合わせを選べ。

BERT (Bidirectional Encoder Representations from Transformers) は、自然言語処理のためのネットワークであり、(ア) と (イ) という自己教師あり学習のタスクによって事前学習を行う。(ア) は、文章中の一部の単語を隠し、その単語が何かを予測するタスクである。(イ) は、2つの入力文が連続する文かどうかを判別するタスクである。



22. A

BERT (Bidirectional Encoder Representations from Transformers) の事前学習に関する知識を問う問題です。

BERTは、Transformer [第5章 解答16を参照] のエンコーダの構造をもとにした自然言語処理のネットワークで、その特徴は、転移学習が可能なことにあります。

従来のword2vecなどの手法は、タスクに応じた教師ありした分散表現を入力とする新たなネットワークを構築する必要がありました。BERTでは事前学習済みモデルを利用してそのまま新たなタスクの学習を行うことができます。

BERTは、自己教師あり学習の枠組みで事前学習を行います。自己教師あり学習とは、教師データが付与されていないデータに対して、入力データに関連する何らかの教師情報を機械的に付与して行う学習を指します。BERTにおける事前学習では、MLM (Masked Language Model) と NSP (Next Sentence Prediction) と呼ばれるタスクが用いられます。MLMは入力した文章の一部を隠し、その単語を周りの文脈から当てるタスクです(ア)。また、NSPが入力された2つの文について、文同士が連続しているかどうかを判別するタスクです(イ)。

これに対して、MLP (Multi-Layer Perceptron) [第4章 解答5を参照] のことです。また、NLP (Natural Language Processing) は自然言語処理のことです。

以上のことから、(ア) にMLM、(イ) にNSPが入ります (A)。

試験対策
BERTにおける事前学習の特徴を覚えておきましょう。

試験対策
自己教師あり学習は、広義には教師なし学習に含まれます。MLMやNSPは自己教師あり学習に分類することができますが、BERTが提案された論文では、これらを教師なし学習としています。



問題23. Googleが2022年に発表した大規模言語モデルとして、最も適切なものを選べ。



23. A

代表的な大規模言語モデル (LLM: Large Language Models) について問う問題です。

近年では、膨大な量の学習データを使用して大規模な自然言語処理モデルを事前学習する研究が活発に行われています。このようなモデルは、大規模言語モデルと呼ばれることがあります。

PaLM (Pathways Language Model) ※24は、2022年にグーグルが発表した大規模言語モデルです (A)。PaLMでは約5,400億個ものパラメータが使用されています。

GRU (Gated Recurrent Unit) [第5章 解答12を参照] は、2014年に発表されたゲート機構を有するRNNであり、大規模言語モデルには該当しません (B)。また、ELMo (Embeddings from Language Models) ※25は、2018年に発表された単語の分散表現を得るためのネットワークであり、大規模言語モデルには該当しません (C)。さらに、GPT-3 (Generative Pre-training 3) [解答参照] は、2020年に人工知能研究機関のOpenAIが発表した大規模言語モデルです (D)。

【参考文献】
※24 Chowdhery, Aakanksha, et al. "PaLM: Scaling language modeling with pathways." arXiv preprint arXiv:2204.02311 (2022).
※25 Matthew E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, Luke Zettlemoyer. "Deep contextualized word representations." arXiv preprint arXiv:1802.05365 (2018).

試験対策
大規模言語モデルの代表例を覚えておきましょう。

参考
大規模言語モデル (LLM) という用語の定義は厳密ではありません。事前学習によってさまざまな自然言語処理タスクを解くことができるモデルをPLM (Pre-trained Language Models) と呼び、そのなかで特にパラメータ数の規模が大きいモデルをLLMと呼ぶことが多いようです。GPT※26はGPT-2やGPT-3※27などが複数のモデルが順次発表されています。GPT-2まではPLM、GPT-3からはLLMに分類されるという見方が一般的です。
なお、GPTはGenerative Pre-trained Transformerの略とされる場合もありますが、GPTの提案論文ではGenerative Pre-Trainingと記載されていますので、本書ではこちらを正式名称として採用しています。



問題24. GLUE (General Language Understanding Evaluation) に関する説明として、最も適切なものを選べ。



24. B

GLUE (General Language Understanding Evaluation) に関する知識を問う問題です。

GLUEは、複数の自然言語処理タスクにおける機械学習モデルの精度評価を行うためのデータセットです。さまざまな自然言語処理の研究でベンチマークとして利用されています (B)。

なお、リカレントなゲート機構を有するRNNとして、GRU [第5章 解答12を参照] があげられます (A)。また、文章中の単語の出現頻度をもとに文章をベクトル化する手法として、BoW [解答18を参照] があげられます。さらに、GLUEは単語の分散表現を得るためのネットワークではありません (C)。

試験対策
GLUEの概要を覚えましょう。GLUEは、特にRNNの一種であるGRUと混同しやすいため注意しましょう。

【参考文献】
※26 Radford, Alec, et al. "Improving language understanding by generative pre-training." (2018).
※27 Radford, Alec, et al. "Language models are unsupervised multitask learners." OpenAI blog 1.8 (2019): 9.
※28 Brown, Tom, et al. "Language models are few-shot learners." Advances in neural information processing systems 33 (2020): 1877-1901.



問題25. 音声処理に関する以下の文章を読み、空欄 (ア) (イ) に入る語句として最も適切な組み合わせを選べ。

音声データをコンピュータで扱うには、(ア) によってデジタル化を行う必要がある。(ア) を行う具体的な手法として、(イ) があげられる。



25. B

音声データの処理方法の概要について問う問題です。

音声は、時間の経過に従って連続的に変化するアナログデータです。アナログデータをコンピュータで扱うためには、何らかの方法を用いてデジタル化する必要があります。このような処理をA-D変換 (Analog to Digital Conversion) と呼びます (ア)。

音声データをA-D変換によってデジタル化する具体的な手法として、パルス符号変調 (PCM: Pulse Code Modulation) があげられます (イ)。パルス符号変調は、標本化、量子化、符号化の3つのステップからなる手法です。また、高速フーリエ変換 (FFT: Fast Fourier Transform) は、音声データの周波数の強さ(振幅)を分析するアルゴリズムです。なお、信号化という言葉は、符号化の訳語を指します。

以上のことから、(ア) にA-D変換、(イ) にパルス符号変調が入ります (B)。

試験対策
音声データを処理するさまざまな手法について、概要を整理しておきましょう。



問題26. 音声認識に関する以下の記述を読み、空欄 (ア) ~ (ウ) に入る語句として最も適切な組み合わせを選べ。

言語によらず、人類が発声する区別可能な音を (ア) と呼ぶ。一方、言語ごとに区別される音の最小単位を (イ) と呼ぶ。(イ) ごとに学習を行い、音声認識を行うことができる手法として、(ウ) があげられる。



26. A

音声認識に関する基礎的な知識を問う問題です。

音声認識とは、与えられた音声データまたは時間窓から、適切な単語列を出力するタスクです。

音声認識では、音声データを表す単位として音韻と音素という概念を用います。音韻は、人間が発音する最小の単位を音韻といいます (ア)。一方、音素は、人間が区別できる最小の単位を音素といいます (イ)。

音声認識を行う代表的な手法として、隠れマルコフモデルがあげられます (ウ)。隠れマルコフモデルは、音素ごとに学習を行います。また、k-means [第3章 解答13を参照] は、階層なしクラスタリングを行う教師なし学習アルゴリズムです。

以上のことから、(ア) に音韻、(イ) に音素、(ウ) に隠れマルコフモデルが入ります (A)。

試験対策
音声認識に用いられる概念と代表的な手法について覚えておきましょう。



問題27. 音声データの周波数スペクトルにおけるスペクトル包絡のピークを示す用語として、最も適切なものを選べ。



27. D

人間が感じる音色の高さを扱う研究分野のキーワードを問う問題です。

音声データの周波数ごとの強さを表現したものを周波数スペクトルと呼びます。また、周波数スペクトルにおける音の高さの変化の様子をスペクトル包絡と呼びます。このスペクトル包絡は、音色を表していると解釈することができます。

スペクトル包絡は、メル周波数ケプストラム係数 (MFCC: Mel-Frequency Cepstrum Coefficients) によって得ることができます (A)。さらに、スペクトル包絡のピークをフォルマントと呼び、フォルマントに対応する周波数をフォルマント周波数と呼びます (D)。

これらに対してメル尺度は、人間が感じる音の高さの差を表現する尺度です (B)。また、FFT (Fast Fourier Transform: 高速フーリエ変換) は、音声データの周波数ごとの強さを分析するアルゴリズムです (C)。

試験対策
音声データを分析する際に登場するさまざまなキーワードを覚えておきましょう。



問題28. ニューラルネットワークを利用することで、さまざまな音声系タスクを解くことができる。それらのタスクに関する以下の文章を読み、空欄 (ア) (イ) に入る語句として最も適切な組み合わせを選べ。

音声認識タスクは、入力する音声データの長さと出力する音素の数が異なる場合が多く、通常のリカレントニューラルネットワーク (RNN) では扱うことが難しかった。(ア) は、文字列の利用や同じ音素の集約といった工夫によって、RNNで音声認識タスクを扱いやすくなるようにした手法である。音声認識タスクに利用される具体的なネットワークとして、Whisperなどがあげられる。一方、(イ) タスクに利用できるネットワークとしては、WaveNetなどがあげられる。



28. B

音声データを扱うタスクやニューラルネットワークに関する知識を問う問題です。

音声認識タスクは、入力する音声データの長さと出力する音素の数が異なる場合が多いため、従来のRNNでは扱うことが困難でした。CTC (Connectionist Temporal Classification) は、文字の利用や同時に複数の音素といった工夫によってそのような問題を解決し、RNNで音声認識タスクを扱いやすくした手法です (ア)。

音声データを扱うタスクには、音声認識以外にも音声生成、感情分析、話者識別などがさまざまな種類があります。このうち、音声生成タスクに用いられる代表的なニューラルネットワークとして、WaveNet※29などがあげられます (イ)。

また、感情分析や話者識別といったタスクは分類タスクとみなすことができ、ニューラルネットワークを含めたさまざまな機械学習モデルで扱うことができます。ただし、WaveNetは音声生成を行うネットワークであり、これらのタスクに直接使用されることはありません。なお、Seq2Seq [第5章 解答16を参照] は、エンコーダとデコーダの2つのRNNを組み合わせることで、入力と出力の長さが違うタスクを扱うネットワークです。文字列の利用や音素の集約といった工夫はされていません。

以上のことから、(ア) にCTC、(イ) に音声生成が入ります (B)。

試験対策
音声データを扱うさまざまなタスクや関連する手法、ネットワークを覚えておきましょう。

豆知識
WaveNetは、音声生成を指して音声合成と呼ぶ可能性がありますので、注意しましょう。また、WaveNetは音声生成や音楽生成のために設計されたネットワークですが、音声認識にも用いることができます。

【参考文献】
※29 Oord, Aäron van den, et al. "WaveNet: A generative model for raw audio." arXiv preprint arXiv:1609.03499 (2016).



問題29. DQN (Deep Q-Network) は、深層強化学習に使用される手法である。DQNを取り入れた深層強化学習手法として、最も不適切なものを選べ。



29. B

深層強化学習に使用される手法であるDQN (Deep Q-Network) とその派生手法に関する知識を問う問題です。

本節強化学習は、強化学習とディープラーニングを組み合わせた学習手法です。また、DQNはQ学習 [第3章 解答19を参照] とディープラーニングを組み合わせた手法です。

DQNは、CNNなどのニューラルネットワークを用いて状態を処理することができ、状態が画像で与えられるデジタルゲームやロボット制御のようなタスクに有効です。DQNを取り入れた派生手法も数多く提案されており、代表的な手法としてデュアルDQN (Double Deep Q-Network) ※30、ノイジーネットワーク (Noisy Network) ※31、デュエリングネットワーク (Dueling Network) ※32などがあげられます (C、D)。さらに、これらをさまざまな手法を組み合わせたRainbow※33という手法も提案されています (A)。

なお、SARSAは行動価値関数を最適化する強化学習手法ですが、DQNの考え方は採用されていません (B)。

【参考文献】
※30 Van Hasselt, Hado, Arthur Guez, and David Silver. "Deep reinforcement learning with double q-learning." Proceedings of the AAAI conference on artificial intelligence. Vol. 30. No. 1. 2016.
※31 Fortunato, Meire, et al. "Noisy networks for exploration." arXiv preprint arXiv:1706.10295 (2017).
※32 Wang, Ziyu, et al. "Dueling network architectures for deep reinforcement learning." International conference on machine learning. PMLR, 2016.
※33 Hessel, Matteo, et al. "Rainbow: Combining improvements in deep reinforcement learning." Proceedings of the AAAI conference on artificial intelligence. Vol. 32. No. 1. 2018.



問題30. 以下の文章を読み、空欄 (ア) (イ) に入る語句として最も適切な組み合わせを選べ。

深層強化学習は、さまざまなゲームAIの研究に活用されている。深層強化学習を利用したゲームAIとして、(ア) と (イ) があげられる。(ア) は囲碁をプレイできるゲームAIであり、2016年に当時の世界トップレベルの棋士に勝利した。また (イ) は、スタークラフト2という対戦型ゲームをプレイできるゲームAIであり、ゲーム内でグランドマスターの称号を持つトップレベルのプレイヤーに勝利した。



30. A

深層強化学習を用いたゲームAIに関する知識を問う問題です。

AlphaGo (アルファ碁) は、囲碁をプレイできるゲームAIです。モンテカルロ木探索と深層強化学習を組み合わせた手法を採用しており、2016年に当時の世界的な棋士であったイ・セドル九段に勝利しました (ア)。

AlphaStar (アルファスター) ※34は、RTS (Real-Time Strategy) と呼ばれるコンピュータゲームのジャンルに属する対戦型ゲームであるスタークラフト2をプレイできるゲームAIです (イ)。ResNet [第5章 解答9を参照] やLSTM [第5章 解答12を参照] などのさまざまなニューラルネットワークと強化学習手法を組み合わせており、ゲーム内でグランドマスターと呼ばれるトップレベルのプレイヤーに勝利しました。

また、OpenAI Five※35 [解答32を参照] は、多人数対戦型ゲームであるDota2をプレイできるゲームAIで、2018年に当時の世界トップレベルのプレイヤーで構成されたチームに勝利しました。

以上のことから、(ア) にAlphaGo、(イ) にAlphaStar が入ります (A)。

試験対策
深層強化学習を利用した代表的なゲームAIを覚えておきましょう。



問題31. 強化学習の性能評価のベンチマークであるAtari2600のゲームをプレイできるゲームAIとして、適切なものの組み合わせを選べ。



31. C

強化学習における代表的なゲームAIが行うタスクについて問う問題です。

Atari2600は実在するゲーム機です。このゲーム機でプレイできるゲームのうち、57種類のゲームが、強化学習の性能評価のベンチマークとして広く使用されています。DQN [解答29を参照] やその派生手法では、Atari2600を使用して性能評価を行う場合が多くあります。Ape-X※36は、デュエリングネットワーク [解答29を参照] やダブルDQN [解答29を参照] などを組み合わせたDQNベースの手法であり、ゲームAIとしてAtari2600ゲームをプレイすることができます (ア)。

Agent57※37はDQNベースの手法であり、Atari2600の57種類のゲームすべてで人間のスコアを超える性能を達成しています (イ)。

AlphaGoは囲碁をプレイするゲームAIであり、Atari2600のゲームはプレイできません (D)。

Rainbow [解答29を参照] はDQNを応用してさまざまな手法を組み合わせたゲームAIで、Atari2600のゲームをプレイすることができます (エ)。

以上のことから、(ア) (イ) (エ) が適切な組み合わせです (C)。

試験対策
深層強化学習における代表的なゲームAIができることを整理しておきましょう。

【参考文献】
※34 Vinyals, Oriol, et al. "Grandmaster level in StarCraft II using multi-agent reinforcement learning." Nature 575.7782 (2019): 350-354.
※35 Berner, Christopher, et al. "Dota 2 with large scale deep reinforcement learning." arXiv preprint arXiv:1912.06680 (2019).



問題32. オープンAI社によって2018年に発表されたOpenAI Fiveに関する説明として、最も適切なものを選べ。



32. C

OpenAI Fiveに関する知識を問う問題です。

OpenAI Fiveは、多人数対戦型ゲームのDota2で、2018年に当時の世界トップレベルのプレイヤーで構成されたチームに勝利したゲームAIです。

多人数でゲームをプレイするゲームなどのタスクでは、味方や敵との協調的な関係や敵対的な関係を考慮する必要があります。このようなタスクを学習する際には、複数のエージェントによるマルチエージェント強化学習を用います。OpenAI Fiveは、マルチエージェント強化学習の手法を用いたゲームAIです (D)。

また、OpenAI Fiveは系列情報を処理するためにLSTM [第5章 解答12を参照] を使用しています (A)。さらに、PPO (Proximal Policy Optimization) と呼ばれる強化学習のアルゴリズムを使用して、大規模な計算資源で5つのエージェントを学習します (B)。

なお、OpenAI FiveはAtari2600をプレイするゲームAIではありません (C)。Atari2600ベンチマークで人間を超える性能を達成したゲームAIとしては、Agent57 [解答31を参照] が知られています。

【参考文献】
※36 Horgan, Dan, et al. "Distributed prioritized experience replay." arXiv preprint arXiv:1803.00933 (2018).
※37 Badia, Adrià Puigdomènech, et al. "Agent57: Outperforming the atari human benchmark." International conference on machine learning. PMLR, 2020.



問題33. ロボット制御において、ある程度うまく動くことがわかっている既存の制御手法による出力を活用し、最適な方策との差分を強化学習によって学習する手法がある。このような学習手法の名称として、最も適切なものを選べ。



33. A

深層強化学習をシステム制御に応用する際の手法や課題に関する知識を問う問題です。

模倣学習は、ロボット制御などにおいて、既存の制御手法と強化学習を組み合わせた学習手法です。ある程度うまく動くことがわかっている既存の制御手法があるとき、その手法による出力と、最適方策との差分を強化学習によって学習することを指します (A)。

また、ロボット制御などのタスクでは、エージェントはセンサーデータを入力として受け取ります。このとき、状態をよく表現する特徴量を入力から抽出する必要があります。入力から状態を表現する特徴量を抽出する過程そのものが学習によって得られるとき、これを状態表現学習と呼びます (B)。

さらに、オフライン強化学習は、環境との相互作用を必要とせず、固定のデータセットをエージェントに与えて学習を行う手法であり (C)、マルチエージェント強化学習は、複数のエージェントを用意し、それらの相互作用を加味しながら学習を行う手法です (D)。

試験対策
強化学習の応用におけるさまざまな手法について整理しておきましょう。



問題34. 強化学習において、連続値制御問題として扱うことのできる問題例として、最も不適切なものを選べ。



34. C

強化学習における連続値制御についての理解を問う問題です。

従来、強化学習の研究で数多く扱われてきたゲームプレイのタスクでは、行動は十字キーといった離散的なコマンドで定義できました。一方、実世界でロボット制御などのタスクを考える際には、角度や速度、座標といった連続値を制御する必要があります。このようなタスクについては、連続値を適切に離散化して扱うアプローチがある一方、連続値の行動をそのまま扱う場合もあります。後者の問題設定を連続値制御と呼びます。

自動車の運転におけるハンドル操作は、角度や速度といった連続値を扱うため、連続値制御問題として扱えます (A)。また、ロボットアームにおける関節の制御は、連続値である角度を扱うため連続値制御問題として扱えます (B)。さらに、ドローンの操縦制御は角度や方向といった連続値を扱うため、連続値制御問題として扱えます(C)。これらに対して、ボタンによる入力は離散的であり、連続値制御問題としては扱えません(D)。

試験対策
連続値制御問題の概要を理解しておきましょう。



問題35. 強化学習によるロボット制御に関する以下の文章を読み、空欄 (ア) (イ) に入る語句として最も適切な組み合わせを選べ。

コンピュータ上のシミュレータで学習したモデルを、実世界へ適用することを (ア) という。学習済みモデルを実世界に適用する際には、シミュレータと実世界の環境に差が生じ、性能が低下することがある。その課題への対応として、摩擦や質量といった環境のパラメータをランダムに変め、複数のシミュレータを生成して学習を行う手法がある。この手法を (イ) と呼ぶ。



35. C

ロボット制御などにおけるシミュレータを用いた強化学習手法に関する知識を問う問題です。

コンピュータ上のシミュレータで学習したモデルを実世界へ適用することを Sim2Realといいます(ア)。実世界での環境を用いた学習と比較して、低いコストで学習を行える利点があります。

ただし、一般的にシミュレータでは実世界の環境を完全には再現できないため、学習したモデルを実世界に適用する際に、性能が低下することがあります。
そこで、シミュレータを定義する際にさまざまなパラメータをランダムに含めて複数の環境を用意し、それらを用いて学習を行うことで、実世界とのギャップを軽減することができます。このような手法をドメインランダマイゼーション (Domain Randomization) と呼びます (イ)。

なお、Seq2Seq [第5章 解答16を参照] は入出力の長さの異なる順序タスクなどに用いられます。また、ランダムサーチは、機械学習などにおいてパラメータを探索する手法のひとつです。

以上のことから、(ア) にSim2Real、(イ) にドメインランダマイゼーションが入ります (C)。

試験対策
シミュレータを活用した強化学習手法に関するキーワードを覚えておきましょう。



問題36. 以下の文章を読み、空欄 (ア) に入る語句として最も適切なものを選べ。

オープンAI社が開発した文章生成AIであるChatGPTは、(ア) と呼ばれる強化学習を用いた手法によって訓練されている。(ア) は、人間がどのような回答を好むかをネットワークにフィードバックすることで、望ましい回答を生成できるようにする手法である。



36. A

強化学習とChatGPTの学習プロセスの関連について問う問題です。

ChatGPTは、OpenAIが開発した対話型の文章生成AIです。ChatGPTの学習プロセスでは、大規模言語モデルの学習のほかにRLHF (Reinforcement Learning from Human Feedback) ※38という強化学習を用いた手法が使用されています。RLHFは、人間がどのような回答を好むかをネットワークにフィードバックすることで、望ましい回答を生成できるようにする手法です。

このフィードバックには報酬モデル (Reward Model) が使用され、より望ましい回答に対して高い報酬を付与します (A)。

DQN [解答29を参照] は、Q学習とディープラーニングを組み合わせた手法ですが、人間の価値観によるフィードバックを受け取る構造は備えていません (B)。

また、模倣学習は、報酬関数の設計を省略するために人間のデモを模倣したり、過去の制御手法との差分を学習する強化学習の手法です (C)。

さらに、状態表現学習 [解答33を参照] は、ロボット制御などにおいて既存の制御手法と強化学習を組み合わせた学習手法です (D)。

試験対策
ChatGPTに使用されているRLHFの概要を覚えましょう。また、正解以外の選択肢も強化学習における重要なキーワードであるため、その内容を理解しておきましょう。



問題37. 画像生成や音声合成、文章生成などのタスクを生成タスクと呼ぶ。生成タスクに使用されるニューラルネットワークとして最も不適切なものを選べ。



37. B

生成タスクに使用されるニューラルネットワークに関する知識を問う問題です。

画像生成や文章生成、音声生成といったタスクを総称して生成タスクと呼びます。近年では、ディープラーニングを活用した生成タスク用のネットワークが数多く発表され、注目されています。

WaveNetは、主に音声生成に用いられるネットワークです (A)。また、Whisper※39は、音声認識に使用されるネットワークであり、生成タスクには用いられません (B)。

さらに、変分オートエンコーダ (VAE: Variational Auto-Encoder) [第5章 解答21を参照] は画像生成に用いられるネットワークです (C)。GPT (Generative Pre-Training) は文章生成に用いられるネットワークです (D)。

以上のことから、(ア) (C) (D) が適切な組み合わせです (B)。

試験対策
生成タスクの種類と代表的なネットワークを覚えておきましょう。

【参考文献】
※38 Radford, Alec, et al. "Robust speech recognition via large-scale weak supervision." International Conference on Machine Learning. PMLR, 2023.
※39 Wu, Yuxuan, et al. "A brief overview of ChatGPT: The history, status quo and potential future development." IEEE/CAA Journal of Automatica Sinica 10.5 (2023): 1122-1136.



問題38. 以下の文章を読み、空欄 (ア) に入る語句として最も適切なものを選べ。

(ア) は、生成タスクを解くネットワークを構築するためのアーキテクチャとして2014年に発表されたものである。(ア) は、ジェネレータ (生成器) とディスクリミネータ (識別器) の2つのニューラルネットワークから構成される。



38. D

敵対的生成ネットワーク (GAN: Generative Adversarial Networks) ※40に関する知識を問う問題です。

GANは、ジェネレータ (生成器) とディスクリミネータ (識別器) の2種類のニューラルネットワークから構成されます。ジェネレータがランダムな入力から画像を生成し、ディスクリミネータが生成画像と本物の画像を判別を行います。ジェネレータは、ディスクリミネータが判別できないような画像を生成するように学習を行うことで、最終的に本物と見分けがつかないような画像を生成できるようになります (D)。

拡散モデル (Diffusion Model) ※41は、元の画像に徐々にノイズを加えていき、その過程を逆向きに辿るように学習を行うことで、ノイズから画像を生成できるネットワークです (A)。

また、変分オートエンコーダ (VAE) [第5章 解答21を参照] は、オートエンコーダを利用したネットワークの一種であり、画像生成などのタスクに利用されます。エンコーダによって入力データを統計分布に変換し、デコーダがその統計分布からサンプリングした値(潜在変数)の入力から元の入力データを復元できるように学習を行います (B)。

Flowベース生成モデル (Flow-based generative models) ※42は、エンコーダ・デコーダの構造は備えておらず、VAEと同様に潜在変数を用いて画像生成を行うネットワークです (C)。

試験対策
画像を生成するさまざまな手法やネットワークが提案されています。それぞれの概要を理解しておきましょう。

豆知識
G検定では、Flowベース生成モデルを単にFlowと呼ぶ場合がありますので、注意しましょう。

【参考文献】
※40 Goodfellow, Ian, et al. "Generative adversarial nets." Advances in neural information processing systems 27 (2014).
※41 Sohl-Dickstein, Jascha, et al. "Deep unsupervised learning using nonequilibrium thermodynamics." International conference on machine learning. PMLR, 2015.
※42 Kingma, Diederik P., and Prafulla Dhariwal. "Glow: Generative flow with invertible 1x1 convolutions." Advances in neural information processing systems 31 (2018).



問題39. 画像生成を行うことができるネットワークとして、最も不適切なものを選べ。



39. C

代表的な画像生成ネットワークのうち、GAN [解答38を参照] の派生ネットワークについて問う問題です。

画像生成ネットワークであるGANでは、さまざまな派生ネットワークが提案されています。代表的なものとして、DCGAN (Deep Convolutional GAN) ※43、CycleGAN※44、Pix2Pix※45があげられます。

DCGANは、GANにおけるネットワークとしてCNNを用いた画像生成ネットワークです (A)。また、Pix2Pixは、ある画像とそれを変換した画像のペアを使用して学習を行うGANの派生ネットワークです。Pix2Pixを利用することで、ある風景における昼の画像を夜の画像に変換するなどの画像生成を行うことができます (B)。

CycleGANは、Pix2Pixのように画像を変換を行うことのできる画像生成ネットワークですが、Pix2Pixとは異なり、ペアとなる変換画像を用意する必要がありません (D)。

これらに対してGPT-2は、文章生成に使用されるネットワークです (C)。

試験対策
GANのさまざまな派生ネットワークを覚えておきましょう。



問題40. ある視点から見たシーンの画像が与えられているとき、別視点から同じシーンを見た場合の画像を生成することができる技術として、最も適切なものを選べ。



40. B

画像生成技術であるNeRF (Neural Radiance Fields) ※46に関する知識を問う問題です。

NeRFはニューラルネットワークを活用した画像生成技術であり、与えられた画像に対して、別の視点から見た画像を生成することができます。この技術を活用することで、画像から動画を作成したり、写真の編集を行ったりすることができます (B)。

RLHFは、人間がどのような回答を好むかをネットワークにフィードバックすることで、望ましい回答を生成できるようにする手法です (A)。また、LSTMはRNNのひとつで、画像生成には用いられません (C)。さらに、ELMoは単語の分散表現を得るためのネットワークであり、画像生成には用いられません (D)。

試験対策
NeRFの概要を押さえておきましょう。

【参考文献】
※43 Radford, Alec, Luke Metz, and Soumith Chintala. "Unsupervised representation learning with deep convolutional generative adversarial networks." arXiv preprint arXiv:1511.06434 (2015).
※44 Zhu, Jun-Yan, et al. "Unpaired image-to-image translation using cycle-consistent adversarial networks." Proceedings of the IEEE international conference on computer vision. 2017.
※45 Isola, Phillip, et al. "Image-to-image translation with conditional adversarial networks." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.
※46 Mildenhall, Ben, et al. "Nerf: Representing scenes as neural radiance fields for view synthesis." Communications of the ACM 65.1 (2021): 99-106.



問題41. 以下の文章を読み、空欄 (ア) (イ) に入る語句として最も適切な組み合わせを選べ。

事前学習済みモデルを異なるタスクに転用することを (ア) という。(ア) では、異なるタスクにおける新たなデータを用いて、事前学習済みモデルのパラメータの一部または全部を更新することがある。これを (イ) と呼ぶ。



41. D

転移学習ファインチューニングに関する知識を問う問題です。

事前学習済みモデルを異なるタスクに応用すること、またはそのために行う学習のことを、転移学習といいます (ア)。ディープラーニングでは、学習を行うのに必要なデータ量や計算リソースが膨大になることが多く、タスクごとにネットワークを学習することが難しい場合があります。そこで、転移学習を利用することで、ほかのタスクで学習したモデルの情報を活かした効率的な学習を行えることがあります。

ファインチューニング (Fine Tuning) は、他のタスクにおける新たなデータを用いて、事前学習済みモデルのパラメータの一部または全部を更新する手法を指します (イ)。

なお、転移学習という用語は一般的に使用されません。また、特徴表現学習は、ディープラーニングにおいて、特徴量の抽出過程そのものが学習によって獲得されることを表す用語です。

以上のことから、(ア) に転移学習、(イ) にファインチューニングが入ります (D)。

試験対策
学習済みモデルを他のタスクに応用する手法を覚えましょう。



問題42. 転移学習において、転移先のタスクにおける学習データをまったく用いなことがあっても、このことを指す用語として、最も適切なものを選べ。



42. C

転移学習の特別な場合について問う問題です。

転移学習では、新たなタスクの学習に使用するデータ数に応じて、いくつかの特別な場合が存在します。

Few-shot Learningは、少量の学習データだけで新たなタスクを解くネットワークを学習することを指します (B)。さらに特殊なケースとして、学習データをもつかしか使用しないで学習させる方法をOne-shot Learning、学習データをまったく使用しないでZero-shot Learningといったものもあります (A、C)。汎用的な特徴抽出を行うことのできるネットワークを別のタスクで学習することによって、このような転移学習が実現できます。

なお、No-shot Learningという用語は一般的に使用されません (D)。

試験対策
転移学習のいくつかの特別な場合に関するキーワードを覚えておきましょう。



問題43. 学習済みモデルを転移学習によって新たなタスクに転用すると、元のタスクに対する性能が転移学習前よりも低下することがある。この現象を指す用語として最も適切なものを選べ。



43. B

転移学習において問題となる破滅的忘却について問う問題です。

学習済みモデルを転移学習によって新たなタスクに応用すると、元のタスクに対する性能が転移学習前より低下することがあります。これを破滅的忘却 (Catastrophic Forgetting) と呼びます (B)。

なお、勾配消失問題 [第4章 解答9を参照] とは、ニューラルネットワークの学習時に勾配が層における逆伝播数のぶんだけ乗算を重ねることで、勾配がゼロに非常に小さくなる問題です (A)。また、次元の呪い [第1章 解答4を参照] は、次元の増加に伴って計算などが指数的に増加する現象を指します (C)。さらに、汎化 [第4章 解答20を参照] とは、ニューラルネットワークにおいて、各ニューロンが出力を改善するために、予測結果からどのようにフィードバックを受け取るかということに関する問題です (D)。

試験対策
破滅的忘却の概要を押さえましょう。

豆知識
破滅的忘却は壊滅的忘却、破局的忘却とも訳されます。G検定では破滅的忘却と呼ばれる可能性が高いため、注意しましょう。



問題44. 近年では、大量のデータを学習した1つのモデルを使用して、ファインチューニングなどによってさまざまなタスクを解くアプローチが盛んに研究されている。このような事前学習モデルを指す用語として、最も適切なものを選べ。



44. C

基盤モデルの概要について問う問題です。

近年のディープラーニングでは、大量のデータを用いて一度学習したモデルを利用し、ファインチューニングなどによってさまざまなタスクに応用するケースが増えています。こうした目的で学習される大規模な学習済みモデルを、基盤モデルと呼ぶことがあります。自然言語処理や画像認識など、さまざまな領域で学習済みの基盤モデルが公開されています (C)。

なお、汎化モデルや基底モデル、完全モデルという用語は一般的に使用されません (A、B、D)。

試験対策
近年のディープニング研究において重要な概念である基盤モデルについて理解しておきましょう。



問題45. ディープラーニングで扱われるタスクに関する以下の文章を読み、空欄 (ア) (イ) に入る語句として最も適切な組み合わせを選べ。

物体検出とセグメンテーションを同時に行うなど、1つのネットワークで複数の異なるタスクを解くことを (ア) と呼ぶ。また、(イ) タスクは、画像とテキストなど、複数の性質の異なるデータを同時に扱うタスクである。



45. B

ディープラーニングにおけるマルチタスク学習マルチモーダルタスクに関する知識を問う問題です。

マルチタスク学習は、1つのネットワークで複数のタスクを同時に扱う学習の総称です (ア)。たとえば、物体検出で抽出した領域に対して、同じネットワークを使用してセグメンテーションを行うといったタスクが考えられます。

一方で、テキストや画像など、従来は別々のネットワークで扱われていた種類の異なるデータをまとめて扱うタスクを、マルチモーダルタスクと呼びます (イ)。たとえば、画像を説明する文章を生成するといったタスクが考えられます。

なお、アンサンブル学習 [第3章 解答8を参照] とは、複数の機械学習モデルの予測結果を統合して最終的な予測値を決定する手法です。また、マルチクラス学習という用語は一般的に使用されません。

以上のことから、(ア) にマルチタスク学習、(イ) にマルチモーダルが入ります (B)。

試験対策
複数の異なるタスクやデータを扱うことに関連するキーワードを覚えておきましょう。



問題46. マルチモーダルタスクであるVisual Question Answering (VQA) に関する説明として、最も適切なものを選べ。



46. B

さまざまなマルチモーダルタスクの概要を問う問題です。

Visual Question Answering (VQA) はマルチモーダルタスクのひとつです。画像と画像に関する質問文を受け取り、それらの内容をもとに回答を生成します (B)。たとえば、「ウットリされたピザの画像」と「ピザは何等分にされていますか?」という文章の入力に対し、「ピザは6等分されています」と文章で回答するようなネットワークの構築を目指します。

マルチモーダルタスクには、VQAのほかにもText-to-ImageImage Captioningなどがあります。Text-to-Imageは、入力された文章をもとに、その内容を反映した画像を生成するタスクです (A)。一方、Image Captioningは、入力された画像に対して、その画像を説明する文章を生成するタスクです (C)。なお、入力された画像から画像中に書かれた文章を抽出するタスクは、OCR (光学文字認識) に関連します (D)。

試験対策
代表的なマルチモーダルタスクについて整理しておきましょう。



問題47. Text-to-Imageタスクとは、入力された文章をもとにその内容を反映した画像を生成するタスクである。以下の (ア) ~ (エ) のうち、Text-to-Imageタスクに用いられる適切なネットワークの組み合わせを選べ。



47. D

マルチモーダルタスクを解く代表的なネットワークについて問う問題です。

Text-to-Imageタスクは、入力された文章をもとに、その内容を反映した画像を生成するタスクです。

CLIP (Contrastive Language-Image Pretraining) ※47は、画像とその説明文のペアを使用して学習を行うネットワークです。画像のラベルだけでなく説明文のデータも活用することで、従来のネットワークを上回る性能を達成しました。CLIPは文章を埋め込むことはできますが、画像を生成するためには別のデコーダを利用する必要があり、そのままでは画像生成を行えません (ア)。

DALL·E※48は、OpenAIによって開発されたText-to-Imageタスクに使用されるネットワークです (イ)。

Flamingo※49は、ディープマインド・テクノロジーズ社によって開発されたネットワークで、画像や動画の入力を受け取り、Image Captioningタスクを解くことができます (ウ)。

Unified-IO※50は、姿勢推定や物体検出、異常応用、Text-to-Image、Visual Question Answeringなどさまざまなタスクを解くことができるネットワークです (エ)。

以上のことから、(イ) (エ) が適切な組み合わせです (D)。

試験対策
マルチモーダルタスクを解く代表的なネットワークを覚えておきましょう。前問の選択肢も重要です。

【参考文献】
※47 Radford, Alec, et al. "Learning transferable visual models from natural language supervision." International conference on machine learning. PMLR, 2021.



問題48. 以下の文章を読み、空欄 (ア) (イ) に入る語句として最も適切な組み合わせを選べ。

AIの予測根拠を人間が理解できる形で示すことを目指す技術や研究分野を (ア) という。(ア) の代表的手法として、畳み込みニューラルネットワーク (CNN) に適用できる (イ) やGrad- (イ) がある。これらの手法では、特徴マップの値を利用することで、モデルが入力データのどの部分に注目したかを可視化することができる。



48. A

説明可能AI (XAI: eXplainable Artificial Intelligence) に関する知識を問う問題です。

説明可能AIは、ディープラーニングにおける学習済みモデルは、一般に予測の根拠を示すのが難しく、ブラックボックスであるといわれています。しかし、近年ではAIの予測根拠を人間が理解可能な形で示すことへの需要が高まっており、このような技術の総称を説明可能AIと呼びます。

たとえば、CNNの学習結果を可視化する手法として、CAM (Class Activation Map) ※51があげられます。CAMは、CNNの入力データにおける特徴マップの値の重み付け和を計算することで、モデルが入力データのどの部分に注目して予測結果を計算したかを可視化する手法です。また、CAMを改善した手法としてGrad-CAM※52があります (イ)。Grad-CAMでは、勾配の大きい領域=モデルの予測に影響を及ぼす領域を強調することで、入力データにおける予測への寄与度が大きい箇所を可視化する手法です。

なお、推論という用語は一般的に使用されません。また、LIME (Local Interpretable Model-agnostic Explanations) [解答49を参照] は、モデルの予測結果に対する入力データの特徴量の重要度を判定する手法ですが、特徴マップの勾配は使用されません。

以上のことから、(ア) に説明可能AI (XAI: eXplainable Artificial Intelligence)、(イ) にCAM (Class Activation Map) が入ります (A)。

試験対策
説明可能AIの概要や、代表的な技術について理解しておきましょう。

【参考文献】
※48 Ramesh, Aditya, et al. "Zero-shot text-to-image generation." International Conference on Machine Learning. PMLR, 2021.
※49 Alayrac, Jean-Baptiste, et al. "Flamingo: a visual language model for few-shot learning." Advances in Neural Information Processing Systems 35 (2022): 23716-23736.
※50 Lu, Jiasen, et al. "Unified-io: A unified model for vision, language, and multi-modal tasks." arXiv preprint arXiv:2206.08916 (2022).
※51 Zhou, Bolei, et al. "Learning deep features for discriminative localization." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.
※52 Selvaraju, Ramprasaath R., et al. "Grad-cam: Visual explanations from deep networks via gradient-based localization." Proceedings of the IEEE international conference on computer vision. 2017.



問題49. 以下の (ア) ~ (エ) のうち、機械学習モデルの予測値に対する各特徴量の重要性を分析する手法として、適切なものの組み合わせを選べ。



49. B

機械学習における特徴量の重要度の分析手法に関する知識を問う問題です。

機械学習モデルの予測に対して、どの特徴量がどのように影響しているかを分析することは、説明可能性の観点から非常に重要です。このような分析を行う手法として、目的に応じてさまざまな手法が提案されています。

SHAP (SHapley Additive exPlanations) ※53は、ある特徴量が予測値に与えた影響の度合いを、Shapley値と呼ばれる値に基づいて求める手法です。たとえば、分類タスクでは、ある入力データにおける特徴量の値が、予測値に対して正負どちらの方向にどれだけ影響したかを可視化することができます (ア)。

LIME (Local Interpretable Model-agnostic Explanations) ※54は、ある入力データに対する予測において重要であった特徴量を求める手法です。LIMEを使用することで、個々の入力データに着目して予測がなぜ行われたか、どの特徴量が予測に影響を及ぼしたかを可視化することができます (イ)。

YOLO (You Only Look Once) [第5章 解答12を参照] は、物体検出に使用されるニューラルネットワークです (ウ)。

PI (permutation importance) は、検証データセットに対する予測において、個々の特徴量がどの程度重要であるかを求める手法です。ある特徴量を検証データ全体でシャッフルしてから予測を行い、シャッフル前の予測からの精度低下が低下するかを観測することで、その特徴量の重要度を求めます (エ)。

以上のことから、(ア) (イ) (エ) が適切な組み合わせです (B)。

試験対策
特徴量の重要度や予測値への寄与を分析する XAI の代表的な手法について整理しましょう。

【参考文献】
※53 Lundberg, Scott M., and Su-In Lee. "A unified approach to interpreting model predictions." Advances in neural information processing systems 30 (2017).
※54 Ribeiro, Marco Tulio, Sameer Singh, and Carlos Guestrin. "Why should I trust you?": Explaining the predictions of any classifier." Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining. 2016.



問題50. 端末や機器に直接AIを組み込む技術に関する用語として、最も適切なものを選べ。



50. B

エッジAIに関する知識を問う問題です。

エッジAIは、モバイル端末や作業現場で使用する機器 (エッジデバイス) などに、直接AIを組み込む技術です。AIが組み込まれた機器そのものをエッジAIと呼ぶ場合もあります。エッジAIでは、エッジデバイスがセンサーなどからの入力データをそのまま処理することが可能なため、クラウドなどに展開したAI [第7章 解答5を参照] とは異なり、インターネットを介さずに動作できます (B)。

エッジデバイスは計算リソースが限られているため、大規模なモデルを組み込むことが難しい場合が多くあります。このような問題を解決するために、モデルの精度をできる限り保ちながら、その計算量を小さくするモデル圧縮 [解答51を参照] と呼ばれる手法が使用されることがあります。また、テーブル化が施されたMobileNet [第5章 解答9を参照] のように、モデルの構造自体を工夫して軽量化を行った例もあります。

なお、クラウドAIやバックAI、オンラインAIという用語はいずれも一般的に使用されません (A、C、D)。

試験対策
エッジAIの概要を押さえておきましょう。



問題51. モデル圧縮は、機械学習モデルの精度をできるだけ保ちながらモデルのサイズを小さくする技術である。ディープラーニングにおけるモデル圧縮に使用される手法として、最も不適切なものを選べ。



51. C

モデル圧縮を行う具体的な手法に関する知識を問う問題です。

モデル圧縮は、機械学習モデルの精度をできるだけ保ちながら、モデルのサイズを小さくする技術の総称です。計算リソースが限られることの多いエッジAIなどの領域で活用されます。代表的な手法として、知識蒸留量子化プルーニング (Pruning: 枝刈り) などがあげられます。

知識蒸留は、学習済みの大規模なモデルと同じ出力を行えるように小規模なモデルを学習し、元の大規模モデルと同程度の精度を保つことを目指す手法です (A)。また、量子化は、ディープラーニングにおける重みパラメータのビット数を下げることで、計算量やメモリ使用量を削減する手法です (B)。

さらに、ディープラーニングにおけるプルーニングは、一度学習を行ったモデルのパラメータの一部を削除することでパラメータ数を削減する手法です (D)。

なお、マイニングはモデル圧縮における一般的な手法ではありません (C)。

試験対策
モデル圧縮の目的を理解し、その代表的な手法を覚えておきましょう。

豆知識
知識蒸留は、単に蒸留と呼ばれることがあります。G検定では後者の表現が使用される可能性が高いため、注意しましょう。



問題52. ニューラルネットワークにおいて、元のネットワークから複数のパラメータを除外したものをサブネットワークと呼ぶことにする。同じ訓練データと同じエポック数を用いて学習を行い、サブネットワークの学習を行うことを考える。このとき、元のネットワークがどのような構成であったとしても、元のネットワークと同等の精度を達成できるサブネットワークが存在するという仮説がある。この仮説の名称として、最も適切なものを選べ。



52. D

宝くじ仮説 (The Lottery Ticket Hypothesis) ※55について問う問題です。

ニューラルネットワークにおいて、元のネットワークから複数のパラメータを間引いた小さなネットワークを、サブネットワークと呼びます。あるサブネットワークを、元のネットワークと同じ設定 (訓練データやエポック数) で学習させることを考えた場合、どのようなネットワークにも元のネットワークと同等の精度を達成できるサブネットワークが含まれる、という仮説が提唱されています。この仮説を宝くじ仮説と呼びます (D)。宝くじ仮説の名称は、このサブネットワークを「当選チケット」に見立てていることに由来します。

この宝くじ仮説はあくまで仮説ですが、もし正しいとすれば、どのようなニューラルネットワークもモデル圧縮によって軽量化できることになります。宝くじ仮説が提唱された論文では、元のネットワークの10〜20%のサイズの「当選チケット」を一貫して表現できたと主張しています。

なお、フレーム仮説やフリーランチ仮説、内包仮説という用語はいずれも一般的に使用されません (A、B、C)。

試験対策
宝くじ仮説の内容を理解しておきましょう。

【参考文献】
※55 Frankle, Jonathan, and Michael Carbin. "The lottery ticket hypothesis: Finding sparse, trainable neural networks." arXiv preprint arXiv:1803.03635 (2018).

← → キーで移動 / Ctrl+P でPDF保存