ResNetのスキップ結合を発展させ、各層をそれ以降のすべての層と密に結合(Dense Connectivity)させることで、勾配消失問題の緩和や特徴量の再利用を促進したアーキテクチャはどれですか。
2 DenseNet
【解説】
DenseNetは、各層の出力をそれ以降のすべての層の入力に結合する「Denseブロック」を特徴とします。これにより、前の層で得られた特徴量が直接後ろの層へ伝達されるため、特徴量の再利用効率が高まり、パラメータ数を抑えつつ高い性能を発揮します。
従来のResNetは層を深くすること(Depth)に注力していましたが、フィルタ数を増やすことでネットワークの「幅(Width)」を広げ、比較的浅い階層でも高い性能と学習速度の向上を図ったモデルはどれですか。
2 Wide ResNet
【解説】
Wide ResNetは、ResNetの残差ブロックにおいてフィルタ数を増やす(k倍にする)ことで、層を過度に深くすることなく精度を向上させるアプローチです。層を深くしすぎることによる勾配消失や学習の停滞を避け、計算の並列性を高める効果があります。
2017年にGoogleが提案した、Depthwise ConvolutionとPointwise Convolutionを組み合わせた「Depthwise Separable Convolution」を採用し、計算量とモデルサイズを大幅に削減した軽量モデルはどれですか。
2 MobileNet
【解説】
MobileNetは、空間方向の畳み込み(Depthwise)とチャネル方向の畳み込み(Pointwise)を分離することで、通常の畳み込みに比べて計算コストとパラメータ数を劇的に抑えています。スマートフォンなどのモバイル端末やエッジデバイスでのリアルタイム動作に適しています。
2019年にGoogleが提案した、ネットワークの「深さ」「幅」「解像度」の3つの要素をバランスよくスケーリングするための「複合係数(Compound Coefficient)」という手法を用いたモデルはどれですか。
3 EfficientNet
【解説】
EfficientNetは、深さ・幅・解像度の3つを同時に最適化する複合スケーリング(Compound Scaling)を導入したモデルです。これにより、従来のモデルと比較して、はるかに少ないパラメータ数と計算量で、当時の最高精度(State-of-the-Art)を達成しました。
ILSVRC 2014で優勝したモデルで、異なるサイズのフィルタ(1x1, 3x3, 5x5)を並列に配置し、それらを結合して出力する「Inceptionモジュール」を導入したアーキテクチャはどれですか。
2 GoogLeNet
【解説】
GoogLeNetは、ネットワークを単に垂直に深くするのではなく、横方向(並列)に複数のフィルタを配置するInceptionモジュールを用いることで、様々な大きさの特徴を効率的に抽出できるように設計されています。また、1x1畳み込みによる次元削減も重要な特徴です。
人間が試行錯誤してネットワーク構造を設計する代わりに、強化学習や進化計算、勾配法などを用いて、特定のタスクに対して最適なニューラルネットワークの構造を自動的に探索する技術を何と呼びますか。
2 NAS (Neural Architecture Search)
【解説】
NASは「ニューラル構造探索」と呼ばれ、AI自らが最適なネットワーク構造を見つけ出す技術です。探索空間の中から、精度や計算コストのバランスが最も良いアーキテクチャを自動で構築するため、設計コストの削減と性能向上の両立が期待されています。
特徴マップのチャネル間の関係性を学習し、重要なチャネルを強調し、不要なチャネルを抑制する「Squeeze-and-Excitation」というAttention(注目)の仕組みを導入したモデルはどれですか。
1 SENet
【解説】
SENet(Squeeze-and-Excitation Networks)は、大域的なプーリングで情報を集約(Squeeze)し、全結合層でチャネルごとの重要度を算出して再重み付け(Excitation)を行います。これにより、モデルはタスクに重要な特徴チャネルを動的に選択できるようになります。
モバイルデバイス上での推論速度(レイテンシ)を直接の評価指標として取り入れ、計算リソースが限られた環境でも高速かつ高精度に動作するモデル構造をNASによって探索した手法は何ですか。
1 MNAS
【解説】
MNAS (Mobile Neural Architecture Search) は、モバイル端末上での実際の実行時間を報酬関数(Reward)に組み込んだNASです。これにより、単に計算量(FLOPs)を減らすだけでなく、特定のハードウェア上で実際に高速に動作する最適なモデル構造の発見が可能になりました。
画像内の「どこに」物体があるかを矩形(バウンディングボックス)で特定し、さらにそれが「何であるか」というクラスを識別するタスクを何と呼びますか。
2 物体検出
【解説】
物体検出(Object Detection)は、画像に含まれる複数の物体の位置特定(Localization)とクラス識別(Classification)を同時に行う技術です。一般的には、物体を囲む長方形の枠(バウンディングボックス)を出力します。
画像全体を見て、その中に含まれる物体のクラス(「猫」「車」など)を識別するが、その位置(座標)までは特定しない処理を何と呼びますか。
1 物体識別(画像認識)
【解説】
物体識別(Object Recognition / Classification)は、画像に「何が」写っているかを判定するタスクです。物体検出とは異なり、物体の具体的な位置や範囲までは特定しません。
物体検出や画像認識、物体追跡などの技術を組み合わせ、特定の物体をデータベース上の情報と紐付けたり、IDを割り振って一貫して管理したりする一連のフローを何と呼びますか。
3 物体登録
【解説】
物体登録は、検出した物体の特徴を抽出し、それが既知の特定の個体であるかを確認したり、新しいIDとしてシステムに登録・管理したりする、実運用における一連の流れを指します。
物体が存在しそうな候補領域(Region Proposal)を抽出するネットワークと、その領域を分類するネットワークを分けることで、高い精度を実現する手法(例:R-CNN, Faster R-CNN)はどれに分類されますか。
2 2段階(2-stage)手法
【解説】
2段階(2-stage)手法は、まず物体の候補を絞り込み、次にその中身を精査して分類と位置修正を行います。手間がかかる分、精度が高くなりやすい傾向がありますが、推論速度は1段階手法に比べて遅くなることが多いです。
領域抽出と分類を単一のネットワークで同時に行い、推論速度が非常に高速でリアルタイム処理に適している「YOLO」や「SSD」などは、どのタイプの手法ですか。
2 1段階(1-stage)手法
【解説】
1段階(1-stage)手法は、画像を格子状に区切るなどして、一度の処理で物体の位置とクラスを予測します。計算コストが低いため、自動運転や監視カメラなどのリアルタイム性が求められる場面で多用されます。
主に医療画像解析などで使われ、エンコーダ(収縮パス)とデコーダ(拡張パス)を対称に配置し、低次の特徴をスキップ結合で補完することで精緻な画素単位の分類を行うモデルはどれですか。
3 U-Net
【解説】
U-Netは、その形状が「U」の字に見えることから名付けられました。エンコーダで失われた空間情報を、デコーダへ直接受け渡すスキップ結合が特徴で、少ない学習データでも高精度な境界抽出が可能なため、医療画像の細胞抽出などで非常に強力です。
セマンティックセグメンテーション(画素単位の分類)に用いられるモデルのうち、画素ごとの分類(SegNet)や、複数のスケールのプーリングを統合してコンテキスト情報を活用するモデル(PSPNet)に共通する用途は何ですか。
2 画素(ピクセル)単位のクラス分類
【解説】
SegNetやPSPNetは、セマンティックセグメンテーションのための代表的なモデルです。画像内のすべてのピクセルに対して「道路」「人」「背景」などのラベルを割り当て、領域を塗り分けるように分類します。
セマンティックセグメンテーションの先駆けとなったモデルで、全結合層(Fully Connected Layer)をすべて畳み込み層に置き換えることで、任意の入力サイズに対応し、画素単位の出力を可能にしたネットワークはどれですか。
2 FCN (Fully Convolutional Network)
【解説】
FCNは「全畳み込みネットワーク」と呼ばれ、全結合層を持たないことが最大の特徴です。これにより、入力画像のサイズを問わず処理でき、最終的に画像の各点に対応する予測結果(ヒートマップ)を出力することが可能になりました。
計算量を抑えつつ受容野(Receptive Field)を広げるために「Dilated Convolution (Atrous Convolution)」という手法を導入し、精度の高いセグメンテーションを実現したGoogleのモデルはどれですか。
2 DeepLab
【解説】
DeepLabは、フィルタに隙間を開けて畳み込みを行うDilated Convolution(拡張畳み込み)を用いることで、解像度を維持したまま広い範囲の情報を参照できるように設計されています。これにより、物体同士の重なりや複雑な境界の識別性能が向上しました。
画像を固定サイズのパッチに分割し、それぞれをベクトルとして扱うことで、自然言語処理で成功を収めたTransformer構造を画像認識に直接適用したモデルはどれですか。
2 Vision Transformer (ViT)
【解説】
Vision Transformer (ViT) は、画像を「単語」のようにパッチ単位で区切り、その並び(シーケンス)をTransformerに入力する手法です。大規模なデータセットで事前学習を行うことで、従来のCNN(畳み込みニューラルネットワーク)に匹敵、あるいは凌駕する性能を発揮します。
Vision Transformerの派生モデルで、画像をパッチに分ける際に階層的な構造を持ち、ウィンドウをずらしながら計算を行うことで、計算効率を向上させつつ解像度の高い画像にも対応可能にしたモデルはどれですか。
2 Swin Transformer
【解説】
Swin Transformerは、画像を階層的に処理することで、ViTが苦手としていた「解像度の異なる物体の検出」や「大きな画像に対する計算コスト」の問題を解決しました。「Shifted Window(ずらした窓)」によるAttention計算が最大の特徴です。
文書内に含まれる単語の順序は無視し、各単語が「何回出現したか」をカウントしてベクトル表現(頻度ベクトル)とする手法を何と呼びますか。
3 Bag of Words (BoW)
【解説】
Bag of Words (BoW) は、文書を「単語が詰まった袋」として捉える手法です。単語の並び(文脈)は考慮されませんが、シンプルながら文書の分類や検索などのタスクで基本となる手法です。
Word2Vecの学習手法のうち、「中心にある単語からその周辺にある単語を予測する」モデルを何と呼びますか。
2 Skip-gram
【解説】
Word2Vecには主に2つの手法があります。
* Skip-gram: 1つの中心単語から周囲の単語を予測します。稀な単語でも学習されやすい傾向があります。
* CBOW (Continuous Bag-of-Words): 周囲の複数の単語から中心の単語を予測します。学習速度が比較的速いです。
単語の重要度を計算する手法で、「文書内での出現頻度(TF)」が高く、かつ「他の多くの文書にはあまり出現しない(IDF)」単語に高いスコアを割り当てる重み付け手法は何ですか。
2 TF-IDF
【解説】
TF-IDFは、その文書に特有の単語(専門用語など)を抽出するのに適しています。多くの文書に登場する一般的な単語(「の」「です」など)の影響を抑え、特徴的なキーワードを強調することができます。
大量の文書群から、そこに潜在している「トピック(話題)」を自動的に推定する統計的手法であり、代表的なモデルに「潜在的ディリクレ配分法(LDA)」がある手法を何と呼びますか。
3 トピックモデル
【解説】
トピックモデル(特にLDA)は、1つの文書が複数のトピック(例:政治30%、経済70%)から構成されていると仮定し、各単語がどのトピックに由来するかを確率的に推定します。文書の要約や整理に活用されます。
Googleが提案したBERTの学習において、文の一部を隠してそれを周辺の文脈から当てさせる学習タスク(穴埋め問題)を何と呼びますか。
2 MLM (Masked Language Model)
【解説】
BERTは「双方向」の情報を利用するために、以下の2つの事前学習を行います。
* MLM: 文中の単語をマスク(穴埋め)して予測する。
* NSP: 2つの文が与えられた際、2番目の文が1番目の文の次に来るべき文かどうかを判定する。
LSTMベースのモデルを用いて、同じ単語であっても周囲の文脈に応じて異なるベクトルを割り当てる「文脈依存の単語ベクトル」を生成する手法はどれですか。
3 ELMo
【解説】
ELMoは、深い双方向LSTMを用いて単語の分散表現を獲得します。Word2Vecが「どの文脈でも同じベクトル」を割り当てるのに対し、ELMoは「文脈に応じてベクトルが変化」するため、多義語などの処理に優れています。
自然言語処理(NLP)モデルの性能を総合的に評価するために用意された、文章分類や含意関係の判定など複数のタスクからなるベンチマークセットを何と呼びますか。
2 GLUE
【解説】
GLUE (General Language Understanding Evaluation) は、感情分析や質問回答など9つの多様なNLPタスクで構成されています。特定のモデルがどれだけ汎用的な「言語理解能力」を持っているかを測るための世界的な指標です。
複雑なリアルタイム戦略ゲーム「Dota 2」において、プロプレイヤーのチームを破ったOpenAIの開発したAIであり、強化学習アルゴリズムのPPOや長短期記憶(LSTM)を活用しているのはどれですか。
2 OpenAI Five
【解説】
OpenAI Fiveは、5対5のチーム対戦ゲーム「Dota 2」を攻略するために開発されました。非常に長い時間軸での意思決定が必要なタスクに対し、PPO(Proximal Policy Optimization)という強化学習手法と、過去の状況を記憶するLSTMを組み合わせることで、高度な連携プレイを実現しました。
ChatGPTなどの大規模言語モデルの調整において、モデルが出力した回答を人間が評価し、その評価を報酬として学習することで、モデルの挙動を人間の意図に沿わせる手法を何と呼びますか。
3 RLHF (Reinforcement Learning from Human Feedback)
【解説】
RLHFは「人間からのフィードバックを用いた強化学習」です。AIが生成した複数の回答を人間がランク付けし、その基準を「報酬モデル」として学習させた後、強化学習(PPOなど)を用いてAIの回答精度や安全性を向上させます。
数枚〜数十枚の2次元写真から、ニューラルネットワークを用いて連続的な視点での3次元シーンを構築し、自由な角度から高精細な画像を生成する技術を何と呼びますか。
2 NeRF (Neural Radiance Fields)
【解説】
NeRFは、空間の各点における密度と色をニューラルネットワークで表現する技術です。従来の3Dモデル(ポリゴンなど)を使わずに、写真から光の通り道を計算することで、実写のような自由視点映像を作り出すことができ、観光や映画制作などの分野で注目されています。
画像の内容に関する質問(例:「写真の中の猫は何色ですか?」)に対し、画像情報とテキスト情報の両方を処理して正しい回答を出力するタスクを何と呼びますか。
1 VQA (Visual Question Answering)
【解説】
VQAは、画像理解と自然言語処理を融合させたマルチモーダルなタスクです。単に画像の中に何があるかを答えるだけでなく、物体の数、位置関係、属性、あるいは状況の推論など、高度な理解が求められます。
画像とその説明文(テキスト)を共通のベクトル空間に投影し、テキストから画像を検索したり、その逆を行ったりすることを可能にした、OpenAI提案の手法は何ですか。
2 CLIP
【解説】
CLIP (Contrastive Language-Image Pre-training) は、インターネット上の膨大な画像とテキストのペアを用いて「画像と説明文が一致するかどうか」を学習します。これにより、未学習のクラスでもテキストでの指示だけで分類できる「ゼロショット学習」が可能になりました。
DeepMindが開発した、画像とテキストの入力を扱い、数枚の例示(フューショット)だけで新しいタスクに適応できるマルチモーダル・ビジョン・ランゲージ・モデルはどれですか。
1 Flamingo
【解説】
Flamingoは、視覚情報(画像や動画)を大規模言語モデルに組み込むためのモデルです。非常に汎用性が高く、数枚の画像とテキストの例を見せるだけで、画像の説明、質問回答、対話などが実行できる強力な性能を持っています。
生成器(Generator)と識別器(Discriminator)の2つのネットワークを競い合わせることで、実在しないが高精度なデータを生成する手法をGANと呼びますが、その応用で「線画から写真への変換」など画像から画像への変換を行うモデルは何ですか。
2 Pix2Pix
【解説】
Pix2Pixは、ペアとなる画像(入力画像と正解画像)を用いて学習する「条件付きGAN(cGAN)」の一種です。地図から航空写真、白黒写真からカラー写真、線画から本物の製品画像といった、特定の変換ルールを学習するのに適しています。
強化学習において、価値関数を用いて行動を決定するアルゴリズムであり、現在の行動の結果(報酬)と「次の状態での行動」の情報を用いて学習する手法(SARSA)や、深層学習と組み合わせた手法(DQN)は、総称して何に関連するアルゴリズムですか。
2 Q学習 / 価値ベース強化学習
【解説】
これらは強化学習の代表的な手法です。
* SARSA: 実際にとった行動に基づいて価値を更新する(オンポリシー)。
* DQN (Deep Q-Network): Q学習に深層学習を導入し、ゲーム画面などの複雑な入力から最適な行動価値を推定できるようにした手法です。
ロボットの制御などを学習させる際、安全かつ高速な「コンピュータ上のシミュレーション環境」で学習させたモデルを、現実の世界(実環境)でも機能するように移行・適用させる技術を何と呼びますか。
2 Sim2Real
【解説】
Sim2Realは「Simulation to Reality」の略です。シミュレーションと現実には物理法則や摩擦などのわずかな差異(Reality Gap)がありますが、ドメインランダム化(環境条件をわざと変化させる)などの手法を用いて、その差異を乗り越えて実機を動かす技術を指します。
機械学習モデルの特定の予測結果に対して、その予測の根拠を説明する手法の一つで、対象となるデータの周辺を簡略化したモデルで局所的に近似することで、どの特徴量が予測に寄与したかを算出する手法はどれですか。
2 LIME
【解説】
LIME(Local Interpretable Model-agnostic Explanations)は、モデルの種類を問わず(モデルアグノスティック)、個別の予測結果を説明するための手法です。説明したいデータの近くでデータをサンプリングし、解釈の容易な線形モデルなどで近似することで、「なぜその予測になったか」を局所的に明示します。
協力ゲーム理論の概念である「シャープレイ値」に基づき、各特徴量がモデルの出力(予測値)に対してどれだけ公平に寄与したかを算出する、一貫性の高い説明手法はどれですか。
3 SHAP
【解説】
SHAP(SHapley Additive exPlanations)は、各特徴量が予測値に与える影響度を、シャープレイ値というゲーム理論の枠組みを用いて算出します。LIMEに比べて計算コストは高い傾向にありますが、数学的根拠に基づいた「公平な寄与度」を算出できるため、非常に信頼性の高い説明手法として知られています。
学習済みのモデルにおいて、特定の特徴量の値をランダムにシャッフル(並べ替え)した際に、モデルの予測精度がどれだけ低下するかを測定することで、その特徴量の重要度を評価する手法を何と呼びますか。
1 Permutation Importance (PI)
【解説】
Permutation Importance(置換重要度)は、特定の列のデータをバラバラに壊したときに「精度がガタ落ちするなら、それは重要な特徴量である」と判断する手法です。モデルを再学習させる必要がなく、直感的で分かりやすいため、ブラックボックスモデルの全体的な特徴把握によく使われます。
高い精度を持つ巨大なモデル(教師モデル)の出力を、より軽量なモデル(生徒モデル)が模倣するように学習させることで、小型ながら高性能なモデルを作成する手法を何と呼びますか。
2 知識蒸留
【解説】
知識蒸留(Knowledge Distillation)は、教師モデルが持つ「各クラスに対する予測確率の分布」などの情報を生徒モデルに継承させます。これにより、生徒モデル単体で学習させるよりも高い精度が得られることが多く、スマホなどのエッジデバイス向けのモデル作成に有効です。
学習済みモデルのネットワークにおいて、予測精度への寄与が小さい不要な重み(ウェイト)やニューロンを削除し、モデルのサイズ軽量化や推論の高速化を図る手法を何と呼びますか。
3 プルーニング
【解説】
プルーニング(Pruning)は「枝刈り」を意味します。重要度の低い結合を削ることで、パラメータ数を削減します。これに加えて「量子化(重みのビット数を落とす)」などの手法を組み合わせることで、深層学習モデルを劇的に軽量化することが可能です。