AI-Pass 第2章生成AI ②

生成AIパスポート

2026.02.152026.02.25

GPTシリーズ（基盤モデルの進化）

キーワード

ChatGPT
GPT-1
自然言語処理（NLP）
GPT-2
パラメータ
GPT-3
InstructGPT
GPT-3.5
GPT-4
データセット
RLHF（ Reinforcement Learning from Human Feedback）
アライメント（Alignment）
ファインチューニング
ハルシネーション（Hallucination）
マルチモーダル

GPTシリーズ

GPTシリーズとは、OpenAIが開発した、Transformerアーキテクチャ（主にDecoder構造）を基盤とする自己回帰型の大規模言語モデル（LLM）の総称である。
GPT-1 → GPT-2 → GPT-3 → GPT-3.5 → GPT-4 と進化
【特徴】
- 大規模なテキストデータセットを用いて事前学習を行う
- 前の単語を基に次の単語を予測する自己回帰型モデル
- バージョンごとにパラメータ数や性能が向上
- 自然な文章生成や多様な言語タスクに対応可能

BreakTime

GPTシリーズでいう「パラメータ」とは
- モデルが学習によって調整する数値（重みなど）のこと
- ニューラルネットワークでは、単語と単語の関係性を数値で表現しており、その数が多いほど複雑なパターンを表現できるようになる
- そのため、パラメータ数の増加は、モデルの表現力や性能向上と密接に関係している

GPT-1

GPT-1は、2018年にOpenAIが発表した、TransformerのDecoder構造を基盤とする自己回帰型言語モデル
大規模なテキストデータセットで事前学習を行い、特定タスクにファインチューニングする枠組みを提示
自然言語（NLP）生成タスクに応用可能
弱点
- モデル規模が小さく、長期的な文脈を保持する能力が限定的
- 複雑な対話や長文生成には限界があった

GPT-2

GPT-2は、2019年にOpenAIが発表した、GPT-1を大規模化した自己回帰型の大規模言語モデル
パラメータ数を大幅に増加（約15億）し、より自然で一貫性のある文章生成が可能となった
悪用リスクを懸念し、当初は学習済みモデルの完全公開が見送られた

GPT-3

GPT-3は、2020年にOpenAIが発表した、パラメータ数を大幅に増加させた大規模言語モデル
パラメータ数が大幅に増加し、より高度な自然言語処理（NLP）が可能となった
追加の学習（ファインチューニング）を行わなくても、多様な自然言語処理タスクに対応できる
一方で、外部データベースに直接アクセスする機能は持たず、学習済みの知識に基づいて応答する
多くの攻撃的な内容や間違った情報を生成する言語モデルが出来上がる可能性があるため、2022年1月この問題を解決すべくInstructGPTがリリースされた

InstructGPT

InstructGPTは、GPT-3を人間の指示に従いやすいように調整したモデルであり、RLHF（人間のフィードバックによる強化学習）を活用してアライメントを向上させた。

GPT-3.5

GPT-3.5は、GPT-3を改良し、InstructGPTの流れを取り入れてアライメントを強化した大規模言語モデルであり、対話性能を大きく向上させたモデル
【特徴】
- GPT-3をベースに改良
- RLHF（人間のフィードバックによる強化学習）を活用
- 人間の指示に従いやすい設計（アライメント強化）
- 対話形式での応答精度が向上
- ChatGPT（2022年公開）の基盤モデル

アライメント

AIの出力を人間の意図や価値観に沿うように調整すること

ファインチューニング（Fine-tuning）

事前学習済みのモデルを、特定の目的やタスクに適応させるために追加学習を行い、性能を調整すること

RLHF

RLHF（Reinforcement Learning from Human Feedback）とは、人間の評価やフィードバックを用いてAIモデルを強化学習により調整する手法

ChatGPTの誕生

ChatGPTは、OpenAIが2022年に公開した対話型の生成AIサービスであり、GPT-3.5などの大規模言語モデル（LLM）を基盤とし、RLHFによってアライメントを強化することで高い対話性能を実現した
ChatGPTは、事前学習(≒教師なし学習に分類)とファインチューニングを経て訓練されたモデルを基盤としている。
ここでいう「ファインチューニング」には、人間のフィードバックを用いた強化学習（RLHF）も含まれる

GPT-4

GPT-4は、2023年にOpenAIが発表した大規模言語モデルである
GPT-3.5と比較して推論能力や正確性が大幅に向上し、ハルシネーション（誤った情報の生成）が減少するとともに、マルチモーダルに対応し、テキストと画像の入力を扱うことが可能となっ
多言語の文章生成精度が向上した（より自然な日本語の応答が可能となった）
アメリカの司法試験で上位10%に入る成績を収めたことが報告されている

※ GPT-4は、基本的に2021年前後までの情報を学習したモデルであり、ChatGPTで使われる場合は追加調整により2023年前半頃までの知識が反映されていることがある

ハルシネーション（Hallucination）

生成AIが、事実ではない情報や根拠のない内容を、もっともらしく生成してしまう現象

ChatGPTの進化（サービス展開）

キーワード

Code Interpreter
GPTs
GPT-4o
GPT-o1
GPT-o3
GPT-o4
GPT-4.1
GPT-5
Sora
Operator
Codex
Image Generation

ChatGPTの進化

ChatGPTは進化を続けており、データ解析機能の追加、カスタマイズ機能の拡張、推論能力の向上、さらには最新のマルチモーダル対応へと発展している

Code Interpreter（データ解析機能）

Code Interpreterは、2023年にリリースされたChatGPTの拡張機能であり、Pythonコードを自動生成して実行できる機能である。
データ分析や計算処理、ファイル操作などが可能となった
現在の名称：「Advanced Data Analysis」

GPTs

GPTsは、2023年にOpenAIが発表した、特定の役割や目的に応じて独自の指示や知識を組み込んだカスタムChatGPTを作成できる機能である。
作成したGPTはGPT Storeで公開できるほか、URLを通じて共有することも可能である。

GPT-4o

GPT-4oは、2024年にOpenAIが発表したオムニモーダル対応の大規模言語モデル
テキスト・画像・音声を統合的に処理できる
「o」は『omni（全て）』を意味する
【特徴】
- テキスト、画像、音声を一体的に処理可能
- リアルタイム応答が可能（高速化）
- 人間の応答時間に非常に近い速度で自然な音声対話を実現
- GPT-4相当の高い推論能力

GPT-o1

o1は、2024年に発表されたOpenAIの「oシリーズ（推論モデル）」の1つで、『回答の前により長く考える（reasoning）』よう設計されたモデル
複雑な問題（数理・科学・コードなど）に強い一方、通常モデルより計算時間が増えやすい（遅くなりやすい）

GPT-o3

GPT-o3は、2024年に発表され、2025年にリリースされたOpenAIの推論モデル（reasoning model）である。数学・科学・コーディングに加え、視覚（画像）を含む推論に強い
OpenAIはo3を「最も強力な推論モデル」と位置づけ、複雑で多段の思考が必要な問題に向くとしている
モデルには3種類があり、用途や性能に応じて使い分ける
- o3-mini
- o3
- o3-pro

GPT-o4（o4-mini）

o4-miniは、2025年に発表されたOpenAIの「推論モデル（reasoning model）」の小型モデルで、高速・低コストでの推論に最適化された
数学・コーディング・視覚（画像）タスクで高い性能を発揮する、と説明されている
【特徴】
- 推論に最適化（高速・効率重視）：小型でコスト効率を重視した設計
- 視覚（画像）にも対応：テキストだけでなく画像入力を扱える
- ツール活用と相性が良い：OpenAIの説明では、推論＋ツール（例：Python等）で成果が伸びる方向が強調されている
モデルは２種類
- o4-mini
- o4-mini-higt
位置づけ（o3との関係）
- o3：推論モデルの「強力版」
- o4-mini：推論モデルの「高速・省コスト版」（用途やコストで使い分けるイメージ）

GPT-4.1

GPT-4.1は、GPT-4系の改良版として2025年に発表された大規模言語モデルであり、コーディング能力や長文理解能力の向上を特徴とするモデルである
モデルには3種類があり、用途や性能に応じて使い分ける
- GPT-4.1
- GPT-4.1 mini
- GPT-4.1 nano
【主な特徴】
- GPT-4よりもコーディング性能が向上
- 長いコンテキスト（長文）への対応能力が強化
- 指示理解の精度が向上
- 実用用途（API利用など）での最適化
【位置づけ】
- GPT-4 ：汎用高性能モデル
- GPT-4.1 ：より実用・開発用途に最適化された改良版
【oシリーズとの違い】
- o3 / o4 ：推論特化モデル
- GPT-4.1 ：汎用型の高性能モデル

GPT-5

GPT-5は、2025年に公開されたGPTシリーズの次世代モデルであり、従来モデルよりも推論能力や汎用性のさらなる向上が図られている大規模言語モデル
【ポイント】
- GPT-4系の後継モデル
- より高度な推論能力
- マルチモーダル能力の強化
- 安全性やアライメントのさらなる改善
【GPT-5の4つのモード】
- Auto
  - 状況に応じて最適な処理を自動選択するモード
- Instant(GPT-5)
  - 応答速度を重視した高速モード
- Thinking
  - より深い推論を行うモード
- Pro
  - 高度な処理能力を最大限に活用する高性能モード

Sora

Soraは、OpenAIが発表したテキストから動画を生成する生成AIモデルである
Transformerアーキテクチャを採用した拡散モデル
【主な特徴】
- テキスト入力から高品質な動画を生成可能
- 複雑なシーンや動きのある映像を表現できる
- 物理的な動きや時間的変化を考慮した動画生成が可能
- 長時間の動画生成に対応

Operator

Operatorは、OpenAIが発表したAIエージェントであり、ユーザーの指示に基づいてWeb操作などのタスクを自動で実行するサービス
【主な特徴】
- Webブラウザを操作可能
- フォーム入力、予約、検索などの作業を実行
- ユーザーの代わりにタスクを遂行
- 指示に基づき複数ステップの作業を自律的に処理
【これまでのChatGPTとOperatorの違い】
- これまでのChatGPT：
  - 質問に答える、文章を生成する
- Operator：
  - 実際に「行動する」、Web上で作業を実行する
- 対話型AI → 行動型AI（AIエージェント）への拡張
【位置づけ整理】
- モデルではない
- ChatGPTの拡張でもない
- AIエージェントサービス

Codex

Codex は、OpenAI が開発した AI コーディングエージェントであり、自然言語の指示を理解してソフトウェアコードを生成したり、修正・テスト・レビューまで実行できるモデル
【主な特徴】
- 自然言語からコードを生成する
  - 「〜を実現するコードを書いて」と指示するとコードを提示する
- 既存コードの修正やバグ検出・テスト・レビューも可能
  - ソフトウェア開発ライフサイクル全体を支援する
- ファイル読み込み・コードの編集・ツール実行ができる
  - 生成だけでなく、実行や動作検証にも対応
- Cloud 環境や IDE、CLI など複数の方法で利用可能
  - ChatGPT からだけでなく専用アプリでも利用できる

Image Generation

Image Generationとは、テキストなどの入力に基づいて画像を生成する生成AI技術
2025年にOpenAIが公表した新しい画像生成手法として位置付けられている
従来の拡散モデルとは異なり、自己回帰モデルを採用
文字や細い線を含む複雑なレイアウトでも画像が崩れにくい
画像をトークン（パッチなど）として扱い、左上から右下へ順番に描いていく方式

自己回帰モデル

前に生成した出力をもとに、次の要素を順番に予測するモデル

コメント