AI-Pass 第3章 現在の生成AI の動向

生成AIが出来ることと主なサービス

キーワード
  • 画像のリサイズ
  • 正規化
  • データの水増し(augmentation)
  • データ拡張技術
  • リマスタリング
  • Claude
  • Gemini
  • Sora
  • 自己回帰モデル
  • Veo3
  • ディープフェイク(深層偽造)技術
  • 偽情報(ディスインフォメーション)
  • RAG(Retrieval-Augmented Generation)
  • チャンク
  • ベクトルデータベース
  • AIエージェント
  • GenSpark
  • Manus
  • Skywork AI
  • MCP

テキスト生成AI

  • テキスト生成AIとは、大規模言語モデル(LLM)を基盤とし、自然言語処理技術と機械学習によって大量のテキストデータから単語や文脈の関係性を学習し、入力に応じて自然な文章を生成するAIである
  • 代表的なサービスには ClaudeGemini などがある
  • 多くのテキスト生成AIは、前の単語から次の単語を予測する 自己回帰モデル を採用している
NLP(自然言語処理)
  • 人間が日常的に使用する言語(自然言語)をコンピュータが理解・解析・生成できるようにする技術分野である。

メリットとデメリット

  • メリット
    1. 作業効率の向上
    2. 内容の補完と拡張
    3. 言語の自然さと一貫性
    4. アイデアの創出
    5. プログラミングコードの生成・修正
  • デメリット
    1. 儀情報や誤った情報の生成
    2. 偏見や差別的の表現の生成
    3. 論理的な使用
    4. モデルの制約
    5. データプライバシーとセキュリティ

AIとの関係

画像生成AI

  • 画像生成AIとは、テキストや既存画像などを入力として、新しい画像を自動生成するAIである

画像生成AIの代表的モデル

  1. GAN(敵対的生成ネットワーク)
  2. VAE(変数オートエンコーダー)
  3. Diffusion Model(拡散モデル)
  1. GAN(Generative Adversarial Network)
    • 生成器(Generator)と識別器(Discriminator)が競い合う構造
    • 本物に近い画像を生成できる
    • 初期の高品質画像生成を牽引
    • 【特徴】
      • シャープでリアルな画像
      • 学習が不安定になりやすい
  1. VAE(Variational Autoencoder)
    • エンコーダとデコーダで構成
    • データの特徴を確率分布として学習
    • 滑らかで連続的な生成が可能
    • 【特徴】
      • 安定して学習しやすい
      • ややぼやけた画像になりやすい
  1. Diffusion Model(現在の主流)
    • ノイズから徐々に画像を復元する
    • 高品質で安定した生成
    • 現在の主流手法

前処理

  • インターネット上にある大量の画像データを収集し、収集した画像は前処理をしてモデルに適した形式に変換する
  • 一般的な前処理の手法
    1. 画像のリサイズ
    2. 正規化
    3. データの水増し

メリットとデメリット

  • メリット
    1. 創造性と多様性の促進
    2. 自動化と効率性の向上
    3. データの補完と拡張
    4. プロトタイプの生成とデザインの検証
    5. クリエイティブな支援
  • デメリット
    1. 偽の情報や不適切な画像の生成
    2. バイアス(偏り)の影響
    3. プライバシーとデータの使用
    4. 制作物の信頼性
    5. 著作権の問題

音楽生成AI

  • ・音楽生成AIは、学習データをもとに新しい音楽を生成する技術
  • ・既存の音楽のパターンや構造を学習し、指示や条件に応じた楽曲を自動生成する
  • ・音楽はシーケンスデータであり、その処理にはRNNなどの時系列モデルが用いられてきた
  • ・現在の主流は「Transformer」や「拡散モデル」である

メリットとデメリット

  • メリット
    1. クリエイティビティの拡大
    2. インスピレーションの支援
    3. 時間と労力の節約
    4. アクセシビリティの向上
    5. イベントでの活用
  • デメリット
    1. 著作権とライセンスの尊重
    2. 論理的な問題
    3. 人間の感情とのリンク
    4. データのプライバシー

音声生成AI

  • 音声生成AIとは、テキストや条件をもとに人間の声のような音声を生成する技術である。
  • 生成技術
    • OpenAIのTTS(Text-to-Speed)
      • テキストを自然な音声へ変換する技術
      • 読み上げ、ナレーションに利用
    • Eleven Labs
      • 少量サンプルから声色を再現できる高品質なTTS
  • 大量の音声データを学習し、発音・イントネーション・アクセントなどの特徴を再現できる。
  • 音声はシーケンスデータ(時系列データ)であり、時間的な連続性を考慮して生成される。
  • 学習には教師あり学習が用いられることが多い。
  • 学習データの多様性を高めるために、データ拡張技術(周波数の変更、音程の変更、ノイズ付加など)を活用する。
  • 近年は深層学習(RNN、Transformer、拡散モデルなど)が利用されている。

メリットとデメリット

  • メリット
    • パーソナライズされた音声体験
    • 言語の克服
    • アクセシビリティの向上
    • コンテンツの拡張と創造性
    • リアルタイムの応答
    • 音声分析の応用
  • デメリット
    • 自然さや質感の限定性
    • 意図の誤解や誤った情報の伝達
    • トレーニングデータの影響
    • プライバシーやセキュリティの懸念
    • 偽造や悪用のリスク

動画生成AI

  • 動画生成AIとは、テキストや画像などの入力をもとに、動きのある映像を自動生成する技術である
  • 動画は時間的に連続するフレームの集合であり、各フレーム間の時間的な整合性を保ちながら生成する必要がある
  • 画像生成AIと同様に、GANやVAEなどの生成モデルが利用されてきたが、近年は拡散モデルやTransformerベースの手法が主流となっている。
  • 動画生成では、単なる画像生成とは異なり、フレーム間の動き(時間的連続性)を学習する必要がある
  • 代表的な動画生成AIには、OpenAIの Sora や、Googleの VeoVeo3など)がある
  • 動画生成AIは映像コンテンツの雰囲気に合った映像を生成する技術であり、音楽は挿入されない(音声は別の生成技術による)
Sora
  • 高品質で最長1分間の動画を生成できるAIとして大きな注目を集めた
Veo3
  • 超高精細映像を生成、環境音やセリフ等の音声も同時合成できる

メリットとデメリット

  • メリット
    • 拡張と保管
    • 複雑な効果の生成
    • 再利用とリマスタリング
    • リアルタイム生成
    • シナリオのテストと予測
    • プライバシーとセキュリティ
    • 教育と研究
  • デメリット
    • データの品質と多様性
    • 著作権と倫理
    • データのプライバシーとセキュリティ
    • 誤情報や誤解のリスク
    • 適切な利用範囲と目的
リマスタリング
  • 既存の音声や映像データを再処理して、品質を向上させる技術である

ディープフェイク(深層 偽造)技術

ディープフェイクとは

  • ディープフェイクとは、ディープラーニングや生成AIを利用して、本物と見分けがつかないほどリアルな偽の画像・映像・音声などを生成し、人を欺く可能性のある技術である
  • ディープフェイクは、偽情報(ディスインフォメーション)の拡散に悪用される可能性がある。
  • 主にGAN(敵対的生成ネットワーク)などの生成モデルが利用されてきたが、近年は拡散モデルなども用いられている
  • AIを活用した検出技術も開発されているが、生成技術との「いたちごっこ」の状態であり、見抜くことは容易ではない
  • 肖像権・著作権・名誉毀損などの法的問題が関係するが、技術の進展に対して法整備は十分とはいえない状況である
偽情報(ディスインフォメーション)
  • 意図的に作られた虚偽情報のこと

ディープフェイクによる事件

  1. ディープフェイクボイス詐欺事件
  2. フェイススワッピング詐欺事件
  3. フェイク画像による事件
  • 【対策】
    • 技術的な検出手法の強化だけでなく、利用者自身のリテラシー向上が重要
    • 特に、偽情報に騙されないための情報リテラシーや複数の情報源による事実確認(ファクトチェック)の習慣が求められる

RAG

RAGとは

  • RAGとは、外部情報を検索してから文章生成を行うことで、LLMの精度や信頼性を向上させる手法である
  • 【特徴】
    • 最新情報に対応可能
    • 企業内部文書などの活用が可能
    • ハルシネーションを抑制できる

RAGの歴史と発展

  1. 深層学習革命と言語モデルの発展(2010年代)
  2. RAG概念の正式提案(2020年)
  3. 技術的基盤の整備と改良(2021年~2022年)
  4. 商品化と大衆化の波(2023年~現在)
  5. エンタープライズ市場での普及
  6. スタートアップエコシステムでの活用

RAGの仕組み

  1. チャック分割:文書を小さな単位(チャンク)に分割
  2. ベクトル化:チャンクをベクトル化(数値表現)、ベクトルデータベースに保存、ユーザーの質問もベクトル化
  3. 検索・生成:類似度検索で関連チャンクを取得、取得した情報をLLMに渡して回答生成

メリット

  1. 情報の鮮度と正確性の向上
  2. 専門知識と企業固有情報への対応
  3. コスト効率と運用の柔軟性
  4. 透明化と説明可能性の向上

RAGのユースケース

  1. 企業での包括的活用事例
    • 顧客サポート自動化(FAQ・チャットボット)
    • 社内ナレッジ検索
  2. 教育分野での包括的改革
    • 個別適応学習システム(学習進度に応じた問題生成)
    • 自動教材生成(要約・問題作成)
    • 学習支援チャットボット
  3. 製造業での生産性革命
    • 設備保全の最適化(異常検知・予測保全)
    • 品質管理の高度化(画像解析・不良検出)
    • サプライチェーン最適化(需要予測・在庫最適化)
    • 調達戦略支援(データ分析による意思決定支援)
チャンク
  • 長文を検索しやすいように分割したテキスト単位。
ベクトルデータベース
  • テキストを数値ベクトルに変換し、意味的な類似度検索を行うためのデータベース

AIエージェント

AIエージェントとは

  • AIエージェントとは、目的達成のために自律的に判断・行動を行うAIシステムである
  • 単に文章を生成するだけでなく、状況を判断し、必要な処理を実行する点が特徴
  • 目標の分析・分解→計画立案→計画実行→評価→改善

AIエージェントのタイプ

  • ワークフロー型
    • 手順が明確で変更頻度も低い作業に適する
  • 自立型
    • 状況が流動的で情報源が多岐にわたる作業に適する

AIエージェントの仕組み

  1. ルーティング
  2. 並列化
  3. オーケストレーター/ワーカー
  4. 評価者/最適化

AIエージェントのツール事例

  • OpenAI Operator
    • ブラウザ上でフォーム入力やネット通販、資料作成などの繰り返し作業を自動化できるエージェント
  • GenSpark スーパーエージェント
    • 「AIsSlides」「AI Sheets」「AI Call For Me」などの多彩な機能を1つに統合したオールインワン型エージェント
  • Manus
    • クラウド上で非同期で動作し、人手を介さずに複雑なオンライン業務を遂行するシンガポール発の汎用エージェント
  • Skywork AI
    • シンプルな指示からレポート、スライド、スプレッドシート、ポッドキャストまで多モーダルなコンテンツを生成する「ワークスペース型」エージェント

MCPと外部連係

  • MCP(Model Context Protocol)とは、AIモデルと外部ツール・外部データ・実行環境を安全かつ標準化された方法で接続するためのプロトコル(接続規格)である
  • Anthropicが提唱した仕様であり、AIモデルが外部APIと連携する際の通信方式としてJSON-RPCを採用している
  • AIエージェント時代において、モデルと外部環境をつなぐ「橋渡し役」となる技術であり、モデルとツールの接続を共通化する点から「USB-CのAI」とも呼ばれる

コメント