ナレッジ

2025.09.18記事：HQW!編集部

生成AIの種類一覧。文章や画像など、できること別にサービスを紹介

生成AI ディープラーニングトランスフォーマー AIコラム

生成AIとは
生成AIができることの種類
【文章生成】生成AIサービスの種類
【画像生成】生成AIサービスの種類
【動画生成】生成AIサービスの種類
参考：生成AIの言語モデルの種類
生成AIを活用するときのポイント・注意点
生成AIの選び方と今後の展望

生成AIは、文章や画像、音声、動画など多様なコンテンツを自動で生み出すAI技術です。最近では、専門知識がなくても扱えるサービスが増え、ビジネスや教育の現場でも活用が進んでいます。

この記事では、生成AIの基本的な仕組みから、用途別に代表的なサービスの特徴や料金を紹介します。また、目的に合った生成AIを見つけたい方に向けて、選び方のヒントも分かりやすく解説します。

生成AIとは

「ChatGPT」や「Midjourney」といったサービスの登場により、「生成AI（Generative AI）」という言葉を目にする機会が増えると共に日常生活での利用も広がってきています。

生成AIとは一体どのような技術なのか。従来のAIと何が違うのか。まずはその基本的な仕組みや考え方を押さえておきましょう。

生成AIの定義

生成AIとは、膨大なデータを基に、文章や画像、音声、動画などの新しいコンテンツを自動で作り出す人工知能(Artifical Interigence)のことです。

現在のAIは第3.5世代にあるとされていますが、それ以前のAIは「分類」や「予測」のように、既存の情報を分析するのが主な役割でした。今の生成AIは「新たなコンテンツを生成する」ことができるまでに進化しています。この点が、これまでの「識別型AI」と呼ばれる入力されたデータが「どのカテゴリに当てはまるか」を分類・判別する過去のAIとの大きな違いと言ってよいでしょう。

生成AIの仕組み

生成AIの中核には、ディープラーニング（深層学習）と呼ばれる技術が使われています。代表的なものに「Transformer」というアーキテクチャがあり、これは大規模な言語モデルの基盤となっています。

図2：Transfomerについて　東京大学　松尾・岩澤研究室「LLM 大規模言語モデル講座2024講義」資料から引用

例えば、文章生成ではAIが次に続く単語を高い精度で予測しながら文章を生成します。画像や動画の分野では、「拡散モデル」や「GAN（敵対的生成ネットワーク）」といった方式が用いられ、ノイズから写実的な映像を構築する手法などが主流となっています。

生成AIができることの種類

生成AIは、さまざまな形式のコンテンツを生み出す技術です。ここでは、代表的な活用分野とその特徴を分野ごとに整理して紹介します。

文章生成

文章生成は、生成AIの代表的な用途の一つです。

ブログ記事やメール、要約文、説明資料、さらには小説や脚本まで、あらゆる形式のテキストを出力できます。多くのモデルは、Transformerベースの大規模言語モデル（LLM）で構成されており、人間のような自然な語り口や文脈の一貫性を持たせることが可能です。

日本語を含む多言語対応が進んでいる点も特徴となります。

画像生成

画像生成では、テキストで指示した内容に基づいて、イラストや写真風の画像をAIが作成します。

特定の絵柄や構図、スタイルの指定が可能です。クリエイティブ分野やマーケティング用途での導入が進んでおり、近年では商用利用に配慮されたサービスも増えています。

動画生成

動画生成AIは、画像やテキストを入力として、短い映像やアニメーションを自動で合成する技術です。1枚の画像から動きを加えたり、プロンプトに沿ったストーリー性のある映像を作ったりすることも可能です。

プロモーション動画やeラーニング素材の制作などで活用されており、編集作業の簡略化や制作工数の削減にも役立っています。

音声・音楽生成

テキストを読み上げる合成音声から、AIによる楽曲の作曲まで、音に関する生成技術も多様化しています。音声生成は、ナレーションやキャラクターのボイス制作に使われており、声質や感情表現を細かく調整できる点が魅力です。

音楽生成では、ジャンルや雰囲気を指定してBGMや効果音を自動で生成するなど、映像制作やゲーム開発との相性が良いです。

プログラムコード生成

コード生成は、AIがプログラムのソースコードを提案・自動補完してくれる技術です。PythonやJavaScriptなどの主な言語に対応しており、モジュールの作成やリファクタリング、単体テストの自動作成まで幅広く対応しています。

開発効率の向上が期待される一方で、セキュリティや品質面での注意も求められます。

データ分析・要約

データ分析や要約の分野では、大量のテキストや表データを基に、主要ポイントの抽出やグラフ作成、文章要約などを自動で行うことが可能です。特に、日報の整理、議事録の要約、調査レポートの構成支援など、情報の取捨選択と再構築を要する業務での活用が進んでいます。

分析の正確性を担保するためには、入力データの質や量も重要となります。

【文章生成】生成AIサービスの種類

文章生成AIには、文章の自動作成だけでなく、要約、翻訳、資料構成、チャット対話など、幅広い機能が搭載されています。

ここでは主要4サービスを紹介し、それぞれの強みや特徴を見ていきます。

なお、個人利用と法人利用とは料金は異なるため、導入を検討されている方はご自身でも確認してください。

サービス名	料金（月額/税込）	無料プラン	日本語対応	特徴・強み
ChatGPT（OpenAI）	Plus：$20 / Pro：$200	あり	◎	高精度・マルチモーダル・拡張性
Gemini（Google）	Pro：¥2,900 / Ultra：¥36,400	あり	◎	Google連携・大規模データ処理
Claude（Anthropic）	Pro：$20 / Max 5x：$100 / Max 20x：$200	あり	◎	長文処理・倫理性・Artifacts機能
Llama-3-ELYZA-JP（ELYZA）	無料（8B版）	あり	◎	日本語特化・商用利用可

※2025年8月時点

ChatGPT

OpenAIが開発した大規模言語モデルで、2025年5月にGPT‑4.1が登場し、最大100万トークンの処理が可能となりました。文章生成にとどまらず、画像・音声・コードの処理やファイル要約など、マルチモーダルに対応している点が特徴です。2025年8月にはGPT-5が発表されました。

ChatGPTは、API連携やプラグイン拡張も豊富で、あらゆる用途に応じた柔軟な運用が可能です。

Gemini

Googleが開発するGeminiは、旧Bardを基盤に進化した言語モデルで、2025年8月現在は2.5Proまで公開されています。Google検索、Gmail、ドキュメントと連携し、最大200万トークンの長文処理にも対応。仕事効率化との親和性が高く、日常業務との統合性を重視するユーザーに選ばれています。

Claude

Anthropicが開発したClaudeは、倫理性と安全性を重視した設計が特徴です。

2025年8月時点でClaude Opus 4.1もしくはClaude Sonnet 4では長文の読解と生成がさらに強化され、最大20万トークンの処理も可能とされています。

また、Artifactsと呼ばれる視覚出力機能により、文書や構造情報のやり取りも容易です。

Llama-3-ELYZA-JP

MetaとELYZAが共同開発したオープンソースモデルです。8B版は誰でも無料で利用でき、商用利用にも対応。特に日本語環境への最適化が進んでおり、国産LLMとして安定した文脈理解が強みとされています。

ローカル環境や独自システムへの組み込み用途でも注目されています。

【画像生成】生成AIサービスの種類

画像生成AIは、プロンプトと呼ばれるテキスト指示に基づき、高精度なイラストや写真風画像を自動で描き出す技術です。商業デザインからSNS投稿まで幅広く使われており、それぞれのサービスが異なる強みを持っています。

サービス名	料金（月額/税込）	無料プラン	日本語対応	特徴・強み
Midjourney	$10〜	なし	△	アート性の高いビジュアル生成
Stable Diffusion	無料	あり	◯	オープンソース・ローカル実行対応
Adobe Firefly	CC加入要	あり	◎	Photoshop連携・著作権対応
Leonardo.ai	$10〜	あり	◯	写真風生成・高コスパ

※2025年8月時点

Midjourney

Midjourneyは、芸術的なスタイル表現に強みをもつ画像生成AIです。操作はDiscord上で行い、プロンプトに対して直感的な画像が次々に出力されます。人物や風景、幻想的な構図にも対応しており、SNSやポートフォリオ向けの作品づくりに利用されています。

無料プランは廃止され、現在は有料プランのみ提供されています。

Stable Diffusion

Stable DiffusionはStability AIが提供するオープンソース型の画像生成モデルで、無料で利用できる点が大きな魅力です。ローカル環境での実行にも対応しており、独自の学習モデルやUIを追加してカスタマイズするユーザーも多くいます。生成品質と拡張性のバランスに優れた汎用性の高いモデルです。

Adobe Firefly

Adobe Fireflyは、Adobe Creative Cloudと連携する形で提供される生成AIです。PhotoshopやIllustratorとの連動により、生成した画像をそのままデザイン作業に活用できます。商用利用に配慮された著作権処理も特徴で、クリエイターや企業ユースでも安心して利用できます。

Leonardo.ai

Leonardo.aiは、写真のようなリアル系画像生成を得意とするサービスです。無料枠もあり、低価格ながら高精度な出力が可能な点から、急速にユーザー数を伸ばしています。プロンプトごとのスタイルプリセットや編集機能も充実しており、広告素材やWebコンテンツ制作にも向いています。

【動画生成】生成AIサービスの種類

動画生成AIは、テキストや画像から短い映像を生成できる技術として急速に進化しています。

広告動画やプレゼン資料、SNS向けのコンテンツ制作など、少ない素材で高品質な映像を作れるのが特徴です。

なお、料金は以下は年間プランとなります。プランにより料金は変動しますのでご注意ください。

サービス名	料金（月額/税込）	無料プラン	日本語対応	商用利用	特徴・強み
Sora（OpenAI）	Plus：$20 / Pro：$200	なし	◯	◯	最大20秒・高精度なテキスト動画生成
Runway Gen-4	$12〜	あり	△	◯	高品質映像・動画編集も対応
Luma Dream Machine	$6.99〜	あり	◯	◯（Plus以上）	高画質・3D視点対応・API提供

※2025年8月時点

Sora

OpenAIが開発したSoraは、自然言語の指示から直接、最大20秒の高精度な動画を生成できるサービスです。映像の一貫性と現実感が評価されており、Proプランでは1080p出力や透かしなし機能にも対応。実験的な段階ながら、将来の動画制作に大きな影響を与える存在です。

Runway Gen-4

Runwayは、クリエイター向けの動画生成ツールとして定評があります。テキストからの映像生成だけでなく、既存動画の変換や編集機能も充実しており、アニメ調から実写風まで幅広いスタイルに対応。ブラウザ完結型の手軽さも魅力です。

Luma Dream Machine

Lumaが提供するDream Machineは、高精度な3D的視点と滑らかなカメラワークを特徴とする動画生成AIです。

Web・iOS対応に加えてAPIも提供されており、商用利用にも積極的。リアルな映像表現を求めるユーザーに人気が広がっています。

参考：生成AIの言語モデルの種類

生成AIの中核を担うのが「大規模言語モデル（LLM：Large Language Model）」です。LLMは、大量のテキストを学習し、人間のような自然な文章を出力する仕組みで、文章生成AIやチャットボットの基盤として使われています。

ここでは、2025年8月時点で主要なモデルを一覧で紹介します。

モデル名	開発元	最大トークン数	日本語対応	商用利用	主な特徴
GPT‑5	OpenAI	API:400K/Chat:256K	対応	◯	高精度・マルチモーダル・超長文処理対応
Gemini 2.0	Google	1M	対応	◯	長文処理・Googleサービスと連携
Claude 4	Anthropic	一般:64K/企業:1M	対応	◯	倫理性・長文対応（20万トークン）・Artifactsによる視覚的出力対応
Llama‑3‑ELYZA‑JP(8B)	Meta / ELYZA	8K(推定)	高精度	◯	日本語特化モデル。商用利用可・ローカル展開可能
DeepSeek‑V3	DeepSeek	非公開	対応（推定）	◯（推定）	無料公開・日本語強化