Kandinsky

テキストから画像・動画を生成するAIモデル群。最新のKandinsky 5.0ではImage Lite(6B)、Video Lite(2B)、Video Pro(19B)の3モデルを提供。HD画質(1280×768)の画像生成、最大10秒のSD動画(768×512、24fps)生成、HD動画(1280×768、24fps)生成に対応。英語・ロシア語プロンプトをサポートし、テキスト描画精度が高い。Flow Matchingベースの新アーキテクチャを採用。

日本語ナレーション

日本語UI

日本語字幕

料金（最安）

不明

無料プラン

なし

API

なし

Kandinsky を公式サイトで見る →

Kandinskyとは

Kandinskyは、ロシアのAI研究機関が開発したオープンソースのマルチモーダル生成AIモデル群です。最新バージョンのKandinsky 5.0では、画像生成に特化したImage Lite（6Bパラメータ）、短尺動画生成のVideo Lite（2Bパラメータ）、高品質動画生成の**Video Pro（19Bパラメータ）**という3つのモデルを提供しています。

Flow Matchingという新しいアーキテクチャを採用することで、従来のDiffusionモデルよりも高速かつ高品質な生成を実現。特にテキスト描画精度が高く、画像内に正確な文字を配置できる点が特徴です。HD画質（1280×768）の静止画や、最大10秒間のSD・HD動画（24fps）を生成可能で、英語とロシア語のプロンプトに対応しています。

どんな人におすすめか

Kandinskyは、技術的な知識を持つクリエイターや研究者に適したツールです。オープンソースで公開されているため、自前のサーバーやローカル環境で動作させたい開発者、既存のワークフローに組み込みたいエンジニア、最新のAI技術を研究したい学術関係者に向いています。商用クラウドサービスに依存せず、独自にカスタマイズしながら使いたい上級ユーザー向けと言えるでしょう。

他の動画生成AIとの違い

Kandinskyの最大の特徴は、オープンソースかつ多言語対応（特にロシア語）という点です。多くの商用AIツールが英語中心なのに対し、ロシア語圏のユーザーにもネイティブに対応。また、テキスト描画能力の高さは、ポスターやロゴを含む画像・動画制作で優位性があります。ただし、WebUIは提供されておらず、技術的なセットアップが必要なため、一般ユーザーよりも開発者向けのソリューションです。

こんな使い方ができる

ロシア語圏向けのマーケティング動画やSNSコンテンツの自動生成
テキストやロゴを含む商品プロモーション画像・動画の制作
研究機関での画像生成アルゴリズムの比較実験とベンチマーク
独自のAIアプリケーションに組み込むための動画生成エンジン
ローカル環境でプライバシーを保ちながら企業内コンテンツを制作
オープンソースモデルのファインチューニングによる特定分野への最適化

◯ メリット

・オープンソースで無料利用可能、自前サーバーでの運用により課金を気にせず大量生成できる
・英語だけでなくロシア語プロンプトにネイティブ対応し、多言語コンテンツ制作に有利
・テキスト描画精度が高く、画像内に正確な文字やロゴを配置できる
・3つの異なるモデル（Image Lite、Video Lite、Video Pro）で用途に応じた選択が可能
・Flow Matchingアーキテクチャにより高速かつ高品質な生成を実現

△ 注意点

・WebUIや簡単なインターフェースがなく、技術的なセットアップとプログラミング知識が必須
・日本語プロンプトには非対応のため、英語またはロシア語での入力が必要
・動画生成は最大10秒と短く、長尺コンテンツ制作には不向き

よくある質問

Kandinskyは無料で使えますか？

オープンソースモデルとして公開されているため、ソフトウェア自体は無料で利用できます。ただし、モデルを動作させるための計算リソース（GPUサーバーなど）は自前で用意する必要があり、そのインフラコストは発生します。

日本語のプロンプトで動画を生成できますか？

現在、Kandinskyは英語とロシア語のプロンプトに対応していますが、日本語には正式対応していません。日本語で使用する場合は、事前に英語へ翻訳してからプロンプトを入力する必要があります。

Kandinskyを使うにはどんな技術スキルが必要ですか？

PythonやGitの基本知識、機械学習モデルの実行環境構築（CUDA、PyTorchなど）に関する理解が必要です。また、GPUメモリ管理やモデルのロード方法など、ある程度の技術的な経験が求められます。初心者向けのGUIツールではありません。

生成できる動画の長さと解像度は？

Video Liteモデルでは最大10秒のSD動画（768×512、24fps）、Video Proモデルでは最大10秒のHD動画（1280×768、24fps）を生成できます。現時点では10秒を超える動画は生成できないため、短尺コンテンツに特化しています。

商用利用は可能ですか？

オープンソースとして公開されていますが、具体的なライセンス条件は公式リポジトリで確認する必要があります。商用利用を検討する場合は、必ずライセンス規約を事前に確認し、必要に応じて開発元に問い合わせることを推奨します。

Kandinsky の代替ツール

Fliki

テキスト記事から動画・音声を自動生成。日本語TTS音声が自然で、ナレーション付き動画を秒速で量産可能。ブログ→YouTube変換用途で人気。

VideoWeb AI

動画から動画への変換に特化したAI動画生成ツール。既存の動画をアップロードし、アニメ風やカートゥーンスタイルなど複数のスタイルに変換できる。フレーム単位の解析技術により、キャラクターや背景の一貫性を保ちながら自然な変換を実現。Text to Video、Image to Videoなど多様な動画生成機能も提供。Hailuo AI、Kling AI、Runway AIなど複数のAIモデルに対応。

Runway

Gen-3 Alpha モデルを搭載した最高峰のAI動画生成プラットフォーム。テキスト・画像から映画品質の動画を生成。プロのクリエイター・映像制作スタジオが採用。日本語プロンプトも認識するがUIは英語。

Luma Dream Machine

Luma Labs のAI動画生成。Ray 2 モデルでリアルなフィジクス表現に強み。テキスト・画像から滑らかな動画生成。日本でクリエイター層の利用が急増。

Kling AI

中国Kuaishouが開発した高品質AI動画生成。物理表現とキャラクター一貫性に優れる。Kling 2.1 では2分長の動画生成も可能。日本でも話題沸騰中。UIは英語/中国語。