-
-
Save koshian2/4f0a0c6c1a9fa6db0c2e0ea688115610 to your computer and use it in GitHub Desktop.
This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
| ============================================================ | |
| 選択論文サーベイ | |
| ============================================================ | |
| 実行日時: 2026-02-04 23:35:03 | |
| 戦略: balanced | |
| コレクション: selected_papers_balanced | |
| 分析パラメータ: | |
| - トピック数: 5 | |
| - 論文数/トピック: 15 | |
| 質問: ICCV2025のトレンドを教えて | |
| 分類結果: overview | |
| ------------------------------------------------------------ | |
| 完璧です!それでは収集した情報を統合して、ICCV2025高品質論文の包括的なトレンドレポートを作成します。 | |
| --- | |
| # ICCV2025 高品質論文トレンド分析レポート | |
| **対象**: Originality/Elegance評価上位200件の論文 | |
| **分析期間**: 2025年 | |
| **トピック数**: 10(未分類45件を除く) | |
| --- | |
| ## 1. 全体傾向:支配的なトピックと研究の分布 | |
| ### 1.1 論文数の分布 | |
| ICCV2025の高品質論文200件のうち、以下のようなトピック分布が観察されました: | |
| - **Advanced Video and Image Generation** (56件, 28%):圧倒的な最大トピック | |
| - **Efficient Multimodal Vision-Language Models** (17件, 8.5%) | |
| - **Advancements in Multimodal Visual Reasoning** (16件, 8%) | |
| - **Robot Manipulation and Learning Benchmarks** (15件, 7.5%) | |
| - **3D Gaussian Splatting Techniques** (14件, 7%) | |
| - その他5トピック (41件, 20.5%) | |
| - **未分類** (45件, 22.5%) | |
| ### 1.2 支配的な研究の方向性 | |
| 今年の高品質論文における最も顕著な特徴は、**生成モデルとマルチモーダル理解の融合**です。特に以下の3つの軸が明確に浮かび上がっています: | |
| 1. **効率化の追求**:Diffusionモデルの蒸留、トークン削減、量子化など、実用化に向けた計算コスト削減 | |
| 2. **3D理解の深化**:Gaussian Splattingを中心とした新しい3D表現と、それを活用したマルチモーダル推論 | |
| 3. **具体化AI(Embodied AI)**:ロボット操作、自動運転など、実世界タスクへの応用 | |
| --- | |
| ## 2. 主要トピックの詳細分析 | |
| ### 2.1 Advanced Video and Image Generation (56件) | |
| #### 概要 | |
| Diffusionモデルの効率化と制御性向上が中心テーマ。単なる生成品質の追求から、実用的なデプロイメントと柔軟な制御に焦点が移行しています。 | |
| #### 主要な課題 | |
| 1. **推論速度の改善**:従来のDiffusionモデルは数十~数百ステップの反復が必要で、リアルタイム応用が困難 | |
| 2. **低ビット量子化**:4-bit以下の極端な量子化において、従来手法では頻出する小値と稀な大値の両方を表現できず、クリッピングエラーが発生 | |
| 3. **アイデンティティ保持**:画像カスタマイゼーションから動画への拡張時、静的画像で学習したモデルが動的情報を失う | |
| 4. **統一的な事前学習**:認識と生成が別々に学習され、アーキテクチャとデータの重複が非効率 | |
| #### 技術的アプローチ | |
| **蒸留とステップ削減**: | |
| - **Trajectory Distribution Matching (TDM)**:教師モデルの確率フロー軌跡を分布レベルで蒸留。各タイムステップで教師の拡散分布と生徒の軌跡分布の逆KLダイバージェンスを最小化 | |
| - 実データ不要のデータフリー蒸留を実現し、Few-stepサンプリングを可能に | |
| **量子化**: | |
| - **QuEST (Quantization via Efficient Selective Finetuning)**:活性化分布の不均衡を重みファインチューニングで再形成。Time embedding層とAttention関連層を選択的に更新 | |
| - 4-bit量子化でも画質劣化を最小化 | |
| **統一的事前学習**: | |
| - **USP (Unified Self-Supervised Pretraining)**:VAE潜在空間でマスク特徴モデリングを実行。単一の事前学習で認識(ViT)と生成(DiT)の両方に利用可能な重みを獲得 | |
| - ラベル不要、タスク固有の損失設計不要 | |
| **Real-ISRへのDiT適用**: | |
| - **DiT4SR**:SD3のMM-DiTブロックを活用。LRストリームをTransformer内部に埋め込み、LRトークンとノイズトークンが相互アテンション | |
| - LR残差ショートカットでガイダンス減衰を防止 | |
| #### 新規性・貢献 | |
| - **TDM**:軌跡蒸留と分布マッチングの統合フレームワーク、教師軌跡からのサンプリング不要 | |
| - **USP**:認識と生成の統一事前学習、ランタイムコスト追加なし | |
| - **QuEST**:低ビット失敗メカニズムの理論的診断と選択的ファインチューニング | |
| - **PersonalVideo**:動画レベルでのカスタマイゼーション、Identity/Semantic Consistency Reward | |
| - **DiT4SR**:大規模Diffusion TransformerのReal-ISR適用、双方向共進化 | |
| #### 残された課題 | |
| - データフリー蒸留は教師の性能上限に制約される | |
| - QuESTのアーキテクチャ依存性(層選択の一般化) | |
| - PersonalVideoのチューニング-推論ミスマッチ削減 | |
| - DiT4SRの計算コスト(SD3継承) | |
| --- | |
| ### 2.2 Efficient Multimodal Vision-Language Models (17件) | |
| #### 概要 | |
| Vision-Language Models(VLM)の計算効率化が急務。特に動画理解における膨大なトークン数と、それに伴うKVキャッシュの増大が実用化の障壁となっています。 | |
| #### 主要な課題 | |
| 1. **動画VLMの計算コスト**:多数フレームが長大なトークン系列を生成し、アテンション計算とKVキャッシュが爆発的に増加 | |
| 2. **トークンプルーニングの盲点**:既存手法(FastV等)は位置バイアスにより重要な視覚領域を誤って削除 | |
| 3. **モジュラーアーキテクチャの非効率**:凍結ViT + LLM + アライメント層の組み合わせが訓練・推論コストを増大 | |
| 4. **ストリーミング動画の遅延**:長時間動画の連続処理において、KVキャッシュ増大が応答遅延を引き起こす | |
| 5. **双方向インタラクション**:従来のターンテイキングでは、ユーザーの非言語指示(ジェスチャー等)への即応が困難 | |
| #### 技術的アプローチ | |
| **トレーニングフリー加速**: | |
| - **STTM (Spatio-Temporal Token Merging)**:空間・時間の両次元で冗長性を削減 | |
| - **空間マージ**:Quadtreeで多粒度パッチを構築、コサイン類似度で粒度決定 | |
| - **時間マージ**:空間的に重複する領域で時間方向にトラックレット構築、最初のフレームにマージ | |
| - クエリ非依存でKVキャッシュと互換性高い | |
| **プルーニングの改善**: | |
| - **FEATHER**:FastVの位置バイアス問題を診断・修正 | |
| - RoPE(Rotary Position Embedding)による長期減衰がアテンションスコアをバイアス | |
| - RoPE除外スコア計算 + 初期の均一サンプリング + 後期の積極的プルーニング | |
| - TextVQA等の空間的グラウンディングタスクでの劣化を大幅削減 | |
| **エンコーダフリー統合**: | |
| - **SAIL (Simplicity in Architecture and Integrated Learning)**:単一Transformerでピクセルから学習 | |
| - 混合アテンション:画像パッチ内は双方向、テキストは因果的 | |
| - マルチモーダルRoPE:2D画像座標を位置エンコーディングに統合 | |
| - 事前学習済みViT不要、パラメータ共有で視覚中心の情報フロー | |
| **ストリーミング対応**: | |
| - **Flash-VStream**:非同期2プロセスアーキテクチャ | |
| - **Context Synopsis Memory (CSM)**:低解像度特徴をK-meansクラスタリング、情報密度モデリング | |
| - **Detail Augmentation Memory (DAM)**:最大クラスタから高解像度アンカー選択 | |
| - 固定サイズメモリで連続フレーム取り込みとクエリ応答を並列化 | |
| **インタラクション重視**: | |
| - **ViSpeak**:Visual Instruction Feedbackフレームワーク | |
| - 7種のサブタスク:異常警告、ユーモア反応、割り込み、中断など | |
| - 2ストリームテンプレート:ユーザー入力とエージェント出力を分離追跡 | |
| - 1fps + 1秒音声スニペットで時系列処理 | |
| #### 新規性・貢献 | |
| - **STTM**:空間・時間の分解的マージ、Quadtree多粒度 + トラックレット時間統合 | |
| - **FEATHER**:RoPE位置バイアスの診断、均一サンプリング + 段階的プルーニング | |
| - **SAIL**:単一Transformer統合、混合アテンション + マルチモーダルRoPE | |
| - **Flash-VStream**:非同期ストリーミング、固定サイズFlash Memory(CSM + DAM) | |
| - **ViSpeak**:インタラクション中心評価、34kトレーニングサンプル + 1k時間センシティブベンチマーク | |
| #### 残された課題 | |
| - STTMの閾値調整(適応的選択が今後の課題) | |
| - FEATHERの空間的グラウンディング以外での限定的効果 | |
| - SAILの世界知識(有名人、ポスター等)での劣化 | |
| - Flash-VStreamの1000フレーム超での遅延増加 | |
| - ViSpeakの異常警告・ユーモア反応での課題 | |
| --- | |
| ### 2.3 Advancements in Multimodal Visual Reasoning (16件) | |
| #### 概要 | |
| 3D空間理解とマルチモーダル推論の融合が加速。従来の2D参照・グラウンディングを超え、メトリックスケール、多視点統合、意図駆動型知覚へと進化しています。 | |
| #### 主要な課題 | |
| 1. **MLLM推論の報酬バイアス**:GRPOベースの手法がテキストバイアス(画像なしでも正解)とデータ利用率低下に悩む | |
| 2. **3D表現の弱さ**:Point cloudエンコーダは2DのCLIPに比べ事前学習が不足、3D-言語ペアデータも稀少 | |
| 3. **2Dバイアスの克服**:既存の2D事前学習済みMLLMを3D推論に転用する際、視覚出力への監督不足 | |
| 4. **意図非依存な知覚**:従来システムはシーン全体を一律処理、ユーザーの意図に応じた注意制御が欠如 | |
| 5. **3D空間理解の断片化**:既存ベンチマークは合成シーン、擬似ボックス、スケール情報欠如が多く、実世界タスクをカバーしない | |
| #### 技術的アプローチ | |
| **推論最適化**: | |
| - **Hint-GRPO (Group Relative Policy Optimization with Hints)**: | |
| - **データ利用率問題**:報酬分散でグループ内の有効サンプル数を測定、全て不正解ならデータ捨てる | |
| - **解決策**:複数ヒントグループを生成、最小ヒントで正解が出るグループを選択(zero-gradient回避) | |
| - **テキストバイアス除去**:画像あり/なしでロジット計算、差分スコアで校正 | |
| - LLaVA-CoT理由ステップをGPT-4oで分割、構造化ヒント構築 | |
| **3D-aware拡張**: | |
| - **LLaVA-3D**:最小限の拡張で2D LMMを3D対応化 | |
| - 各パッチに深度と内外パラメータから3D座標を計算 | |
| - 小型MLPで3D埋め込み生成、CLIPパッチトークンに加算 | |
| - 3D-awareプーリング:Voxelization or Farthest Point Sampling | |
| - Location-conditioned QA:3D座標トークンでプロンプト拡張 | |
| - **Ross3D (Reconstructive Visual Instruction Tuning)**: | |
| - **視覚中心監督**:MLLMの視覚トークン出力を3D-aware再構成で監督 | |
| - **Cross-view reconstruction**:マスクビューを他の視点から予測 | |
| - **Global BEV reconstruction**:全視点統合でBird's Eye View復元 | |
| - Diffusion denoiserがVAE潜在を再構成、LLM視覚出力を条件として利用 | |
| **意図駆動型知覚**: | |
| - **VisRL (Visual Reinforcement Learning)**: | |
| - **Self-evolution Actor-Critic**: | |
| - SFTウォームアップで30k VisCoTサンプルによりBBox出力フォーマット学習 | |
| - RL段階:180k QAペアでBox注釈なし、SFTモデルが2つのBoxサンプリング | |
| - Criticが位置と回答両方をスコアリング、Pre-SFTモデルと比較してReward算出 | |
| - IoU閾値とランダム置換で多様性確保 | |
| - Box注釈不要、マルチモーダルCoT自己生成 | |
| **包括的3D空間ベンチマーク**: | |
| - **MM-Spatial**: | |
| - CA-1M + ARKitScenesの3Dアノテーションを数百万のQAペアに変換 | |
| - **CA-VQA**:多視点サポートフレーム、カメラパラメータ、3種の深度(FARO GT、ARKit LiDAR融合、DepthPro単眼) | |
| - タスク:関係性、メトリック回帰、カウント、2D/3Dグラウンディング | |
| - ツール使用:深度マップへのクエリ、座標取得 | |
| #### 新規性・貢献 | |
| - **Hint-GRPO**:データ利用率指標、複数ヒントグループ選択、テキストバイアス校正 | |
| - **LLaVA-3D**:3Dパッチ(座標埋め込みMLP)、3D-awareプーリング、座標条件QA | |
| - **Ross3D**:視覚出力監督、Cross-view + Global BEV再構成、Diffusion denoiser | |
| - **VisRL**:RL駆動意図知覚、Self-evolution Actor-Critic、Box注釈不要 | |
| - **MM-Spatial**:CA-VQA多視点 + 3深度、ツール使用、メトリック空間理解 | |
| #### 残された課題 | |
| - Hint-GRPOのGold理由ステップ依存、GPT-4oコスト | |
| - LLaVA-3Dの多視点+深度+カメラ必須、単眼入力未対応 | |
| - Ross3DのBEVレンダリングアーティファクト、スパース再構成制約 | |
| - VisRLのSFTウォームアップ必須、データ品質がCritic依存 | |
| - MM-SpatialのARKitScenes屋内偏重、屋外メトリックスケールミスマッチ | |
| --- | |
| ### 2.4 Robot Manipulation and Learning Benchmarks (15件) | |
| #### 概要 | |
| Embodied AIの実用化に向け、汎用ビジョン-言語-アクション(VLA)ポリシーとベンチマーク整備が進展。特に、異種ロボット・タスク横断の汎化性と、自動運転VLMの信頼性評価が焦点です。 | |
| #### 主要な課題 | |
| 1. **アクション空間の異質性**:従来のVLAはアクションを離散化してビン予測、アクション統計やロボット間の空間差に敏感 | |
| 2. **長期的相互作用のモデリング**:既存World modelはアクションをグローバルプロンプトとして扱うか次フレームのみ予測、微細な物体操作困難 | |
| 3. **自動運転VLMの評価ギャップ**: | |
| - 既存ベンチマークはnuScenes等のアクション分布不均衡継承(直進・停止が多数派) | |
| - 単一フレーム依存、時間文脈や微妙な信号欠如 | |
| - Open-form VQAで曖昧、認知スキル(交通ルール、関係推論、意図推定)の分離不可 | |
| 4. **VLN(Vision-Language Navigation)の限界**:既存は屋内・地上レベル、ナビグラフ依存、UAVスケールの実都市探索に非対応 | |
| #### 技術的アプローチ | |
| **汎用VLAポリシー**: | |
| - **Dita (Diffusion Transformer for Generalist VLA)**: | |
| - **固有Diffusion Transformer**:因果Transformerそのものがデノイジング実行、拡張ヘッド不要 | |
| - 命令トークン + 選択画像パッチ(Q-Former + FiLM)+ タイムステップ埋め込み + ノイズアクショントークンを結合 | |
| - アクション空間に直接ノイズ付与、デノイジング済みアクションデルタを履歴視覚トークンとin-contextで整列 | |
| - 7D End-effector(並進・回転・グリッパー)を連続空間で予測 | |
| **World model**: | |
| - **IRASim**: | |
| - **フレームレベルアクション条件付け**:Adaptive Layer Normパラメータを各アクションから導出 | |
| - 空間ブロックはフレームごと条件、時間ブロックはシーケンス共有条件 | |
| - タスク:過去hフレーム + アクション系列a^{t:t+n}から未来n+1フレーム予測 | |
| - 履歴潜在はノイズなしトークン(一貫性保持)、損失は未来フレーム潜在のみ | |
| - 成功・失敗両方のデータで学習、Post-trainingロールアウト収集を推奨 | |
| **自動運転VLM監査**: | |
| - **DriveBench**: | |
| - **17設定**:クリーン画像 + 15種腐敗(天候、外乱、センサー故障、モーションブラー、伝送エラー)+ 完全黒(テキストのみ) | |
| - オプション不均衡削減のため再サンプリング | |
| - 知覚・予測・計画・行動で質問キュレーション、腐敗変種とテキストのみ入力生成 | |
| - 19,200フレーム + 20,498 QAペア | |
| - **VLADBench (Vision-Language Autonomous Driving Benchmark)**: | |
| - **階層的Close-form QA**:5ドメイン、11側面、29タスク | |
| - 2,000静的シーン + 3,000動的シナリオ、視覚的顕著性制御で自明な認識回避 | |
| - 5アノテータ + 2研究者ダブルチェック、詳細ラベル作成 | |
| - 検出・グラフ・軌跡タスクは指定出力フォーマット + オプション視覚プロンプト | |
| **実都市Aerial VLN**: | |
| - **CityNav**: | |
| - **CityFlight**:SensatUrban点群上の5D UAVポーズからビューレンダリング | |
| - アクション:前進5m、±30°旋回、上昇・下降2m、停止 | |
| - 高度100–150m、ゴール500m以内のランダムスタート | |
| - **32,637軌跡**:MTurkで収集、資格・再収集・基準フィルタ | |
| - **GSM (Geographic-Semantic Map)**:GNSS整列OSMランドマークアノテーション、座標変換と地図クエリ対応 | |
| - 4.65 km²、ケンブリッジ・バーミンガム2都市 | |
| #### 新規性・貢献 | |
| - **Dita**:固有Diffusion Transformer、アクショントークンin-context整列、離散化/追加ヘッド不要 | |
| - **IRASim**:フレームレベルAdaLN条件付け、空間/時間ブロック分離条件、成功・失敗混合学習 | |
| - **DriveBench**:17設定監査、腐敗15種 + テキストのみ、オプション再サンプリング | |
| - **VLADBench**:階層的29タスク、視覚顕著性制御、指定フォーマット出力 | |
| - **CityNav**:最大規模32,637軌跡、CityFlight実点群シミュレータ、GSM地理意味マップ | |
| #### 残された課題 | |
| - Ditaの334Mパラメータ容量限界、固有受容感覚・手首カメラ・触覚未探索 | |
| - IRASimの非リアルタイム(Diffusionサンプリング)、物理エンジン不要だが相互作用制約 | |
| - DriveBenchの流暢なテキスト優遇バイアス、タスク固有評価基準必須 | |
| - VLADBenchの言語パラメータスケールより視覚エンコーダ品質が重要、ドメイン間依存性 | |
| - CityNavの4.65 km²限定、人間ナビ未達、知覚・グラウンディング・長期計画未解決 | |
| --- | |
| ### 2.5 3D Gaussian Splatting Techniques (14件) | |
| #### 概要 | |
| 3D Gaussian Splatting(3DGS)が新しい3D表現の主流として確立。圧縮、言語統合、Occupancy推定、Pose-free再構成まで、幅広い応用が展開されています。 | |
| #### 主要な課題 | |
| 1. **非構造データの圧縮**:従来のNeRF圧縮は明示的グリッドや量子化を使用するが、3DGSの非構造プリミティブには直接適用不可 | |
| 2. **3D言語モデルのスケーラビリティ**:既存は点群・深度・メッシュ等の稀少な3D入力に依存、またはシーンごとの最適化が必要 | |
| 3. **Self-supervised Occupancy**:既存は体積レンダリングで2D深度・セマンティック監督、リアルスケール光度整合性がGTポーズ必須 | |
| 4. **Dense voxelの非効率**:従来Occupancyは密な3Dボクセル + 3D畳み込み、空間浪費とLiDARフル注釈依存 | |
| 5. **Pose依存再構成**:NeRFや従来3DGSは密なキャリブレーション画像 + SfM初期化が必須、疎視点で破綻 | |
| #### 技術的アプローチ | |
| **圧縮**: | |
| - **CodecGS**: | |
| - **Tri-plane特徴マップ + MLPデコーダ**:3つの512×512平面が色・スケール・回転・不透明度を予測 | |
| - **周波数領域エントロピーパラメータ化**:4×4ブロックDCT/チャネル、未量子化係数でエントロピー損失 | |
| - 上位分位の係数確率を推定、合計エントロピーを最小化 | |
| - **Progressive training**:チャネルレベル段階的活性化、重要度重み付けで低感度チャネルのビットレート削減 | |
| - **標準H.265/H.266**:HEVC Test Model (HM) やVVC Test Model (VTM)で圧縮可能 | |
| **3D言語統合**: | |
| - **SplatTalk**: | |
| - **汎化可能3D言語GS**:多視点画像→3Dトークン、事前学習LLM互換 | |
| - LLaVA-OneVision視覚トークン(3584次元)→MLP Autoencoder→256次元正規化コード | |
| - FreeSplatベース:フィードフォワードGaussianエンコーダ、視点融合、デコーダがGS属性出力 | |
| - **言語レンダリング**:各Gaussianに256次元言語特徴、平均特徴クエリが3D場面特性を捕捉(理論保証) | |
| - Zero-shot 3D VQA、深度・点群・3D言語注釈不要 | |
| **Self-supervised Occupancy**: | |
| - **GaussianOcc**: | |
| - **Stage 1: Gaussian Splatting for Projection**: | |
| - NewCRFs適応Swin U-Net、ピクセルごと深度 + GS属性(スケール・回転)+ 6Dポーズネット | |
| - Overlap mask(レイサンプリング + カメラ外パラメータ + 最大深度)で隣接視点重複選択 | |
| - 一方マスク後、非投影→Cross-view splatting→光度損失(実スケール学習 + ポーズ同時訓練) | |
| - **Stage 2: Coarse-to-fine Gaussian Voxelization**: | |
| - Deformable cross-attention multi-scale特徴参照 + GS位置インデックス | |
| - Coarse 1/2スケールで近傍Gaussians統合、Fine 1/4でボクセル精緻化 | |
| - 擬似セマンティック(SAM + CLIP)で自己監督 | |
| **Sparse & Weakly-supervised Occupancy**: | |
| - **GaussianFlowOcc**: | |
| - **完全スパース表現**:ボクセル化なし、学習可能Gaussian queries | |
| - **Gaussian Transformer**: | |
| - Deformable Gaussian-image cross-attention(画像特徴参照) | |
| - Induced self-attention(M inducing points、準線形スケール) | |
| - Induced temporal attention(前フレーム、リカレント融合) | |
| - **Gaussian Heads**:不透明度、スケール、回転、セマンティックロジット | |
| - **Temporal Gaussian Splatting**:時間窓Tフレームで複数視点拡張、光流・深度擬似監督 | |
| **Pose-free再構成**: | |
| - **FreeSplatter**: | |
| - **Unified-frame Gaussian Map予測**:全視点情報交換後、各トークン→複数3DGaussians | |
| - ViTスタイルパッチ化、位置埋め込み + 学習可能視点埋め込み(最初を参照として) | |
| - L pre-norm self-attention + MLP → 線形ヘッドで各トークン→p² Gaussians | |
| - H×W×qサイズGaussian map(q個/pixel)、最初3チャネルが3D位置 | |
| - **Pose推定**:予測位置マップ + 有効マスク→PnP-RANSAC | |
| - **共有焦点距離仮定**、深度由来監督(L_pos)、レイベースアライメント損失 | |
| #### 新規性・貢献 | |
| - **CodecGS**:Tri-plane + Progressive MLP、周波数エントロピー損失、標準コーデック互換 | |
| - **SplatTalk**:汎化可能3D言語GS、言語レンダリング(平均特徴クエリ)、Self-supervised Zero-shot 3D VQA | |
| - **GaussianOcc**:GSプロジェクション(実スケール学習 + ポーズネット)、Coarse-to-fine Voxelization | |
| - **GaussianFlowOcc**:完全スパース、Gaussian Transformer(Deformable cross + Induced self/temporal)、Temporal GS | |
| - **FreeSplatter**:Unified-frame予測、Pose推定(PnP-RANSAC)、Depth監督 + Ray-based align | |
| #### 残された課題 | |
| - CodecGSの閾値調整(レート制御)、Channel重要度経験的設定 | |
| - SplatTalkのLLM文脈窓トークン予算、低解像度訓練(256×256)、Posed多視点必須 | |
| - GaussianOccのStage分離必須、Overlap過適合リスク、擬似セマンティックノイズ | |
| - GaussianFlowOccのT≥10不安定(長期運動学習困難)、擬似2Dセマンティック・深度品質依存 | |
| - FreeSplatterの共有焦点仮定制約、深度ノイズ・マスクエラーのPnP伝播 | |
| --- | |
| ## 3. 横断的な技術トレンド | |
| ICCV2025の高品質論文を横断的に分析すると、以下の共通する技術的アプローチが複数のトピックで採用されています。 | |
| ### 3.1 Diffusionモデルの効率化と応用拡大 | |
| **統一的アプローチ**: | |
| - **蒸留**:TDM(軌跡分布マッチング)、Few-step推論 | |
| - **量子化**:QuEST(選択的ファインチューニング)、4-bit極低ビット対応 | |
| - **Diffusion Transformer**:Ditaの固有Diffusion Transformer、IRAsimのWorld model、Ross3Dの視覚出力監督、DiT4SRのMM-DiT-Control | |
| - **応用領域**:画像生成、動画生成、ロボットアクション、3D再構成 | |
| **技術的共通性**: | |
| - **タイムステップ条件付け**:AdaLN(IRAsim)、Time embedding選択更新(QuEST) | |
| - **Transformer統合**:DiTアーキテクチャの普及(USP、DiT4SR、IRAsim、Dita) | |
| - **データフリー学習**:TDMのGaussianノイズサンプリング、QuESTの校正セット構築 | |
| ### 3.2 トークン削減とアテンション最適化 | |
| **全トピック共通の課題**:計算コストとメモリ使用量の爆発的増加 | |
| **多様な削減戦略**: | |
| 1. **空間-時間分解**:STTM(Quadtree + Tracklet) | |
| 2. **プルーニング修正**:FEATHER(RoPE除外 + 均一サンプリング) | |
| 3. **Q-Former圧縮**:Dita(FiLM条件付けで32トークン)、SplatTalk(エントロピーサンプリング) | |
| 4. **Fixed-size Memory**:Flash-VStream(CSM + DAM) | |
| 5. **Voxelization/FPS**:LLaVA-3D、GaussianOcc | |
| **共通原理**: | |
| - **冗長性の利用**:時間的(連続フレーム)、空間的(類似パッチ)、意味的(クラスタリング) | |
| - **階層的処理**:粗から細へ(GaussianOcc Coarse-to-fine)、多粒度(STTM Quadtree) | |
| - **Query-agnostic vs Query-aware**:KVキャッシュ互換性のトレードオフ | |
| ### 3.3 3D表現の進化とマルチモーダル統合 | |
| **3D Gaussian Splattingの台頭**: | |
| - **表現力**:NeRFを超える高速レンダリング、明示的位置情報 | |
| - **応用範囲**: | |
| - **圧縮**:CodecGS(Tri-plane + Codec) | |
| - **言語統合**:SplatTalk(言語レンダリング) | |
| - **Occupancy**:GaussianOcc、GaussianFlowOcc | |
| - **Pose-free再構成**:FreeSplatter | |
| - **課題共通性**:非構造データの構造化(Tri-plane、Voxelization、Gaussian map) | |
| **3D位置エンコーディングの統一**: | |
| - LLaVA-3D:3D座標MLP埋め込み | |
| - Ross3D:絶対3D位置エンコーディング | |
| - MM-Spatial:深度マップ + カメラパラメータからツール使用 | |
| - GaussianOcc/GaussianFlowOcc:GS位置ベースのインデックス | |
| **Multi-viewの活用**: | |
| - Ross3Dのクロスビュー再構成 | |
| - SplatTalkの視点融合 | |
| - MM-SpatialのCA-VQA多視点サポート | |
| - FreeSplatterの視点埋め込み | |
| ### 3.4 Self-supervisedとWeakly-supervised学習の浸透 | |
| **データ依存性の削減**: | |
| 1. **完全Self-supervised**: | |
| - USP(マスク特徴モデリング) | |
| - GaussianOcc(光度一貫性 + 擬似セマンティック) | |
| - SplatTalk(言語特徴再構成) | |
| 2. **Weakly-supervised**: | |
| - GaussianFlowOcc(擬似2Dセマンティック + 深度) | |
| - PersonalVideo(Identity/Semantic Reward) | |
| - VisRL(Box注釈なし、Self-evolution) | |
| 3. **Data-free**: | |
| - TDM(Gaussian noise、実データ不要) | |
| - QuEST(ノイズ校正セット) | |
| **共通戦略**: | |
| - **事前学習モデルの活用**:SAM、CLIP、DINO、Depth推定器 | |
| - **再構成ベース監督**:Ross3Dのクロスビュー + BEV、IRAsimの未来フレーム | |
| - **報酬ベース学習**:Hint-GRPO、PersonalVideo、VisRL | |
| ### 3.5 統一アーキテクチャへの志向 | |
| **Modular → Unified の流れ**: | |
| - **SAIL**:ViT + LLM + Alignmentの3モジュール→単一Transformer | |
| - **USP**:認識と生成を分離→単一事前学習 | |
| - **Dita**:離散化/追加ヘッド→固有Diffusion Transformer | |
| - **FreeSplatter**:SfM + 最適化→End-to-end Pose推定 | |
| **統一の利点**: | |
| - パラメータ共有による効率化 | |
| - タスク間知識転移の促進 | |
| - デプロイメントの簡素化 | |
| **残る課題**: | |
| - 専門タスクでの性能劣化 | |
| - 計算コスト集中(単一モデルの巨大化) | |
| - アーキテクチャの柔軟性低下 | |
| ### 3.6 Benchmark駆動の評価体系確立 | |
| **細粒度評価の重視**: | |
| - **VLADBench**:5ドメイン、11側面、29タスク | |
| - **DriveBench**:17設定(腐敗15種 + テキストのみ) | |
| - **ViSpeak-Bench**:7サブタスク、時間センシティブ | |
| - **MM-Spatial**:関係性、メトリック、カウント、2D/3Dグラウンディング | |
| **評価の多様化**: | |
| - **ロバスト性**:DriveBenchの腐敗設定 | |
| - **テキストバイアス除去**:Hint-GRPOの画像あり/なし比較 | |
| - **空間的グラウンディング**:FEATHERのTextVQA分析 | |
| - **インタラクション**:ViSpeakの割り込み・中断 | |
| - **メトリックスケール**:MM-Spatialの深度ツール | |
| **データセット規模の拡大**: | |
| - CityNav:32,637軌跡(最大規模Aerial VLN) | |
| - ViSpeak-Instruct:34kトレーニングサンプル | |
| - DriveBench:19,200フレーム + 20,498 QAペア | |
| --- | |
| ## 4. 今後の研究方向性 | |
| ### 4.1 効率化の次のフロンティア | |
| **極限的な圧縮**: | |
| - **1-bit/2-bit量子化**:QuESTの選択的アプローチをさらに推進 | |
| - **Neural Codec**:CodecGSのTri-plane + 標準コーデック統合の一般化 | |
| - **Conditional Computation**:タスク/入力に応じた動的計算パス選択 | |
| **ハードウェア協調設計**: | |
| - FlashAttention系との統合(Flash-VStreamの非同期アーキテクチャ) | |
| - 専用アクセラレータ向け最適化(Gaussian Splatting、Diffusion) | |
| ### 4.2 マルチモーダル統合の深化 | |
| **4つの感覚統合**: | |
| - 視覚 + 言語 + 音声(ViSpeak)+ **触覚** | |
| - Ditaでの固有受容感覚・手首カメラ拡張 | |
| - IRAsimの触覚シミュレーション | |
| **時空間一貫性の強化**: | |
| - Ross3DのCross-view + Global BEV統合 | |
| - GaussianFlowOccの時間的Gaussian Splatting | |
| - IRAsimのフレームレベル条件付けの時系列拡張 | |
| **メタ学習とFew-shot適応**: | |
| - PersonalVideoの動画レベルカスタマイゼーション | |
| - FreeSplatterの疎視点再構成 | |
| - Ditaのクロスロボット汎化 | |
| ### 4.3 具体化AIの実世界展開 | |
| **Sim-to-Real転移**: | |
| - IRAsimのWorld modelを物理エンジンと統合 | |
| - CityNavの実UAV実験 | |
| - DriveBenchの腐敗設定を実センサーノイズでキャリブレーション | |
| **長期タスク計画**: | |
| - Flash-VStreamの1000フレーム超対応 | |
| - VisRLの意図駆動型知覚の時系列拡張 | |
| - CityNavの500m超探索 | |
| **Human-in-the-loopインタラクション**: | |
| - ViSpeakの割り込み・中断機能の汎用化 | |
| - VisRLの自己進化をオンライン学習に拡張 | |
| - Hint-GRPOの報酬を人間フィードバックで校正 | |
| ### 4.4 3D理解の包括化 | |
| **統一3D表現**: | |
| - Gaussian Splattingとメッシュ・ボクセルのハイブリッド | |
| - LLaVA-3Dの3Dパッチを点群・深度に拡張 | |
| - SplatTalkの言語レンダリングを物理属性(質量、摩擦)に拡張 | |
| **メトリックスケールの一貫性**: | |
| - MM-Spatialの3深度ソース統合手法の一般化 | |
| - GaussianOccの実スケール学習をモノキュラー設定に拡張 | |
| - Ross3DのBEVアーティファクト除去 | |
| **動的シーンへの対応**: | |
| - FreeSplatterの静的前提を動的物体追跡に拡張 | |
| - GaussianFlowOccの時間窓をリカレントアーキテクチャに統合 | |
| - IRAsimのアクション条件付けを複数エージェントに拡張 | |
| ### 4.5 評価とベンチマークの進化 | |
| **信頼性とロバスト性**: | |
| - DriveBenchの腐敗設定を他ドメイン(医療、ロボット)に拡張 | |
| - Hint-GRPOのテキストバイアス校正を一般化 | |
| - FEATHERの位置バイアス診断をRoPE以外のエンコーディングに適用 | |
| **マルチタスク・マルチドメイン評価**: | |
| - VLADBenchの29タスクをさらに細分化 | |
| - ViSpeak-Benchの時間センシティブ評価をリアルタイムシステムに適用 | |
| - MM-Spatialのツール使用を外部知識ベースに拡張 | |
| **人間との整合性**: | |
| - CityNavの人間ナビゲーション戦略分析(GSM活用パターン) | |
| - VisRLの意図推定精度の人間との比較 | |
| - PersonalVideoのIdentity/Semantic Rewardの人間評価との相関 | |
| ### 4.6 理論的基盤の強化 | |
| **学習理論**: | |
| - TDMの軌跡分布マッチングの収束保証 | |
| - QuESTの活性化分布再形成の理論的条件 | |
| - Hint-GRPOのデータ利用率指標の一般化 | |
| **表現学習**: | |
| - USPの認識-生成統一事前学習の理論的解明 | |
| - SAILの混合アテンションの情報フロー解析 | |
| - SplatTalkの平均特徴クエリの3D場面特性捕捉の証明拡張 | |
| **最適化**: | |
| - CodecGSのProgressive trainingの段階的活性化戦略の最適化 | |
| - VisRLのSelf-evolution Actor-Criticの収束性 | |
| - GaussianFlowOccのInduced attentionの計算複雑度解析 | |
| --- | |
| ## 5. 総括 | |
| ICCV2025の高品質論文は、**効率化、統合、実世界応用**という3つの軸で大きく進展しました。 | |
| **主要な成果**: | |
| 1. **Diffusionモデルの実用化**:蒸留・量子化・Transformer統合により、Few-step推論と極低ビット量子化を実現 | |
| 2. **VLMの計算効率化**:トークン削減、プルーニング改善、統一アーキテクチャにより、動画理解と長時間ストリーミングが現実的に | |
| 3. **3D Gaussian Splattingの多様な応用**:圧縮、言語統合、Occupancy、Pose-free再構成と、新しい3D表現の可能性を実証 | |
| 4. **マルチモーダル推論の3D拡張**:3D空間理解、メトリックスケール、多視点統合により、2D限界を突破 | |
| 5. **Embodied AIの進化**:汎用VLAポリシー、World model、意図駆動型知覚により、ロボット操作と自動運転が高度化 | |
| 6. **評価体系の成熟**:細粒度ベンチマーク、ロバスト性評価、テキストバイアス除去により、信頼性の高い評価が可能に | |
| **残る課題**: | |
| - データ依存性(特に3D、ロボット) | |
| - 計算コスト(Diffusion、Transformer) | |
| - Sim-to-Real転移 | |
| - 長期タスク計画 | |
| - 人間との整合性 | |
| **展望**: | |
| 次のステップは、これらの技術を**実世界に統合**し、**人間と協調**する具体化AIシステムの構築です。効率化と統合の進展により、リアルタイム推論、低リソースデバイスでの動作、長時間の連続タスク実行が現実的になりつつあります。ICCV2025の成果は、Computer Visionが「見る」技術から「理解し、行動する」技術へと進化する転換点を示しています。 | |
| --- | |
| **以上、ICCV2025高品質論文(200件)の包括的トレンド分析でした。** | |
| ============================================================ |
This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
| ============================================================ | |
| 選択論文サーベイ | |
| ============================================================ | |
| 実行日時: 2026-02-04 23:27:14 | |
| 戦略: quality_first | |
| コレクション: selected_papers_quality_first | |
| 分析パラメータ: | |
| - トピック数: 5 | |
| - 論文数/トピック: 15 | |
| 質問: ICCV2025のトレンドを教えて | |
| 分類結果: overview | |
| ------------------------------------------------------------ | |
| # ICCV2025 高品質論文トレンド分析レポート | |
| ## 1. 全体傾向 | |
| ### 1.1 支配的なトピック | |
| ICCV2025の高品質論文(Originality/Elegance評価上位200件)は12のトピックに分類され、以下の3つの主要な研究領域が顕著です: | |
| 1. **生成AI・Diffusionモデルの進化**(52件, 26%) | |
| - Video Diffusion and Editing Frameworks(29件) | |
| - Advanced Techniques in Image Generation(23件) | |
| 2. **3D理解・再構成技術**(46件, 23%) | |
| - 3D Gaussian Splatting Techniques(22件) | |
| - Dynamic 3D Scene Reconstruction Methods(14件) | |
| - 3D Data Segmentation and Generalization(10件) | |
| 3. **Vision-Languageの統合とエージェント化**(44件, 22%) | |
| - Vision-Language Models for Autonomous Agents(25件) | |
| - Efficient Multimodal Model Optimization(11件) | |
| - Unified Visual and Language Models(8件) | |
| ### 1.2 論文数分布の特徴 | |
| - 上位3トピックで全体の39%を占め、研究の集中が見られる | |
| - 未分類論文が26件存在し、新興領域の多様性を示唆 | |
| - Autoregressive系の新しいパラダイム(トピック8, 9, 10)が合計24件と注目を集める | |
| --- | |
| ## 2. 各主要トピックの要点 | |
| ### 2.1 Video Diffusion and Editing Frameworks(29件) | |
| **トピック概要** | |
| 動画生成・編集のためのDiffusionモデルの適用範囲が、Virtual Try-onからカメラコントロール、4Dメッシュアニメーションまで大幅に拡大。Text-to-VideoやImage-to-Video基盤の上に、より複雑な条件付き生成を実現する研究が主流。 | |
| **解決すべき課題** | |
| - 従来のVTON(Virtual Try-On)パイプラインはTPS/Flow-based warpingとセグメンテーションマスクに依存し、複雑なシーンで脆弱 | |
| - ドメイン特化型の動的モデリング(顔、手、人体、四足動物など)は汎用性に欠け、3D教師データの整備が困難 | |
| - Video customizationではテキスト→画像と画像→動画モデルの分布ミスマッチが動きの一貫性を損なう | |
| - 実在動画の視点編集では時間同期を保ちながらカメラパラメータを注入する方法が未確立 | |
| - 4Dコンテンツ生成はインスタンスごとの最適化が必要で、推論が遅く不安定 | |
| **主要なアプローチ・手法** | |
| - **Any2AnyTryon**: LAION-Garmentデータセット構築(VITON-HD、DressCode、DeepFashion2統合 + GPT-4oフィルタリング)。FLUX-Controlnet-Inpaintingで擬似ペアを生成し、DiT/FLUXベースのflow-matching diffusion transformerで統一的に処理 | |
| - **Puppet-Master**: Stable Video Diffusionを微調整し、ドラッグ情報を多解像度エンコーダで処理。FiLM-style adaptive normalizationでU-Net特徴を変調し、パーツレベルの動きを学習 | |
| - **PersonalVideo**: T2V diffusionをIdentity Consistency Reward(ArcFace embeddingのcosine類似度)とSemantic Consistency Reward(frozen元モデルとの分布整合)で微調整 | |
| - **ReCamMaster**: 3D VAE + DiTトランスフォーマーをrectified flowで最適化。ソース・ターゲット動画のlatentをフレーム次元で連結し、3D attentionで混合 | |
| - **AnimateAnyMesh**: DyMeshVAEで頂点を初期形状と相対軌跡に分解。adjacency matrixをattention maskとして注入し、トポロジーを保ちながらKL正則化latent spaceで学習 | |
| **新規性・貢献** | |
| - マスクフリー・統一VTONシステム(Any2AnyTryon)の実現と、Adaptive Position Embeddingによる条件の柔軟な統合 | |
| - 大規模事前学習動画モデルの再利用によるパーツレベルモーションpriorのスケーラブルな学習(Puppet-Master) | |
| - 動画レベルの教師信号による微調整(PersonalVideo)で、推論時の動き保持とID保持のトレードオフを改善 | |
| - Diffusion Transformerへのシンプルな動画injection機構(token連結+3D attention)によるカメラ制御(ReCamMaster) | |
| - フィードフォワード4D生成パイプライン(AnimateAnyMesh)でトポロジー対応attentionを導入し、再構成最適化を排除 | |
| **残された課題・今後の方向性** | |
| - Any2AnyTryonはデータセット構築の自動化パイプラインに依存し、inpainting・フィルタリングの品質が限界に | |
| - Puppet-Masterは部分的な動きに特化しており、オブジェクト全体の移動を示唆するドラッグでアーティファクトが発生 | |
| - PersonalVideoのreward設計は顔認識embeddingに依存し、ID以外の属性への拡張が未検討 | |
| - ReCamMasterはtoken連結によりtoken数が倍増し、計算コストとハンド・人体の不完全さを継承 | |
| - AnimateAnyMeshは相対軌跡予測のためトポロジーを保持するが、頂点数増加で推論時間が増大 | |
| --- | |
| ### 2.2 Vision-Language Models for Autonomous Agents(25件) | |
| **トピック概要** | |
| Vision-Language Modelsを自律エージェントや現実世界タスク(自動運転、GUI操作、3D質問応答)に適用する研究。推論能力の向上、3D空間への拡張、ロバスト性評価が焦点。 | |
| **解決すべき課題** | |
| - GRPOなどのoutcome-reward手法が不正確なステップ評価やreward hackingに悩まされる | |
| - 大規模3D vision-languageデータが不足し、点群特徴やoff-the-shelfセグメンテーションに依存する複雑なパイプライン | |
| - 自動運転ベンチマークはnuScenes等の偏ったaction分布を継承し、単一フレームのみで評価されノイジーなラベルが多い | |
| - 3D LMMは手作りの3D表現や弱い3Dエンコーダに依存し、2Dマルチモーダルpriorとの整合が困難 | |
| - GUI agentはHTML/アクセシビリティツリーに依存するか、フルスクリーン画像から直接行動するかで、視覚的手がかりの喪失やミスクリックが発生 | |
| **主要なアプローチ・手法** | |
| - **Hint-GRPO**: LLaVA-CoTの推論ステップをGPT-4oで分割してヒントを構築。複数hint groupをサンプリングし、最も少ないヒントで正解が得られるグループを選択して学習。テキストバイアスを補正するため、画像なしlogitsとの差分でrewardを調整 | |
| - **LLaVA-3D**: LLaVA-Video-7BにCLIP encoderを使用。各ビューのパッチ特徴に、depth+camera paramsから計算した3D座標をMLPでembedして加算。Voxelization/FPS poolingで3D-aware token圧縮 | |
| - **DriveBench**: DriveLM nuScenesからサブサンプルし、知覚・予測・計画・行動の質問をキュレート。15種類の腐敗(天候、外乱、センサー故障、モーションブラー、伝送エラー)を合成し、テキストのみ入力も追加して合計19,200フレーム・20,498 QAペア | |
| - **Ross3D**: LLaVA-Video-7Bで32フレームをエンコードし、depth+camera poseから絶対3D位置embeddingを付加。LLMの視覚出力にdenoiserを追加し、teacher VAE latentsをDiffusion lossで再構成。Cross-view/Global-view reconstructionタスクを導入 | |
| - **RegionFocus**: 推論時にトリガー(対話環境での失敗 or 静止スクリーンショットでの自己判断)後、focal pointを提案→固定比率のbounding boxを複数構築→各領域で並列action候補を生成→集約して選択。SAMで領域をオプション調整 | |
| **新規性・貢献** | |
| - GRPOの失敗モード(低データ利用率、テキストバイアス)を診断し、Hint-GRPOで無効サンプルを防ぎつつtext-bias calibrationでrewardを補正 | |
| - 2D LMMを3D対応に変える最小拡張(LLaVA-3D)。3Dエンコーダ不要で、3D座標embeddingを学習可能なMLPで追加し、2D video skillを保持 | |
| - 自動運転VLMの頑健性を17設定(clean + 15corruptions + text-only)で監査するベンチマーク(DriveBench)。answer biasを削減し、context-aware評価を提唱 | |
| - 視覚token出力を3D-aware再構成目標で教師(Ross3D)。Cross-viewマスキングで視点整合とBEV再構成でレイアウト理解を促進 | |
| - 視覚的test-time scaling戦略(RegionFocus)。言語推論ではなくgroundingに計算を割り当て、複数zoom領域を並列評価 | |
| **残された課題・今後の方向性** | |
| - Hint-GRPOはgold推論ステップとGPT-4o分割に依存し、コスト・ノイズが増加。テキストバイアス補正は画像ありなし両方のlogits計算が必要 | |
| - LLaVA-3Dは座標依存タスクで大きく改善するが、ScanQA/SQA3Dではわずかな向上にとどまり、ベンチマークの限界を示唆。Multi-view+depth+camera必須で単眼入力に非対応 | |
| - DriveBenchは答え分布の偏りと評価者の流暢さ重視がロバスト性の錯覚を生むと指摘。タスク固有rubric、context-aware評価、corruption理由説明の必要性を提唱 | |
| - Ross3Dは視覚出力教師が2Dバイアスを克服するが、BEVターゲットはsparse再構成からレンダリングされ黒アーティファクトが発生。Multi-view RGB+depth前提で計算重い | |
| - RegionFocusは精度向上の代償として計算オーバーヘッド(WebVoyagerで66.8%、ScreenSpot-Proで180-360%)。ヒューリスティックな固定比率boxとfocal point選択が設計上の制約 | |
| --- | |
| ### 2.3 Advanced Techniques in Image Generation(23件) | |
| **トピック概要** | |
| Diffusionモデルの高速化、軽量化、高品質化を追求。Few-step distillation、self-supervised pretraining、quantization、Real-ISRへの拡張、inference-time optimizationが中心テーマ。 | |
| **解決すべき課題** | |
| - Distribution matchingは1ステップに圧縮できるが固定レジームに最適化され中間軌跡情報を無視。Trajectory distillationは教師ODEパスを模倣するが計算が重い | |
| - 表現学習と生成の連携はピクセル空間またはiGPTスタイルの自己回帰で、スケール困難。REPAなどのalignment手法はDINOv2等の外部教師が必要でメモリ・計算コスト大 | |
| - PTQ手法はQ-Diffusion、PTQ-Dなど主に量子化パラメータ調整やブロック再構成だが、極低ビットでover-clippingや画像破損が発生 | |
| - Real-ISRの従来手法はCNN/Transformerで多様な劣化に脆弱。GAN系は不安定でアーティファクト。Diffusion系はUNetベースのControlNet方式が主流だがDiTへの拡張は未開拓 | |
| - Inference-time enhancementは並列noise-space探索やbest-of-N選択に限られ、特定エラーの修正ガイダンスが不足 | |
| **主要なアプローチ・手法** | |
| - **TDM (Trajectory Distribution Matching)**: 各反復でK-stepのODE軌跡を生成し、各セグメント[t_i, t_{i+1}]でforward diffusionによるノイジーサンプルを抽出。別々のscore networkで逆ノイジングターゲットをマッチング。Importance samplingで分散削減。生成器は軌跡marginalと教師diffusion分布のreverse KLを最小化 | |
| - **USP (Unified Self-Supervised Pretraining)**: 224×224画像をSD-VAEでエンコード→2×2 conv PatchConvでパッチ化→75%マスキング。ViT encoderで可視パッチ処理、非対称decoderでマスクパッチ再構成。MSE損失でlatent spaceの特徴予測を学習。事前学習後、VAE固定・decoder破棄でメモリ不要 | |
| - **QuEST**: Affine量子化(scale s, zero point Z)。ガウスノイズx_Tでfull-precision modelを実行し校正セット構築。Weight量子化パラメータ固定、time embedding weightとattention関連weightのみ選択的にfinetuning。不均衡activation分布を再形成し、大きなoutlierを削減 | |
| - **DiT4SR**: LR画像をVAEでエンコード→パッチ化→D次元投影、noisy latent tokensと同じposition embeddingを付加。CLIP-L/G + T5-XXLでcaption埋め込み。MM-DiT-Controlブロックで、LR tokensとnoisy tokensを連結してjoint attention。LR residual shortcut、conv injection追加 | |
| - **ReflectionFlow**: ベース生成器Gθが初期画像をサンプル。Verifier Rがプロンプトyに対してスコアとテキスト反省rを生成。Corrector Cϕがnoise+前画像+y+rで改善画像を生成、M roundsリピート。Cϕのtrainingは画像編集タスクとして扱い、GenRefデータセット(100万triplet: 元画像、プロンプト、反省理由、編集画像)で学習 | |
| **新規性・貢献** | |
| - TDMは軌跡蒸留と分布マッチングを統一し、実画像不要でtrajectory-level distribution matchingを提案。Fake score modelで反復時にtrajectoriesを自己生成し、教師サンプリングを回避 | |
| - USPはMasked latent modelingで、ラベル不要・タスク固有損失設計不要の単一事前学習stageを実現。VAE固定でランタイムコスト・メモリオーバーヘッドなし | |
| - QuESTは低ビット失敗を不均衡activation分布に起因と特定し、weight finetuningでactivationを再形成。Time embeddingとattention関連層を選択的に更新する理論的根拠を提示 | |
| - DiT4SRはSD3のMM-DiTをReal-ISRに適用する先駆的試み。ControlNetのようなブロック複製ではなく、LRストリームをtransformer内部に埋め込み双方向co-evolution。LR residual shortcut + conv injectionで局所性を補完 | |
| - ReflectionFlowは並列探索と逐次精緻化を統合し、search width N、reflection depth Mでtest-time compute配分を明示。GenRef(100万triplet)は初の大規模image reflection dataset | |
| **残された課題・今後の方向性** | |
| - TDMはデータフリーだが、学生の上限は教師分布に依存。SD-v1.5のような弱い教師では人間の好みとミスマッチ。K-step固定訓練は少数ステップで劣化し、sampling-steps-aware統一戦略が必要 | |
| - USPは表現初期化が最重要と主張するが、supervised tuningよりSFTは生成を弱める可能性。VAE latentsでの認識は非効率、VAE選択が精度に影響 | |
| - QuESTの理論分析はfinetuningが有効な理由を説明するが、成功を保証せず。他アーキテクチャでは異なる層選択が必要。校正実行とサンプラー設定に依存 | |
| - DiT4SRはMM-DiT joint attentionを復元に転用するが、重い計算コストとSD3の設計を継承。3D prior不足でテキストなど細部に弱い | |
| - ReflectionFlowはreflection scalingが複雑プロンプトで有効だが、精緻化が不安定で多段反復が必要。強力verifierと高速correctorに依存し、verifier品質向上の余地大 | |
| --- | |
| ### 2.4 3D Gaussian Splatting Techniques(22件) | |
| **トピック概要** | |
| 3D Gaussian Splatting (3DGS)を圧縮、言語統合、occupancy推定に応用。NeRFに比べ高速レンダリングと明示的表現が利点だが、ストレージ、スケーラビリティ、セマンティック統合が課題。 | |
| **解決すべき課題** | |
| - 従来のNeRF圧縮は明示的グリッド、量子化、プルーニング、学習エントロピー符号化を使うがストレージ増加や専用デコーダが必要。3DGS圧縮は主にガウスプルーニングで属性圧縮が不十分 | |
| - 3D言語モデルは点群、depth、meshなど希少な3D入力やシーンごとの再構成に依存。NeRF/GS semantic手法は暗黙的関数を個別最適化し、SAM+CLIPはオブジェクト中心で空間関係を無視 | |
| - Self-supervised surround occupancyは体積レンダリングで2Dのdepth/semanticを教師とするが、photometric consistencyが実世界スケールを要求し、GT 6D ego poseが必須。体積レンダリングは密なray samplingで遅い | |
| - Semantic occupancy annotationは点ベースvoxelizationや2D→3D投影に依存。LiDAR点群と手動2D/3D GTが必要で、人手による後処理でdensify/purify。投影法は詳細喪失や視点間・時間間不整合 | |
| - Occupancyモデルは画像を密3D voxelにliftして3D convを適用し、空間の無駄とfull annotation依存。Self/weakly supervised手法は予測volumeを画像に再レンダリングするが時間レンダリングは遅い | |
| **主要なアプローチ・手法** | |
| - **CodecGS**: 3DGS densification後、tri-plane feature maps(512×512×3)を訓練してガウス属性をコンパクトMLPで予測。4×4 block DCT/channel毎に適用し、変換係数の単位ガウス仮定でエントロピー損失最小化。Progressive trainingで段階的にchannel levelを活性化 | |
| - **SplatTalk**: LLaVA-OneVisionのvision encoderで各posed RGBからvisual token抽出。MLP autoencoderで3584次元→256次元圧縮、unit正規化。FreeSplatスタイルのGaussian encoderで予測、多視点融合、decoderでガウス出力。Language rendering時、LLM context windowの制約でエントロピーサンプリング | |
| - **GaussianOcc**: Stage 1: NewCRFsベースのSwin U-Netでper-pixel depth+Gaussian属性+6D pose予測。Overlap maskで隣接ビュー重複を選択、片側マスクで自明解回避。Cross-view splatting renderingでphotometric loss。Stage 2: Voxel occupancy予測、ray-based Gaussian feature rendering | |
| - **AutoOcc**: 固定promptでVLMにオブジェクト列挙要求→token attentionを集約してsemantic attention maps生成→SAMセグメンテーションのprompt、UniDepthでdepth推定→pseudo 3D points/instance。VL-GSでスケーラブルなガウスを学習、時間的Gaussian splattingで動的オブジェクト対応 | |
| - **GaussianFlowOcc**: L camera画像からResNet-50特徴抽出→3ブロックのGaussian Transformer。各ブロックはDeformable Gaussian image cross-attention、induced self-attention(M inducing points)、induced temporal attention(前フレーム)、MLP rectifier。Gaussian Headsでopacity/scale/rotation/semantic logits予測 | |
| **新規性・貢献** | |
| - CodecGSはprogressive tri-plane feature architectureで、densification後にplanesが全ガウス属性を予測。周波数領域エントロピーパラメータ化でHEVC/VVCコーデック最適化。Progressive trainingとchannel importance weightingでrate control | |
| - SplatTalkは汎化可能な3D-language GSフレームワークで、multi-view画像をLLM互換3Dトークンに変換。Self-supervised、zero-shot 3D VQA、depth/point cloud/3D-language annotation不要。Gaussian特徴クエリの理論的根拠を提示 | |
| - GaussianOccは2段階設計。Stage 1でGaussian splattingがscale学習制約と高速レンダラーを兼ね、cross-view photometric lossでreal-world scale獲得しつつ6D pose networkを同時訓練。Stage 2でray-based Gaussian rendering | |
| - AutoOccは手動アノテーション不要のopen-ended semantic occupancy自動ラベリング。VLガイドで動的query listとattention mapsからセグメンテーション・depthを駆動。VL-GSでスケーラブルなガウスを導入、大物体と小物体を適応的にモデル化 | |
| - GaussianFlowOccは完全スパースなガウスシーン表現。Deformable Gaussian image cross-attention、induced self/temporal attentionでlinearスケーリング。Voxelization不要、学習・推論全体でスパース維持 | |
| **残された課題・今後の方向性** | |
| - CodecGSのエントロピー最小化はHEVC/VVC向き、progressive trainingで重要情報を初期チャネルに集中。λentでrate control可能だが、リアルタイムデコード速度は未検証 | |
| - SplatTalkは posed multi-view RGB必須、LLaVA-OVとLLM token interfaceの品質に依存。LLM context windowがvisual-token budget制約。低解像度voxel grid訓練で高解像度推論時に品質劣化 | |
| - GaussianOcc 2段階訓練は必須(voxel rendered depthのcross-view lossはoverfitし汎化せず)。Splatting renderingは小スケールガウスで粒状depthを生成。Pseudo semantic mapsの品質とprompt制約を継承 | |
| - AutoOccはVLM、SAM、depth estimatorの品質とバイアスに依存。Attention/mask/depthエラーがガウス最適化に伝播。Open-ended categoryの自動管理は複雑化リスク | |
| - GaussianFlowOccはpseudo 2D semantic/depthに依存し、label noiseとdomain mismatchに制約。Temporal Gaussian splattingは広範囲を見るがレンダリング損失のみでmotion学習は困難。非常に長い時間幅(T≥10)で発散 | |
| --- | |
| ### 2.5 Dynamic 3D Scene Reconstruction Methods(14件) | |
| **トピック概要** | |
| 動的シーンの再構成、イベントカメラからの光学フロー推定、高解像度点追跡、単一画像calibration、DUSt3Rからの動き推定、TAP (Tracking Any Point)の新パラダイム。 | |
| **解決すべき課題** | |
| - イベントカメラで光学フローか輝度のどちらかを推定する手法が主流で、相互依存性を無視。Model-basedは反復warpingとevent collapse問題、supervisedはGT取得コストとsim-to-realギャップ | |
| - 従来の光学フローは隣接フレーム間のみで推定し、チェインで累積ドリフトとocclusion下で失敗。参照フレームから遠いフレームへの直接flowは外観・視点・照明・形状変化で曖昧 | |
| - 単一視点calibrationは幾何的・学習ベース・ハイブリッド手法に分類。幾何的は平行線・消失点・Manhattanフレーム検出に依存し構造シーンのみ。End-to-endネットワークは1カメラモデルに直接回帰し、外部手がかり(重力方向など)が必要 | |
| - 従来のSfM/SLAMは静的シーン前提でepipolar consistencyに依存。動体はcorrespondence選択とカメラpose推定を破損。DUSt3Rなどの学習ベース基盤は静的RGB-Dで訓練され、動的動画で劣化 | |
| - TAPシステムは通常per-frameのfeature matchingと後続refinementに分解。多くはcost-volume correlationを個別クエリごとに計算し、制限された探索窓、微分可能argmax、feature interpolation、手設計temporal smoothnessや反復更新ループに依存 | |
| **主要なアプローチ・手法** | |
| - **Event Intensity Joint Learning**: イベントを15-bin voxel gridに変換→U-Netで密な光学フローと対数輝度を予測。各イベントと前駆イベントを予測フローで参照時刻にwarp、warp位置の輝度をサンプリング。Event-based photometric errorは輝度差-極性コントラスト閾値、L1ノルムで集約 | |
| - **AllTracker**: ConvNeXtでS=16フレームをstride 8、D=256で特徴エンコード。Query特徴マップを時間軸にタイル、5-level correlation pyramid計算。低解像度テンソルを初期化→overlappingサブシーケンスで情報共有しつつwindowed inference。RAFT-style反復refinementを1/8解像度grid上で適用 | |
| - **AnyCalib**: ネットワークがH×W画像から2D FoV fieldθ(local tangent-plane座標)を予測、L1誤差でGT θに教師。予測θをexponential mapで単位rayに変換。Rayから線形系を解き、principal point・pixel aspect ratio推定→focal length計算 | |
| - **Easi3R**: DUSt3Rをスライディング窓で全ペアに実行→global pointmaps、per-pair transform、scaleをL1 alignment目標で解く。Decoder cross-attention maps(QKᵀ/√c)を平均してper-view attention heatmap生成。Source/reference両方のmean/varianceを計算し組み合わせて動的領域分離 | |
| - **TAPNext**: 各フレームをh×w patchに分割→Cimensional image tokenに線形投影+spatial positional embedding。各query(t,x,y)からT point tokensを生成(query-time tokenは(x,y)をpositional embeddingでencode、他はlearned mask token)。Image/point tokensを連結しL層のSSM temporal blocks + ViT spatial blocksで処理 | |
| **新規性・貢献** | |
| - Event-based photometric errorを導出し、単一ネットワークで光学フローと輝度を同時教師なし学習。Event生成モデルから各event residualを導出し、両予測を結合 | |
| - AllTrackerは点追跡をmulti-frame long-range dense flowとして再定式化。Overlappingサブシーケンスのwindowed inferenceで長距離曖昧さを削減し、チェイン不要 | |
| - AnyCalibはFoV fieldという双射最小表現(tangent planeで定義)を学習し、球面値rayの不適切な操作を回避。予測rayから線形制約を導出し、closed-formでprincipal point/aspect ratio推定 | |
| - Easi3RはDUSt3Rのcross-attentionが暗黙的にmotion-related reliabilityをエンコードすると示し、再訓練なしで動的領域を分離。Mean/variance mapsをsource/referenceロールで計算し組み合わせ | |
| - TAPNextは点追跡をsequential masked token decodingとして定式化。Off-the-shelfの動画transformer(SSM temporal blocks + ViT spatial blocks)で統一処理、cost volume/iterative refinement/windowing不要 | |
| **残された課題・今後の方向性** | |
| - Event joint learningはPhEとcontrast maximizationが相補的。Ablationで時間一貫性が輝度を改善、total variationがflowを安定化。Intensity metricsが画像との対応で競合可能性 | |
| - AllTrackerは専用光学フロー推定(SEA-RAFT)に劣り、短距離動きでunderfitの兆候。S=16のデフォルト窓は非常に長いocclusionを見逃す可能性。多数の合成データセット混合だが追加データで一貫した改善なし | |
| - AnyCalibは画像内容から遠近法・歪み手がかりを得るが、principal point推定はill-posed。Crop/stretchで別途訓練したedited-imageモデルが必要で角度誤差が高い。パノラマとサンプル内因パラメータに依存し、実世界シフト・アーティファクトに脆弱 | |
| - Easi3RはDUSt3R/MonST3Rのdepth/pointmap予測に依存。これらが不正確な場合、再構成失敗。Attention信号は複数シーンで一貫しているが、入力不変・attention修正のみでout-of-distribution maskingを回避 | |
| - TAPNextはクラシック追跡ヒューリスティクスが共有token空間+recurrenceでend-to-endに創発すると示す。Attentionがcost-volume matching、coordinate readout、motion clusteringに類似。しかし計算hungry、非常に大規模モデル必要 | |
| --- | |
| ## 3. 横断的な技術トレンド | |
| ### 3.1 Diffusionモデルの基盤技術統合 | |
| - **Flow Matching / Rectified Flow**: Diffusion Transformer (DiT)系の研究で標準化。Video Diffusion(ReCamMaster)、Image Generation(TDM)で採用され、ODEベースの決定論的軌跡生成が主流 | |
| - **3D Attention & Token Concatenation**: ReCamMasterはsource/target video latentsをframe次元で連結し3D attentionで混合。LLaVA-3Dも3D position embeddingをpatch tokenに加算し、DiT4SRはLR/noisy tokensを連結してjoint attention | |
| - **Transformer-Native Conditioning**: ControlNet-styleの複製ブロックから、tokenレベルの統合へ移行。Any2AnyTryonはAdaptive Position Embeddingで多様な条件をlatent空間に統一 | |
| ### 3.2 Self-Supervised Learning & Foundation Model転用 | |
| - **Masked Modeling**: USPはVAE latent spaceでmasked feature modelingを行い、perception/generation両対応の事前学習を実現。AutoOccはVLMのtoken attentionをマスク生成に利用 | |
| - **Foundation Model Repurposing**: Puppet-MasterはStable Video Diffusionを再利用、LLaVA-3DはLLaVA-Videoを3D拡張。DUSt3Rのattention mapsから動き信号を抽出(Easi3R) | |
| - **Pretrained Component凍結**: USPはVAE固定、SplatTalkはvision encoder凍結、Ross3Dは3D positional encodingのみ学習。計算コスト削減と汎化性向上を両立 | |
| ### 3.3 Test-Time Compute Scaling | |
| - **Inference-Time Optimization**: ReflectionFlowはMLLM verifierで反省r生成→correctorで逐次refinement。Search width N、reflection depth Mでcompute配分を明示化 | |
| - **Parallel Search + Sequential Refinement**: RegionFocusはfocal point周辺の複数bounding boxで並列action候補生成→集約。TDMはtrajectory-level distribution matchingでmulti-step制御 | |
| - **Reward-Based Tuning**: Hint-GRPOはGRPOをhint groupで拡張、PersonalVideoはIdentity/Semantic Consistency Rewardで動画レベル教師 | |
| ### 3.4 3D表現の多様化 | |
| - **Gaussian Splatting as Universal Primitive**: Rendering速度優位性を活かし、compression(CodecGS)、language(SplatTalk)、occupancy(GaussianOcc, AutoOcc, GaussianFlowOcc)に適用 | |
| - **Multi-view + Depth Fusion**: LLaVA-3D、Ross3D、GaussianOccは全てdepth + camera poseから3D positional encodingを生成。AutoOccはmonocular depth推定でpseudo 3D pointsを構築 | |
| - **Sparse vs. Dense Trade-off**: GaussianFlowOccは完全スパースでvoxelization回避。GaussianOccは2段階で1段目Gaussian splatting、2段目voxel occupancy | |
| ### 3.5 Vision-Languageの深化 | |
| - **3D-Language統合**: SplatTalkはGaussian fieldに言語特徴を統合、LLaVA-3Dは3D座標embeddingでLMMを拡張、Ross3Dは3D-aware reconstructionで視覚outputを教師 | |
| - **Robustness Evaluation**: DriveBenchは15種類のcorruption + text-only入力で自動運転VLMを監査。Answer biasとcontext-aware評価の重要性を提唱 | |
| - **Grounding特化型Test-Time Scaling**: RegionFocusはlanguage推論ではなくvisual groundingに計算を割り当て、zoom領域の並列評価で精度向上 | |
| ### 3.6 Autoregressive Paradigmの台頭 | |
| - トピック8(Autoregressive Visual Tokenization)、トピック9(Autoregressive Visuomotor Policy)、トピック10(Unified Visual and Language Models)で合計24件 | |
| - **TAPNext**: 点追跡をsequential masked token decodingとして定式化。Image patchとtrajectory tokenを統一token空間で処理 | |
| - **Token-Based Generation**: Diffusion以外の生成パラダイムとして、autoregressive next-token predictionがvision-language統合に有利 | |
| --- | |
| ## 4. 今後の研究方向性 | |
| ### 4.1 Efficiency & Scalability | |
| - **Compute-Efficient Distillation**: TDMのようなdata-freeかつtrajectory-aware蒸留が、few-step generationの実用化鍵。Sampling-steps-aware統一戦略の開発が必要 | |
| - **Selective Fine-tuning**: QuESTが示す「重要層の選択的更新」は、quantization以外(LoRA、adapter、test-time adaptation)にも応用可能 | |
| - **Sparse Representation**: GaussianFlowOccの完全スパース表現は、大規模3Dシーンのリアルタイム処理に有望 | |
| ### 4.2 Multi-modal Foundation Modelの進化 | |
| - **Unified Pretraining**: USPが示す「perception + generation」の単一事前学習は、今後のfoundation modelの標準パラダイムとなる可能性 | |
| - **3D-Native Models**: LLaVA-3D、Ross3Dの3D positional encodingは最小拡張だが、今後は3D-native architectureへ移行(例:Gaussian Transformerの汎用化) | |
| - **Test-Time Scaling**: ReflectionFlow、RegionFocusが示す推論時計算の戦略的配分は、LLMのCoT/self-consistencyと同様にvision-languageでも重要 | |
| ### 4.3 Dynamic Scene Understanding | |
| - **Motion Disentanglement**: Easi3RはDUSt3Rのattention信号から動きを分離。今後は明示的motion module(flow、trajectory、deformation)の統合が期待 | |
| - **Temporal Gaussian Splatting**: AutoOcc、GaussianFlowOccが時間拡張GSを導入したが、長時間幅での安定性が課題。Temporal coherence損失とmemory-efficient recurrent architectureの開発が必要 | |
| - **Event-based + RGB Fusion**: Event-based photometric error(Joint Learning)は、RGB+Eventのhybrid trackingやSLAMに応用可能 | |
| ### 4.4 Robustness & Reliability | |
| - **Corruption Benchmarking**: DriveBenchの17設定評価(clean + 15corruptions + text-only)は、医療・製造・自律システムなど安全性重視分野で標準化すべき | |
| - **Context-Aware Evaluation**: Answer biasとfluency優先の評価を避け、task-specific rubricとcorruption理由説明を導入 | |
| - **Calibration & Uncertainty**: DriveBench、AnyCalibが示すように、モデルが入力信頼性とcorruptionを明示的に推論する能力が必要 | |
| ### 4.5 Open-Ended Learning | |
| - **Auto-Labeling**: AutoOccのVL-guided auto-labelingは、semantic occupancy以外(3D detection、scene graph、affordance)にも拡張可能 | |
| - **Dynamic Query Management**: VLMのtoken attentionから動的category listを構築し、人手アノテーション不要のopen-ended learningを実現 | |
| - **Reflection-Driven Refinement**: GenRefデータセット(100万triplet)は、画像以外(video、3D、text)にも応用可能な汎用refinement frameworkの基盤 | |
| ### 4.6 Architectural Innovation | |
| - **Transformer-Centric 3D**: GaussianFlowOccのGaussian Transformer、DiT4SRのMM-DiT-Controlは、CNNレスの完全Transformer architectureへの移行を示唆 | |
| - **Induced Attention**: GaussianFlowOccのinduced self/temporal attentionは、長系列処理のlinear scalingを実現。Vision foundationにも適用可能 | |
| - **Adaptive Representations**: CodecGSのprogressive tri-plane、Any2AnyTryonのAdaptive Position Embeddingは、条件数・解像度に適応する柔軟なrepresentationの方向性 | |
| --- | |
| ## 結論 | |
| ICCV2025の高品質論文は、**Diffusion Transformer**、**3D Gaussian Splatting**、**Vision-Language統合**の3本柱を中心に、以下の変革を示しています: | |
| 1. **生成モデルの実用化**: Few-step distillation、quantization、test-time scalingにより、Diffusionモデルが推論速度とメモリ効率で実用水準に到達 | |
| 2. **3D理解のブレークスルー**: Gaussian Splattingが明示的・高速・スパースな3D表現として、occupancy、language、dynamic scenesに適用範囲を拡大 | |
| 3. **Foundation Modelの転用**: 大規模事前学習モデル(LLaVA、DUSt3R、Stable Video Diffusion)を最小変更で新タスクに適用し、data efficiencyとzero-shot汎化を実現 | |
| 4. **Self-Supervised Learningの深化**: Masked modeling、photometric consistency、attention-guided pseudo-labelingが、アノテーションコストを削減 | |
| 5. **Robustness & Evaluationの再考**: Corruption benchmarking、context-aware評価、test-time reflectionが、モデルの信頼性と安全性を向上 | |
| 今後は、これらの技術が相互に統合され、**単一のfoundation modelが2D/3D/video/language/actionを統一的に処理**する世界へ向かうと予想されます。 | |
| ============================================================ |
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment