Tarsier : Tarsierは、バイトダンスが開発した、高品質なビデオ説明を生成するための、大規模なビデオ言語モデルです。

Tarsier

映像制作 AIモデル #動画説明 #動画理解 #人工知能 #深層学習 #自然言語処理通常製品オープンソース

紹介 :

Tarsierは、バイトダンスの研究チームが開発した、一連の大規模ビデオ言語モデルです。高品質なビデオ説明の生成と、強力な動画理解能力を備えています。二段階のトレーニング戦略（マルチタスク事前学習と多粒度指示微調整）により、ビデオ説明の精度と詳細度が大幅に向上しました。主な利点としては、高精度なビデオ説明能力、複雑なビデオコンテンツの理解能力、そして複数の動画理解ベンチマークテストでSOTA（State-of-the-Art）の結果を達成している点が挙げられます。Tarsierは、既存のビデオ言語モデルにおける詳細と正確性の不足を改善することを目的として開発されました。大規模で高品質なデータによるトレーニングと革新的なトレーニング手法により、ビデオ説明分野において新たな高みに達しています。現時点では価格設定は公開されていませんが、主に学術研究と商業用途を対象としており、高品質な動画コンテンツの理解と生成が必要な場面に適しています。

ターゲットユーザー :

Tarsierは、高品質な動画コンテンツの生成と理解を必要とするユーザーに適しています。これには、動画制作者、研究者、動画プラットフォーム開発者、そして動画説明の自動化を必要とする商業ユーザーなどが含まれます。詳細な動画説明を迅速に生成し、動画コンテンツのアクセシビリティとユーザーエクスペリエンスを向上させることができます。

総訪問数： 502.6M

最も高い割合の地域： US(19.34%)

ウェブサイト閲覧数： 70.1K

使用シナリオ

動画制作者はTarsierを使用して動画の詳細な説明を自動生成し、時間と労力を節約できます。

研究者はTarsierのモデルアーキテクチャとトレーニング手法を利用して、ビデオ言語モデルの研究と改良を行うことができます。

動画プラットフォームはTarsierを統合して自動動画説明機能を提供し、ユーザーエクスペリエンスとコンテンツのアクセシビリティを向上させることができます。

製品特徴

高品質なビデオ説明を生成し、動画内のイベント、アクション、シーンを詳細に説明できます。

ビデオ説明、ビデオQAなど、複数のタスクを網羅するマルチタスク事前学習に対応しています。

多粒度指示微調整を採用し、複雑さの異なる動画に対する理解能力を向上させています。

MVBench、NeXT-QAなど、複数の動画理解ベンチマークテストでSOTAの結果を達成しています。

モデルのパフォーマンス評価に使用できるDREAM-1Kビデオ説明ベンチマークデータセットを提供しています。

動画、画像、GIFファイルなど、複数の入力形式に対応しています。

オンラインデモとオープンソースコードを提供しており、開発者は容易に研究と展開を行うことができます。

使用チュートリアル

1. Python 3.9の仮想環境を作成します（まだインストールしていない場合）：`conda create -n tarsier python=3.9`

2. Tarsierコードリポジトリをクローンします：`git clone https://github.com/bytedance/tarsier.git`

3. プロジェクトディレクトリに移動し、インストールスクリプトを実行します：`cd tarsier && bash setup.sh`

4. モデルの重みファイルをダウンロードします。Hugging Faceから取得できます：`Tarsier-7b`または`Tarsier-34b`

5. 入力動画ファイルを用意します（例：`assets/videos/coffee.gif`）

6. クイックスタートスクリプトを実行して動画説明を生成します：`python3 -m tasks.inference_quick_start --model_name_or_path <モデルパス> --instruction '動画を詳細に説明してください。' --input_path <動画パス>`