

Readerlm V2
紹介 :
ReaderLM v2は、Jina AIが開発した15億パラメータの小型言語モデルであり、HTMLからMarkdownへの変換とHTMLからJSONへの抽出に特化しています。高い精度を誇り、29言語をサポートし、最大512Kトークンの入出力長に対応しています。新しいトレーニングパラダイムと高品質なトレーニングデータを採用することで、長文処理とMarkdown構文生成において前世代モデルよりも大幅な改善を実現しました。Markdown構文を熟知しており、複雑な要素の生成にも長けています。さらに、ReaderLM v2はHTMLからJSONへの直接生成機能も導入しており、指定されたJSONスキーマに基づいて、元のHTMLから特定の情報を抽出できます。Markdownへの変換を省くことで、効率性が向上しています。
ターゲットユーザー :
ターゲットユーザーには、ウェブコンテンツをMarkdown形式に変換する必要がある開発者、コンテンツ制作者、データアナリストなどが含まれます。また、ウェブページから構造化データを取得する必要がある企業や研究者も含まれます。開発者にとって、ReaderLM v2はウェブコンテンツをさらに処理しやすい形式に迅速に変換するのに役立ちます。コンテンツ制作者にとっては、ウェブコンテンツをMarkdown形式に整理して共有またはアーカイブするのに便利です。企業や研究者にとっては、HTMLからJSONへの機能により、ウェブページから重要な情報を効率的に抽出し、データ分析や研究作業に役立ちます。
使用シナリオ
開発者がReaderLM v2を使用して収集したウェブニュースをMarkdown形式に変換し、技術ブログで共有します。
企業のデータアナリストがHTMLからJSONへの機能を利用して、ウェブページから製品情報を抽出し、市場分析レポートに使用します。
研究者がこのモデルを使用して、学術サイトから論文情報を抽出し、JSON形式で保存することで、後続の研究データ整理を容易にします。
製品特徴
HTMLをMarkdownに変換し、情報を完全に保持しつつ、Markdown構文を巧みに用いてコンテンツを構築します。
最大512Kトークンの入出力長に対応し、長文処理における劣化問題を効果的に解決します。
HTMLからJSONへの直接生成機能により、指定されたJSONスキーマに基づいて特定情報を抽出し、データクリーニングと抽出の効率を向上させます。
英語、中国語、日本語など29言語をサポートし、幅広い用途に対応します。
定量的および定性的ベンチマークテストにおいて、より大規模な複数のモデルを上回る性能を示しながら、パラメータ数は著しく少なくなっています。
使用チュートリアル
1. Reader APIを使用する:リクエストヘッダーに`x-engine: readerlm-v2`を指定し、`-H 'Accept: text/event-stream'`でレスポンスのストリーミング伝送を有効化します。
2. Google Colabを使用する:Colabノートブックを使用して、HTMLからMarkdownへの変換、JSON抽出、命令に従うテストを行います。
3. 本番環境での使用:AWS SageMaker、Azure、GCP marketplaceでReaderLM v2モデルをデプロイして使用します。
4. HTMLからMarkdownへの変換では、`create_prompt`補助関数を使用してプロンプトを作成し、その後モデルを呼び出して結果を生成します。
5. JSONスキーマを用いたHTMLからJSONへの抽出では、まずスキーマを定義し、次にプロンプトを作成してモデルを呼び出し、JSON形式の結果を生成します。
おすすめAI製品

Pseudoeditor
PseudoEditorは無料で使用できるオンライン擬似コードエディタです。構文の強調表示や自動補完などの機能を備えており、擬似コードの作成を容易にします。さらに、内蔵の擬似コードコンパイラ機能でテストすることも可能です。ダウンロード不要ですぐにご利用いただけます。
開発とツール
3.8M

Coze
Cozeは、次世代AIチャットボット構築プラットフォームです。AIチャットボットアプリケーションの迅速な作成、デバッグ、最適化が可能です。コーディング不要で、チャットボットを簡単に作成し、様々なプラットフォームに公開できます。豊富なプラグインも提供しており、データとの連携、アイデアをボットスキルへの変換、長期記憶の装備、会話の開始など、ボットの機能を拡張できます。
開発とツール
3.7M