Chinese Tiny LLM : 首箇中文大語言模型，專注中文理解和生成

Chinese Tiny LLM

AI模型 AI語言學習 #中文 #語言模型 #預訓練 #CHC-Bench 優質新品開源

簡介 :

Chinese Tiny LLM（CT-LLM）是針對中文設計的首個大語言模型，擁有20億參數，並在12000億中文語料庫上進行預訓練。CT-LLM專注於提高對中文語言的理解和生成能力，利用大規模的中文數據預訓練，實現對中文文本的高效處理。雖然重點優化了中文處理，CT-LLM也展示了對英文和編程代碼的良好處理能力，體現了模型的多語言適應性。在中文語言任務的基準測試CHC-Bench上，CT-LLM展現了出色的性能，證明了其在理解和應用中文方面的高效能力。CT-LLM從零開始訓練，主要使用中文數據進行預訓練，開放了整個數據過濾過程、訓練動態、訓練和評估數據，以及模型的中間檢查點等所有相關信息。該開放資源的做法使得其他研究者、開發者能夠訪問這些資源，利用這些資料進行自己的研究或進一步改進模型。

需求人群 :

用於中文文本處理、生成和理解任務

總訪問量： 557

佔比最多地區： US(78.22%)

本站瀏覽量： 68.7K

使用場景

用於中文NLP研究

中文文章自動生成

中文文本情感分析

產品特色

20億參數的大語言模型

中文語言任務表現優秀