大模型Qwen 2.5 系統(tǒng)和硬件配置要求
Qwen 2.5系統(tǒng)和硬件配置要求
探索阿里巴巴在人工智能領域的最新創(chuàng)新Qwen 2.5模型的開創(chuàng)性功能。從多功能的 Qwen 2.5 到編碼、數(shù)學、視覺語言和音頻方面的專業(yè)變體,這些模型在各種任務中提供卓越的性能。Qwen 2.5 模型的大小從 0.5B 到 72B 參數(shù)不等,可滿足各種計算資源和應用程序需求。了解這些最先進的模型如何突破 AI 的界限,從自然語言處理到多模態(tài)理解。
規(guī)范 |
Qwen 2.5-0.5B |
Qwen 2.5-1.5B |
Qwen 2.5-3B |
Qwen 2.5-7B |
Qwen 2.5-14B |
Qwen 2.5-32B |
Qwen 2.5-72B |
GPU內存 |
398MB |
986MB |
1.9GB |
4.7GB |
9.0GB |
20GB |
|
BF16 |
|
|
|
|
|
|
134.74GB 2個A100 80GB或 4塊RTX4090 48GB |
GPTQ-int8 |
|
|
|
|
|
|
71GB 2個A100 80G或 3塊RTX4090 48GB |
GPTQ-int4 |
|
|
|
|
|
|
41.8GB 1個RTX4090 48GB |
AWQ |
|
|
|
|
|
|
41.31GB 1個RTX4090 48GB |
存儲空間 |
<1GB |
~2GB |
~4GB |
|
|
|
|
最大長度 |
32K tokens |
32K tokens |
32K tokens (估計) |
32K tokens |
32K tokens |
32K tokens(估計) |
32K tokens |
工具使用 |
|
支持 |
可能支持 |
支持 |
支持 |
可能支持 |
支持 |
預訓練令牌 |
2.2T |
|
|
2.4T |
3.0T |
可能3.0T或更多 |
3.0T |
最小GPU內存(Q-LoRA微調) |
5.8GB |
|
|
11.5GB |
18.7GB |
|
61.4GB |
最小GPU內存(生成2048個令牌,Int4) |
2.9GBGB |
|
|
8.2GB |
13.0GB |
|
48.9GB |
許可證 |
Apache 2.0版本 |
Apache 2.0版本 |
Qwen特定許可證 |
Apache 2.0版本 |
Apache 2.0版本 |
Apache 2.0版本 |
|
Qwen2.5 編碼器硬件配置要求
模型 |
類別 |
規(guī)范 |
詳細參數(shù) |
|
Qwen2.5編碼器1.5B |
技術規(guī)格 |
模型大小 |
15億個參數(shù) |
|
GPU內存 |
約986MB |
|||
存儲空間 |
~2GB |
|||
最大長度 |
32K tokens(估計) |
|||
預訓練令牌 |
未指定,可能在2.2T tokens左右 |
|||
主要特點 |
優(yōu)化的架構 |
專為編碼任務而設計,在性能和資源效率之間實現(xiàn)良好的平衡 |
||
處理效率 |
能夠以適度的計算資源處理編碼任務 |
|||
先進技術 |
采用flash-attention等技術,以提高效率并減少內存使用 |
|||
語言的多樣性 |
針對編碼進行了優(yōu)化,但保留了一般的自然語言處理功能 |
|||
系統(tǒng)要求 |
Python |
3.8或更高版本 |
||
PyTorch |
1.12或更高版本,推薦 2.0+ |
|||
CUDA |
11.4或更高版本(適用于GPU用戶) |
|||
理想的應用 |
為中小型項目提供編碼協(xié)助 |
|||
代碼生成和基本調試 |
||||
非常適合計算資源有限的個人開發(fā)人員或小型團隊 |
||||
適合在沒有高端硬件的情況下尋求幫助的開發(fā)人員 |
||||
Qwen 2.5編碼器7B |
技術規(guī)格 |
模型大小 |
70億個參數(shù) |
|
GPU內存 |
4.7GB |
|||
最大長度 |
32K tokens |
|||
預訓練令牌 |
2.4T |
|||
最小GPU內存(Q-LoRA微調) |
11.5GB |
|||
最小GPU內存(生成2048令牌,Int4) |
8.2GB |
|||
性能特點 |
生成速度(BF16) |
37.97個tokens/s(輸入長度1) |
||
生成速度(GPTQ-int4) |
36.17個tokens/s(輸入長度1) |
|||
生成速度(AWQ) |
33.08個tokens/s(輸入長度1) |
|||
GPU內存使用情況(BF16) |
14.92GB(輸入長度1) |
|||
GPU內存使用情況GPTQ-int4 |
6.06GB(輸入長度1) |
|||
GPU內存使用情況(AWQ) |
5.93GB(輸入長度1) |
|||
主要特點 |
高級編碼功能 |
與1.5B型號相比,在復雜編碼任務中的性能顯著提高 |
||
增強的上下文理解 |
由于參數(shù)數(shù)量更多,因此更好地理解上下文和開發(fā)人員意圖 |
|||
支持大型項目 |
能夠處理更廣泛和復雜的代碼庫 |
|||
編程語言的多功能性 |
可能為更廣泛的編程語言和框架提供支持 |
Qwen2數(shù)學要求
模型種類 |
類別 |
規(guī)范 |
詳細參數(shù) |
Qwen2-Math 1.5B |
技術規(guī)格 |
模型大小 |
15億個參數(shù) |
非嵌入?yún)?shù) |
1.2B |
||
GSM8K性能 |
58.5% |
||
數(shù)學性能 |
21.7% |
||
MMLU性能 |
56.5% |
||
C-Eval性能 |
70.6% |
||
CMMLU性能 |
70.3% |
||
附加功能 |
結構 |
基于Transformer,具有SwiGLU 激活等改進 |
|
分詞器 |
針對多種自然語言和代碼進行改進和調整 |
||
最大上下文 |
32Ktokens(估計值,基于其他Qwen2模型) |
||
Qwen2-Math 7B |
技術規(guī)格 |
模型大小 |
70 億個參數(shù) |
GSM8K 性能 |
89.9% |
||
數(shù)學改進 |
比其前身高 5.0 分 |
||
最大上下文 |
32K tokens |
||
量化選項 |
提供BF16、GPTQ-Int8、GPTQ-Int4和AWQ版本 |
||
生成速度 |
BF16型 |
37.97個tokens/s(輸入長度1) |
|
GPTQ-INT4 的 |
36.17個tokens/s(輸入長度1) |
||
AWQ |
33.08個tokens/s(輸入長度1) |
||
GPU內存使用情況 |
BF16型 |
14.92GB(輸入長度1) |
|
GPTQ-INT4 的 |
6.06GB(輸入長度1) |
||
AWQ |
5.93GB(輸入長度1) |
||
Qwen2-Math 72B |
技術規(guī)格 |
模型大小 |
720億個參數(shù) |
MATH基準測試 |
84% |
||
GSM8K性能 |
96.7% |
||
大學數(shù)學成績 |
47.8% |
||
MMLU性能 |
84.2% |
||
GPQA 性能 |
37.9% |
||
HumanEval 性能 |
64.6% |
||
BBH 性能 |
82.4% |
||
附加功能 |
最大上下文 |
128K tokens |
|
許可證 |
特定于Qwen(不像較小的模型那樣使用 Apache 2.0) |
||
系統(tǒng)要求 (估計) |
GPU內存(BF16) |
~134GB(2個A100 80GB或4塊RTX4090 48GB) |
|
GPU內存(GPTQ-int8) |
~71GB(2個A100 80GB或4塊RTX4090 48GB) |
||
GPU內存(GPTQ-int4) |
~42GB(2個A100 80GB或2塊RTX4090 48GB) |
||
GPU內存(AWQ) |
~41GB(2個A100 80GB或2塊RTX4090 48GB) |
Qwen2 VI硬件配置要求
模型種類 |
類別 |
規(guī)范 |
詳細參數(shù) |
Qwen2-VL-2B |
模型組成 |
總大小 |
20億個參數(shù) |
Vision 編碼器 |
675M 參數(shù) |
||
法學碩士 |
1.5B 參數(shù) |
||
硬件要求 |
圖形處理器 |
兼容 CUDA,最低 4GB VRAM |
|
中央處理器 |
4個內核或更多 |
||
RAM |
最低8GB,推薦16GB |
||
軟件要求 |
Python |
3.8 或更高版本 |
|
PyTorch 插件 |
1.12 或更高版本 |
||
Transformers |
4.32.0 或更高版本 |
||
存儲 |
磁盤空間 |
約 4GB |
|
性能 |
MMMU val |
41.1% |
|
DocVQA 測試 |
90.0% |
||
處理能力 |
圖像 |
最高 2048×2048 像素 |
|
視頻 |
持續(xù)時間長達 20 分鐘 |
||
許可證 |
Apache 2.0 版本 |
||
Qwen2-VL-7B |
模型組成 |
總大小 |
70 億個參數(shù) |
視頻編碼器 |
675M 參數(shù) |
||
LLM |
7.6B 參數(shù) |
||
硬件要求 |
圖形處理器 |
兼容CUDA,最低16GB VRAM |
|
中央處理器 |
8個內核或更多 |
||
RAM |
最低32GB,推薦64GB |
||
軟件要求 |
Python |
3.8 或更高版本 |
|
PyTorch 插件 |
2.0 或更高版本 |
||
Transformers |
4.37.0 或更高版本 |
||
存儲 |
磁盤空間 |
約14GB |
|
性能 |
在大多數(shù)基準測試中優(yōu)于 OpenAI GPT-4o mini |
||
處理能力 |
圖像 |
動態(tài)分辨率高達4096×4096像素 |
|
視頻 |
持續(xù)時間長達20分鐘,每秒處理2幀 |
||
許可證 |
Apache 2.0 版本 |
||
Qwen2-VL-72B |
模型組成 |
總大小 |
720億個參數(shù) |
視頻編碼器 |
675M參數(shù) |
||
LLM |
72B參數(shù) |
||
硬件要求 |
圖形處理器 |
多個高端GPU,至少2個NVIDIA A100 80GB |
|
中央處理器 |
32個內核或更多 |
||
RAM |
最低256GB,推薦512GB |
||
軟件要求 |
Python |
3.8或更高版本 |
|
PyTorch 插件 |
2.0或更高版本 |
||
Transformers |
4.37.0或更高版本 |
||
存儲 |
磁盤空間 |
超過130GB |
|
性能 |
MathVista、DocVQA、RealWorldQA 和 MTVQA 的最新技術 |
||
處理能力 |
圖像 |
無理論限制的動態(tài)分辨率 |
|
視頻 |
持續(xù)時間超過20分鐘,具有高級幀處理功能 |
||
訪問 |
通過官方 API 提供 |
Qwen2 音頻硬件配置要求
模型種類 |
規(guī)范 |
詳細參數(shù) |
模型組成 |
總大小 |
70億個參數(shù) |
視頻編碼器 |
675M 參數(shù) |
|
LLM |
7.6B 參數(shù) |
|
硬件要求 |
圖形處理器 |
兼容CUDA,建議至少 16GB VRAM |
中央處理器 |
8個或更多內核以實現(xiàn)最佳性能 |
|
RAM |
最低32GB,推薦64GB或更高 |
|
存儲 |
至少20GB的可用磁盤空間用于模型和依賴項 |
|
軟件要求 |
操作系統(tǒng) |
Linux(建議使用 Ubuntu 20.04 或更高版本)、帶有 WSL2 的 Windows 10/11 或 macOS 11 或更高版本 |
Python |
3.8或更高版本 |
|
PyTorch 插件 |
2.0或更高版本,使用CUDA支持編譯 |
|
Transforms |
4.37.0或更高版本,建議從 GitHub 安裝最新版本: |
|
Librosa |
用于音頻處理的最新穩(wěn)定版本 |
|
FFmpeg |
音頻文件作需要 |
|
其他依賴項 |
|
|
網(wǎng)絡要求 |
互聯(lián)網(wǎng)連接 |
用于模型下載的穩(wěn)定連接(約 14GB) |
推薦帶寬 |
100 Mbps 或更高速度,實現(xiàn)快速下載 |
|
處理能力 |
圖像 |
動態(tài)分辨率高達 4096×4096 像素 |
視頻 |
持續(xù)時間長達 20 分鐘,每秒處理 2 幀 |
|
性能 |
在大多數(shù)基準測試中優(yōu)于 OpenAI GPT-4o mini |
|
許可證 |
Apache 2.0 版本 |
市場上唯一---6塊5090D水冷靜音混合計算GPU工作站王者配置推薦25v1
用中文訓練更快-滿血版Deepseek R1本地部署服務器/工作站硬件配置精準分析與推薦2025v1
http://www.franck-swisse.com/article/110/2929.html