本研究基於個人使用者經驗,歸納出一個判斷大語言模型能力的分類歸類方法,從最低階的書僮/陪讀,中階的師傅/少傅到最高階的大師/太師階級,對各大模型系列進行了全面評估。
評估涵蓋六個關鍵面向:綜合能力、中文能力、繁體中文能力、法律能力、中文法律能力及台灣繁體中文法律能力,特別強調法律領域的應用表現。
基礎級別,具備基本理解能力,可處理簡單查詢,提供基礎事實性信息,但語言處理能力有限,需要明確指示。
進階級別,具備良好的理解和分析能力,可處理複雜查詢,提供深入解釋和分析,語言處理能力較強,可理解上下文。
專家級別,具備卓越的理解和推理能力,可處理高度複雜和專業查詢,提供專家級分析和見解,精通多種語言和專業領域。
| 評估面向 | 評估內容 |
|---|---|
| 綜合能力 | 模型的整體表現,包括理解、分析、推理、生成和創造性思維等方面 |
| 中文能力 | 模型處理簡體中文的能力,包括理解、生成和語言流暢度 |
| 繁體中文能力 | 模型處理繁體中文的能力,包括正確理解繁體字詞和地區用語 |
| 法律能力 | 模型處理通用法律問題的能力,包括法律概念理解和法律推理 |
| 中文法律能力 | 模型處理中文法律問題的能力,包括對中國大陸法律體系的理解 |
| 台灣繁體中文法律能力 | 模型處理台灣法律問題的能力,包括對台灣特有法律術語和法律體系的理解 |
評分採用1-10分制,根據模型在各個面向的表現進行評估:
| 模型 | 綜合能力 | 中文能力 | 繁體中文能力 | 法律能力 | 中文法律能力 | 台灣繁體中文法律能力 |
|---|---|---|---|---|---|---|
| Gemini 2.5 Pro | 9.2 (大師/太師) | 8.8 (大師/太師) | 8.5 (大師/太師) | 8.7 (大師/太師) | 8.4 (大師/太師) | 8.0 (大師/太師) |
| Gemini 2.5 Flash | 8.7 (大師/太師) | 8.5 (大師/太師) | 8.2 (大師/太師) | 8.3 (大師/太師) | 8.0 (大師/太師) | 7.7 (師傅/少傅) |
| Gemma 3 27B | 8.3 (大師/太師) | 8.0 (大師/太師) | 7.8 (師傅/少傅) | 7.9 (師傅/少傅) | 7.6 (師傅/少傅) | 7.3 (師傅/少傅) |
Gemini系列模型在各個面向表現均衡且出色,尤其是Gemini 2.5 Pro在綜合能力方面達到9.2分的高分,展現了卓越的理解、分析和生成能力。在中文和繁體中文處理方面,該系列模型也有很好的表現,能夠準確理解和生成流暢的中文內容。
在法律領域,Gemini 2.5 Pro表現最為突出,能夠處理複雜的法律問題並提供專業的分析。值得注意的是,隨著模型規模的減小,在台灣繁體中文法律能力方面的表現有所下降,Gemma 3 27B在此方面僅達到師傅/少傅級別。
| 模型 | 綜合能力 | 中文能力 | 繁體中文能力 | 法律能力 | 中文法律能力 | 台灣繁體中文法律能力 |
|---|---|---|---|---|---|---|
| Claude 3.5 Sonnet | 9.0 (大師/太師) | 8.6 (大師/太師) | 8.3 (大師/太師) | 8.9 (大師/太師) | 8.5 (大師/太師) | 8.2 (大師/太師) |
| Claude 3.7 Sonnet | 9.3 (大師/太師) | 8.8 (大師/太師) | 8.5 (大師/太師) | 9.1 (大師/太師) | 8.7 (大師/太師) | 8.4 (大師/太師) |
Claude系列模型在法律領域表現尤為突出,Claude 3.7 Sonnet在法律能力方面達到9.1分的高分,展現了卓越的法律理解和分析能力。該系列模型在處理複雜法律問題時表現出色,能夠提供深入的法律分析和見解。
在中文和繁體中文處理方面,Claude系列也有很好的表現,尤其是Claude 3.7 Sonnet在繁體中文法律能力方面達到8.4分,能夠準確理解和處理台灣法律問題。整體而言,Claude系列在各個面向均達到大師/太師級別,是法律領域應用的優秀選擇。
| 模型 | 綜合能力 | 中文能力 | 繁體中文能力 | 法律能力 | 中文法律能力 | 台灣繁體中文法律能力 |
|---|---|---|---|---|---|---|
| Grok 2 | 8.2 (大師/太師) | 7.8 (師傅/少傅) | 7.5 (師傅/少傅) | 7.9 (師傅/少傅) | 7.4 (師傅/少傅) | 7.1 (師傅/少傅) |
| Grok 3 | 8.7 (大師/太師) | 8.2 (大師/太師) | 7.9 (師傅/少傅) | 8.3 (大師/太師) | 7.8 (師傅/少傅) | 7.5 (師傅/少傅) |
| SuperGrok | 9.0 (大師/太師) | 8.5 (大師/太師) | 8.2 (大師/太師) | 8.6 (大師/太師) | 8.1 (大師/太師) | 7.8 (師傅/少傅) |
Grok系列模型在綜合能力方面表現良好,尤其是SuperGrok達到9.0分的高分。在中文處理方面,該系列模型隨著版本升級有明顯提升,SuperGrok在中文能力方面達到大師/太師級別。
在法律領域,Grok系列的表現相對較弱,尤其是在台灣繁體中文法律能力方面,即使是SuperGrok也僅達到師傅/少傅級別。這表明該系列模型在處理台灣特有法律問題時仍有提升空間。整體而言,Grok系列在通用能力方面表現出色,但在專業法律領域還需進一步優化。
| 模型 | 綜合能力 | 中文能力 | 繁體中文能力 | 法律能力 | 中文法律能力 | 台灣繁體中文法律能力 |
|---|---|---|---|---|---|---|
| DeepSeek 3 | 8.5 (大師/太師) | 8.7 (大師/太師) | 8.3 (大師/太師) | 8.0 (大師/太師) | 8.2 (大師/太師) | 7.8 (師傅/少傅) |
| DeepSeek R1 | 8.8 (大師/太師) | 8.9 (大師/太師) | 8.6 (大師/太師) | 8.2 (大師/太師) | 8.3 (大師/太師) | 8.1 (大師/太師) |
DeepSeek系列模型在中文處理方面表現尤為突出,DeepSeek R1在中文能力方面達到8.9分的高分,展現了卓越的中文理解和生成能力。該系列模型在處理繁體中文方面也有很好的表現,DeepSeek R1在繁體中文能力方面達到8.6分。
在法律領域,DeepSeek系列表現相對較弱,但仍達到大師/太師級別。值得注意的是,DeepSeek R1在台灣繁體中文法律能力方面達到8.1分,相比DeepSeek 3有明顯提升,表明該系列模型在處理台灣法律問題方面有所改進。整體而言,DeepSeek系列在中文處理方面具有明顯優勢,是中文法律應用的良好選擇。
| 模型 | 綜合能力 | 中文能力 | 繁體中文能力 | 法律能力 | 中文法律能力 | 台灣繁體中文法律能力 |
|---|---|---|---|---|---|---|
| Llama 3.1 70B | 8.5 (大師/太師) | 8.0 (大師/太師) | 7.7 (師傅/少傅) | 8.0 (大師/太師) | 7.6 (師傅/少傅) | 7.3 (師傅/少傅) |
| Llama 3.1 8B | 7.8 (師傅/少傅) | 7.5 (師傅/少傅) | 7.2 (師傅/少傅) | 7.4 (師傅/少傅) | 7.1 (師傅/少傅) | 6.8 (師傅/少傅) |
| Llama 3.2 70B | 8.7 (大師/太師) | 8.2 (大師/太師) | 7.9 (師傅/少傅) | 8.2 (大師/太師) | 7.8 (師傅/少傅) | 7.5 (師傅/少傅) |
| Llama 3.2 8B | 8.0 (大師/太師) | 7.7 (師傅/少傅) | 7.4 (師傅/少傅) | 7.6 (師傅/少傅) | 7.3 (師傅/少傅) | 7.0 (師傅/少傅) |
| Llama 3.3 70B | 8.9 (大師/太師) | 8.4 (大師/太師) | 8.1 (大師/太師) | 8.4 (大師/太師) | 8.0 (大師/太師) | 7.7 (師傅/少傅) |
| Llama 3.3 8B | 8.2 (大師/太師) | 7.9 (師傅/少傅) | 7.6 (師傅/少傅) | 7.8 (師傅/少傅) | 7.5 (師傅/少傅) | 7.2 (師傅/少傅) |
| Llama 4 70B | 9.1 (大師/太師) | 8.6 (大師/太師) | 8.3 (大師/太師) | 8.6 (大師/太師) | 8.2 (大師/太師) | 7.9 (師傅/少傅) |
| Llama 4 8B | 8.4 (大師/太師) | 8.1 (大師/太師) | 7.8 (師傅/少傅) | 8.0 (大師/太師) | 7.7 (師傅/少傅) | 7.4 (師傅/少傅) |
Llama系列模型展現了明顯的版本迭代提升,從Llama 3.1到Llama 4,各個面向的能力都有所提高。Llama 4 70B在綜合能力方面達到9.1分的高分,展現了卓越的理解和生成能力。
在中文處理方面,Llama系列的大型模型(70B)表現較好,但在繁體中文處理方面仍有提升空間。在法律領域,Llama系列的表現相對較弱,尤其是在台灣繁體中文法律能力方面,即使是Llama 4 70B也僅達到師傅/少傅級別。
值得注意的是,Llama系列的小型模型(8B)在各個面向的表現都明顯弱於大型模型,表明模型規模對性能有顯著影響。整體而言,Llama系列在通用能力方面表現出色,但在專業法律領域和繁體中文處理方面還需進一步優化。
以下圖表展示了各大模型在不同能力維度上的評分比較。您可以選擇不同的圖表類型來查看數據,也可以自定義圖表內容。
| 模型 | 綜合能力 | 中文能力 | 繁體中文能力 | 法律能力 | 中文法律能力 | 台灣繁體中文法律能力 |
|---|---|---|---|---|---|---|
| Gemini 2.5 Pro | 9.2 | 8.8 | 8.5 | 8.7 | 8.4 | 8.0 |
| Claude 3.5 Sonnet | 9.0 | 8.6 | 8.3 | 8.9 | 8.5 | 8.2 |
| Grok 3 | 8.7 | 8.2 | 7.9 | 8.3 | 7.8 | 7.5 |
| DeepSeek R1 | 8.8 | 8.9 | 8.6 | 8.2 | 8.3 | 8.1 |
| Llama 3.1 70B | 8.5 | 8.0 | 7.7 | 8.0 | 7.6 | 7.3 |
您可以自定義圖表標題、選擇要顯示的模型和能力維度,以創建符合您需求的圖表。
根據評分結果,我們將大模型的能力分為三個等級:書僮/陪讀(基礎)、師傅/少傅(進階)和大師/太師(專家)。以下是各等級的評分標準和特點:
評分範圍:1-6分
評分範圍:6-8分
評分範圍:8-10分
使用下方搜索工具查找與生成式AI相關的法律案例。您可以按關鍵詞、法院、年份範圍和案件類型進行搜索。
本案涉及原告主張被告使用生成式AI創作的圖像侵害其美術著作權。法院認為,被告使用的AI模型經訓練可能包含原告作品特徵,但生成結果與原告作品有實質差異,不構成著作權法上的重製或改作。法院進一步指出,AI生成內容的著作權歸屬問題尚待立法明確。
本案涉及某AI公司未經適當告知及取得同意,蒐集處理大量個人資料用於訓練生成式AI模型,遭主管機關裁處。法院認為,AI訓練資料的蒐集仍應符合個人資料保護法的規定,包括告知義務、特定目的及比例原則等,維持原處分。
本案涉及被告使用生成式AI創建與原告商標近似的標誌用於商業活動。法院認為,即使標誌是由AI生成,被告仍應對其使用行為負責,構成商標侵權。法院指出,AI生成內容的使用者應盡合理注意義務,確保不侵害他人智慧財產權。
歡迎加入我們的討論社群,分享您對生成式AI在法律領域應用的見解、經驗和問題。您可以瀏覽不同類別的主題,參與討論,或發起新的話題。
請登入後參與討論
以下是我們精心挑選的法律AI相關資源,包括法律資料庫、政府機關網站、學術研究資源和專業組織等。這些資源可以幫助您深入了解生成式AI在法律領域的應用和發展。
本網站提供的內容僅供參考和教育目的,不構成法律建議。在依賴本網站內容做出任何決策前,請諮詢合格的法律專業人士。
我們致力於提供準確、最新的信息,但不保證網站內容的完整性、準確性、可靠性、適用性或可用性。任何依賴本網站內容而採取的行動,風險由使用者自行承擔。
本網站內容歡迎轉分享,但必須註明出處並提供本網站連結。未經許可,不得將本網站內容用於商業目的或進行實質性修改。
本網站可能包含指向第三方網站的連結。這些連結僅為方便使用者而提供,不代表我們對這些網站內容的認可或與其存在任何關聯。我們對這些外部網站的內容、隱私政策或實踐不承擔任何責任。
討論區中的用戶生成內容不代表本網站的觀點或立場。我們保留但無義務監控、編輯或刪除不適當、冒犯性或違反我們社區準則的內容的權利。
除非另有說明,本網站的所有內容和材料均受版權保護,©️PingLex, All rights reserved。
By Dr.Fan, built with Manus
如有任何問題或疑慮,請聯繫:info@pinglex.ai