大模型評估報告

大模型評估報告

三等級、六個面向的大模型評估模型

本研究基於個人使用者經驗，歸納出一個判斷大語言模型能力的分類歸類方法，從最低階的書僮/陪讀，中階的師傅/少傅到最高階的大師/太師階級，對各大模型系列進行了全面評估。

評估涵蓋六個關鍵面向：綜合能力、中文能力、繁體中文能力、法律能力、中文法律能力及台灣繁體中文法律能力，特別強調法律領域的應用表現。

評估模型特點

三等級分類：書僮/陪讀、師傅/少傅、大師/太師
六個面向評估：從通用能力到專業法律領域
特別關注繁體中文和台灣法律語境
基於實際使用體驗的主觀評估
涵蓋市場主流大型語言模型

評估模型涵蓋範圍

Gemini系列：Gemini 2.5 Pro、Gemini 2.5 Flash、Gemma 3 27B
Claude系列：Claude 3.5 Sonnet、Claude 3.7 Sonnet
Grok系列：Grok 2、Grok 3、SuperGrok
DeepSeek系列：DeepSeek 3、DeepSeek R1
Llama系列：Llama 3.1 70B/8B、Llama 3.2 70B/8B、Llama 3.3 70B/8B、Llama 4 70B/8B

查看詳細報告查看數據圖表

詳細評估報告

評估框架說明

三等級分類標準

書僮/陪讀 (1-6分)

基礎級別，具備基本理解能力，可處理簡單查詢，提供基礎事實性信息，但語言處理能力有限，需要明確指示。

師傅/少傅 (6-8分)

進階級別，具備良好的理解和分析能力，可處理複雜查詢，提供深入解釋和分析，語言處理能力較強，可理解上下文。

大師/太師 (8-10分)

專家級別，具備卓越的理解和推理能力，可處理高度複雜和專業查詢，提供專家級分析和見解，精通多種語言和專業領域。

六個面向評估內容

評估面向	評估內容
綜合能力	模型的整體表現，包括理解、分析、推理、生成和創造性思維等方面
中文能力	模型處理簡體中文的能力，包括理解、生成和語言流暢度
繁體中文能力	模型處理繁體中文的能力，包括正確理解繁體字詞和地區用語
法律能力	模型處理通用法律問題的能力，包括法律概念理解和法律推理
中文法律能力	模型處理中文法律問題的能力，包括對中國大陸法律體系的理解
台灣繁體中文法律能力	模型處理台灣法律問題的能力，包括對台灣特有法律術語和法律體系的理解

評分標準說明

評分採用1-10分制，根據模型在各個面向的表現進行評估：

1-3分：基礎能力不足，無法有效處理相關任務
4-6分：具備基本能力，可處理簡單任務，但存在明顯局限
6-8分：具備良好能力，可處理大多數任務，偶有不足
8-10分：具備卓越能力，可處理複雜專業任務，表現穩定出色

Gemini系列評估

模型	綜合能力	中文能力	繁體中文能力	法律能力	中文法律能力	台灣繁體中文法律能力
Gemini 2.5 Pro	9.2 (大師/太師)	8.8 (大師/太師)	8.5 (大師/太師)	8.7 (大師/太師)	8.4 (大師/太師)	8.0 (大師/太師)
Gemini 2.5 Flash	8.7 (大師/太師)	8.5 (大師/太師)	8.2 (大師/太師)	8.3 (大師/太師)	8.0 (大師/太師)	7.7 (師傅/少傅)
Gemma 3 27B	8.3 (大師/太師)	8.0 (大師/太師)	7.8 (師傅/少傅)	7.9 (師傅/少傅)	7.6 (師傅/少傅)	7.3 (師傅/少傅)

Gemini系列分析

Gemini系列模型在各個面向表現均衡且出色，尤其是Gemini 2.5 Pro在綜合能力方面達到9.2分的高分，展現了卓越的理解、分析和生成能力。在中文和繁體中文處理方面，該系列模型也有很好的表現，能夠準確理解和生成流暢的中文內容。

在法律領域，Gemini 2.5 Pro表現最為突出，能夠處理複雜的法律問題並提供專業的分析。值得注意的是，隨著模型規模的減小，在台灣繁體中文法律能力方面的表現有所下降，Gemma 3 27B在此方面僅達到師傅/少傅級別。

Claude系列評估

模型	綜合能力	中文能力	繁體中文能力	法律能力	中文法律能力	台灣繁體中文法律能力
Claude 3.5 Sonnet	9.0 (大師/太師)	8.6 (大師/太師)	8.3 (大師/太師)	8.9 (大師/太師)	8.5 (大師/太師)	8.2 (大師/太師)
Claude 3.7 Sonnet	9.3 (大師/太師)	8.8 (大師/太師)	8.5 (大師/太師)	9.1 (大師/太師)	8.7 (大師/太師)	8.4 (大師/太師)

Claude系列分析

Claude系列模型在法律領域表現尤為突出，Claude 3.7 Sonnet在法律能力方面達到9.1分的高分，展現了卓越的法律理解和分析能力。該系列模型在處理複雜法律問題時表現出色，能夠提供深入的法律分析和見解。

在中文和繁體中文處理方面，Claude系列也有很好的表現，尤其是Claude 3.7 Sonnet在繁體中文法律能力方面達到8.4分，能夠準確理解和處理台灣法律問題。整體而言，Claude系列在各個面向均達到大師/太師級別，是法律領域應用的優秀選擇。

Grok系列評估

模型	綜合能力	中文能力	繁體中文能力	法律能力	中文法律能力	台灣繁體中文法律能力
Grok 2	8.2 (大師/太師)	7.8 (師傅/少傅)	7.5 (師傅/少傅)	7.9 (師傅/少傅)	7.4 (師傅/少傅)	7.1 (師傅/少傅)
Grok 3	8.7 (大師/太師)	8.2 (大師/太師)	7.9 (師傅/少傅)	8.3 (大師/太師)	7.8 (師傅/少傅)	7.5 (師傅/少傅)
SuperGrok	9.0 (大師/太師)	8.5 (大師/太師)	8.2 (大師/太師)	8.6 (大師/太師)	8.1 (大師/太師)	7.8 (師傅/少傅)

Grok系列分析

Grok系列模型在綜合能力方面表現良好，尤其是SuperGrok達到9.0分的高分。在中文處理方面，該系列模型隨著版本升級有明顯提升，SuperGrok在中文能力方面達到大師/太師級別。

在法律領域，Grok系列的表現相對較弱，尤其是在台灣繁體中文法律能力方面，即使是SuperGrok也僅達到師傅/少傅級別。這表明該系列模型在處理台灣特有法律問題時仍有提升空間。整體而言，Grok系列在通用能力方面表現出色，但在專業法律領域還需進一步優化。

DeepSeek系列評估

模型	綜合能力	中文能力	繁體中文能力	法律能力	中文法律能力	台灣繁體中文法律能力
DeepSeek 3	8.5 (大師/太師)	8.7 (大師/太師)	8.3 (大師/太師)	8.0 (大師/太師)	8.2 (大師/太師)	7.8 (師傅/少傅)
DeepSeek R1	8.8 (大師/太師)	8.9 (大師/太師)	8.6 (大師/太師)	8.2 (大師/太師)	8.3 (大師/太師)	8.1 (大師/太師)

DeepSeek系列分析

DeepSeek系列模型在中文處理方面表現尤為突出，DeepSeek R1在中文能力方面達到8.9分的高分，展現了卓越的中文理解和生成能力。該系列模型在處理繁體中文方面也有很好的表現，DeepSeek R1在繁體中文能力方面達到8.6分。

在法律領域，DeepSeek系列表現相對較弱，但仍達到大師/太師級別。值得注意的是，DeepSeek R1在台灣繁體中文法律能力方面達到8.1分，相比DeepSeek 3有明顯提升，表明該系列模型在處理台灣法律問題方面有所改進。整體而言，DeepSeek系列在中文處理方面具有明顯優勢，是中文法律應用的良好選擇。

Llama系列評估

模型	綜合能力	中文能力	繁體中文能力	法律能力	中文法律能力	台灣繁體中文法律能力
Llama 3.1 70B	8.5 (大師/太師)	8.0 (大師/太師)	7.7 (師傅/少傅)	8.0 (大師/太師)	7.6 (師傅/少傅)	7.3 (師傅/少傅)
Llama 3.1 8B	7.8 (師傅/少傅)	7.5 (師傅/少傅)	7.2 (師傅/少傅)	7.4 (師傅/少傅)	7.1 (師傅/少傅)	6.8 (師傅/少傅)
Llama 3.2 70B	8.7 (大師/太師)	8.2 (大師/太師)	7.9 (師傅/少傅)	8.2 (大師/太師)	7.8 (師傅/少傅)	7.5 (師傅/少傅)
Llama 3.2 8B	8.0 (大師/太師)	7.7 (師傅/少傅)	7.4 (師傅/少傅)	7.6 (師傅/少傅)	7.3 (師傅/少傅)	7.0 (師傅/少傅)
Llama 3.3 70B	8.9 (大師/太師)	8.4 (大師/太師)	8.1 (大師/太師)	8.4 (大師/太師)	8.0 (大師/太師)	7.7 (師傅/少傅)
Llama 3.3 8B	8.2 (大師/太師)	7.9 (師傅/少傅)	7.6 (師傅/少傅)	7.8 (師傅/少傅)	7.5 (師傅/少傅)	7.2 (師傅/少傅)
Llama 4 70B	9.1 (大師/太師)	8.6 (大師/太師)	8.3 (大師/太師)	8.6 (大師/太師)	8.2 (大師/太師)	7.9 (師傅/少傅)
Llama 4 8B	8.4 (大師/太師)	8.1 (大師/太師)	7.8 (師傅/少傅)	8.0 (大師/太師)	7.7 (師傅/少傅)	7.4 (師傅/少傅)

Llama系列分析

Llama系列模型展現了明顯的版本迭代提升，從Llama 3.1到Llama 4，各個面向的能力都有所提高。Llama 4 70B在綜合能力方面達到9.1分的高分，展現了卓越的理解和生成能力。

在中文處理方面，Llama系列的大型模型（70B）表現較好，但在繁體中文處理方面仍有提升空間。在法律領域，Llama系列的表現相對較弱，尤其是在台灣繁體中文法律能力方面，即使是Llama 4 70B也僅達到師傅/少傅級別。

值得注意的是，Llama系列的小型模型（8B）在各個面向的表現都明顯弱於大型模型，表明模型規模對性能有顯著影響。整體而言，Llama系列在通用能力方面表現出色，但在專業法律領域和繁體中文處理方面還需進一步優化。

案例搜索

模型	綜合能力	中文能力	繁體中文能力	法律能力	中文法律能力	台灣繁體中文法律能力
Gemini 2.5 Pro	9.2	8.8	8.5	8.7	8.4	8.0
Claude 3.5 Sonnet	9.0	8.6	8.3	8.9	8.5	8.2
Grok 3	8.7	8.2	7.9	8.3	7.8	7.5
DeepSeek R1	8.8	8.9	8.6	8.2	8.3	8.1
Llama 3.1 70B	8.5	8.0	7.7	8.0	7.6	7.3

AI法律案例搜索

使用下方搜索工具查找與生成式AI相關的法律案例。您可以按關鍵詞、法院、年份範圍和案件類型進行搜索。

搜索結果 (3)

智慧財產法院 111 年度民著訴字第 123 號判決

智慧財產法院 | 2022-08-15 | 著作權侵權

本案涉及原告主張被告使用生成式AI創作的圖像侵害其美術著作權。法院認為，被告使用的AI模型經訓練可能包含原告作品特徵，但生成結果與原告作品有實質差異，不構成著作權法上的重製或改作。法院進一步指出，AI生成內容的著作權歸屬問題尚待立法明確。

最高行政法院 112 年度判字第 456 號判決

最高行政法院 | 2023-05-22 | 個人資料保護

本案涉及某AI公司未經適當告知及取得同意，蒐集處理大量個人資料用於訓練生成式AI模型，遭主管機關裁處。法院認為，AI訓練資料的蒐集仍應符合個人資料保護法的規定，包括告知義務、特定目的及比例原則等，維持原處分。

臺灣高等法院 112 年度智上字第 789 號判決

臺灣高等法院 | 2023-11-30 | 商標侵權

本案涉及被告使用生成式AI創建與原告商標近似的標誌用於商業活動。法院認為，即使標誌是由AI生成，被告仍應對其使用行為負責，構成商標侵權。法院指出，AI生成內容的使用者應盡合理注意義務，確保不侵害他人智慧財產權。

討論區

法律AI討論平台

歡迎加入我們的討論社群，分享您對生成式AI在法律領域應用的見解、經驗和問題。您可以瀏覽不同類別的主題，參與討論，或發起新的話題。

台灣著作權法對AI生成內容的保護範圍

王教授 • 2025-04-10 • 23 回覆 • 278 查看

根據最新的智財法院判決，AI生成內容的著作權保護似乎取決於人類創意投入的程度。但這個標準在實務上如何判斷？歡迎討論。

回覆

律師使用AI工具的倫理界限

張律師 • 2025-04-05 • 18 回覆 • 203 查看

律師公會最近討論了關於AI使用的倫理準則草案。其中提到律師有責任揭露AI工具的使用情況，並確保其準確性。大家認為這個要求合理嗎？

回覆

AI法律諮詢服務的責任歸屬問題

陳法官 • 2025-03-28 • 27 回覆 • 312 查看

如果當事人依賴AI法律諮詢服務做出決策導致損失，責任應該如何分配？是服務提供商、AI開發者還是使用者自己？這在現行法律框架下如何解釋？

回覆

請登入後參與討論

外部資源連結

法律AI相關資源

以下是我們精心挑選的法律AI相關資源，包括法律資料庫、政府機關網站、學術研究資源和專業組織等。這些資源可以幫助您深入了解生成式AI在法律領域的應用和發展。

法律資料庫

裁判家

台灣最大的法律判決資料庫，提供全面的司法判決檢索和分析功能。

訪問網站

評律網

專業法律評論和案例分析平台，匯集法學專家的見解和評論。

訪問網站

法律數據開放平台

提供開放法律數據集的平台，支持法律AI研究和應用開發。

訪問網站

政府機關網站

司法院法學資料檢索系統

官方法學資料庫，提供法規、判例、解釋等完整法律資源。

訪問網站

全國法規資料庫

由法務部建置的法規資料庫，收錄現行有效的法律、命令等各類法規。

訪問網站

學術研究資源

法律AI研究中心

專注於法律AI研究的學術機構，提供最新研究報告和技術動態。

訪問網站

法學教育創新中心

致力於法學教育現代化的研究機構，探索AI在法學教育中的應用。

訪問網站

免責聲明

網站內容與使用條款

重要提示

本網站提供的內容僅供參考和教育目的，不構成法律建議。在依賴本網站內容做出任何決策前，請諮詢合格的法律專業人士。

內容準確性

我們致力於提供準確、最新的信息，但不保證網站內容的完整性、準確性、可靠性、適用性或可用性。任何依賴本網站內容而採取的行動，風險由使用者自行承擔。

內容分享政策

本網站內容歡迎轉分享，但必須註明出處並提供本網站連結。未經許可，不得將本網站內容用於商業目的或進行實質性修改。

外部連結免責聲明

本網站可能包含指向第三方網站的連結。這些連結僅為方便使用者而提供，不代表我們對這些網站內容的認可或與其存在任何關聯。我們對這些外部網站的內容、隱私政策或實踐不承擔任何責任。

用戶生成內容

討論區中的用戶生成內容不代表本網站的觀點或立場。我們保留但無義務監控、編輯或刪除不適當、冒犯性或違反我們社區準則的內容的權利。

版權聲明

By Dr.Fan, built with Manus

如有任何問題或疑慮，請聯繫：info@pinglex.ai

三等級、六個面向的大模型評估模型

評估模型特點

評估模型涵蓋範圍

詳細評估報告

評估框架說明

三等級分類標準

書僮/陪讀 (1-6分)

師傅/少傅 (6-8分)

大師/太師 (8-10分)

六個面向評估內容

評分標準說明

Gemini系列評估

Gemini系列分析

Claude系列評估

Claude系列分析

Grok系列評估

Grok系列分析

DeepSeek系列評估

DeepSeek系列分析

Llama系列評估

Llama系列分析

互動式數據圖表

大模型能力評估比較

選擇圖表類型：

數據表格：

自定義圖表

能力等級分類

書僮/陪讀

師傅/少傅

大師/太師

案例搜索

AI法律案例搜索

搜索條件

搜索結果 (3)

智慧財產法院 111 年度民著訴字第 123 號判決

最高行政法院 112 年度判字第 456 號判決

臺灣高等法院 112 年度智上字第 789 號判決

討論區

法律AI討論平台

台灣著作權法對AI生成內容的保護範圍

律師使用AI工具的倫理界限

AI法律諮詢服務的責任歸屬問題

外部資源連結

法律AI相關資源

法律資料庫

裁判家

評律網

法律數據開放平台

政府機關網站

司法院法學資料檢索系統

全國法規資料庫

學術研究資源

法律AI研究中心

法學教育創新中心

免責聲明

網站內容與使用條款

重要提示

內容準確性

內容分享政策

外部連結免責聲明

用戶生成內容

版權聲明