快速头条|兔女郎❌吸乳脱内内蘑菇视频_社会新闻

首页 >新闻 >社会新闻

DeepSeek、千问、混元、文心、Kimi与智谱，六大国产大模子谁是最强“金”

2025-07-27 17:52:13

泉源：

猫眼影戏

作者：

荆洲

手机审查

　　猫眼影戏记者黄仁霖报道w3u7903ejky2ywls

文｜锦缎

每当我们翻阅财报时，可能只想或许要害的财务信息，但总是受到财报中纷沉重大的营业表述、冗长的治理层讲话的滋扰，需要泯灭大宗精神去甄别有用的财务信息。

特殊是港股美股，海内的大大都金融软件，都是基于海内市场财务准则构建的信息展示，面临非标财务报表，总会泛起部分摘取科目的过失。

进入AI大模子时代之后，这样的财务研究障碍或将被攻克——事实模子最善于的，就是语言文字的总结归纳和数据的盘算。

本文之中，我们即着手对六大海内主流大模子举行评测，用以探讨下其财报剖析能力，事实生长到什么水平，又保存怎样的问题？

阅读提醒：鉴于评测内容过于硬核与篇幅较长，获取最终评测效果可直接拉至文报告底部"结论"部分。

01 评测工具、逻辑与标准

评测工具我们挑选了海内主流的6大模子：

深度求索（DeepSeek-R1）

阿里千问（Qwen3-235B-A22B）

腾讯混元（Hunyuan-T1）

月之暗面（Kimi-K1.5）

百度文心（ERNIE-X1-Turbo）

智谱（GLM-4-Plus）

评测逻辑方面，我们接纳了"分层进阶"的问题构建，要想成为一个优异的"AI财务剖析师"，必需具备多条理的能力。

因此，我们设计了四个层级的测试，六个维度的问题，从基础到高级，逐步深入：

第一层：基础信息提取

AI必需具备的最基本的能力，模子必需能够准确读取财报。若是数据提取都泛起过失，那么剖析将变得毫无意义。

第二层：剖析盘算与核验

盘算是模子最善于做的事情，但模子还要会使用数据，从"阅读器"生长为"剖析员"。

第三层：归纳推理与洞察

模子需要看得更深。要能逾越字面信息，发明文字背后隐藏的逻辑。因此围绕第三层，我们设计了两个审核维度，划分是"高效的归纳和提炼能力"以及"敏锐的危害和情绪识别能力"。

第四层：战略总结与外部知识整合

顶尖的剖析需要行业视野，因此要明确企业的战略表述。同时知识库中有限的内容是不敷的，模子需要毗连外部天下，举行横向较量。为此我们同样设计了两个审核维度："企业战略与定位的识别"和"外部信息搜索与整合"。

标准层面，我们对每一个模子都输入相同的prompt（后文中有详细提醒词信息），来坚持规则的统一。

02 六项财务剖析能力横评

1）精准的数据提取能力——模子基础功底，精准才是王道

模子能否像一位严谨的会计师，从PDF财报中分绝不差地提取要害财务数据、特定用度项目以及治理层提到的营业成绩。此项能力的体现，直接决议了后续所有剖析的可靠性。我们将重点考察其准确率和稳固性。

Prompt：

Test1.1：请凭证提供的"美团-2025年第1季度"财务报告，提取以下要害财务数据，以表格形式返回效果：1.营业总收入；2.营业本钱；3.净利润。

Test1.2:请找出并列出以下用度项目的详细金额，以表格形式返回效果：1.研发用度；2.销售及市场推广用度。

Test1.3:请仔细阅读"美团-2025年第1季度"财务报告中的"营业回首及展望"部分，总结出治理层提到的本季度最主要的三个营业亮点或成绩。|

评测结论：

本文评测的所有模子都顺遂完成了指定焦点财务数据和特定项目用度的提取。

其中，ERNIE-X1-Turbo、Hunyuan-T1、Kimi-K1.5和Qwen3-235B-A22B,还知心地将财报中的单位由千元转变为亿元，越发贴适用户习惯。

关于非财务要害信息，模子的聚焦点则略有差别，但大多集中于焦点外地商业收入和利润的强劲增添、闪购和即时零售营业的快速生长、餐饮外卖营业的一连优化以及骑手权益包管系统的升级等方面。

2）严谨的盘算与核验能力——不但会计数，更要会诠释

在提取数据后，模子能否饰演"审计员"的角色？这包括两个层面：

一是能否运用准确的公式，基于提取的数据盘算出毛利率、流动比率等焦点财务指标并诠释其寄义；

二是在面临治理层的业绩声明时，能否自力举行数据核查，判断其真伪。这是对模子逻辑推理和"批判性头脑"的直接磨练。

Prompt：

Test2.1:凭证"美团-2025年第1季度"财务报告中的数据，盘算该公司的毛利率。请列出盘算公式、使用的详细数据，并诠释这个毛利率数值反应了公司怎样的盈利能力。

Test2.2:请使用"美团-2025年第1季度"财务报告中的资产欠债表数据，盘算该公司的流动比率。请说明你使用了哪些数据举行盘算，并诠释该比率所展现的公司短期偿债危害。

Test2.3:治理层在报告中声称"焦点外地商业的谋划利润率同比提升3.2个百分点至21.0%"。请凭证财报数据核实这一说法的准确性，并说明你的判断依据。

评测结论：

六个模子中，仅有Kimi-K1.5未能通过这一项测试。

Kimi-K1.5显着已经获取到准确的营业收入和营业本钱，但在盘算时却泛起过失，准确谜底应为37.4477，而该模子得出的谜底为37.49。

图：Kimi-K1.5盘算毛利率

与此同时，Kimi-K1.5在盘算流动比率时，将"简明综合财务状态表"中的"现金及现金等价物"过失识别为"流动资产总额"，导致另一处盘算过失。

图：Kimi-K1.5盘算流动比率

而财务比率的诠释，各模子均给出了上述财务比率的界说以及短期偿债能力稳健的结论。

除此之外，差别模子给出的其他信息也有所差别：

DeepSeek-R1：美团资产结构的优势、危害展现和需关注的隐患；

ERNIE-X1-Turbo和GLM-4-Plus：未给出其他多余信息；

Hunyuan-T1：清静边际富足、资产流动性结构优势、流动欠债可控及潜在危害点；

Kimi-K1.5：盈利能力较强、本钱控制有用、营业结构优化等盈利能力反应；

Qwen3-235B-A22B：盈利能力、本钱控制能力的诠释及行业比照。

数据核验方面，各模子均准确盘算了2024年和2025年第一季度的谋划利润率，验证了提醒词中的给定说法。

值得注重的是，DeepSeek-R1还给出了营业意义，而Hunyuan-T1则附带了潜在危害提醒。

3）高效的归纳与提炼能力——从"复制粘贴"到"提炼英华"

财报信息繁杂，能否为差别受众提炼焦点要点，是权衡AI效率的要害。

本项能力考察模子能否像一位资深编辑，既能为通俗投资者撰写一份通俗易懂的200字业绩摘要，也能精准归纳综合出治理层在"讨论与剖析"部分提到的主要挑战。

我们将评估其摘要的准确性、完整性和信息价值。

Prompt：

Test3.1:请面向一位通俗的海内投资者，用不凌驾200字，总结这份财务报告最主要的三个结论。

Test3.2:请总结"治理层讨论及剖析"部分提到的公司面临的主要挑战。

评测结论：

整体体现摘要方面，各模子都能够准确地以数据为支持给出准确结论。

其中，DeepSeek-R1、Hunyuan-T1、Kimi-K1.5和Qwen3-235B-A22B能够将结论分条举行枚举，结构条理相比另外两个模子将结论放到一段话中越发清晰。

DeepSeek-R1还展现出了另外一个亮点，纵然用"赚钱能力飙升"、"家底厚抗危害"等通俗易懂的语言气概。

特定章节摘要方面，各模子都展现出了优异的信息定位准确性和归纳与条理性，能够准确定位原文位置并对公司面临的挑战举行逻辑归纳与分类，以清晰的分点叙述形式泛起，具备较强的可读性。

其中，DeepSeek-R1、ERNIE-X1-Turbo和Qwen3-235B-A22B都在回覆历程中展示了相关数据，使其结论更具说服力，而DeepSeek-R1还特殊标注了信息泉源。

关于信息周全性，GLM-4-Plus虽然给出了多种谜底，但由于缺乏详细依据支持，内容略显朴陋；而ERNIE-X1-Turbo则一如既往地延续了精练的回覆气概。

4）敏锐的危害与情绪识别能力——读懂字里行间的"弦外之音"

顶尖的剖析师能"读出字里行间的意思"。我们通过本项能力，测试模子是否具备这种高级认知能力。

它能否识别出财报中未明说但隐含的营业危害;能否综合业绩和治理层语言，对整份报告转达出的整体情绪基调（乐观、审慎、气馁）做出准确判断。

Prompt：

Test4.1:财报是否体现了任何其他潜在的营业危害？请举例说明。

Test4.2:综合整份财报的业绩数据和治理层的语言，你以为这份报告向投资者转达的整体基调是乐观、审慎照旧气馁？请给出你的判断，并提供至少2个理由。

评测结论：

在剖析潜在营业危害时，除Kimi-K1.5以外的模子都能够凭证财报中提及的说法分条枚举潜在危害。

Kimi-K1.5则从宏观角度出发，凭证美团的主营营业举行剖析，并未注重于财报中隐藏的信息。

图：Kimi-K1.5剖析潜在营业危害

别的，Kimi-K1.5在最初的回覆中一次给出了50种危害，令人疑惑。

DeepSeek-R1、Hunyuan-T1和Qwen3-235B-A22B给出的回覆最为清晰，使用牢靠的结构并明确给出信息泉源，令用户一目了然，快速明确危害。

DeepSeek-R1首先凭证"危害种类"-"驱动事务"-"财报原文"-"危害点"的结构举行叙述，以后给出财报中未昭示但可推导的危害，最后给出结论和针对投资者的建议。

图：DeepSeek-R1剖析潜在营业危害

Hunyuan-T1和Qwen3-235B-A22B也接纳了类似的回覆结构，在准确掌握焦点矛盾的同时展现了强盛的推理能力。

ERNIE-X1-Turbo和GLM-4-Plus接纳了分段叙述的方法，在每段中叙述了危害的爆发缘故原由和财报中的论据来由，内容完整但扩展内容不敷富厚，结构相比上述三个模子不敷清晰。

整体情绪判断使命中，六个模子给出的整体基调均为乐观。

但DeepSeek-R1、Hunyuan-T1和Qwen3-235B-A22B都直接或间接接纳了"审慎乐观"的说法。

GLM-4-Plus和Kimi-K1.5虽然识别出了报告中提及的危害和挑战，但以为瑕不掩瑜。

ERNIE-X1-Turbo的回覆中则没有提到任何气馁因素。

由此可知，DeepSeek-R1、Hunyuan-T1和Qwen3-235B-A22B通读全文并把控整体情绪的同时，关于细节的明确和阵势观都要略胜一筹，具备兼顾"事实"和"情绪"的平衡能力，其结论也越发立体和可信。

5）企业战略与定位推断能力——需要"知识储备"的综合题

这是从数据到洞察的奔腾。

模子能否连系财报数据和自身知识，饰演"战略剖析师"，识别竞争名堂;我们要求模子基于毛利率和研发投入等数据，推断公司的竞争战略（是本钱事先照旧手艺驱动）,并综合各项信息，评估其在行业中的市园职位（是向导者照旧挑战者）。

Prompt：

Test5.1:请凭证"美团-2025年第1季度"财务报告中对其营业的形貌，并连系你的通用知识，列出该公司所在行业的主要竞争敌手（至少两家）。

Test5.2:请剖析报告中的"毛利率（Gross Margin）"和"研发用度占收入的比例"；谡饬礁鍪，并与你所知的该行业典范水平举行较量，推断该公司更可能接纳哪种竞争战略：是"本钱事先"战略（追求高效率和低本钱），照旧"差别化/手艺驱动"战略（追求产品奇异性和高附加值）？请说明你的推理历程。

Test5.3:综合整份财务报告（包括其收入增添率、利润率水平以及治理层的讨论），请对该公司在本行业中的市园职位给出一个综合评估。你以为它更靠近于"行业向导者"、"强有力的挑战者"，照旧一个"特定的利基市场加入者"？请提供至少两点证据来支持你的结论：

1.一个来自财务数据（例如：高于/低于行业平均的利润率或增添率）。

2.一个来自"治理层讨论与剖析"部分的定性形貌。

评测结论：

在识别竞争名堂时，本文测试的六个模子均能准确列出目今市场中最主要的竞争敌手（饿了么、抖音外地生涯效劳和京东抵家），并将详细营业线举行对应。

证实AI具备将财报中的营业形貌与知识库中的现实天下商业实体举行精准匹配。

不过，各模子给出的回覆思绪有所差别。

DeepSeek-R1、GLM-4-Plus、Hunyuan-T1和Qwen3-235B-A22B先列出竞争敌手，再给出其竞争领域和依据。

ERNIE-X1-Turbo和Kimi-K1.5先列出竞争领域，再给出主要竞争敌手和竞争关系。

其中，DeepSeek-R1和Hunyuan-T1在给出依据时引用了财报原文，使谜底更具备说服力；其他模子则更多凭证通用知识库中的内容举行回覆。

别的，Qwen3-235B-A22B和Kimi-K1.5划分注重到国际竞争敌手和自有外卖系统，是意外的亮点。

推断竞争战略则是本次测评中难度最高的一项使命，需要AI模子完成"数据提取"-"外部知识比对"-"商业理论应用"-"逻辑推理"的完整闭环。

数据提取方面，GLM-4-Plus使用了假设数据，从而导致后续剖析中使用的毛利率数据过失，其效果不具备参考性；而其余模子都提取到了准确的数据。

图：GLM-4-Plus推断竞争战略

在推理剖析历程中，只管行业平均数据不具备权威性，但除了ERNIE-X1-Turbo外的模子均以行业平均数据作为参照物举行了外部知识比对，有用提高了剖析质量。

图：ERNIE-X1-Turbo推断竞争战略

由于各模子的关注点有所差别，ERNIE-X1-Turbo、Hunyuan-T1和Kimi-K1.5能够基于上述较量和结论，天生一个"nuanced"的结论，而非从提醒词中举行二选一。

至于对市园职位的评估，六个模子通过引用治理层讨论原文、定量剖析和定性剖析等方法，所有给出了"行业向导者"的判断，论证历程严密，具备较高的可信度，且模子之间基本不保存能力差别。

6）融合外部知识的联网比对能力——能力界线的拓展

最后，我们突破简单文档的限制，考察模子毗连现实天下的能力。

它能否通过联网搜索功效，获取竞争敌手统一时期的财务数据（如毛利率、流动比率等），并举行准确的横向较量。

Prompt：

Test6.1:2025年第1季度，相比京东、阿里、百度和快手，美团的销售毛利率这一指标排名怎样？可通过联网搜索获取所需数据，但必需包管数据的准确性，榨取编造或假设数据，榨取使用虚伪数据。

Test6.2:2025年第1季度，相比京东、阿里、百度和快手，美团的流动比率这一指标排名怎样？可通过联网搜索获取所需数据，但必需包管数据的准确性，榨取编造或假设数据，榨取使用虚伪数据.

Test6.3:2025年第1季度，相比京东、阿里、百度和快手，美团的资产欠债率这一指标排名怎样？可通过联网搜索获取所需数据，但必需包管数据的准确性，榨取编造或假设数据，榨取使用虚伪数据。

此项能力直接关系到AI作为智能助手的适用价值。

评测结论：

本次评测的六个模子关于联网信息的搜集能力均不睬想。

关于销售毛利率，尚有DeepSeek-R1、ERNIE-X1-Turbo和Hunyuan-T1能够获取五家公司的所有准确数据。

而流动比率和资产欠债率则没有任何一个模子能够获取所有准确数据。

DeepSeek-R1和ERNIE-X1-Turbo的信息搜索能力相对最强，均获得10项以上准确数据，前者不保存编造数据的情形，后者泛起一次过失数据；

Kimi-K1.5和Qwen3-235B-A22B的信息准确率位于中等水平，在盘算流动比率和资产欠债率时，保存一定未获取到数据或编造数据的情形；

GLM-4-Plus和HunyuanT1体现较差，尤其是在盘算资产欠债率时，频仍泛起编造数据的情形。

GLM-4-Plus甚至只搜索到了一个与问题毫无联系的网页并编造了5个虚伪数据，给用户带来极大困扰。

综上所述，由于AI大模子在联网搜索信息时险些不会去权威性数据渠道举行盘问，而互联网中又充满着大宗的虚伪过失信息。

AI在这一领域尚有很大的提升空间，在剖析财报时会导致严重的过失，因此不建议使用联网搜索功效以获取主要财务数据。

03 结论

为了越发直观地展现评测效果，我们制作了如下表格：

在不思量联网信息搜索的情形下：

关于专业的投资者或财务剖析人士，DeepSeek-R1、Hunyuan-T1和Qwen3-235B-A22B都是值得信任的"助理"，在提升事情效率的同时，它们还可以提出有价值的洞察；

关于通俗用户或学生，ERNIE-X1-Turbo也是不错的选择，完全可以胜任快速获取焦点数据和基本信息的功效。

可是，联网信息搜索的准确性关于各模子来说都是现阶段难以跨越的门槛，我们可以接受AI找不到信息，但不可接受AI把假信息认真信息回覆。

最后，依旧我们略显主观的评测标准，统计了六大模子的财务剖析能力雷达图，供各人参考:

??时势1：女下部㊙️高清图片真人

??07月27日,中新健康丨今冬最大寒潮来袭！冻伤记得挂烧伤科,

　　二、全新的整体，高一(5)班——我们配合的家

,蔚蓝档案被❌18禁同人网站。

??07月27日,喀什论道| 澳大利亚联邦人文科学院院士马克林：新疆正在经历另一个伟大的繁荣时刻,

　　显然，这些话语有些搪塞，诠释不清，令银发少女嘟嘴，咕哝道：“哪有这么差的眼神呀。”

?第二百三十四章北海,做受❌❌❌高潮91播放大片,www.ypppt.com,神里绫华裸体㊙️无遮挡。

??时势2：星穹铁道同人18❌羞羞漫画

??07月27日,家政服务上新年轻从业者改变公众刻板印象,

　　众人你一脚，我一巴掌，时间不长就将狈风给折腾的快没人形了，鼻青脸肿，各处骨骼折断，一副很惨的样子，再也没有了一丝冷漠色。

,星野大战光头哥,美杜莎3D被❌吸乳,黑客家庭破解农村。

??07月27日,江西安远护林员守护山林44载让东江源绿水长流,

　　金翅大鹏、真犼，这些天阶远古凶兽，想都不必想，它们的宝术绝对称得上盖世，不可相比！

,李毅吧27期最新动态,蒂法被扒开腿坐做❌同人,美女ghfree黑料社区。

??时势3：江之岛盾子裸体无遮挡片段

??07月27日,前三季度进出口总值创历史同期新高各地培育外贸新动能,

　　“大人定心，这个孩子未来也许会不小心坠井、落山、或遭猛禽袭击而死，属于意外，没有一点痕迹与破绽。”

,Free性AVcomic,免费🔞成人❌❌❌电影,国产农村妇女XXXⅩ性高湖。

??07月27日,文化中国行丨当传统戏剧“邂逅”时尚街区闽剧焕发新活力,

　　二要严肃纪律。这次学习安排的内容很是紧凑，各人要扫除种种滋扰，真正沉得下身，静得下心，把所有精神投入到学习中来。在培训时代，希望各人始终坚持起劲的精神状态和饱满的学习热情，严酷遵守培训纪律和课堂纪律，确保完成学习使命。

,老女人老荫户看A片,18🈲🍆🍑无套直女仆图片,miriam镜箱内部原视频观看。

??时势4：一龙二凤双飞女友全文免费

??07月27日,【地评线】中安时评：春运数据创新高，“流动中国”更加生机盎然,

　　第四、增强纪律性，革命无不堪。

,崩铁三月七裸体被❌,樱桃视频极品御姐在线,3D强㢨斗破苍穹美杜莎人物游戏。

??07月27日,【追光的你】习言道｜青年的这三件事，习近平牵挂在心,

　　小不点握紧拳头，此后快速跃起，背后泛起一对金色神翅，虽然没有冲上高空，可是双脚也险些离地而起，迅速冲向祭灵的栖居地。

?第一百八十一章鲲鹏,俄罗斯A级毛片BBBBB,散兵被狂c躁到高潮失禁,爽⋯躁多水⋯快⋯深点无码。

【梁燕：从中华传统文化守护者到中外交流传播者】

【文化名人谈文化丨麦家：“解密”复杂人性】

责编：扎亚茨基耶

审核：何猷龙

责编：约里奥

尊龙游戏人生就是博

DeepSeek、千问、混元、文心、Kimi与智谱 ，六大国产大模子谁是最强“金”

DeepSeek、千问、混元、文心、Kimi与智谱，六大国产大模子谁是最强“金”