这不,在叶源引导小丽成长为Scarlett的时候,玛凯希又再次高调召开了一次发布会。
这次,他的X-AI发布了更新版的Grgk3大模型,并公开了最新的测试结果。
根据公布的相关数据得知,Grgk3在包括AIME和GPQA等基准测试中,更新版本的系统远超GPP-4o、Gamini-2Pro、AbyssalV3、Clavde3。5So等大模型。
在国际大模型竞技场ChatbotArena(LMSYS)测试中,X-AI首席工程师表示,早期版本的Grgk3获得了第一的成绩,就达到了140分,超越了Gamini2。0FlashThinking实验版本、ChatGPP-4o最新版本,以及最近大火的AbyssalR1等等。
这一次,更新版本的Grgk3成绩更是达到了180分!
为此,全世界各大媒体再次将Grgk3吹上了天。
但是,所有人都不知道的是,在种花南沪地界。
叶源的Scarlett系统,几乎是在同一时间做了测试。
Scarlett系统融合了Matrix系统和Abyssal系统的精华,其性能之强大可以用恐怖来形容。
“开始基准测试。”
叶源通过系统远程下达指令。
第一项是计算能力测试。
Scarlett系统仅用0。8秒就完成了百亿亿次浮点运算,而Abyssal系统需要20秒,grok3更是耗时15秒。
在量子计算模拟中,Scarlett仅用3。2秒就完成了100万次量子门操作,是Abyssal的60倍,grok3的50倍。
对于这个测试,叶源还算比较满意。
“进行深度学习测试。”
叶源远程调出Image数据集,开始第二轮测试。
Scarlett在图像识别任务中达到了99。98%的准确率,训练时间仅需8分钟。
相比之下,Abyssal的准确率为98。5%,训练时间2。8小时;grok3准确率98。2%,训练时间2。2小时。
在自然语言处理任务中,Scarlett的中文理解准确率达到99。99%,英文99。95%,远超Abyssal的93。3%和grok3的95。8%。
随后,叶源又进行了一系列专业学科性测试。