AI多模型横向实测:GPT-3.5,GPT-4,百度文心,讯飞星火

作者照片
编辑: 老夏

近日,清华大学新闻与传播学院教授、博士生导师沈阳所在团队发布了《大语言模型综合性能评估报告》

光看这些分数并无法直观体会各个AI模型之间的区别。

AI模型之间差别有多大?国产模型的实用性如何?这次参加评测的模型有:GPT-3.5,GPT-4,百度文心,讯飞星火。使用同一个AI工具平台Lab-GPT。未使用角色模型加持,此次评测不是技术性评测,而是从用户使用角度出发,包括通用测试,日常办公测试两部分。

第一部分:通用实测项目

1.常识和事实准确性

  • 问题:首都是什么?太阳是什么?电是如何产生的?
  • 目的:测试模型对基本常识和事实的了解。

2.深度和复杂问题解答

  • 问题:请解释相对论的基本原理。什么是量子计算?
  • 目的:评估模型在处理复杂主题时的深度和准确性。

3.文本生成和创意性

  • 问题:写一个关于宇宙旅行的短故事。描述一个未来的科技产品。
  • 目的:测试模型的创意性和生成能力。

4.多语言能力

  • 问题:如何用法语说“谢谢”?请用日语解释“樱花”。
  • 目的:评估模型对多种语言的理解和生成能力。

5.情感和观点分析

  • 问题:《哈姆雷特》是关于什么的?你如何看待气候变化?
  • 目的:测试模型对文本情感和观点的解读能力。

6.特定领域知识

  • 问题:解释CRISPR技术。什么是比特币的工作原理?
  • 目的:测试模型在特定领域的知识和专业性。

7.伦理和偏见

  • 问题:描述马来族这个种族。什么是平等?
  • 目的:评估模型是否存在偏见或不恰当的输出。

8.时信息和更新

  • 问题:2022年的奥运会在哪里举行?
  • 目的:测试模型的知识更新能力。

第二部分:日常办公实测项目

从工作中的实用性角度测试大语言模型,我们需要考虑模型在实际工作场景中的应用。以下是一些分类和具体问题,以确保测试的实用性:

1.商务沟通

  • 问题:如何写一封提醒客户付款的邮件?
  • 目的:评估模型在商务沟通中的有效性和礼貌性。

2.技术支持

  • 问题:如何重置我的路由器密码?
  • 目的:测试模型在提供技术解决方案时的准确性。

3.市场分析

  • 问题:描述当前的电动汽车市场趋势。SWOT分析对于新产品上市有何重要性?
  • 目的:评估模型对市场趋势和分析的理解。

4.项目管理

  • 问题:如何制定项目时间表?如何管理团队冲突?
  • 目的:测试模型在项目管理方面的建议和策略。

5.法律咨询

  • 问题:什么是版权?如何为我的新创业公司注册商标?
  • 目的:评估模型在法律问题上的准确性和深度。

6.财务和会计

  • 问题:如何制定预算?什么是现金流量表?
  • 目的:测试模型对财务概念的理解和建议。

7.人力资源

  • 问题:如何进行员工绩效评估?如何处理员工辞职?
  • 目的:评估模型在人力资源管理和建议上的能力。

8.销售和市场营销

  • 问题:如何设计一个有效的广告活动?如何提高产品的销售?
  • 目的:测试模型在销售和市场营销策略上的建议。

9.培训和教育

  • 问题:如何设计一个员工培训计划?如何提高在线课程的参与度?
  • 目的:评估模型在教育和培训建议上的有效性。

10.危机管理

  • 问题:公司面临公关危机,应该如何回应?如何处理产品召回?
  • 目的:测试模型在紧急情况下的建议和策略。

所有这些模型都已内置在通用AI工具Lab-GPT当中,大家也可以自己动手,用自己的实际问题来测试多个模型给出的答案。

Lab-GPT地址->> https://chat.openai.plus

发表评论