本文作者:访客

OpenAI终止对中国提供API服务,周鸿祎发声:压制不住国内大模型发展

访客 2024-06-26 15:12:26 20569 抢沙发

26 日,360 集团创始人、董事长 @周鸿祎在微博发布视频称,他认为"OpenAI 对中国地区停止服务只能加速中国自己大模型产业的发展,未必是一个坏事。" 他解释道:"OpenAI 的 API 无法调用,这逼着国内应用只能选择国产大模型,而国产大模型与 GPT 的差距已经逐渐缩小了。"

OpenAI终止对中国提供API服务,周鸿祎发声:压制不住国内大模型发展

消息面上,6 月 25 日,OpenAI 向中国用户发布邮件称,自 7 月 9 日起阻止来自非支持国家和地区的 API 流量。受影响组织若希望继续使用 OpenAI 的服务,必须在其支持的国家或地区内访问。目前,OpenAI 的 API 向 161 个国家和地区开放,由于中国未在其中,这意味着 OpenAI 将终止对中国提供 API 服务。

值得一提的是,25 日,每日经济新闻大模型评测报告(第 1 期)发布。《每日经济新闻大模型评测报告》(第一期)显示,国产大模型正在全面赶超海外大模型,零一万物 Yi-Large 成为最大 " 黑马 ",在 " 财经新闻标题创作 "" 微博新闻写作 "" 文章差错校对 "" 财务数据计算与分析 " 四大应用场景的总分排名第一。幻方求索 DeepSeek-V2、百川智能 Baichuan4 则在 " 财务数据计算与分析 " 场景显示出强大的数据计算和分析能力。而一直备受各界推崇的 GPT 4.0 在本次评测中表现不佳,甚至在 " 财经新闻标题创作 " 场景中排名垫底。

OpenAI 对中国 API" 停服 "!

据媒体报道,25 日,OpenAI 宣布终止对包括中国大陆在内的地区提供 API 服务。25 日凌晨,部分开发者收到了来自 OpenAI 官方的邮件。

邮件显示:" 我们的数据显示,贵组织的 APl 流量来自 OpenAl 目前不支持的地区。您可以在此处找到受支持的国家和地区。我们将从 7 月 9 日开始采取额外措施,阻止来自不在我们支持的国家和地区列表中的地区的 APl 流量。要继续使用 OpenAl 的服务,您需要在受支持的地区访问服务。"

据悉,目前 OpenAI 的 API 向 161 个国家和地区开放,但中国大陆未包含在其中。这也意味着,OpenAI 宣布终止对中国大陆提供 API 服务。

阿里云百炼第一时间宣布,将为 OpenAI API 用户提供最具性价比的中国大模型替代方案,并为中国开发者提供 2200 万免费 tokens 和专属迁移服务。根据斯坦福最新公布的大模型测评榜单 HELM MMLU,Qwen2-72B 得分为 0.824,与 GPT-4 并列全球第四。通义千问 GPT4 级主力模型 Qwen-plus 在阿里云百炼上的调用价格为 0.004 元 / 千 tokens,仅为 GPT-4 的 50 分之一。

6 月 25 日,智谱推出 OpenAI API 用户特别搬家计划,帮助用户切换至国产大模型。具体来看,智谱为开发者提供:1.5 亿 Token(5000 万 GLM-4+1 亿 GLM-4-Air);从 OpenAI 到 GLM 的系列迁移培训。对于高用量客户,智谱提供与 OpenAI 使用规模对等的 Token 赠送计划 ( 不设上限 ) ,以及与 OpenAI 对等的并发规模等。

6 月 25 日,百度智能云千帆推出大模型普惠计划,即日起为新注册企业用户提供 0 元调用、0 元训练、0 元迁移等服务。

其中,文心旗舰模型首次免费,赠送 ERNIE3.5 旗舰模型 5000 万 Tokens 包,主力模型 ERNIE Speed/ERNIE Lite 和轻量模型 ERNIE Tiny 持续免费;针对 OpenAI 迁移用户额外赠送与 OpenAI 使用规模对等的 ERNIE3.5 旗舰模型 Tokens 包。以上优惠活动均在 2024 年 7 月 25 日 24 点前适用。

国产大模型正全面赶超

近期,由 30 余位每日经济新闻优秀记者、编辑和子公司每经科技工程师组建的 " 每日经济新闻大模型评测小组 ",对市场上主流大模型在财经新闻工作场景中的表现与能力进行了历时 2 个月深入评测,并于 6 月 25 日发布了《每日经济新闻大模型评测报告》(第一期)。

《每日经济新闻大模型评测报告》(第一期)显示,国产大模型正在全面赶超海外大模型,零一万物 Yi-Large 成为最大 " 黑马 ",在 " 财经新闻标题创作 "" 微博新闻写作 "" 文章差错校对 "" 财务数据计算与分析 " 四大应用场景的总分排名第一。幻方求索 DeepSeek-V2、百川智能 Baichuan4 则在 " 财务数据计算与分析 " 场景显示出强大的数据计算和分析能力。而一直备受各界推崇的 GPT 4.0 在本次评测中表现不佳,甚至在 " 财经新闻标题创作 " 场景中排名垫底。

经过评测,《每日经济新闻大模型评测报告》(第一期)得出以下结论。

结论一:国产大模型正全面赶超

国产大模型正逐渐展现出其竞争力。与国外大模型相比,它们在多个任务上的表现已经显示出赶超之势。

国产大模型在多个测试场景中排名靠前。商汤商量 SenseChat-5 三次占据前五席位,两次击败谷歌 Gemini 1.5 Pro。在国外模型中,Anthropic Claude 3 Opus 同样在三个测评场景中排名前五,谷歌 Gemini 1.5 Pro 在 " 财经新闻标题创作 " 和 " 文章差错校对 " 两个场景中排名第一。令人意外的是,一直备受各界推崇的 GPT 4.0 却在本次评测中整体表现不佳,在每个场景中都未能斩获前五名,甚至在 " 财经新闻标题创作 " 中排名垫底。

" 财经新闻标题创作 " 场景中,商汤商量 SenseChat-5、字节豆包 Doubao-pro-32k 和百度 ERNIE 4.0 等,在信息提炼准确和重要新闻点突出方面与谷歌的 Gemini 1.5 Pro 不相上下。

" 微博新闻写作 " 场景中,百度文心 ERNIE 4.0、商汤 SenseChat-5 等模型的总分与国外模型 Anthropic Claude 3 Opus 并列第一。

" 文章差错校对 " 场景中,零一万物 Yi-Large 是唯一一款得分超过 100 分的国产大模型。国产大模型比国外大模型更能理解汉语句式和表达规范。但在查找并修改错别字、标点使用不当、数字和量词错误、事实和信息错误等要求更精准的任务方面,还有提升空间。

" 财务数据计算和分析 " 场景中,Anthropic Claude 3 Opus 总分虽领先,但对幻方求索 DeepSeek-V2 和零一万物 Yi-Large 的优势并不大。尤其是幻方求索 DeepSeek-V2 成为此场景评测中一匹 " 黑马 ",其 " 财务数据分析 " 能力突出。

结论二:大模型各有专长

不同模型在特定场景、特定维度、特定指标上的表现差异显著。体现了它们在各自领域的专长。

例如,谷歌 Gemini 1.5 Pro 在 " 财经新闻标题创作 " 和 " 文章差错校对 " 两大场景中排名第一。在 " 微博新闻写作 " 场景中,该模型整体排名靠后。

Anthropic Claude 3 Opus、幻方求索 DeepSeek-V2、百川智能 Baichuan4 则显示出了强大的数据计算能力。

结论三:在跨语言环境下差异明显

以 " 微博新闻写作 " 场景为例,百度文心 ERNIE 4.0、商汤商量 SenseChat-5 与 Anthropic Claude 3 Opus 并列第一。这反映了国产大模型在微博这一国内社交媒体场景下的卓越表现。国产大模型更能够准确把握微博用户的内容偏好和交流方式,生成符合平台特性和用户期待的微博文案。

相比之下,谷歌 Gemini 1.5 Pro 在微博写作的运营维度上得分为 0,可能源于其对微博平台特性和用户行为的不熟悉。

在中文语境之下,GPT 4.0 在全部 4 个场景中的排名均不理想。这一现象突显了大模型在跨语言和文化环境中的适应性问题,也表明了国产大模型在本土化应用上具有天然优势。

结论四:信息提取能力参差不齐

从文章中准确提取关键信息,是对大模型能力的一项关键挑战。本期评测中 " 文章差错校对 " 场景正包含了对这一能力的测试。

谷歌 Gemini 1.5 Pro 凭借其在错别字、标点使用不当、数字和量词错误、事实和信息错误的查找和纠错方面与其他大模型拉开了差距。

相比之下,零一万物 Yi-Large 在病句查找和纠错方面则位居首位,本可以挑战谷歌 Gemini 1.5 Pro,但在错误查找方面的表现拖了后腿。

大模型信息提取能力的差异可能与模型的训练数据、算法设计以及对语言细微差别的捕捉能力有关。增强大模型的信息提取能力,可以提高其生成结果的准确度,更能让大模型适用于对准确性要求极高的新闻工作。

每日经济新闻综合 @周鸿祎

每日经济新闻

阅读
分享

发表评论

快捷回复:

评论列表 (暂无评论,20569人围观)参与讨论

还没有评论,来说两句吧...