openai-google-pk-ai
openai-google-pk-ai

这周(5月13-17日)应该是科技巨头们的AI周了,OpenAI、Google、字节跳动、腾讯等都举办了各自的发布会,展示了他们在AI人工智能领域的最新进展和产品,你怎么看?

1、OpenAI发布会

OpenAI在5月13日发布了最新旗舰版模型“GPT-4o模型”。这是一个多模态大模型,能够处理文本、音频、图像的输入和输出,提供更快的处理速度、更便宜的费用,支持实时响应。比如GPT-4o模型可以在232毫秒内对音频输入做出反应,这几乎与人类对话中的反应时间相近。

此外,OpenAl还推出了适用于MacOS的ChatGPT桌面应用程序,提供更多免费功能给用户,允许用户通过分享屏幕与AI进行交互,提供更直观的体验。OpenAl更新了实时AI助手功能,展示了AI助手在语音和视觉识别方面的实时交互能力。

当然,更多人期待的 AI搜索产品、GPT-5、文字生成视频Sora等并未在本次发布会更新。

2、Google发布会

Google在5月14日的I/O开发者大会上,一口气发布了十几款AI相关的产品,堪称抛出AI全家桶了。具体包括:

1)Gemini:支持200万token长文本的Gemini 1.5 Pro和 Gemini 1.5 Flash。更新的多模态大模型,支持更长的上下文长度和更高效的性能。Gemini 1.5 Pro 的定价为每 100 万 token 3.5 美元。

2)Veo:Google自称效果超过Sora的文生视频模型,能够根据文本、图像创建高质量的视频。

3)Project Astra:一个通用的AI智能体,能够以视觉形式记录并实时与人类进行语音互动。

4)Gemma 2:开源大模型Gemma 2 采用全新架构,新开源的模型参数为 27B。

5)Imagen3:文生图模型Imagen 3 在生成细节、光照、干扰等方面进行了优化升级,并且理解 prompt 的能力显著增强。

6)LearnLM:针对学习进行微调的新生成AI模型系列,旨在辅导学生学习。

7)Gemini Live:与GPT-4o 相似的语音视觉交互功能Gemini Live

8)Project IDX:下一代、以AI为中心的开发环境,提供快速、轻松的应用程序构建体验。

9)AI在搜索中的应用:包括AI驱动的概述、圈选搜索、通话过程中检测诈骗的功能。Google将Gemini与搜索结合,将推出AI Overviews。

10)TPU:Google发布的第六代TPU 称为 Trillium,作为“迄今为止性能最强、能效最高的 TPU”,Trillium 宣称与 TPU v5e 相比,每个芯片的峰值计算性能提高了 4.7 倍。

11)AI在Android平台的应用:Google在安卓平台也推出了一系列全新AI功能,比如”Circle to Search”允许用户无需切换应用即可搜索。

3、字节跳动发布会

字节跳动在5月15日举行的火山引擎原动力大会上正式发布了豆包大模型,一口气直接推出了9个豆包成员:包括2个通用通用模型Pro、Lite;7个功能模型分为角色扮演、语音识别、语音合成、声音复刻、文生图、Function Call、向量化模型。

更重要的是豆包大模型打出了白菜价:价格相比同行便宜99.3%,定价为0.0008元/千Tokens。做个换算,就是1元=1250000 tokens。更通俗说,0.8厘能处理1500多个汉字,大模型从“以分计价”进入“以厘计价”的时代。

此外字节跳动还升级了AI开发平台:coze扣子,正式推出了企业专业版,企业版的扣子会提供API、事件推送、甚至纯代码的接入方式,让开发者能够将AI Bot部署在飞书等办公平台上。目前豆包上已有超过800万个智能体被创建,月度活跃用户达到2600万。

字节跳动发布了火山方舟 2.0:一站式大模型服务平台,提供模型效果、核心插件、系统性能以及平台体验的全面升级。

4、腾讯发布会

腾讯在5月17日举办了腾讯生成式AI产业应用峰会,宣布腾讯混元大模型Pro、Standard和Lite版本将通过腾讯云向企业和个人开发者全面开放,其中Pro版本是目前混元模型的效果最优版本,是支持万亿参数规模的32K长文模型。腾讯云推出了大模型原生工具链,包含知识引擎、图像引擎、视频创作引擎。

腾讯预计今年第三季度将开源混元最核心的文生文模型。目前腾讯正在训练三种尺寸(S、M、L)的文生文模型供开源使用,S版主要部署在手机端,拥有3B参数量;M版主要部署在PC端,参数量为5B;L版主要部署在云/数据中心,是30B参数量的MOE架构模型。

此外,腾讯云将推出生成式AI生态计划,与向行业应用厂商、服务商、代理商共同推进。面向行业应用厂商,打造智能产品,共建创新方案;面向服务商,提供咨询/规划/设计/调优/运营/运维;面向代理商开放全栈AI产品,建设服务增值能力,探索落地商机。

看完各家发布会,大家有什么感想?如果说2023年还是各家科技巨头发力自建大模型、内部研发为主,那么2024年的这个夏天,科技巨头们就在大力投入生态建设了。从个人开发者,到企业、行业、产业端的合作伙伴,都会掀起生态建设的浪潮,犹如此前云计算、移动应用刚出现的时候一样。

不一样的是,作为普通开发者,其实我们还很担心各家大模型能力建设的边界,因为有可能辛辛苦苦做起来的AI应用,就被大模型的下一个新版本给替代或颠覆了,这是与移动互联网时代很不一样的。想想看,去年YC夏季Demo举行之后,在OpenAI随后发布的GPT4及这周发布的GPT-4o模型,会让多少开发者觉得瞬间失去了创业机会。所以在Token价格战之外,大模型的能力边界,到底该如何定义呢?目前还不知道,作为创业者,且行且观察,能在这个大模型迭代更新的过程中小步快跑、找到自己的业务与价值。