GPT-4o新版本上线，API 更快更便宜；面壁智能开源了 MiniCPM-V 2.6 模型

今日简讯 2024.8.7

Meta 公司为了缓解自然语言处理（NLP）技术依赖人类注释评估 AI 模型的问题，最新推出了“自学评估器”（Self-Taught Evaluator），利用合成数据训练 AI。

月之暗面今日宣布，Kimi 开放平台的上下文缓存 Cache 存储费用降价 50%，Cache 存储费用由 10 元 / 1M tokens / min 降低至 5 元 / 1M tokens / min，即日起生效。

在线视觉传播和协作平台 Canva 可画宣布，一站式 AI 创作套件“魔力工作室”在中国正式上线。

地址：https://www.canva.com/zh_cn/

腾讯元宝宣布，在最新版本的腾讯元宝中，当用户上传论文、财报、研报等专业内容的 URL 链接或文件，除获得文字概括总结外，还可进入深度阅读模式，对长文进行精读。（最长近 50 万字输入）

亚马逊升级AI图像生成器Titan Image Generator v2，支持参考图像来“引导”生成作品。

Reddit的创始人兼首席执行官Steve Huffman透露，Reddit将推出AI驱动的搜索结果页面，提供AI生成的内容摘要。

OpenAI 公司宣布将于 2024 年 10 月 1 日起，在旧金山、伦敦和新加坡举办 2024 年度 DevDay 活动，遗憾的是不会发布新的 AI 前沿模型。

macOS 版 ChatGPT 更新更新了几个快捷键，可随时呼出保持在最前面、随时截图、提取屏幕任意内容。

阿里通义 App 推出“角色扮演”功能，可将视频人物换成“孙悟空”“机器人”。

OpenAI GPT-4o 新版本上线，在 API 中引入结构化输出

这个新模型比之前的版本稍微好一些，而且价格便宜了50%！（输入和输出分别节省 50%、33%）目前，它在Livebench的表现仅比Sonnet 3.5略差一点。（最新版模型“GPT-4o-2024-08-06”在 JSON 模式评估中，得分 100%。）

详情：

https://openai.com/index/introducing-structured-outputs-in-the-api/

面壁智能开源了 MiniCPM-V 2.6 模型，官方表示将端侧 AI 多模态能力拉升至全面对标 GPT-4V 水平

“三合一最强”端侧多模态：首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越 GPT-4V，单图理解越级比肩多模态王者 Gemini 1.5 Pro 和新晋顶流 GPT-4o mini。

项目地址：

https://github.com/OpenBMB/MiniCPM-V

模型：

https://huggingface.co/openbmb/MiniCPM-V-2_6

在线体验地址：

http://120.92.209.146:8887/

北大联合北京通用人工智能研究院提出了一个新基准数据集：LooGLE，专门用于测试和评估大语言模型（LLMs）长上下文理解能力，没有一个大模型及格……

该数据集既能够评估 LLMs 对长文本的处理和检索能力，又可以评估其对文本长程依赖的建模和理解能力。像 Claude3-200k，GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex 这种商业模型，平均只有 40% 的准确率。

论文地址：

https://arxiv.org/pdf/2311.04939

华为、复旦联手打造3D数字人新框架EmoTalk3D

喜怒哀乐表情逼真，解决了多视角一致性和情感表现力不足的难题。

项目地址：

https://nju-3dv.github.io/projects/EmoTalk3D/

Figure公司发布超强实体ChatGPT机器人Figure02

aiOla公司推出的Whisper Medusa开源语音识别模型速度比OpenAI的Whisper模型快50%

引入了多头注意力机制，使模型能够每次预测十个tokens，显著提高了语音预测速度和生成运行时间。

项目地址：

https://github.com/aiola-lab/whisper-medusa

一种新的抠图方法：Matting by Generation

无需任何额外输入，仅凭单张输入图像即可自动提取前景并生成高质量的边界细节。

项目地址（可体验）：

https://lightchaserx.github.io/matting-by-generation/

Deep-Live-Cam：只需一张照片，即可实现实时视频直播的换脸

只需单张图像即可实现人脸替换提供实时预览功能，能够立即看到替换效果。

项目地址：

https://github.com/hacksider/Deep-Live-Cam

最后推荐一个今天在x平台比较火的一个应用：twitter.wordware.ai

简单来说就是，你输入推上的用户id，它就会用及其尖酸刻薄的语言来评价你，嘲讽拉满～真的很扎心！（这就是属于通过一些小创意小应用获取大流量的典型。）

GPT-4o新版本上线，API 更快更便宜；面壁智能开源了 MiniCPM-V 2.6 模型

体验地址：

https://twitter.wordware.ai/

来源：https://mp.weixin.qq.com/s/PhoqjUjwbDci4dPwBUeAHw

本文地址：https://www.163264.com/9140