4 月 20 日,出门问问在北京举办主题为「AGI·降临」的 2023 AIGC 战略发布会。会上出门问问宣布内测探索大模型「序列猴子」,并提出 CoPilot 将会无处不在,同时在大模型能力的基础上还同步开启了面向创作者的 CoPilot 产品矩阵,面向 C 端的升级版语音助手魔法小问,以及面向 B 端的企业专属大模型的内测探索。其中面向创作者的 CoPilot 产品矩阵包含了四款 AIGC 产品,分别为 AI 写作平台「奇妙文」、AI 绘画平台「言之画」、AI 配音平台「魔音工坊」、数字人视频与直播平台「奇妙元」。
自研大模型「序列猴子」,助力 AGI「降临」
出门问问大模型「序列猴子」是一款具备多模态生成能力的大语言模型,模型以语言为核心的能力体系涵盖「知识、对话、数学、逻辑、推理、规划」六个维度,能够同时支持文字生成、图片生成、3D 内容生成、语音生成和语音识别等不同任务。
目前,「序列猴子」大模型已经具备了一定的自然语言理解、知识、逻辑以及推理等能力,对于「湖南和湖北哪一个省会的人口更多?」这类比较复杂的问题能够快速给出准确结果。
据介绍,出门问问自研大模型中文名「序列猴子」的灵感,来源于数学家埃米尔·波雷尔在 20 世纪初提出的「无限猴子」定理。根据该定理,如果一群猴子随机地敲打一台打字机,最终一定会产生完整的莎士比亚作品。这个定理基于概率论和组合数学,阐释了概率的统一性。出门问问自研大模型的构建原理与「无限猴子」类似,海量文本序列通过出门问问自主算法的不断训练,经由大规模算力消化理解,便练成了「序列猴子」。
出门问问创始人兼 CEO 李志飞表示,大模型不只是参数量大,当今的大模型是互联网文本的深度建模,而互联网文本是世界知识的映射,因此大模型是一个认知模型,是对语言的建模。而语言是思维的边界,所以大模型拥有无限想象空间。「序列猴子」在训练过程中已经展现出了「涌现」能力,目前正处于「顿悟」阶段,未来提升的速度会越来越快。他还认为,做人类的 CoPilot 会是大模型最好的「工作」,未来 CoPilot 将无处不在。
一站式 CoPilot 产品矩阵,打通内容创作全流程
基于「序列猴子」大模型,出门问问内测探索了多款面向创作者的 AIGC 产品及应用,为万千创作者构建一站式 CoPilot 产品矩阵,打通内容创作全流程。目前出门问问已实现技术、产品、商业化的「三位一体」,注册用户超 500 万,全球付费用户超百万。
奇妙文-你的 AI 写作助理
作为发布会上首个亮相的 CoPilot 产品,「奇妙文」的 AI 写作能力覆盖了职场办公、市场营销、新媒体和创意写作四大内容创作场景,能够在用户撰写年终总结、客服话术、剧本、广告文案等内容时,为其源源不断地提供灵感和创意方向。
为更好帮助用户提升内容创作效率,「奇妙文」开放了八大 AI 编辑功能,分别为风格转化、要点提取、校对纠错、续写、改写、扩写、缩写、翻译。「奇妙文」还能在写作中自动生成图片,为用户带来图文并茂的写作体验。
言之画-你的 AI 绘画助理
面对设计师、插画师等在文字外对设计有强烈需求的创作者,出门问问内测探索了「言之画」AI 绘画平台。「言之画」支持二次元、蒸汽朋克、插画等 8 种创作风格。用户只需输入文字,「言之画」就能一次性生成 8 张光影逼真、细节丰富的 2K 高分辨率图像。
除了以文生图,它还拥有以图生图、动图生成、个性头像生成等 AI 绘图能力,极大丰富了用户的创作手段。对于企业用户,「言之画」还支持专属模型定制,让企业用户能够根据自身需要自定义模型风格,并且支持多人协作生产,更好地满足企业的绘图需要。目前,「言之画」已经与家装设计平台酷家乐达成了探索意向,在酷家乐平台上,用户们借助「言之画」只需用文字描述出自己的需求即可轻松更换装修风格、调整家具位置等,进而设计出自己喜欢的装修方案。
魔音工坊-你的 AI 配音助理
面向 AI 配音场景,出门问问推出了新一代 AI 配音产品「魔音工坊」。「魔音工坊」(海外版 DupDub) 是一款全球领先的全流程一站式 AI 配音平台,已向用户开放了超 1000 种音色、超 2000 种声音风格以及超 20 种方言和外语。
在大模型技术的加持下,「魔音工坊」是全球首款搭载了大模型 AI 写作功能的配音平台,覆盖了 AI 写作、AI 配音和剪辑等多个场景。用户可以在它的辅助下轻松完成影视解说、有声书、在线教育、新闻播报等集文案与配音于一体的内容创作。目前,「魔音工坊」已经与微信读书、少年得到、大众等多个行业的头部企业达成了合作。
为了给用户提供更好的配音体验,「魔音工坊」支持对选定声音进行包括平静、悲伤、开心在内的 7 种情绪的调节,对包括女中年、男孩等在内的 10 种角色进行迁移,同时还开放了韵律调节、局部变速、多人配音等 AI 声音个性化编辑功能,让用户能够像用 word 编辑文档一样编辑声音。除了选择声音、编辑声音,基于大模型的语言生成能力,「魔音工坊」还将推出「捏声音」功能,用户可以自由选择性别、年龄、语言、风格和情绪等声音特征,从 0 到 1 创作自己喜欢的声音。
奇妙元-你的 AI 数字分身
在文字、图像、声音等生成能力基础上,为了让视频内容创作者更快更好地创作形式新颖、生动有趣的作品,出门问问内测探索了 AI 数字形象创作及直播平台「奇妙元」。
据介绍,「奇妙元」平台现有超 100 款数字人、超 1000 款 3D 数字资产、超 1000 种声音。凭借多模态生成技术,「奇妙元」平台目前共支持图片建模(2D 数字人)、视频建模(2.5D 数字人)、3D 建模(3D 数字人)三种不同形式的数字人生成。其形象克隆功能,仅需一段 5 分钟的真人视频素材,就可以 1:1 复刻用户的形象神态,为用户打造声音一致、动作自然的数字人分身。
从个人到企业,CoPilot 将无处不在
出门问问在语音助手领域有着深厚的积累,对 AI 语音的研究可以追溯至十年前,2014 年出门问问发布了首款语音助手「小问助手」,2015 年迭代了「小问秘书」,2017 年推出了全场景 VPA,并在 2019 年对 VPA 进行了升级。经过十年的积累和发展,本次发布会上出门问问内测探索的 CoPilot-魔法小问,可以理解为 Siri 与 ChatGPT 的综合体。
「你好问问,最近的火锅店在哪里」、「」你好问问,告诉下明天北京的天气吧」,人们都习惯于在衣食住行前先查询了解相关信息。作为面向个人用户开发一款智能语音助手,「魔法小问」可以帮助用户查百科信息、查天气、查餐厅、查酒店,还能与用户自由对话,让用户更方便、快捷地获取信息。
据出门问问介绍,「CoPilot」源自超级助理的概念,它将拥有基于大模型的高智商大脑,能够分析海量数据即时准确地与人类交流;还会拥有动听的声音、靓丽的形象,可以搭载任意硬件平台,如手机、手表、车机等;还能够适配千行百业,化身高质量教学的老师、知识渊博的律师、专业的医生、金融理财客服等,在需要的时候,随时随地展示专业知识,为人分担压力。
「序列猴子」开放生态,赋能更多行业
基于「序列猴子」大模型的底层能力,对于 B 端用户和垂直领域,「出门问问 Copilot」不仅提供通用能力支持服务和数字人形象定制服务,还将开放自身角色能力,持续迭代数据接口。有需求的企业用户可以登陆 web 端调用 API 服务,并且能通过上传文档的方式,对行业专有内容进行训练,从而实现定制化语音交互。序列猴子的网址为 openapi.mobvoi.com。
目前,出门问问已经与首批十大行业的内测探索伙伴达成了合作,包括汽车、教育、律所、金融、医疗、旅游等,未来出门问问「CoPilot」将逐步赋能更多行业,助力更多企业拥有自己的专属大模型,打造自己的专属「CoPilot」。