AI革命——chatGPT贡献生产力

2023-04-18 17:13:15

肖涵，Jina AI 创始人兼 CEO。2018年 - 2020 年，肖涵在腾讯 AI Lab 负责基于深度学习搜索项目研发，也是腾讯开源办公室成员。2019 年肖涵作为 LF 开源基金会董事成员，对内大力推动腾讯开源协同技术文化，对外积极构建腾讯在国际开源社区的合作，并一手促成腾讯加入 TODO 基金会。肖涵 2014-2018 年在德国 Zalando 公司担任高*级研究员。2014 年获得德国慕尼黑工业大学计算机博士学位。肖涵是德中人工智能协会的创办人和主*席，也是 Mindspore 技术委员会成员。

Jina AI 专注于人人可用的多模态数据平台，利用云原生、MLOps 和 LMOps 让每个企业和开发者都能享受到好的搜索和生成技术。累计获得来自GGV、云启资本、SAP等中美投资机构的 3750 万美元融资。公司自 2020 年成立以来连续两年登榜 CB Insights 全球 Al 百强榜单，荣登 Forbes DACH AI 30 2020。

Jina Al 推崇工程师文化，拥抱开源。公司总部位于德国柏林，在中国和美国均设有办公室。团队成员来自于微软、谷歌、腾讯、Adobe 等科技公司，覆盖超全球 10+ 国家。

Q：生成式、感知式、决策式的AI的核心关系？未来AI的发展趋势？
AI范式主要分为决策式AI和生成式AI，感知式AI目前不常用。2010年开始国内的互联网企业开始布局相关产业，推出了简单的模型：推荐系统、搜索优化、垃圾邮件的分类等；2018年出现了生成式对抗网络(Generative Adversal Network, GAN)，即Deepfake，随后遇到疫情行业进入低迷；ChatGPT的出现意味着语言生成模型、多模态的生成式模型将会越来越多，今年C端会出现很多新品、B端也会出现二次开发平台，在学术圈以及OpenAI的推动下，生成式AI势必进一步发展。
决策式AI更多是基于已有内容、利用AI规则进行内容分类、推荐、过滤、提取等，其范围非常广。从2010-2020年决策式AI在语音识别、人脸识别等领域广泛运用。
生成式AI恰好相反，可基于文字生产图片、音乐、视频等，自2020年后逐步兴起。早年(2014年)的生成式AI较为简单，生产16×16像素的黑白照片；2018年逐渐有所发展，2020年OpenAI推出代DALL·E；2021年推出第二代DALL·E，实现文本到图片的跨模态；2022年Stability AI推出stable Diffusion，融资1亿美元；2022年11月30号ChatGPT发布，使得较多博士论文因为过于简单，直接失去作用。

Q：单模态和多模态AI优劣势对比？多模态发展的核心驱动因素？

在2020年之前，AI的商业化主要依托于单模态实现，并且单模态的应用场景较多，单模态AI的输入和输出都是同一模态，如图片分类和人脸识别等。虽然 2020 年以前存在部分跨模态的应用(如语音识别等)，但大多数仍为单模态的应用。
然而，随着互联网数据类型和数据量不断丰富，从文本到视频的转变已经实现，越来越多的需求需要实现搜索、索引和生成数据，多模态发展的核心因素主要是数据和技术的不断发展。自从2014年的贝叶斯，到2015年深度学习逐渐成为主导，2016年TensorFlow推出并成为个大规模开发者使用的深度学习框架，其参数规模、计算能力和模型容量也在不断提升，这些因素都推动了多模态的发展。

Q：如何看待互联网头部公司与高校中大模型的优劣势？
国内的技术路线本身不会有较大的差异。大规模语言模型相当于一个数据库，问题在于如何有效地储存海量的数据，ChatGPT并未专门针对中国用户进行优化，其数据相对均衡。这对于汉语环境中的未来的商业化落地是一种利好，因为只需往模型中灌输中文，因此其质量可能更高。未来大厂推出产品时，其将会聚焦于仅中文，将大模型变为专项垂直领域的小模型。
大规模语言模型的特点是庞大。2023年“Reinforcement learning 强化学习”将成为遍地开花的技术，而“in-context learning (ICL)”上下文学习技术是机器学习中技术，当模型大到一定程度的时，模型自然而然地会具备一定的推理、新任务调教等技能；模型越大，该能力越强。谷歌的Bert模型并未运用prompt engineer。

Q：当前国内AIGC相关企业的商业化模式相对模糊，如何看待其发展？
2022年stable Diffusion诞生后出现大量的AIGC企业。Jina AI 基于 ChatGPT 研发的一个具有批判性思维的 AI 辅助决策工具 Rationale.jina.ai。仅一个月 MAU 已达 10w，并且已有付费用户和稳定订阅。因此个人认为2023年To C将会有较快的发展。
AIGC领域的创业并非需要人数庞大的团队，对于汉语圈而言大的障碍是否是能有一个稳定的高质量中文GPT，其将会激活一大批下游的产研。

Q：如何看待未来下游应用的广泛性？会从角度颠覆内容产出？
大规模语言模型是金子，而ChatGPT像铲子。ChatGPT能够将大模型技术直接应用于产品中，从而提升用户的生产效率。部分产品已经在准备商业化，个人认为个consumer product可以是类似Notion等。
用户关注ChatGPT能够为日常工作和生活中的痛点带来什么效果，然而目前 ChatGPT 的输出需要大量的前期沟通。如果能够确定好前期的 Prompt，则有望将 ChatGPT 逐渐推进产品化的方向
这也就是为什么我们推出了一款用 AI 全面优化 Prompt 的新产品「美提示词」，用魔法来打败魔法。当你输入提示词后，它就会输出优化后的「美提示词」，并让你预览优化前后的模型输出。目前文本模型支持 ChatGPT、GPT 4、GPT 3 的提示词优化，还支持图像模型 Stable Diffusion、DALL·E 、Midjounery、Lexica 等等，Promptperfect 能够帮助你在各种大语言模型找到好的提示词。
产品体验链接：promptperfect.jina.ai

Q：当前人们主动获取信息的主要途径是搜索，而 ChatGPT 可能使得问答更加高效精准。如何看待 ChatGPT 对于搜索的影响？在您看来，搜索的未来是什么？
我在12月15号写了一篇长文章，名称是《 SEO已死，LLM永生》。
在讲搜索之前，先讲一下SEO产业。人们会为了提高网站的排名尽量去写文章，将文章中要推荐的产品尽量铺外链，写一些相关性文章，使得这些外链后指向产品主页，这样用户在搜索某个关键词的时候，产品有非常大的机会能靠前显示。这基本上是现在搜索引擎的一些做法。通过分析用户的输入和每天爬取的网页，去判断其中的相关性，并判断整个网页的权重，对所指向的外链和内链综合给出排名。
ChatGPT 刚出现的时候，很多人觉得太方便了，原来做内容生成，需要自己去构建外链文章，需要自己写，或是雇人写，现在直接用 ChatGPT 生成。比如：我要推荐一个手机，就让 ChatGPT 总结出这部手机的十大优点，市场上的竞品，都可以几秒钟之内生成一段相对可读的文章。从搜索引擎的角度来讲，它区分不出来文章是人写的还是机器写的，反正都抓取过来，判断一下相关性，这中间存在一个信息差，SEO 的从业者就利用信息差去实现自动化。
但实际上 ChatGPT 大的一个问题就在于：可以把它想象成一个数据库，它通过大规模的语言模型，将所有人类的知识，笔头上、书本上的一些知识存储起来，再以某种概率形式返还给你，所以它给出的结果就相当于数据库中的存储与读取，只不过它的数据库是一个概率性的数据库，并不是直接返回你一个确定性的结果，有可能是通过差值产生的。
基于这种原理，其实可以把 ChatGPT 想象成一个搜索引擎，它和搜索引擎有很多相似性：搜索引擎是将所有网上的数据去爬取，根据用户的输入去判断相关性，返回 top rank 的结果，比如排名前10、前 20。GPT 也是将所有的人类书写的东西索引起来，存储在几百亿的参数模型下，用户在输入时，它激活这些神经网络，把相应的数据返还给用户。从本身的原理上来讲，抽象地看，这两者大致是相同的。
为什么 ChatGPT 要比 Google 的用户体验更好？因为 ChatGPT 是以一种人机对话的形式来返还给用户，并且返还的时候，它不返前 20 的，就返还排名*第*一的，这时候的用户体感就非常好。在做搜索引擎时，可能要翻好几页、好几十页去找一个结果，ChatGPT 直接返还给你个结果，告诉你这个就是你想要的答案，所以又会节省非常多的时间。
这其中就引出一个问题：如果未来的搜索都是以 ChatGPT 的形式存在，这时候想做 SEO，该怎么做？SEO 通过不断地写文章、不断构建外链，能够让搜索引擎给出用户想要的排名，但 ChatGPT 可能会给出商家不想要的结果，这时候从商业上考量，未来大规模语言模型可能需要通过上下文学习、产生特定的输出。

Q：ChatGPT 未来创造超额收益是否是可预见性的？大概需要的时间？
是否能够把 ChatGPT 创造的东西进行变现。个人认为：，ChatGPT大规模语言模型永远不会有创造力；第二，基于差值产生的内容有一定的价值，能够取代很多人工输出的内容。但真正能够推动历史发展的东西，是不会创造出来的，仅会根据人类历史而不断地做平均，随后返回平均的结果。指望大规模语言模型带来真正的创造力是不可能的、
从某种意义上而言，ChatGPT的内容生产存在一定的局限性，若未来网络上的东西均为ChatGPT产出，势必对社会结构产生影响。
日常生活中的内容是能够被ChatGPT取代的，其涉及到内容变现，此时无需创作者，仅需进一步依托于ChatGPT进行降本即可，提升其边际收益。从现在开始，我们应学会如何同时接受人类产生的信息和机器产生的信息。