2023: AI 的一年 [译]

English

2023: The Year of AI

2023: AI 的一年 [译] | 宝玉的分享((y,v,A,b,D,w,O,j)=>{let x=document.documentElement,I=["light","dark"];function F(L){var T;(Array.isArray(y)?y:[y]).forEach(H=>{let ee=H==="class",C=ee&&w?D.map(k=>w[k]||k):D;ee?(x.classList.remove(...C),x.classList.add(w&&w[L]?w[L]:L)):x.setAttribute(H,L)}),T=L,j&&I.includes(T)&&(x.style.colorScheme=T)}if(e(F,"k2"),b)F(b);else try{let L=localStorage.getItem(v)||A,T=O&&L==="system"?window.matchMedia("(prefers-color-scheme: dark)").matches?"dark":"light":L;F(T)}catch{}})("class","theme","system",null,["light","dark"],null,false,true)宝玉的分享博客翻译MenuSee all postsPublished on 2023-12-26Translated on 2023-12-222023: AI 的一年 [译]原文：2023: The Year of AI2023 年是 AI 领域的关键年份，我们在此聚焦今年对该行业未来发展具有重大影响的主要事件：更正：在 2023 年 12 月 22 日发布的原博客中，标题“AI 发布（AI Releases）”造成了误解，因为内容涵盖了公告、更新及发布等多方面。我们对文本和信息图的标题进行了澄清。Stability AI 对其大语言模型（LLM）开源的提及未出现在信息图中，但保留在文章里，这强调了其在提升可获取性而非仅仅技术改进方面的重要性。信息图最初展示了 xAI 创业公司的成立，现已因不相关而移除。同时，Apple Vision Pro 的提及也被删去，因为文章更侧重于软件。我们还加入了最新发布的 Midjourney V.6 至列表中。这些调整旨在增强文章的准确性和条理性。对于任何可能的困惑，我们深表歉意，并感谢您的理解！ AI 的进展在今年的 AI 进展方面，重点在于改善现有技术，而非引入类似于去年的 ChatGPT 或图像生成器那样的革命性创新。虽然没有令人震撼的效果，且真正的通用人工智能（AGI）尚未实现，但今年标志着从之前的重大突破向更强大的未来过渡的中间阶段。为了展示这种发展趋势，我们制作了一个视觉时间线，强调了今年在 AI 领域最为显著的进展： 2023: AI 的一年图像生成 Adobe Firefly: Adobe 的 Firefly（链接）和 Generative Fill（链接）推动了多样化视觉内容的创作，如插画、艺术构思和照片编辑。集成到 Photoshop（链接）中的 Adobe Firefly 使 AI 技术普及化，让更多用户能够轻松使用。其发布的文本效果功能（链接）也是一个重要进展，它允许用户给文字和短语添加风格或纹理。 Midjourney: Midjourney 的 V.5 模型（链接）在图像生成领域达成了重要里程碑，展现了更高的效率、连贯性和分辨率。它的最新 alpha 版本，Midjourney V.6（链接），进一步增强了功能，比如更精准地响应用户输入（prompt）、提高了模型的知识水平和简易的文本绘制能力。 DALL·E 3:  基于 ChatGPT 的 DALL·E 3（链接）简化了图像生成过程，避免了复杂的用户输入（prompt）设置。此外，ChatGPT 还推出了一项功能，帮助用户优化输入内容，并根据反馈调整图像。 Shutterstock.AI:  知名库存图片平台 Shutterstock.AI（链接）加入了 AI 功能，使用户能将输入内容转换成可授权的图像。Shutterstock 在推动伦理 AI 方面迈出了重要一步，对贡献的艺术家给予认可和奖励。文本到图像算法的演变，2007 对比 2023 视频生成 Stability AI： Stability AI 推出了 Stable Video Diffusion，这是一个具有里程碑意义的视频生成（generative video）模型，可在 GitHub 上开源访问。类似于 AI 图像生成的趋势，Stable Video Diffusion 模型很可能在 AI 生成视频领域发挥核心作用。 HeyGen：这家 AI 创业公司推出了一款用于语音克隆的工具，能够调整视频中的唇部运动并进行语言翻译。 Runway Gen-2： Runway 发布了 Gen-2 模型，使用户仅需通过文本提示、图片或其他视频即可轻松生成完整视频。下面的例子就是一种展示。 Pika 和 Pika 1.0：在首次发布时，Pika 吸引了超过五十万用户，每周生成数百万视频。在 Pika 1.0 中，升级后的 AI 模型使用户能够以多种风格（包括 3D 动画、动漫、卡通和电影）创作和编辑视频。 Meta 的像素编解码头像（PiCA）： Meta 的 Pixel Codec Avatars（PiCA）模型为视频中的 3D 人脸提供了更加逼真的远程传输体验。文本生成 Bard 和 Gemini: 谷歌的 Bard 为聊天机器人注入了仿人类的情感和情绪。Bard 聊天机器人采用多模态数据集训练，而谷歌的 Gemini 以“最有能力”的 AI 模型身份崭露头角，成为与 OpenAI 的 ChatGPT 齐名的竞争者。 Grok: 埃隆·马斯克的创业公司 xAI 展现了其对 AI 发展的承诺，并有可能与 OpenAI 竞争。他们推出了“Grok” —— 一款具备幽默感、反叛特质，并能通过 𝕏 平台获取实时信息的聊天机器人。xAI 承诺，Grok 能回答其他 AI 系统所回避的敏感问题。 OverflowAI: Stack Overflow 的 OverflowAI 通过提高知识整理效率，使得用户能在 Visual Studio Code 和 Slack 中快速找到 AI 推荐的相关答案。 Llama 2: Meta 推出了 Llama 2，这是其开源大语言模型 (LLM) 的升级版，性能更优。Meta 还对这一模型进行了针对对话场景的优化，使其在大多数标准测试中超越了其他开源模型。 GPT-4: OpenAI 的 GPT-4 现在能够处理图像输入，生成标题、分类，实现听取和对话互动，还支持实时网络浏览。OpenAI 还进一步扩展了插件支持，促进了一个丰富多彩的开源竞争环境。GPT-4 标志着 OpenAI 向通用人工智能 (AGI) 迈进的新篇章。 Mistral 7B: Mistral AI，估值大约 20 亿美元的今年，推出了 Mistral 7B，一个具有挑战性的大语言模型，旨在与 GPT-4 和 Claude 2 竞争。Mistral AI 采用开放技术策略，允许用户免费下载该模型，以促进技术共享和创新。 Mixtral 8x7B: Mistral AI 同样推出了 Mixtral 8x7B，这是一个高质量的稀疏混合专家模型（SMoE），具备开放的权重参数，拥有总计 46.7B 参数，这标志着模型在提高真实性和减少偏见方面开放性的一大步。 Yi-34B llm:  今年估值达到 10 亿美元的李开复创立的 01.AI 发布了 Yi-34B — 一种开源的神经网络模型，它以远超竞争对手的参数数量取得了优越性能，特别强调了其在成本效益方面的突出表现。其他进展：这一部分暂无具体内容，但预示着 AI 领域还有更多激动人心的发展。任何物体分割模型 (SAM)： Meta AI 推出了 SAM，这是一个强大的分割模型，能够在无需额外训练的情况下提取图像中的物体，展示了其出色的适应性。SAM 在大型数据集上的训练证明了它在物体分割方面的高效能力。直接偏好优化 (DPO)： DPO 的出现标志着一种稳定且高效的方法，用于微调大规模无监督的大语言模型（LLM）和教授文本到图像模型。DPO 能够在不依赖复杂的基于人类反馈的强化学习 (RLHF) 的情况下实现精确控制。 Zephyr 直接蒸馏 LM 对齐： Zephyr-7B 是直接偏好优化 (dDPO) 的成果，它为带有 70 亿参数的聊天模型树立了新的标准，通过减少训练量提高了意图识别的准确性。自主 AI 智能体：自主 AI 智能体的兴起标志着向高级自主 AI 系统的重大转变。这些 AI 智能体被视为通用人工智能 (AGI) 的雏形，它们能够根据用户的目标自动生成任务和指令，并自主完成直至达成目标。 EvoDiff：微软的 EvoDiff 是一个开源 AI 框架，专注于快速且成本效益的蛋白质生成，有望在治疗和工业应用领域带来突破。稳定音频： Stability AI 发布一款可以根据简单文本提示生成短而高质量音频片段的工具。 GPT 商店，版权屏障，ChatGPT 机器人构造器： OpenAI 推出 GPT 商店来销售定制化的 GPT 机器人，版权屏障用于承担版权侵权索赔的法律费用，以及一个无需编程的平台，用于创建定制化的 ChatGPT 版本。 Stability AI 开源其大语言模型 (LLM): Stability AI 已开源其模型，包括 StableLM-Alpha 和 Stable Vicuna。这些模型在文本和代码生成方面表现卓越。特别是 Stable Vicuna，它是首个采用人类反馈强化学习 (RLHF) 训练的开源聊天机器人。另外，Stability AI 还推出了 SDXL Turbo，这是一款能实时将文本转换为图像的生成模型。合作伙伴在 2023 年这个充满活力的年份，行业领袖之间形成了一系列影响深远的合作关系，这些合作正在塑造未来的发展方向。以下是今年在 AI 领域具有里程碑意义的几个重要合作和联合： Stability AI 和 Init ML Stability AI 通过收购了 Init ML，这是受欢迎的编辑应用 ClipDrop 背后的关键团队，其目的是将 Stability AI 的先进技术融入到 ClipDrop 的生态系统中。这次合作已催生了SDXL Turbo 的开发。 Runway 和 Getty Images Runway 与 Getty Images 建立了战略合作伙伴关系，共同推出了一款新的视频生成模型 RGM (Runway 和 Getty Images 联合模型)。这一模型结合了 Runway 的 AI 技术和 Getty Images 庞大的授权创意内容库。这一合作旨在彻底改变内容创作的流程，帮助企业制作符合品牌特色的高质量定制视频。 Snowflake 和 Neeva 作为数据仓库平台的重要玩家，Snowflake收购了 Neeva，这是一家以利用生成式 AI 改善搜索体验而知名的初创公司。Neeva 最近结束了其基于订阅的、无广告的搜索引擎服务。Neeva 的创始人也承认了让用户尝试新搜索引擎的难度。 Shutterstock 和 OpenAI Shutterstock 和 OpenAI 确定了为期六年的深化合作关系。OpenAI 获得了 Shutterstock 高质量数据的使用权，以此来丰富其模型训练的数据集，包括多种图像、视频和音乐资源。Shutterstock 则继续利用 OpenAI 的技术，推出了 Shutterstock 的 AI 图像生成工具。 AI 法律现状 2023 年的 AI 法律领域正经历着快速变化... # Truncate to 5000 chars to avoid oversized files

中文

2023：AI 的一年

English

中文

继续阅读