第157章迎敌陷马

为什么要这么做？因为文本的数据覆盖面更广，全量，而且是高知识量的。以此为基础，就可以获得更快的学习收敛速度。这里可以类比人，人学习的过程最重要的三大来源：说话、眼睛看世界、耳朵听东西，这三个信息可能最开始要引导的教育过程，是引导他讲东西，这也就是分阶段对齐的核心要义。从图来看，LLM  Backbone以语言对齐为核心，分阶段去做多模态大模型的信息压缩，找到其中的信息系规律。

  第二大类型，端到端对齐结构。就是对不同模态的数据同时学习，同时输入图像、文本各种各样的信息，直接把所有信息交叉并发，把所有的信息进行压缩，抽取里面的规律，最终达到理解这个世界，去驱动跟这个世界进行交互。

  三、解读大模型技术发展三阶段，场景反哺技术阶段仍面临挑战

  大模型能够帮我们做什么？我们很清楚大模型技术只是一个工具，从技术的角度去看，它帮我们把很多信息压缩，更高效地找出其中的规律。大模型要体现出价值，就要落实到各行各业、各种业务的闭环应用里面去。

  借鉴AI技术发展的路径，我们认为大模型技术发展定义也有三个阶段。这三个阶段实际上也是技术跟数据或者算法的关系。

  一开始，我们设计算法时通常会使用少量数据进行验证，这被称为技术找场景。在第二阶段，场景反哺技术，我们则采用更多数据来提升算法和技术的能力。第三阶段，场景找技术，即所有应用和需求都能通过同一个算法、模型来解决，这标志着我们迈入AGI时代的大道。

  那么，技术找场景现在的进展如何？我们已经走完了技术找场景在大模型技术发展应用的这段路。许多应用，例如智能问答、文生成图以及像ChatGPT这样的生成式大模型单点应用，已经验证了大模型技术的应用和算法成熟度。

  目前，我们正处于第二阶段，即场景反哺技术的阶段。我们可以看到，多模态大模型的落地还有很长一段路要走，其困难之处在于行业场景的复杂性。尽管我们希望在各行各业中广泛应用大模型，但行业场景的知识深度对大模型的能力提出了严峻的考验，仍存在着参差不齐、远未满足需求的情况。

  因此，我们需要积极推动多模态大模型技术的落地，并应对挑战寻找解决方案。

  四、如何打破大模型应用的“三角约束”？云天励飞提出“算法芯片化”

  我们要考虑主要的变量是什么？从智慧城市中的城市治理、智慧交通，我们归纳出，要在多模态大模型进行落地变现，应注意三个变量的“三角约束”。

  如今，对话系统备受关注，其精度已经接近人类，跟人没有差异，但在对垂域的深度支持和行业的价值，大模型没法去做。在真实生产环境中，很多任务是很复杂的，由于对垂域专业知识的不足，以及数据优化结构的增加，大模型面临着成本和效率方面的挑战。

  因此，我们需要在精度、成本和效率之间寻找平衡点，以推动多模态大模型技术在对话系统中的落地应用。我们相信，我们正在积极解决这一问题，并与AI领域的同仁一道不断推进技术进步。

  云天励飞是如何突破“三角约束”的？我来分享一下我们的解决方案。

  自2014年云天励飞建立之初，我们就定义了“算法芯片化”的技术发展路径。算法芯片化不仅仅是简单地将算法应用于芯片，还需要高度专业的人才，需要专家人才对算法有深刻理解，对不同场景和行业数据有专业认知，并能够通过协同设计算法与场景，最终体现在芯片侧、算子侧，包括推进可伸缩的指令集、优化计算架构以及工具链的优化。

  这样的技术支持使得我们能够应用包括Transformer、各种深度学习算法框架等多种算法。最重要的一点，它的成本、效率是制约多模态大模型落地的关键。

  过去打造的云天天书多模态大模型包含了几个维度，包括语言、CV、文本问答、目标检测分割等。这些大模型的落地采取了分层解耦的策略，通过设计算法芯片化平台，我们构建了一个通用大模型。这个通用大模型具备基础能力，它在行业知识和场景经验方面可能只达到60到70分，但在通用性方面可以达到80分、90分甚至满分。

  再往上走就是行业大模型、场景大模型，要在具体的场景业务里面拿到90分，需要低成本的算子层面优化，并通过与边缘侧数据的高效迭代训练来满足客户需求。

  过去十年，云天天书算法研究经历了长时间的迭代发展。从2017年之前研究以ResNet卷积神经网络的深度学习，到Transformer结构起来之后，我们第一批启动了Transformer结构适配整个算法芯片化的平台。去年公司上市后，我们加大了对大模型技术的研发投入，并持续跟进海内外的先进技术。我们成功地研发了从百亿级到千亿级的语言多模态大模型。

  上个月，我们发布了云天天书3.5V的大模型。在图文理解、生成以及问答等方面，这些模型表现非常可观。在语言大模型方面，我们去年已经多次获得了权威榜单的第一名。

  五、云天励飞是怎么取得可观成绩的？背后有4项关键技术

  我们如何实现这些可观的成绩？尽管我们面临了诸多挑战，但我们总结归纳后认为有四个关键点值得分享：

  第一，解决成本的问题。精度可以通过数据堆积解决，在真正落地的时候，推理的成本是绕不过去的，我们的核心要义是解决高效的推理引擎问题。

  为此，我们自主研发了Space推理引擎，它与算子层高效融合，实现了无损的推理，并将推理速度提升了50%以上。具体来说，像生成式大模型，通常是进行单字符的向前预测，但我们想办法一次性预测多个字符，同时保持无损、精度不变。在这种情况下，我们通过对算法结构进行改进，实现了一次性预测多个词条，从而提升了推理效率。

  第二，降低核心成本。我们致力于提高效率和减少GPU存储需求，通过研究分布式切块，包括自适应的稀疏缓存解码等技术，我们成功将GPU需求降低了50%。

  第三，优化训练技术。优化训练是大模型落地的根基，所有的应用都在这个根基上长起来。我们研发了一套可伸缩的大模型训练技术，简单来说，训练一个大模型，这个大模型要考虑如果扩展它的参数或者说扩展它的规模、优化它的结构，能不能复用原有的大模型？

  答案是肯定的，这种方法也节省了训练成本。从深度和广度的角度来看，通过复用已训练的参数，达到深度扩展和宽度扩展，使训练效率翻倍，同时降低了达50%的训练成本。

  第四，神经网络处理器和推理芯片是我们近十年来的重点。如今已经历了四代迭代，从第一代NNP100到目前的NNP400T，我们已经完全灵活适配多种深度学习架构，特别是在Transformer架构下，我们进行了指令集优化、算子的协同设计以及高效的联合设计，支撑了Transformer结构的高效推理。此外，我们还是最早一批使用Chiplet结构适配大模型的公司之一。

  利用这四项核心技术，我们构建了支持边缘大模型的算法芯片化系统。我们的底层技术支持了神经网络处理器和自主研发的推理芯片，促进了国产化进程，避免了对供应链的依赖，并在此基础上实现了多模态大模型的运行。从行业应用的角度来看，我们有基于行业到边缘的场景大模型。更重要的是，我们支持用户进行无感知的在线微调，同时保护用户的数据隐私，而且成本极低。

  六、实现每秒30字高效推理，多模态大模型已落地G端

  云天天书的多模态大模型在文本理解和生成方面表现卓越，每秒可实现30字的高效推理速度，并能处理超过45万字的上下文。通过指定要求，快速生成符合特定格式的通知、决议等文件，从而有效推动办公自动化。大家可以看到整个生成过程内容极其简洁，速度极其快。

  此外，我们也支持带参考内容的文章修改和润色，可以复制一部分已有的参考内容，高效地进行润色、修改，变成大家所需要的东西。目前这一块的内容已成功地在多个地级市、省厅局委办落地。采用我们的多模态大模型进行办公赋能，对于项目报告的内容生成也是非常灵活。

  最后，在文本内容的理解和生成方面，很重要的一点是生成的质量。我们自带校阅功能，生成完之后可以多次优化里面的内容，达到自迭代、自进化的效果。云天天书多模态大模型支撑视频数据的理解和生成，很多数据训练过程结束之后，有一些数据是需要优化、编辑的，尤其在消费端的场景，比如对图片编辑，对3D数据合成。

  我们可以通过多模态大模型进行数据的合成，达到我们想要的3D数据。对于图片的数据理解，比如通过指令去渲染，通过指令去编辑整个图片，让大模型去理解，根据指令操作图片，甚至画出不同的风格。多模态大模型的Agent能力，以开源目标检测为例，这种技术为城市发展提供了支持，正如我们之前提到的，我们发布了一个AI模盒，旨在促进AI技术在城市领域的应用，其中就包括基于多模态大模型的支持。

  我们非常荣幸，能够身处在这个AI蓬勃发展，引领各行各业不断变革的时代。如今，AI大模型技术在各行各业遍地开花，我们希望携手各行各业的专家及朋友，共同引领多模态技术的落地，并迈向AGI大方向。

  以上是余晓填演讲内容的完整整理。

  搜索

  云天励飞

  国内大模型最新排名

  孙正义评价云天励飞

  云天励飞国内最强ai

  惊艳到极致的ai图片

  国资入股云天励飞

　　(https://www.yourenxs.net/chapter/3993128/11110968.html)

1秒记住游人小说网：www.yourenxs.net。手机版阅读网址：m.yourenxs.net

第157章 迎敌陷马

第157章迎敌陷马