开年大课!ESCE 博士论文阶段性汇报&专家讲座——AI 大模型的发展及应用

2024-01-30
图片

图片

上周日,ESCE 的学员迎来了一场学术的盛会——DBA博士论文的阶段性进展汇报,以及专家讲座——大模型的发展及应用。我们将带您回顾本次活动的亮点,一起回顾学员的学术成果与探索大模型技术的广阔天地和未来发展。

图片

激荡思想,锻造精英

图片

在上午的论文汇报阶段,ESCE华语区项目主任肖靖伟博士与特聘教授唐文纲博士作为审查评委,我们的DBA学员们依次向大家展现了他们在学术探索上的深刻洞见和阶段性成果。

图片

本次汇报与答辩活动不仅是对他们迄今为止研究成果的一次全面梳理,也是一个关于未来研究方向和实践应用的深入讨论。每一位参与者都将自己过去一年的 DBA学习和研究倾注于此,不仅体现了他们对学术的执着追求,也展示了他们作为未来学术界和商界领袖的潜力。

答辩环节同样精彩,每位学员都展示了出色的批判性思维和应对压力的能力。面对评委导师们的提问,他们都能逐一解答,展现了对自己研究领域深入而全面的理解。

图片

我们衷心祝愿所有DBA学员们在未来的学术道路上取得更加卓越的成就。愿他们的研究不仅为学术界带来新的洞见,也能在实践中发挥重要作用,学业顺利,未来可期!

开场白——新年祝词

图片


图片

作为下午的专家讲座开场,ESCE 法国本部学术主任Dr. Nicolas BARTHE与ESCE华语区项目主任肖靖伟博士分别为学员们做了新年祝词。

图片

肖博士提到了AI时代对教育领域的影响,强调了需要培养能够在AI时代中生存和繁荣的新一代领导者。他强调了跨学科学习的重要性,鼓励学生们不仅要学习技术知识,还要深入了解商业、文化和社会等领域。他认为,未来的高管不仅需要技术知识,更要有深厚的商业理解和人文关怀。
在如今各种新兴AI技术大行其道的今天,我们不应被技术的发展所迷失,而应更多地思考人性的未来和对抗AI的最佳策略。这不仅是一场技术革命,更是对人类自身价值和能力的一次深刻反思。

大语言模型发展历程

图片
下午的专家讲座课程,我们非常荣幸地邀请到了来自复旦大学计算机科学技术学院的副教授赵卫东,为我们深入解析了大模型技术的前沿动态,一起探索大模型技术的广阔天地和未来发展。

图片图片

赵博士的讲座课程由三大部分构成——LLM 的基本概念、发展历程、以及构建流程

1

大语言模型的基本概念

大规模语言模型(Large Language Models,LLM),也称大语言模型或大型语言模型,是一种由包含数百亿以上参数的深度神经网络构建的语言模型,通常使用自监督学习方法通过大量无标注文本进行训练。

自2018年以来,Google、OpenAI、Meta、百度、华为等公司和研究机构都相继发布了包括BERT,GPT等在内多种模型,并在几乎所有自然语言处理任务中都表现出色。2019年大模型呈现爆发式的增长,特别是2022年11月ChatGPT(Chat Generative Pre-trained Transformer)发布后,更是引起了全世界的广泛关注。用户可以使用自然语言与系统交互,从而实现包括问答、分类、摘要、翻译、聊天等从理解到生成的各种任务。

图片

大语言模型的出现标志着自然语言处理技术的重大突破。这些模型不仅具有庞大的参数量,还在学习和理解人类语言方面展现出惊人的能力。

2

大语言模型的发展历程


赵博士为学员们回顾了从2017年到2024年大模型的发展,包括各种著名模型如GPT系列的演变。他指出了这些模型在数据处理能力和智能化方面的显著进步。从去年开始,多模态大模型的兴起再一次引爆AI界,这种模型不仅能处理语言,还涉及其他形式的数据,如图像、声音和视频。

图片

图片


图片

开源大语言模型汇总图


3

大语言模型的构建流程


随着基于Transformer 的各类语言模型的发展及预训练微调范式在自然语言处理各类任务中取得突破性进展,从OpenAI 发布GPT-3 开始,对大语言模型的研究逐渐深入。虽然大语言模型的参数量巨大,通过有监督微调和强化学习能够完成非常多的任务,但是其基础理论仍然离不开对语言的建模。

图片

OpenAI 公司在 2018年提出的生成式预训练语言模型GPT是典型的生成式预训练语言模型之一。GPT 的模型结构如图所示,它是由多层Transformer组成的单向语言模型,主要分为输入层、编码层和输出层三部分。

图片

我们知道超大规模的无监督深度学习,打造出来的大模型是一个黑盒,推理决策链不可知,这就会让模型结果变得不够可信。而思维链将一个逻辑推理问题,分解成了多个步骤,来一步步进行,这样生成的结果就有着更加清晰的逻辑链路,提供了一定的可解释性,让人知道答案是怎么来的。
针对这个问题,Google Brain 的研究人员提出了思维链(Chain-of-Thought,CoT)提示方式,除了将问题输入模型,还将类似题目的解题思路和步骤输入模型,使得模型不仅输出最终结果,还输出中间步骤,从而提升模型的推理能力。

图片

在复杂任务处理方面,目前AI 应用发展的一个主要探索路线就是 AI Agent,也被称为智能代理(智能体)。早期的智能代理主要是基于强化学习实现的,不仅计算成本高,需要用大量的数据训练,而且难以实现知识迁移。
图片

随着大语言模型的发展,智能代理结合大语言模型实现了巨大突破,基于大语言模型的智能代理开始占据主导地位,也逐渐引起了众多研究人员的关注。

智能代理可以被视为独立的个体,能够接收并处理外部信息,进而给出响应。大语言模型可以充当智能代理的大脑,单个智能代理的组成如图所示。智能代理主要由以下几个核心模块组成:思考模块、记忆模块、工具调用模块。
图片
对于外界输入,智能代理借助多模态能力将文字、音频、图像等多种形式的信息转换为机器能够理解的表现形式;进而由思考模块对这些信息进行处理,结合记忆模块完成推理、规划等复杂任务;最后,智能代理可能会利用工具调用模块执行相应的动作,对外部输入做出响应。

图片

除此以外,赵博士还为学员们介绍了大模型的训练数据来源,模型的内存和存储机制,在预训练基础上开发新应用的过程,数据格式的重要性和各种技术要求,以及目前最流行的LangChain框架的核心内容。
图片
什么是LangChain
图片

LangChain框架是一种利用大语言模型的能力开发各种下游应用的开源框架,旨在为各种大语言模型应用提供通用接口,简化大语言模型应用的开发难度。它可以实现数据感知和环境交互,即能够使语言模型与其他数据源连接起来,并允许语言模型与其环境进行交互。

图片

本次赵博士的讲座《大模型的发展和应用》涵盖了大模型的多个方面,从大语言模型的基本概念到发展历史、从大模型的基础数据处理到复杂应用的开发,再到模型的创新潜力和应用领域的扩展,还与学员们交流了大模型在创新方面的潜力和限制,并探讨了大模型未来的发展方向,包括提高模型的精确度、扩展应用领域等。

图片

可以说,未来大语言模型在商业和学术领域的应用不可限量,在商业领域,AI的应用正在开启新的营销、客户服务和市场分析的篇章。企业可以利用这些模型来更好地理解消费者需求,优化产品推广策略,甚至在实时动态市场中迅速做出决策。

图片

在快速变化的AI时代,适应和领导AI这个工具是每个人都必须面对的挑战。ESCE法国高等对外贸易学院正是这样一个孵化未来商业领袖和创新者的平台,我们通过更注重时效性与商业落地的教学体系,线上和线下结合的矩阵式教学模式来提高费效比,帮助学员更好地把握未来的挑战与机遇,培养学生们不仅在技术上有所造诣,更在商业理解和社会责任上有深刻洞察。


分享