上周日,ESCE 的学员迎来了一场学术的盛会——DBA博士论文的阶段性进展汇报,以及专家讲座——大模型的发展及应用。我们将带您回顾本次活动的亮点,一起回顾学员的学术成果与探索大模型技术的广阔天地和未来发展。
激荡思想,锻造精英
在上午的论文汇报阶段,ESCE华语区项目主任肖靖伟博士与特聘教授唐文纲博士作为审查评委,我们的DBA学员们依次向大家展现了他们在学术探索上的深刻洞见和阶段性成果。
答辩环节同样精彩,每位学员都展示了出色的批判性思维和应对压力的能力。面对评委导师们的提问,他们都能逐一解答,展现了对自己研究领域深入而全面的理解。
开场白——新年祝词
大语言模型发展历程
大语言模型的基本概念
大规模语言模型(Large Language Models,LLM),也称大语言模型或大型语言模型,是一种由包含数百亿以上参数的深度神经网络构建的语言模型,通常使用自监督学习方法通过大量无标注文本进行训练。
自2018年以来,Google、OpenAI、Meta、百度、华为等公司和研究机构都相继发布了包括BERT,GPT等在内多种模型,并在几乎所有自然语言处理任务中都表现出色。2019年大模型呈现爆发式的增长,特别是2022年11月ChatGPT(Chat Generative Pre-trained Transformer)发布后,更是引起了全世界的广泛关注。用户可以使用自然语言与系统交互,从而实现包括问答、分类、摘要、翻译、聊天等从理解到生成的各种任务。
大语言模型的出现标志着自然语言处理技术的重大突破。这些模型不仅具有庞大的参数量,还在学习和理解人类语言方面展现出惊人的能力。
大语言模型的发展历程
赵博士为学员们回顾了从2017年到2024年大模型的发展,包括各种著名模型如GPT系列的演变。他指出了这些模型在数据处理能力和智能化方面的显著进步。从去年开始,多模态大模型的兴起再一次引爆AI界,这种模型不仅能处理语言,还涉及其他形式的数据,如图像、声音和视频。
开源大语言模型汇总图
大语言模型的构建流程
OpenAI 公司在 2018年提出的生成式预训练语言模型GPT是典型的生成式预训练语言模型之一。GPT 的模型结构如图所示,它是由多层Transformer组成的单向语言模型,主要分为输入层、编码层和输出层三部分。
随着大语言模型的发展,智能代理结合大语言模型实现了巨大突破,基于大语言模型的智能代理开始占据主导地位,也逐渐引起了众多研究人员的关注。
LangChain框架是一种利用大语言模型的能力开发各种下游应用的开源框架,旨在为各种大语言模型应用提供通用接口,简化大语言模型应用的开发难度。它可以实现数据感知和环境交互,即能够使语言模型与其他数据源连接起来,并允许语言模型与其环境进行交互。
本次赵博士的讲座《大模型的发展和应用》涵盖了大模型的多个方面,从大语言模型的基本概念到发展历史、从大模型的基础数据处理到复杂应用的开发,再到模型的创新潜力和应用领域的扩展,还与学员们交流了大模型在创新方面的潜力和限制,并探讨了大模型未来的发展方向,包括提高模型的精确度、扩展应用领域等。
在快速变化的AI时代,适应和领导AI这个工具是每个人都必须面对的挑战。ESCE法国高等对外贸易学院正是这样一个孵化未来商业领袖和创新者的平台,我们通过更注重时效性与商业落地的教学体系,线上和线下结合的矩阵式教学模式来提高费效比,帮助学员更好地把握未来的挑战与机遇,培养学生们不仅在技术上有所造诣,更在商业理解和社会责任上有深刻洞察。