ISSN 1004-4140
CN 11-3017/P

大模型驱动地震科普数字人的实践与探索

吴德孟, 张劭贤, 乔泓宇

吴德孟, 张劭贤, 乔泓宇. 大模型驱动地震科普数字人的实践与探索[J]. CT理论与应用研究(中英文), 2024, 33(5): 655-660. DOI: 10.15953/j.ctta.2024.079.
引用本文: 吴德孟, 张劭贤, 乔泓宇. 大模型驱动地震科普数字人的实践与探索[J]. CT理论与应用研究(中英文), 2024, 33(5): 655-660. DOI: 10.15953/j.ctta.2024.079.
WU D M, ZHANG S X, QIAO H Y. Exploration and Use of Large Model-driven Digital Humans for Popularizing Earthquake Science[J]. CT Theory and Applications, 2024, 33(5): 655-660. DOI: 10.15953/j.ctta.2024.079. (in Chinese).
Citation: WU D M, ZHANG S X, QIAO H Y. Exploration and Use of Large Model-driven Digital Humans for Popularizing Earthquake Science[J]. CT Theory and Applications, 2024, 33(5): 655-660. DOI: 10.15953/j.ctta.2024.079. (in Chinese).

大模型驱动地震科普数字人的实践与探索

基金项目: 中央级公益性科研院所基本科研业务专项(基于StationXML台站基础信息管理与服务的研究(DQJB23K37);基于S3对象存储技术的测震数据迁移应用研究(DQJB23K36))。
详细信息
    通讯作者:

    吴德孟: 男,中国地震局地球物理研究所研究实习员,主要从事地震信息与人工智能算法研究,E-mail:wudm@cea-igp.ac.cn

  • 中图分类号: TP  18;P  315

Exploration and Use of Large Model-driven Digital Humans for Popularizing Earthquake Science

  • 摘要:

    我国地震多发,地震灾害严重,积极推动防震减灾科普对增强公众防震和主动减灾意识具有重要意义。目前,地震科普内容、表现形式、丰富性和趣味性等方面仍存在很大不足,科普成效需要增强。利用人工智能技术和语言大模型,开发地震科普大模型,创新地震科普新方式,可增强科普互动性和趣味性,丰富科普内容。地震科学国际数据中心基于阿里“通义千问”开源模型打造了地震垂直领域大模型QuakeGPT,该模型学习大量地震相关专业知识,可通过问答服务,提供更丰富的地震知识,回答更准确。QuakeGPT模型通过微信“小Q”提供地震知识和防灾建议,增强了公众的参与度和学习效果,显著提升公众对地震科学的认识和应对能力。

    Abstract:

    Earthquakes in China frequently cause severe damage, underscoring the importance of actively promoting science education to enhance public awareness on earthquake prevention and disaster reduction and proactive disaster mitigation. However, significant gaps in the content, presentation, and richness of current earthquake science-related education exist as well as a lack of public engagement in such efforts, necessitating improvement in all aspects. By leveraging artificial intelligence and large language models, we can develop advanced educational tools to create new innovative methods for enhancing public interactivity and engagement and content richness in earthquake science-related education. The International Seismological Data Center has created QuakeGPT, a large model for the vertical earthquake domain based on Alibaba’s open-source model “Tongyi Qianwen.” This model has acquired extensive professional knowledge related to earthquakes and provides richer, more accurate information through question-and-answer services. QuakeGPT offers earthquake knowledge and disaster prevention advice via the WeChat “XiaoQ” platform, increasing public engagement and learning effectiveness and thereby significantly enhancing the general public’s knowledge on earthquake science and their ability to respond to earthquakes.

  • 科普的意义在于提升公众的科学素养,增强应对突发事件的能力,促进科技成果的推广和应用,并推动科学教育的发展。科普要求内容准确、通俗易懂,趣味性和针对性强,并需持续更新以保持公众的兴趣。尽管当前科普资源日益丰富,公众参与度提高,政府对科普工作更加重视,但仍面临科普人才短缺和资源分布不均等问题。

    我国地震频发,地震数量约占全球总数的33%,地震灾害严重,造成大量人员伤亡和财产损失。地震发生后,公众的关注度迅速上升,急需了解地震的起因、影响及防范措施,因此地震科普至关重要。然而,由于地震学的深奥复杂,需要一定的专业背景。目前地震科普供给不足,内容不丰富,表现形式单一且互动性差,导致科普成效不佳。随着人工智能技术的发展,特别是语言大模型的兴起,地震科普迎来了新机遇[1]。大模型科普具备知识丰富、问答形式准确、互动性强的特点,能够显著提升地震科普的效果。

    中国地震局地球物理研究所作为我国重要的地学研究机构,拥有丰富的文献资源,70 多年来始终致力于地震科学研究、科技服务、人才培养和科学普及,推动地震科技的进步,为国家的防震减灾事业发展提供坚实支持。

    地震科学国际数据中心利用中国地震局地球物理研究所相关地震文献资源,发布了地震科普大模型 QuakeGPT(quake generative pre-trained transformer)。该模型基于阿里“通义千问”开源模型打造,是地震行业首个垂直领域的大模型,也是语言大模型在地震科普领域的首次应用。QuakeGPT模型为公众提供了精准的地震知识学习和防灾建议,显著提升了公众在地震科学认识和紧急应对能力方面的水平。

    为了进一步推动地震科普的普及性,团队推出了数字人“小Q”的微信号。公众可通过微信关注“小Q”,进行交互,从而为公众提供地震相关问题的解答。相比于通用大模型,地震科普大模型在回答地震领域相关问题时更为清晰细致,具有更高的专业性。

    大规模语言模型(large language models,LLM),也称大语言模型或大型语言模型,是一种由包含数百亿以上参数的深度神经网络构建的语言模型,通常使用自监督学习方法通过大量无标注文本进行训练[2]。如图1所示,自 2018年以来,Google、OpenAI、Meta、百度、华为等公司和研究机构都相继发布了包括全称BERT[3]、GPT[4]在内的多种模型,并在几乎所有自然语言处理任务中都表现出色。

    图  1  大模型发展历程
    Figure  1.  Development history of large models

    2019年大模型呈现爆发式增长,特别是 2022年11月 ChatGPT(chat generative pre-trained transformer)发布后,更是引起了全世界的广泛关注。用户可以使用自然语言与系统交互,从而实现包括问答分类、摘要、翻译、聊天等从理解到生成的各种任务。大规模语言模型展现出强大的对世界知识掌握和对语言的理解能力。

    在地震科普领域,通过学习大量的地震相关数据,并基于语言大模型开发的地震专业语言模型,可提供专业的知识问答服务。QuakeGPT模型就是基于阿里“通义千问”开源模型打造的垂直领域大模型,专注于地震科普,它不仅可以提供地震相关的知识,还能通过人机交互帮助公众更好地理解地震及其应对措施。

    大语言模型训练需要数万亿的各类型数据。如何构造海量“高质量”数据对于大语言模型的训练具有至关重要的作用。虽然,截止到目前为止,还没有非常好的大模型的理论分析和解释,也缺乏对语言模型训练数据的严格说明和定义[5]。但是,大多数研究人员都普遍认为训练数据是影响大语言模型效果以及样本泛化能力的关键因素之一。从此前的研究来看,预训练数据需要涵盖各种类型,包括网络数据、图书、论文、百科和社交媒体等,还需要覆盖尽可能多的领域语言、文化和视角,从而提高大语言模型的泛化能力和适应性。

    在地震科普大模型的构建过程中,数据准备是至关重要的一步。如图2所示,研究所数据中心团队通过从《中国震例》和地震科普问答等资料中,整理出近3万条地震知识问答对。这些数据包括地震的起因、影响、防范措施等方面的内容,为模型提供了丰富的训练素材。

    图  2  2020年中国震例截选
    Figure  2.  2020 China Earthquake Case Selection

    此外,团队还建立多个数据集,包括地震知识数据集、自我认知数据集、强化训练集、奖励模型数据集与地震知识库。这些数据集的建立和整理确保模型能够全面且深入地学习地震相关知识,并在问答和互动过程中提供准确且详细的解答。

    随着大模型的流行和普及,越来越多的研究者开始尝试训练自己的大模型。训练大模型不仅仅是编写简单的训练代码,还涉及到多个复杂的步骤和工具链,包括数据准备、模型设计、训练环境配置、分布式训练、模型评估、部署等[6]

    大模型的训练是一个复杂且耗时的过程,需要大量的计算资源和优化技术。以QuakeGPT模型为例,它基于Qwen-14B-Chat大模型作为基座进行了微调和对齐。训练过程中,模型需要经过多轮的迭代,每一轮都涉及大量数据的处理和计算。

    图3所示,首先,通过预训练阶段,模型会从大量的文本数据中学习语言的基本结构和语法。然后,通过微调,模型会进一步学习地震领域的知识。在此过程中,团队通过强化学习和奖励模型的引入,使得模型在提供回答时更加准确和专业。

    图  3  模型训练的结构框架
    Figure  3.  The structural framework of model training

    此外,团队还对模型进行了优化和调整,以确保其在实际应用中的表现达到最佳。最后的效果如图4所示,图4(a)是训练前通义千问的回答,而图4(b)是训练后小Q的回答,明显可以看出,小Q的回答更加的具体和准确,也进一步说明了训练后的效果。

    图  4  Qwen和小Q回答对比
    Figure  4.  Comparison Between Qwen and Xiao Q's Responses

    以 ChatGPT 为代表的大规模语言模型在问题回答、文稿撰写、代码生成、数学解题等任务上展现出强大的能力,这引发了研究人员广泛思考,即如何利用这些模型进行各种类型的应用,同时弥补它们在推理能力、获取外部知识、使用工具以及执行复杂任务等方面的不足。此外,研究人员还致力于如何将文本、图像、视频、音频等多种信息结合起来,实现多模态大型模型,这也成为了一个热门研究领域[7]。鉴于大语言模型的参数量庞大,以及针对每个输入的计算时间较长,优化模型在推理阶段的速度和用户响应时长也变得至关重要。

    训练完成的QuakeGPT大模型(图5)在地震科普领域具有广泛的应用前景。QuakeGPT模型通过微信“小Q”智能体来进行人机交互,公众可以通过加“小Q”的微信号进行互动,获取地震相关知识和应对措施。这种互动形式不仅提高了科普的效果,还增强了公众对地震知识的兴趣和理解。

    图  5  地震科普大模型
    Figure  5.  A Large Language Models for Earthquake Science Popularization

    此外,QuakeGPT模型还开放了API服务,为第三方应用提供了便捷的接入方式。这意味着,其他平台和应用也可以利用QuakeGPT的地震知识,提供更加丰富和精准的服务。无论是教育机构、政府部门,还是防灾减灾相关组织,都可以通过集成QuakeGPT的API,提升其服务质量和用户体验。

    未来,随着模型的不断进化和优化,地震科普大模型将在提高公众的防震减灾意识、增强地震应对能力等方面发挥越来越重要的作用。通过大模型的多元化应用,公众将能够更加全面和深入地了解地震科学,为防灾减灾事业的发展贡献力量。

    QuakeGPT地震科普大模型在地震科普领域的应用,提供地震科普新方式、新技术,为提高公众的防震减灾意识和应对能力提供了新途径。QuakeGPT模型通过微信“小Q”与公众互动,提供精准的地震知识和防灾建议,增强了公众的学习效果和参与度,QuakeGPT地震科普大模型对地震科普发展具有重要意义。未来,通过多元化的应用,地震科普大模型将进一步提升公众对地震科学的理解和掌握,将在提高公众地震应对能力、增强防灾减灾意识方面发挥更大的作用。

  • 图  1   大模型发展历程

    Figure  1.   Development history of large models

    图  2   2020年中国震例截选

    Figure  2.   2020 China Earthquake Case Selection

    图  3   模型训练的结构框架

    Figure  3.   The structural framework of model training

    图  4   Qwen和小Q回答对比

    Figure  4.   Comparison Between Qwen and Xiao Q's Responses

    图  5   地震科普大模型

    Figure  5.   A Large Language Models for Earthquake Science Popularization

  • [1] 黄立洪, 李健, 刘哲函, 等. 可解释 AI 综述及其在地震科学领域中的应用展望[J]. 地震科学进展. DOI: 10.19987/j.dzkxjz.2023-138.

    HUANG L H, LI J, LIU Z H, et al. A review of explainable ai and its prospects for applications in seismology[J]. Advances in Earthquake Science. DOI:10.19987/j.dzkxjz.2023-138. (in Chinese).

    [2]

    ZHENG Y, ZHOU D, ZHANG Y, et al. ChatGPT from the perspective of computational education: Connotation, theme, reflection, and challenge[J]. Journal of East China Normal University (Educational Sciences), 2023, 41(7): 91.

    [3]

    DEVLIN J, CHANG M W, LEE K, et al. Pre-training of deep bidirectional transformers for language understanding in: Proceedings of the 2019 conference of the north american chapter of the association for computational linguistics: Human language technologies, volume 1 (long and short papers)[J]. Minneapolis, MN: Association for Computational Linguistics, 2019: 4171-86.

    [4]

    RADFORD A, NARASIMHAN K, SALIMANS T, et al. Improving language understanding by generative pre-training[J]. 2018.

    [5] 刘静, 郭龙腾. GPT-4 对多模态大模型在多模态理解, 生成, 交互上的启发[J]. 中国科学基金, 2023, 37(5): 793-802.

    LIU J, GUO L T. Insights from GPT-4 on multimodal large models in multimodal understanding, generation, and interaction[J]. China Science Foundation, 2023, 37(5): 793-802. (in Chinese).

    [6] 吴砥, 李环, 陈旭. 人工智能通用大模型教育应用影响探析[J]. 开放教育研究, 2023, (2): 19-25, 45.

    WU D, LI H, CHEN X. Analysis on the influence of artificial intelligence generic large model on education application[J]. Open Education Research, 2023, (2): 19-25, 45. (in Chinese).

    [7] 赵朝阳, 朱贵波, 王金桥. ChatGPT 给语言大模型带来的启示和多模态大模型新的发展思路[J]. 数据分析与知识发现, 2023, 7(3): 26−35.

    ZHAO C Y, ZHU G B, WANG J Q. Insights from ChatGPT for large language models and new development directions for multimodal models[J]. Data Analysis and Knowledge Discovery, 2023, 7(3): 26−35. (in Chinese).

图(5)
计量
  • 文章访问数:  236
  • HTML全文浏览量:  34
  • PDF下载量:  56
  • 被引次数: 0
出版历程
  • 收稿日期:  2024-05-30
  • 修回日期:  2024-06-13
  • 录用日期:  2024-06-23
  • 网络出版日期:  2024-06-26
  • 刊出日期:  2024-09-04

目录

/

返回文章
返回
x 关闭 永久关闭