“‘智能＋’与数据驱动的科学研究”专辑导语

一、来稿必须是作者独立取得的原创性学术研究成果，来稿的文字复制比（相似度或重复率）必须低于用稿标准，引用部分文字的要在参考文献中注明；署名和作者单位无误，未曾以任何形式用任何文种在国内外公开发表过；未一稿多投。二、来稿除文中特别加以标注和致谢之外，不侵犯任何版权或损害第三方的任何其他权利。如果20天后未收到本刊的录用通知，可自行处理(双方另有约定的除外)。三、来稿经审阅通过，编辑部会将修改意见反馈给您，您应在收到通知7天内提交修改稿。作者享有引用和复制该文的权利及著作权法的其它权利。四、一般来说，4500字（电脑WORD统计，图表另计）以下的文章，不能说清问题，很难保证学术质量，本刊恕不受理。五、论文格式及要素：标题、作者、工作单位全称(院系处室)、摘要、关键词、正文、注释、参考文献(遵从国家标准：GB\T7714-2005，点击查看参考文献格式示例)、作者简介(100字内)、联系方式(通信地址、邮编、电话、电子信箱)。六、处理流程：（1）通过电子邮件将稿件发到我刊唯一投稿信箱（2）我刊初审周期为2－3个工作日，请在投稿3天后查看您的邮箱，收阅我们的审稿回复或用稿通知；若30天内没有收到我们的回复，稿件可自行处理。（3）按用稿通知上的要求办理相关手续后，稿件将进入出版程序。（4）杂志出刊后，我们会按照您提供的地址免费奉寄样刊。七、凡向文教资料杂志社投稿者均被视为接受如下声明：（1）稿件必须是作者本人独立完成的，属原创作品（包括翻译），杜绝抄袭行为，严禁学术腐败现象，严格学术不端检测，如发现系抄袭作品并由此引起的一切责任均由作者本人承担，本刊不承担任何民事连带责任。（2）本刊发表的所有文章，除另有说明外，只代表作者本人的观点，不代表本刊观点。由此引发的任何纠纷和争议本刊不受任何牵连。（3）本刊拥有自主编辑权，但仅限于不违背作者原意的技术性调整。如必须进行重大改动的，编辑部有义务告知作者，或由作者授权编辑修改，或提出意见由作者自己修改。（4）作品在《文教资料》发表后，作者同意其电子版同时发布在文教资料杂志社官方网上。（5）作者同意将其拥有的对其论文的汇编权、翻译权、印刷版和电子版的复制权、网络传播权、发行权等权利在世界范围内无限期转让给《文教资料》杂志社。本刊在与国内外文献数据库或检索系统进行交流合作时，不再征询作者意见，并且不再支付稿酬。九、特别欢迎用电子文档投稿，或邮寄编辑部,勿邮寄私人，以免延误稿件处理时间。

作者:

关键词:

摘要：

数据密集型的科学发现已成为继实证范式、理论范式、计算范式后科学发现的“第四范式”，其在物理、化学、生物、天文等自然科学领域，乃至社会学、教育学、新闻传媒、法律等人文社会科学领域的研究中，发挥着越来越大的作用。近年来，人工智能在图像、视频、语音识别，以及人机对弈等领域的技术突破，进一步为数据驱动的科学研究提供了新的技术和方法。人工智能技术作用于科学研究，可充分发挥文献、实验、仿真结果等各种类型科学数据的价值：发现新的科学现象、揭示新的科学规律、验证科学假设、促进不同领域科学研究的交叉融合、探索科学研究的新方法和新思路，这对提升科学研究水平，取得突破性的研究成果，具有重要意义。

本期专辑围绕“‘智能＋’与数据驱动的科学研究”这个主题，在全国范围内征集稿件，受到了学术界的广泛关注，经过专辑编委会专家们的认真评阅，总共收录16篇高质量学术论文，分别来自国内11个高校和科研院所，包括东北大学、桂林电子科技大学、华东理工大学、华东师范大学、南京农业大学、南瑞集团、上海电力大学、四川大学、同济大学、中国人民大学、中山大学等。根据主题的不同，上述论文被划分为3个板块：数据驱动的计算教育学、新兴应用中的计算机智能、新时期数据管理技术。

互联网在改变世界的同时也深刻地改变着教育，利用信息技术优化教育过程、提升教学效果显得非常重要。数据驱动的计算教育学板块共收录5篇稿件：东北大学刘恒宇等人介绍了知识追踪及其应用背景，回顾了知识追踪所涉及的教育学与数据挖掘理论，总结了基于概率图、矩阵分解、深度学习的知识追踪研究现状，并展望未来的研究方向；华东师范大学陈远哲等人归纳梳理了共指消解的发展历程，从技术层面将共指消解划分为多个阶段，并介绍

了各个阶段的代表性模型，以及它们的优缺点；华东师范大学杨康等人意识到机器阅读理解

是理解学生问题和文档内容、快速获取知识的重要途径，综述了新近涌现出来的基于神经网络的机器阅读模型；华东师范大学杨东明等人基于百科语料和远程监督思想提出了基于关系表示的注意力机制，有效提取知识点间的有向关系信息；四川大学申航杰等人提出了一种融合模糊聚类和支持向量回归的成绩预测方法，即先引入模糊逻辑来计算隶属度矩阵，再对学生历史成绩进行聚类，最后对成绩轨迹进行拟合建模，从而提高成绩预测的准确率和可解释性。

除了教育之外，计算机智能也广泛应用在法学、智慧城市、电子商务、智能电网等领域。新兴应用中的计算机智能板块共收录6篇稿件：中国人民大学邵明锐等人意识到FAQ 数据集规模有限，给出了数据层面和模型层面的解决方案，在数据层面，利用百度知道爬取数据并挖掘语义等价问题，确保数据的相关性和一致性，在模型层面，提出了面向迁移学习的深度神经网络，以计算句子对之间的语义相似度；同济大学陈亮等人意识到在法学理论和法律实践中缺乏智能决策，采用多种数据分析模型研究智能决策算法，尝试建立法律关系坐标系，实现法律关系分析的空间几何转化；中山大学江群等人研究了基于用户偏好的最优路径搜索，从而在预算约束下寻找满足用户偏好的最优路径，所提的新方法可在查询阶段利用索引结构过滤出候选节点集；桂林电子科技大学傅裕等人观察到在电子商务领域中部分商品的名称可能包含属性等冗余信息，导致信息不一致现象，因而提出了一种基于自注意力机制的商品名称精简模型，以较小的计算代价精简商品名称；南瑞集团黄福兴等人认识到保证海量电能量数据的准确性、可靠性和完整性对智能电网至关重要，设计了一种基于孤立森林的异常检测算法，可检测大规模电能量数据中发生的异常；上海电力大学赵波等人基于机器学习方法，提出了一种优化神经网络的电网稳定性预测模型，并与经典机器学习方法进行了横向对比。

创新的数据管理技术对高效管理海量数据非常关键。新时期数据管理技术板块共收录5篇稿件，作者均来自华东师范大学：丁国浩等人为了支持负载均衡的数据加载，采用选取部分采样块和等间隔选取样本的方式来确定分区之间的切分点，避免了全局采样和随机或头部样本选取方式确定切分点带来的高开销；刘子豪等人意识到LevelDB数据库具有Key－Value结构的局限性，因而无法有效索引空间数据，提出了一种基于LevelDB和R－tree的二级索引，从而支持二维数据的索引和近邻查询，实验结果表明该结构效果良好；祝朝凡等人发现基本的Paxos算法尽管在理论上保证了一致性，但是依然容易产生活锁问题，而且不易工程化，因而提出了一种改进算法，有效降低了网络通信开销；黄皓等人提出了一种基于GPU 的流处理系统Serval，通过充分利用CPU－GPU 异构资源，高效处理了关系型流查询；张涛等人意识到标准Benchmark负载固定，较难应对用户多样的应用场景，因而设计并实现了一个用户自定义性能测试负载的工具——Woodpecker＋，该工具易于使用和可拓展，提供了可高效构造测试案例、做测试安排的测试定义语言（TDL），可灵活控制事务执行模式及数据访问分布，实现了轻量级的细粒度统计信息收集与分析，支持多种主流数据库系统DBMS及提供数据库访问接口的其他数据库。

“‘智能＋’与数据驱动的科学研究”专辑导 语