数据集
数据集的相关文献在1985年到2023年内共计3410篇,主要集中在自动化技术、计算机技术、大气科学(气象学)、无线电电子学、电信技术
等领域,其中期刊论文1171篇、会议论文89篇、专利文献601719篇;相关期刊676种,包括应用气象学报、中国地质、中国数字医学等;
相关会议71种,包括第八届中国卫星导航学术年会、第四届高分辨率对地观测学术年会、第32届中国数据库学术会议等;数据集的相关文献由8361位作者贡献,包括杨帆、王勇、张鹏等。
数据集—发文量
专利文献>
论文:601719篇
占比:99.79%
总计:602979篇
数据集
-研究学者
- 杨帆
- 王勇
- 张鹏
- T·比洛
- 张耀南
- 李伟
- 王鹏
- J·威斯
- 刘军
- 刘娜
- 吴超
- 周力
- 徐波
- 杨阳
- 王浩
- 王磊
- 伍家松
- 凌子昊
- 刘丽华
- 孔佑勇
- 孟群
- 安雪晖
- 张伟
- 张发恩
- 张磊
- 张翔
- 张莹
- 李阳
- 李鹏飞
- 杨乐
- 杨淳沨
- 王凯
- 王平
- 王斌
- 王琳
- 甘忠
- 石望兴
- 舒华忠
- 薛超
- 许卓明
- 陈超
- 颜雪松
- 骆清铭
- 高林毅
- 龚辉
- R·维姆科
- 任海萍
- 刘凯
- 南一冰
- 周亮
-
-
-
-
摘要:
为顺应大数据时代的发展,《中国科技术语》开展科学数据出版服务,以期为作者和读者提供集文献和数据于一体的信息化服务。本刊的数据出版分为2种模式:(1)科技论文附加数据:本刊鼓励作者在提交科技论文时,附加支撑数据集,在文中对相关的科学数据进行描述和管理,为使用者在访问论文的同时,提供科学数据的阅读、引用、分析等。
-
-
刘震;
纪明妹;
郭志顶;
黄素芳;
赵忠祥;
闫旭东;
滕霄;
石秘;
岳明强;
刘青松;
徐玉鹏
-
-
摘要:
基于农业技术与信息化技术的不断发展与融合,针对当前河北省农作物害虫识别准确率和效率低等问题,提出了一种基于Asp.NET Core MVC架构的残差神经网络害虫图像识别系统。该系统首先通过移动采集终端和网络图片爬虫收集目标分类图片信息,再使用数据增强技术扩充样本库,得到神经网络训练模型的数据集;然后通过搭建机器学习框架,分别引入ResNet-50、ResNet-101、ResNet-152残差网络模型,对数据集执行训练并验证其准确度;最后将准确度最高的训练结果模型运用至农作物害虫分类服务系统。经验证,该识别模型具有良好的适用性和鲁棒性,可为河北省主要农作物虫害提供识别及诊断功能。
-
-
张伟;
张展鹏;
张明淘;
韩普
-
-
摘要:
医疗健康知识挖掘在人工智能和大数据时代受到了学界的极大关注,目前已经成为信息抽取和文本挖掘中的重要研究方向。在基于深度学习的实体识别、实体关系抽取、问答系统以及知识图谱构建研究中,各类语义资源、数据集和工具已经成为开展医疗健康知识挖掘的重要保障。该文首先对医疗健康知识挖掘中需要使用的UMLS、MeSH和SNOMED CT等语义资源进行了系统梳理,并详细分析了各类语义资源的实际应用场景,指出了中文语义资源存在的问题和不足;其次对英文和中文的电子病历、医学文献和在线健康数据集进行了重点论述,并对数据集的应用任务进行了分析;最后论述了常见的医疗健康文本处理工具和系统,并就其具体应用进行了讨论。该文为国内更好地开展医疗健康知识挖掘提供了参考。
-
-
王铁胜
-
-
摘要:
针对传感云网络易受到入侵攻击的问题,提出基于机器学习的传感云入侵检测方法.首先,计算传感云入侵响应指标;其次,建立双向卷积神经入侵检测模型,在此模型中,设计机器学习的C4.5映射算法;最后,通过混合串行入侵防护实现传感云入侵检测.实验结果表明:设计方法所得出的虚警概率相对较低,说明检测过程中出现的误差较少,效果更佳,具有实际应用意义.
-
-
马露茜;
吴钦木
-
-
摘要:
针对深度学习算法中目标检测网络模型在复杂环境下识别交通标志的难点,对YOLOv3模型迁移学习算法的基本特点展开研究,构建并划分了复杂环境下中国交通标志数据集,并通过引入特征尺度的概念进一步改进YOLOv3算法,使数据集能够更好地处理各种复杂环境带来的影响。通过对比实验,证明改进后的YOLOv3算法对复杂环境下交通标志检测的效果明显优于标准YOLOv3算法及SSD算法,获得了更高的检测精度和更短的检测时间。
-
-
石静文;
李嘉
-
-
摘要:
乳腺癌是女性最多见和死亡率最高的癌症之一,因此乳腺癌的早期筛查与诊断非常有必要,不仅能及时发现隐患,而且可以有效提高患者的存活率。乳腺癌病理图像的特征提取和分类已经成为医学图像处理研究领域的热点,如何准确、高效地检测乳腺癌也成为重要研究内容之一。按照是否需要人工提取乳腺癌病理图像特征,将乳腺癌病理图像特征提取算法分为两大类,分别是基于纹理、形态特征等的传统人工特征提取方法和基于深层神经网络的自动特征提取方法。介绍了几种乳腺癌病理图像相关数据集,然后总结归纳了近几年乳腺癌病理图像特征提取算法的研究进展,并分析了其优缺点,最后,得出乳腺癌病理图像特征提取研究的结论,并对乳腺癌病理图像特征提取的未来发展趋势进行了展望。
-
-
严慈磊;
应朝阳;
孙巍;
范志翔
-
-
摘要:
基于交通事故卷宗、交通事故视频信息数据,研究机非混行交通环境下典型交通事故形态,构建了面向机非混行交通环境下的自动驾驶汽车测试场景,旨在针对我国较为特殊的机非混行环境下的自动驾驶汽车的测试场景及测试评价方法提供参考。本文首先分析了自动驾驶测试场景的构建需求,建立交通事故数据筛选标准,得到133例可用于构建自动驾驶汽车测试场景的机动车与非机动车交通事故数据集;其次基于《中华人民共和国道路交通安全法》行驶要求,对133例交通事故的发生地点、车辆行为、道路类型、环境光线等方面进行解构分析;最后通过聚类分析,建立了5类典型的自动驾驶测试场景模型,并分析了不同场景模型的关键要素,为实际道路测试提供理论指导。
-
-
胡伟艺;
苏娴彦;
柯晓婷;
陈焱锋;
赖清泉
-
-
摘要:
半月板撕裂是膝关节损伤的常见类型,若治疗不当,易引发膝关节疼痛、骨性关节炎等一系列临床症状。正确识别半月板病变是进行患者教育和临床干预的重要前提。MRI是临床诊断半月板损伤的最常用影像学方式,其能够准确反映半月板撕裂的位置、撕裂类型、半月板形态等,是临床诊断半月板撕裂的首选影像学方式。基于深度学习的MRI疾病检测是人工智能的一个新兴领域,随着深度学习算法的临床效用研究不断推进,人工智能可能最终转化为临床实践。本文从迁移学习与定制的神经网络两大分类中探究半月板损伤二分类、撕裂位置、撕裂方向、分级和感兴趣区分割等方面的基于深度学习的半月板MRI诊断研究进展,并指出当前研究的一些不足,以期为后续研究提供参考思路。
-
-
张紫芸;
王文发;
马乐荣;
丁苍峰
-
-
摘要:
大数据时代,如何缓减信息过载问题,是人工智能领域研究的热点和难点之一。其中,文本“降维”的摘要生成便是其中一个重要的方法,旨在将文本或文本集合转换为包含关键信息的简短摘要。近年来预训练语言模型提高了许多自然语言处理任务的性能,包括文本摘要、情感分析、问答、自然语言推理、命名实体识别和文本相似性等。梳理近几年基于预训练的文本摘要方法,并对文本摘要的数据集以及评价方法进行了整理,最后讨论了文本摘要面临的挑战与发展趋势。
-
-
陈龙;
宋庆国;
廖孟豪
-
-
摘要:
以百年未有之大变局下的大国博弈为切入点,立足未来航空科技发展的军事应用需要界定国防领域航空颠覆性技术的概念内涵,遴选适合国防领域航空颠覆性技术的识别方法,并以航空领域特定时段公开发表且被工程索引收录的高质量期刊/会议论文、高水平科学引文索引期刊论文及已获授权的三方发明专利为源数据构建颠覆性技术识别的数据集,通过文本聚类、复杂网络方法和军事应用潜力评估完成一批国防领域航空颠覆性技术识别,为开展军事航空颠覆性技术研发部署提供参考。
-
-
Jianwei Li;
李健伟;
Changwen Qu;
曲长文;
Jiaqi Shao;
邵嘉琦;
Shujuan Peng;
彭书娟
- 《第五届高分辨率对地观测学术年会》
| 2018年
-
摘要:
近年来深度学习目标检测技术得到了快速的发展,在很多领域取得了令人惊叹的效果.SAR图像舰船目标检测与普通计算机视觉目标检测的共性大于异性,因此有必要将深度学习目标检测技术应用到该领域.本文给出了数据集SSDD(SAR Ship Detection Dataset),据所知这是第一个专门用于SAR图像舰船目标检测的数据集,为本领域研究人员提供了衡量统一标准,促进了该领域的发展.论文统计了舰船目标的尺寸大小以及长宽比等信息,为设计检测算法提供了参考.给出了经典双阶段检测器Faster R-CNN和单阶段检测器SSD在数据集上的检测效果,并根据舰船统计特性对检测算法做了针对性改进,实验结果显示出了基于深度学习的目标检测算法在SAR图像舰船目标检测的强大的性能,论文最后给出了几个值得进一步研究的方向.
-
-
LI Bohan;
李博涵;
JIANG Shan;
姜姗;
LIU Chang;
刘畅;
DONG Yu;
于东
- 《第十八届中国计算语言学大会暨中国中文信息学会2019学术年会》
| 2018年
-
摘要:
正确理解文本矛盾是自然语言理解的一项基础性问题.目前的研究大多针对矛盾识别任务,深入文本内部探究矛盾产生原因的工作较少,且缺乏专门的中文矛盾数据集.该文在前人矛盾研究基础上,提出矛盾语块的概念,将其划分为7种类型,并根据标注规范构建了包含16,224条数据的中文矛盾语块(CCB)数据集.基于此数据集,利用序列标注及抽取式阅读理解类模型开展矛盾语块边界识别实验,以检验模型对矛盾内部语义信息的理解能力,结果显示阅读理解类模型在该任务上的性能优于序列标注模型.该文通过三个角度对影响语块边界识别的因素进行分析,为文本矛盾后续研究工作提供可靠的数据集和基线模型.
-
-
LIU Lei;
刘磊;
HE Ben;
何苯;
SUN Le;
孙乐
- 《第十八届中国计算语言学大会暨中国中文信息学会2019学术年会》
| 2018年
-
摘要:
向读者推荐阅读难度合适的古诗词有助于提升读者的诗词鉴赏能力.现阶段,围绕古诗词可读性自动化分析的相关研究的突出局限之一是缺乏大规模高质量的数据集.针对该问题,本文研究面向古诗词可读性自动化分析的数据集构建.对外开放包含1915篇古诗词的标注阅读理解难度的数据集.首先将数据集划分成易中难三级,构建数据集APRD;然后进一步细化标注构建六级分类数据集APRD+.抽取教材中的诗词组成标准集,以年级为标准难度级别,计算标准集与APRD、APRD+之间的Spearman相关性分别为0.786与0.804,表明该数据集标记结果与标准集具有较高一致性.本文提取了字频、注释数等古诗词特征,采用SVM、随机森林等算法进行了初步古诗词阅读理解难易度分类测试.本文提出的古诗词可读性数据集与实验结果可作为后续研究的测试基准.
-
-
-
SUN Zejin;
孙泽金;
ZHAO Rongzhen;
赵荣珍
- 《2018年全国设备监测诊断与维护学术会议暨第十六届全国设备故障诊断学术会议、第十八届全国设备监测与诊断学术会议、2018年全国设备诊断工程会议》
| 2018年
-
摘要:
针对旋转机械高维故障特征识别精度低的问题,将集成经验模式分解(Ensemble Empirical Mode Decomposition,EEMD)能量矩和局部Fisher判别分析(Local Fisher Discriminant Analysis,LFDA)进行结合,提出一种运用于旋转机械故障数据集分类方法.首先利用EEMD对转子系统的振动故障信号进行分解,得到各阶的本征模态函数(IMF)分量并计算其能量构造成特征向量矩阵,随后应用LFDA提取故障特征集中的非线性信息,同时在降维投影过程中充分利用类别信息,使降维后达到最小化类内距离,最大化类间距离的目的;最后,将降维后得到的低维敏感特征集输入支持向量机(Support Vector Machine)进行模式识别的结果表明该方法是有效的.
-
-
肖纲;
杨金花;
任茂军
- 《第34届中国气象学会年会》
| 2017年
-
摘要:
台站是获取和应用地面气象观测数据的基层单位.观测数据信息化,使台站可以通过编制专用软件、生成数据文件,创建台站地面观测数据集.本文设计台站地面观测数据集的文件格式、数据流程、软件功能,并对所编制的台站地面观测数据集软件介绍使用方法,帮助基层提高观测数据处理能力.
-
-
周强;
Qiang Zhou;
邹丹平;
Danping Zou;
裴凌;
Ling Pei;
刘佩林;
Peilin Liu
- 《第八届中国卫星导航学术年会》
| 2017年
-
摘要:
本文设计并完成了一个用于微型无人机(MAV)全源导航定位算法评估的数据集.本数据集使用自行设计的微型四旋翼无人机平台进行数据采集,所采集的数据包括基本传感器、探测传感器和位置真值数据.其中,基本传感器包括米级精度的GPS接收机、9轴IMU惯性模块、气压计和光流计;探测传感器包括前向超声波传感器、双目相机、RGB-D深度相机和激光雷达,根据应用于环境进行传感器的搭配采集.位置真值信息包括两部分,分别为室内毫米级精度的Vicon动作捕捉系统和室外厘米级精度的基于GPS载波差分技术的RTK信息.本数据集按照所适用的应用分为四部分,分别对应于同时定位与建图(SLAM)、三维模型重建、障碍物躲避和无人机状态估计,每一个数据包中都包含了所有适用于其采集环境的数据信息.作为一个完整的数据集,本数据集包括各个传感器的原始数据、预标定的系统参数和各个传感器坐标系之间的转换关系.
-
-
-
Yan Cilei;
严慈磊;
Ying Chaoyang;
应朝阳;
Sun Wei;
孙巍;
Fan Zhixiang;
范志翔
- 《第十五届中国智能交通年会》
| 2020年
-
摘要:
基于交通事故卷宗、交通事故视频信息数据,研究了机非混行环境下典型交通事故形态,构建了面向机非混行环境下的自动驾驶汽车测试场景,旨在为中国较为特殊的机非混行环境下的自动驾驶汽车的测试场景及测试评价方法提供参考.本文首先分析了自动驾驶测试场景的构建需求,建立交通事故数据筛选标准,得到133项可用于构建自动驾驶汽车测试场景的机动车与非机动车交通事故数据集;其次基于《中华人民共和国道路交通安全法》行驶要求,对133例交通事故的发生地点、车辆行为、道路类型、环境光线等方面进行解构分析;最后通过聚类分析,建立了5类典型的自动驾驶测试场景模型,并分析了不同场景模型的关键要素,为实际道路测试提供理论指导.
-
-
徐敏
- 《2018年云南电力技术论坛》
| 2018年
-
摘要:
数据集中规范的数据总是存在与其相似的其他数据.越是庞大的数据集,其中满足规范性要求的个体是相对集中的,而巨这些满足规范性的子集的数量级与其他不规范的子集存在数量级的差异.本文通过字符串相似度算法中的编辑距离算法,实现一种具有一定通用性的数据质量校验方法.