首页 / 蜜度动态 / 详情 /

“蜜巢·花粉1.0“发布 以高质量中文数据助力大模型训练

来源:蜜度官网时间:2023-09-14

为提升语料数据供给水平,推动大模型产业高质量发展加速应用创新与行业落地,9月8日,由中国大模型语料数据联盟(后简称:联盟)主办,上海人工智能实验室和上海市数商协会联合承办的数说新语·开放日首场活动在上海人工智能实验室举行。


0914-1.png 

上海人工智能实验室主任助理王延峰介绍联盟相关情况


在活动现场,上海蜜度信息技术有限公司、中国专利技术开发公司、上海仲裁委员会、上海图书馆(上海科学技术情报研究所)、上海数据交易所、上海市社会信用促进中心、上海钛米机器人股份有限公司、华东师范大学出版社有限公司、上海城建城市运营(集团)有限公司加入“中国大模型语料数据联盟”,这9家新成员单位将共同为大模型技术深度发展与高水平应用提供更多元的数据要素保障。


 0914-2.png

联盟发起单位代表为新成员单位代表颁发了入盟纪念证


蜜度现场发布了开源文本数据集“蜜巢·花粉1.0”。该数据集以互联网媒体数据为主,经过过滤清洗、多条件去重等精细化处理,并由资深律师进行了合规前置审核,具备来源可靠、质量高,可持续稳定更新等特点。蜜度首席技术官刘益东表示,国内不少大模型是基于外文数据再结合少量中文资料训练而成,导致大模型对中文的理解能力薄弱、基于中文场景的生成能力欠缺。“蜜巢·花粉1.0”经过层层筛选审核,最终由1.2亿条数据筛选成7000多万条数据,让国产大模型具备对于中文深刻的理解和认知,同时也能够产出高质量的中文内容。

 

0914-3.png 

蜜度首席技术官刘益东介绍蜜巢·花粉1.0


目前,蜜巢·花粉1.0已被应用于蜜度系列大模型的训练,在政务及媒体等垂直领域提供知识问答与内容生成、分析报告自动生成、文稿内容审校与润色改写等各类智能生成式服务,各项服务得到了用户良好反馈。以此为契机,蜜度将进一步降低大模型技术探索和落地的门槛,加速应用创新与行业落地。

https://m.kankanews.com/detail/M8Q80PLjKQL


0914-4.png

新闻综合频道:大模型语料“上新” 提升人工智能中文理解认知

 

【关于联盟】

由上海人工智能实验室、中央广播电视总台、人民网、国家气象中心、中国科学技术信息研究所、上海报业集团、上海文广集团、上海数据集团、上海市数商协会、金杜律师事务所等单位联合发起的中国大模型语料数据联盟于 2023年7月6日世界人工智能大会开幕式上宣布成立。该联盟旨在通过链接模型训练、数据供给、学术研究、第三方服务等多方面机构,联合打造多知识、多模态、标准化的高质量语料数据,探索形成基于贡献、可持续运行的激励机制,打造国际化、开放型的大模型语料数据生态 

【关于“蜜巢·花粉1.0”】

蜜巢·花粉1.0文本数据集由互联网公开可访问网站2022年历史数据收集整理而成,数据总量7000余万条。数据集具备来源可靠,数据质量高,可持续稳定更新等特点。蜜巢·花粉数据集已被应用于多个大模型的训练,为媒体垂直领域提供基于材料的知识问答与内容生成、分析报告自动生成、文稿内容审校与润色改写等各类智能生成式服务。


(部分文字、图片来自网络,如涉及侵权,请及时与我们联系,我们会在第一时间删除或处理侵权内容。)

推荐阅读