• 在线
    咨询
  • 电话
    咨询
  • 预约
    演示
  • 关注
    公众号
  • 问题
    反馈

领先的跨模态信息检索和智能校对应用

为政府和企业各类办公场景提供数据智能产品和解决方案

聚焦跨模态检索(CMR)、计算机视觉(CV)、自然语言处理(NLP)、自动语音识别(ASR)、知识图谱(KG)等前沿人工智能技术研究,自主研发MiduCMR、
MiduCTC、MiduCV、MiduNLP、MiduDCE五大核心能力引擎,构建跨模态信息检索、智能校对两大核心应用,实现从数据融合到智能应用的全流程服务,
深度赋能各行业应用场景。
01
MiduCMR跨模态检索引擎

Cross-Modal Retrieval

MiduCMR涵盖了NLP、CV单一模态以及多模态之间进行交互、融合的技术。相较于单一模态的模型,跨模态可以真正实现“以语言指导图像,以图像指导语言”的训练,充分利用不同模态之间的互信息来提升模型对各种模态的理解能力。

引擎采用泛化性及效果突出的Transformer架构模型,不仅在单模态认知中能够通过自注意力机制充分学习特征,也能在多模态认知过程里充分融合不同模态的特征,从而达到多模态信息表示的统一。引擎通过基于动量对比学习、跨模态融合注意力、以及跨模态特征指导等工作,在大量无监督数据上进行预训练,并针对不同工业场景进行特化训练。

引擎能力覆盖各种跨模态检索任务(文搜图、图搜文、文搜视频等)、单模态检索任务(相似图片检索)、图片描述生成任务、图文匹配判断任务等。

02
MiduCTC中文文本校对引擎

Chinese Text Correction

MiduCTC使用大规模语料库训练了多种文本纠错模型,为中文拼写错误检测、语法错误检测、标点错误检测、量词错误检测、常识错误检测等赋能,支持不同应用场景下的中文文本校对需求。引擎综合了多种前沿的文本校对算法与模型优化技术,具有高精度、易使用、简安装等特点。

03
MiduCV计算机视觉引擎

Computer Vision

MiduCV作为面向图片、语音、视频等模态内容的智能理解引擎,涵盖了CV及ASR等技术方向。引擎模型包括目标检测、语义分割和卷积循环神经网络等,实现光学字符识别、人脸识别、以图搜图、特定目标检测、视频理解等任务。依托上述技术并结合工业场景进行针对性优化与融合,实现图片、视频两种模态内容中图片文字、视频字幕、人物、场景及品牌Logo的提取与识别。

针对智能语音识别,引擎则通过搭建的语音活动检测模型和自动语音识别模型,结合实际工业场景的精标数据集进行模型的自主训练及性能优化,解决了对语音片段的自动降噪、精准提取与准确识别等问题,实现对音频内容的智能识别与理解。

04
MiduNLP自然语言处理引擎

Natural Language Processing

MiduNLP是面向工业场景的智能引擎,具备敏捷开发、自定义等优点。借助大规模的语料库,训练了丰富的语言模型。引擎能力涵盖分词、命名实体识别、关键词提取、新词发现、关系抽取、情感分析等自然语言处理任务,可满足工业场景中对文本处理的各类技术需求。引擎持续跟踪业界前沿算法模型,助力模型的便捷实现、高效训练和快速落地。

05
MiduDCE数据能力引擎

Data Capability Engine

使用多元的数据标签库,整合不同应用场景的标注数据集,实现超大规模预训练与特定场景深度迭代,应用多模态数据索引,通过文本、图片、音视频及跨模态向量检索,实现准确有效的数据订阅与分发。引擎已在多平台完成部署,具有高性能、高可用、高可靠的特点。