新闻中心News

星空体育网站超越凌驾稠密开源模子 诺谛智能拿下C-MTEB榜单第一

2024-06-14 02:29:57
浏览次数:
返回列表

  星空体育官方今天,诺谛智能“支点”向量模子依据多样化坚苦样本采样政策以及基于“支点”大模子的数据合成,超越繁多开源模子,拿下主流巨擘评测C-MTEB榜单排名第一星空体育网站。

  MTEB(Massive Text Embedding Benchmark)是用于评估文本嵌入模子的一系列评估目标的聚集,对应的C-MTEB则被公以为是目前业界最周至、最巨擘的中文语义向量评测基准之一,涵盖了分类、聚类、检索、排序、文本相同度、STS等6个经典做事,共计35个数据集,为深度测试中文语义向量的周至性和牢靠性供应了牢靠的实践平台,繁多行业当先的开源模子都市参加评测,榜单逐鹿激烈。

  此次取得C-MTEB榜单排名第一的诺谛“支点”向量模子,采用了多样化坚苦样本采样政策,其针对分类和聚类、检索、排序以及句对完婚做事打算了差异的坚苦样本采选政策。同时该模子还采用了基于诺谛“支点”行业大模子的数据合成,通过多样化的数据合成政策对分类、聚类、句对完婚样本实行重写,为每个样本构造绝伦个合成样本,并针对检索和排序做事对题目和作品同时实行巩固,可天生多个检索题目。其余,对付差异场景的检索做事,“支点”向量模子还打算了多样化亏损函数超越,连合梯度累积政策以及数据调剂政策星空体育网站,最终使诺谛“支点”向量模子正在分类星空体育网站、聚类、句对完婚、检索、排序做事上的功能大幅提拔。

  正在实质操纵中,“支点”向量模子为了餍足差异营业实质场景对向量的区别化需求,正在磨练流程中引入了MRL工夫,可依据指定维度的向量推算多个附加亏损,使其能够输出差异维度的向量用于下游做事超越,进一步提拔实质营业场景下分类、聚类、检索、排序、文本相同度等做事的AI才干。

  而行动大模子的最要紧操纵场景之一,RAG工夫须要配合大模子和向量模子来落地,而诺谛开源了行业顶尖中文RAG场景向量模子,正在为AI界限的一连改进供应帮力的同时,也能够赋能更多创造企业告终智能化升级。星空体育网站超越凌驾稠密开源模子 诺谛智能拿下C-MTEB榜单第一

搜索