Jina AI 发布全球首个开源 8K 文本嵌入模型,超越 OpenAI

人工智能公司Jina AI 宣布推出其第二代文本嵌入模型: jina-embeddings-v2 。这款模型现在是唯一支持 8K(8192个 token)上下文长度的开源产品。在能力和性能上与OpenAI的 text-embedding-ada-002 相当。

与OpenAI的8K模型 text-embedding-ada-002 进行比较,jina-embedding-v2 在分类平均值、重排平均值、检索平均值和摘要平均值方面超越了 OpenAI 的 text-embedding-ada-002

Rank Model Model Size (GB) Embedding Dimensions Sequence Length Average (56 datasets) Classification Average (12 datasets) Reranking Average (4 datasets) Retrieval Average (15 datasets) Summarization Average (1 dataset)
15 text-embedding-ada-002 Unknown 1536 8191 60.99 70.93 84.89 56.32 30.8
17 jina-embeddings-v2-base-en 0.27 768 8192 60.38 73.45 85.38 56.98 31.6

 

text-embedding-ada-002 的特点:

  • 从零到卓越:这个 jina-embeddings-v2 是从头开始构建的。在过去的三个月里,Jina AI的团队进行了密集的研发、数据收集和调整。
  • 利用8K解锁扩展上下文潜力: jina-embeddings-v2 8K的上下文长度为新的行业应用开启了大门:
    • 法律文件分析:确保对大量法律文本中的每一个细节进行捕捉和分析。
    • 医学研究:为了进行高级分析和发现,全面地嵌入科学论文。
    • 文学分析:深入研究长篇内容,捕捉微妙的主题元素。
    • 财务预测:通过详细的财务报告获得卓越的洞察力。
    • 会话式AI:提升聊天机器人对复杂用户查询的响应能力。

同时,基准测试显示,在多个数据集中,这种 8K 上下文长度的扩展使得jina-embeddings-v2超越了其它领先的嵌入模型:

接下来,Jina 将会有一篇相关的学术洞察文章发表。同时团队正在开发类似OpenAI的嵌入式API平台的产品;语言方面,正在进入多语种嵌入领域,目标是推出德英模型。