Jina AI 发布全球首个开源 8K 文本嵌入模型，超越 OpenAI

2023年 10月 26日运维资讯爱可生开源社区

人工智能公司Jina AI 宣布推出其第二代文本嵌入模型： jina-embeddings-v2 。这款模型现在是唯一支持 8K（8192个 token）上下文长度的开源产品。在能力和性能上与OpenAI的 text-embedding-ada-002 相当。

与OpenAI的8K模型 text-embedding-ada-002 进行比较，jina-embedding-v2 在分类平均值、重排平均值、检索平均值和摘要平均值方面超越了 OpenAI 的 text-embedding-ada-002。

Rank	Model	Model Size (GB)	Embedding Dimensions	Sequence Length	Average (56 datasets)	Classification Average (12 datasets)	Reranking Average (4 datasets)	Retrieval Average (15 datasets)	Summarization Average (1 dataset)
15	text-embedding-ada-002	Unknown	1536	8191	60.99	70.93	84.89	56.32	30.8
17	jina-embeddings-v2-base-en	0.27	768	8192	60.38	73.45	85.38	56.98	31.6

text-embedding-ada-002 的特点：

同时，基准测试显示，在多个数据集中，这种 8K 上下文长度的扩展使得jina-embeddings-v2超越了其它领先的嵌入模型：