rag/embedding.py

"""
سرویس تعبیه‌سازی متن — از Adapter Pattern برای سوئیچ بین providers استفاده می‌کند
"""
from .api_provider import get_embedding_client
from .config import RAGConfig, load_rag_config


def embed_texts(
    texts: list[str],
    config: RAGConfig | None = None,
    model: str | None = None,
    dimensions: int | None = None,
) -> list[list[float]]:
    """
    تعبیه‌سازی لیست متن‌ها با Avalai.

    Args:
        texts: لیست رشته‌های ورودی
        config: تنظیمات RAG (پیش‌فرض: load_rag_config)
        model: نام مدل (override از config)
        dimensions: تعداد ابعاد (فقط برای مدل‌های پشتیبانی‌کننده)

    Returns:
        لیست وکتورها
    """
    if not texts:
        return []

    cfg = config or load_rag_config()
    client = get_embedding_client(cfg)
    model_name = model or cfg.embedding.model
    batch_size = cfg.embedding.batch_size

    all_embeddings: list[list[float]] = []
    extra = {}
    if dimensions is not None:
        extra["dimensions"] = dimensions

    for i in range(0, len(texts), batch_size):
        batch = texts[i : i + batch_size]
        resp = client.embeddings.create(
            model=model_name,
            input=batch,
            **extra,
        )
        for item in sorted(resp.data, key=lambda x: x.index):
            all_embeddings.append(item.embedding)

    return all_embeddings


def embed_single(text: str, config: RAGConfig | None = None, **kwargs) -> list[float]:
    """تعبیه‌سازی یک متن. خروجی مستقیماً یک وکتور است."""
    vecs = embed_texts([text], config=config, **kwargs)
    return vecs[0] if vecs else []
Add Qdrant and ChromaDB support to the project 2026-02-27 19:37:02 +03:30			`"""`
first commit 2026-03-19 22:54:29 +03:30			`سرویس تعبیه‌سازی متن — از Adapter Pattern برای سوئیچ بین providers استفاده می‌کند`
Add Qdrant and ChromaDB support to the project 2026-02-27 19:37:02 +03:30			`"""`
first commit 2026-03-19 22:54:29 +03:30			`from .api_provider import get_embedding_client`
			`from .config import RAGConfig, load_rag_config`
Add Qdrant and ChromaDB support to the project 2026-02-27 19:37:02 +03:30

			`def embed_texts(`
			`texts: list[str],`
			`config: RAGConfig \| None = None,`
			`model: str \| None = None,`
			`dimensions: int \| None = None,`
			`) -> list[list[float]]:`
			`"""`
			`تعبیه‌سازی لیست متن‌ها با Avalai.`

			`Args:`
			`texts: لیست رشته‌های ورودی`
			`config: تنظیمات RAG (پیش‌فرض: load_rag_config)`
			`model: نام مدل (override از config)`
			`dimensions: تعداد ابعاد (فقط برای مدل‌های پشتیبانی‌کننده)`

			`Returns:`
			`لیست وکتورها`
			`"""`
			`if not texts:`
			`return []`

			`cfg = config or load_rag_config()`
first commit 2026-03-19 22:54:29 +03:30			`client = get_embedding_client(cfg)`
Add Qdrant and ChromaDB support to the project 2026-02-27 19:37:02 +03:30			`model_name = model or cfg.embedding.model`
			`batch_size = cfg.embedding.batch_size`

			`all_embeddings: list[list[float]] = []`
			`extra = {}`
			`if dimensions is not None:`
			`extra["dimensions"] = dimensions`

			`for i in range(0, len(texts), batch_size):`
			`batch = texts[i : i + batch_size]`
			`resp = client.embeddings.create(`
			`model=model_name,`
			`input=batch,`
			`**extra,`
			`)`
			`for item in sorted(resp.data, key=lambda x: x.index):`
			`all_embeddings.append(item.embedding)`

			`return all_embeddings`


			`def embed_single(text: str, config: RAGConfig \| None = None, **kwargs) -> list[float]:`
			`"""تعبیه‌سازی یک متن. خروجی مستقیماً یک وکتور است."""`
			`vecs = embed_texts([text], config=config, **kwargs)`
			`return vecs[0] if vecs else []`