Přímá integrace API: kdy stačí
Nejjednodušší přístup: volání OpenAI API přímo z vaší aplikace. Model dostane prompt, vrátí odpověď. Pro jednodušší use-case (generování textu, sumarizace, klasifikace) je to dostatečné.
Problémem je, že model nezná vaše firemní data. Odpovídá na základě svého obecného tréninku. Pro specifické otázky z vaší domény to nestačí.
RAG: jak dostat vlastní data do modelu
RAG (Retrieval-Augmented Generation) je dnes nejrozšířenější způsob, jak dát modelu přístup k firemní dokumentaci nebo databázi.
Funguje to takto: uživatelův dotaz se promění na vektorové embedding, v databázi se najdou nejpodobnější dokumenty, tyto dokumenty se přidají do promptu jako kontext. Model pak odpovídá na základě vašich reálných dat, ne vymyšlených informací.
RAG je výrazně levnější než fine-tuning a funguje s aktuálními daty bez nutnosti nového tréninku.
Fine-tuning: kdy a za jakou cenu
Fine-tuning přizpůsobí model na specifický styl odpovědí nebo specifické chování, které nelze dosáhnout přes prompt engineering. Má smysl u specializovaných úloh, kde standardní model opakovaně chybuje.
Je to nákladnější (platíte za training run) a model je potřeba přetrénovat při každé aktualizaci dat. Pro většinu firemních use-case je RAG lepší volba.
Jak se vyhnout vendor lock-inu
Největší chyba je napsat celou AI vrstvu přímo pro OpenAI SDK. Pokud pak chcete přejít na Claude, Gemini nebo lokální model, přepisujete všechno.
Správný přístup je abstrakce: AI vrstva aplikace komunikuje s obecným rozhraním, které ví, jak volat konkrétního poskytovatele. Výměna poskytovatele pak znamená změnu konfigurace, ne rewrite.
V naší platformě QuickChat jsme přesně toto vyřešili. Klient si zvolí model (GPT-4, Claude, Gemini) a platforma ho použije bez nutnosti úprav.
Bezpečnost dat
Cloudové AI API jsou provozovány třetí stranou. Data, která posíláte v promptu, procházejí přes jejich infrastrukturu. Pro většinu use-case to není problém. Ale pro zdravotnictví, právo nebo finance to může být nepřijatelné.
Rešení: self-hosted open-source modely (LLaMA 3, Mistral, Qwen) provozované na vašem serveru. Výkon je nižší než komerční API, ale data nikam neodchází.
Časté otázky
Jaká je cena OpenAI API?
Záleží na modelu. GPT-4o je v době psaní tohoto článku $2.50 za milion vstupních tokenů a $10 za milion výstupních. Pro střední provoz jsou to měsíční náklady v řádu tisíců korun.
Jak zabránit tomu, aby model vymýšlel odpovědi?
Správným promptingem a RAG. Pokud model dostane jako kontext jen relevantní dokumenty a je instruován odpovídat pouze na základě nich, míra halucinací výrazně klesne.
Lze integraci otestovat bez plné implementace?
Ano. Proof-of-concept s RAG na vzorku dat lze připravit za pár dní. Doporučujeme to jako první krok.
Jak se řeší limit počtu tokenů v promptu?
Chunking dokumentů v RAG databázi a chytré ořezávání kontextu. Moderní modely mají kontext 128k+ tokenů, ale stále je potřeba posílat jen to nejrelevantnější.