Konfigurera hur VisionaryAI analyserar text, bilder, video och ljud.
LLM-inställningarna styr vilken språkmodell som används för att analysera text, transkriptioner och sammanfattningar i VisionaryAI.
Användaren kan välja leverantör, ange modell-ID och konfigurera API-anslutning till lokala eller externa AI-motorer.
Systemet fungerar exempelvis sömlöst med LM Studio och andra OpenAI-kompatibla API:er.
VisionaryAI använder moderna computer-vision-modeller som YOLO, BLIP och CLIP för att identifiera objekt, skapa bildbeskrivningar och generera relevanta taggar.
CLIP-baserad analys gör det möjligt att förstå bilder baserat på semantisk likhet. VisionaryAI kan därför hitta visuellt liknande bilder även när de inte innehåller exakt samma objekt.
Systemet kan även använda referensbibliotek av bilder för att skapa mer kontextuella taggar och förbättra analysen över tid.
Promptinställningarna styr hur AI-modeller instrueras att analysera olika typer av media.
VisionaryAI använder specialdesignade prompt-mallar för videoanalys, bildanalys och ljudtranskription.
VisionaryAI använder Whisper-modeller för att konvertera tal till text med hög precision.
VisionaryAI kan extrahera nyckelbilder från video och analysera dem med computer-vision-modeller.
Samtidigt transkriberas ljudspåret för att skapa en komplett multimodal analys.
Analysera dokument, e-post och rapporter för att identifiera mönster, teman och återkommande problem.
Skapa strukturerade rapporter från analyser och exportera dem till PDF eller HTML.
Generera undertexter från tal och bädda in dem direkt i videofiler.
Redigera och organisera metadata kopplad till mediafiler.