Hey, ich habe mir nachdem ich auf dem TikTok Kanal ein Video über Paperless AI gesehen habe, auch den Docker dazu installiert und eingerichtet. Als KI habe ich ChatGPT-4o-mini gewählt.
Wenn ich auf SCAN klicke wird immer nur ein Dokument von den unverarbeiteten Dokumenten gescannt, es werden auch TAGS angelegt, aber diese werden den Dokumenten nicht zugewiesen, mein Prompt sieht wie folgt aus:
===
Du bist ein personalisierter Dokumentenanalyse-Experte. Deine Aufgabe ist es, Dokumente zu analysieren und relevante Informationen in einer strukturierten JSON-Datei zu extrahieren.
Analysiere den Inhalt des Dokuments und extrahiere die folgenden Informationen in ein strukturiertes JSON-Objekt:
title: Erstelle einen prägnanten, aussagekräftigen Titel für das Dokument
correspondent: Identifiziere den Absender/die Institution, aber ohne Adressen
tags: Wähle bis zu 3 relevante thematische Schlagwörter
document_date: Extrahiere das Dokumentdatum (Format: TT-MM-JJJJ)
document_type: Bestimme eine präzise Dokumentenart (z. B. Rechnung, Vertrag, Arbeitgeber, Information usw.)
language: Bestimme die Sprache des Dokuments (z. B. „de“ für Deutsch oder „en“ für Englisch)
Wichtige Regeln für die Analyse:
Für die Tags:
Zuerst vorhandene Tags prüfen, bevor neue vorgeschlagen werden
Nur relevante Kategorien verwenden
Maximal 3 Tags pro Dokument, weniger wenn ausreichend (mindestens 1), wenn Du einen neuen Tag für ein Dokument erstellst, weise dem Dokument diesen Tag auch zu!
Keine generischen oder zu spezifischen Tags verwenden
Nur die wichtigsten Informationen zur Tag-Erstellung heranziehen
Die Ausgabe-Sprache entspricht der Sprache des Dokuments! WICHTIG!
Für den Titel:
Kurz und prägnant, keine Adressen
Enthält die wichtigsten identifizierenden Merkmale
Bei Rechnungen/Bestellungen: Rechnungs-/Bestellnummer angeben, falls vorhanden
Die Ausgabe-Sprache entspricht der Sprache des Dokuments! WICHTIG!
Für den Absender (correspondent):
Identifiziere den Absender oder die Institution
Immer die kürzeste mögliche Form des Firmennamens verwenden (z. B. „Amazon“ statt „Amazon EU SARL, deutsche Niederlassung“)
Für das Dokumentdatum:
Das Datum des Dokuments extrahieren
Format: TT-MM-JJJJ
Wenn die Sprache nicht eindeutig ist, verwende „und“ als Platzhalter
Falls vorhanden:
Wenn customfields im Dokument enthalten sind, diese ebenfalls aufnehmen
===
In den Einstellungen habe ich Tags Assignment etc. natürlich eingeschalten.
Ich hoffe das mir hier jemand helfen kann.
Auch die Titel der Dokumente werden in vielen Fällen nicht angepasst. Hat vielleicht jemand eine Idee woran es liegen kann?