Hallo zusammen,
habe viele Dokumenten in ca. 10 Ordnern eingesammelt und es ist leider nun zu undurchsichtig geworden um ein bestimmtes Blatt zu suchen. Daher möchte ich ein DMS aufbauen. Einen halbwegs guten Scanner für den Anfang habe ich (Epson Workforce mit Doppelscan). Später werde ich mir einen Fujitsu ix1500 holen.
Gedacht habe ich Paperless-ng als SW zu nehmen. Was ich gelesen habe ist, dass man Paperless in Docker Container auf Linux installieren muss. Dazu habe ich Frage: Würde ein Raspi Zero 2W reichen (für PiHole und Paperless, sonst nix)? Was müßte ich noch beachten? Muss ich eine SSD an Raspi hängen?
PS: Ich habe nicht viel Ahnung von Linux (die allgemeinen Befehle usw. kenne ich)
Vielen Dank.
Alles andere ist eigentlich zuviel Aufwand.
Beispiel: 2022_04_09_Doppeldildo_Dildoking_steuerrelevant.pdf
Außergewöhnliche Belastungen
github.com/pap…ngx
Paperless stellt ein Webinterface, über das man seine Dokumente im Browser verwalten kann. Eine App gibt es auch noch. Die Dateinamen können frei gewählt werden, sodass auch eine Suche über den Dateiexplorer möglich ist. Die Verschlagwortung geht halbwegs automatisch, wenn man es mal eingestellt hat.
OCR wird automatisch durchgeführt. Nicht jedes PDF enthält von Haus aus durchsuchbaren Text. Deshalb muss es auch ein etwas stärkerer Pi sein.
Einen Zero würde ich dafür nicht nehmen.
Alles andere ist eigentlich zuviel Aufwand.
Beispiel: 2022_04_09_Doppeldildo_Dildoking_steuerrelevant.pdf
Ich nehme dann Pi4 4GB, installiere Docker um Paperless-ng zu installieren. Pi und Drucker per LAN an Fritzbox. Kann ich dann so die Dateien mit dem Windows PC durchsuchen?
Ja, im prinzip schon. Ich wollte nun nicht die Blätter einzeln einscannen. Zusätzlich will ich mit einer kleinen Nebengewerbe anfangen, vllt. hilft sowas mir dann auch.
Der Einzugsscanner lohnt sich auf jeden Fall, die Dinger sind super.
github.com/pap…ngx
Paperless stellt ein Webinterface, über das man seine Dokumente im Browser verwalten kann. Eine App gibt es auch noch. Die Dateinamen können frei gewählt werden, sodass auch eine Suche über den Dateiexplorer möglich ist. Die Verschlagwortung geht halbwegs automatisch, wenn man es mal eingestellt hat.
OCR wird automatisch durchgeführt. Nicht jedes PDF enthält von Haus aus durchsuchbaren Text. Deshalb muss es auch ein etwas stärkerer Pi sein.
github.com/awe…ted
Ok Danke.
Die einzige Frage für mich ist nun, ob folgende Konstellation dafür funktionieren würde:
Pi 4 -> Docker -> Paperless-ngx,
Wo könnte ich die Dateien speichern, so dass ich auf sie von überall zugreifen kann ( wenigstens mit dem Windows PC)
Gibt es eine Seite mit ausführlichen Einzelschritten für die Aufsetzung?
Danke im Voraus
Da sollte man schon über RAID nachdenken und evtl auch über ein zusätzliches Backup in "die Cloud". Paperless an sich ist da schon ganz nett, wenn du jedoch derzeit nicht als Netzwerkspeicher hast dann kannst du dir auch direkt eine gescheite NAS holen, dort 2 Festplatten einstecken und auf der NAS paperless über Docker laufen lassen.
Grade am Anfang ist das alles recht viel arbeit bis es läuft und man ist erst überfordert, aber nach und nach kommt man damit besser zurecht.
Den Pi kannst du dir dann btw sparen, die sind derzeit eh unverschämt teuer.
Wo gibst du denn den Doppeldildo bei der Steuererklärung an? Werbungskosten/Arbeitsmittel? Frage fürn Freund ...
Außergewöhnliche Belastungen
Ein RAID ist dafür nicht nötig. Das braucht man nur, wenn man keine Zeit hat, darauf zu warten, bis das Backup zurückgespielt ist.
Auch ein NAS ist vollkommen unnötig.
Einzig mehrere verteilte Backups braucht man.
Herrlich
Eine ordentliche Benennung der Dokumente sollte trotzdem vorgenommen werden, ebenso eine entsprechende Ordnerstruktur. Wenn der Scanner/Software OCR kann, ist das alles schon erledigt.
raid bei einem einfachen dokumentensystem wäre aber nicht so viel teurer. statt eine 2tb platte für 60€ kommen 2 rein und man hat genug speicher für dokumente. Zudem hat man den vorteil das eine platte wegfallen kann ohne das man alles neu einrichten muss. aber ja verteilte backups sind wichtiger. sonst brennt es mal, oder man schleppt sich schadware ins system und alles ist weg.
Na mindestens doppelt so teuer, weil zwei Festplatten. Und dabei ist das Gehäuse, das RAID kann, noch nicht enthalten.
Ich habe die letzten Monate mich ebenfalls mit der Thematik auseinander gesetzt und bin zum Schluss bei PaperOffice gelandet. Ist aus meiner Sicht die genialste Software, die es gibt und dazu noch (in der Grundversion, die aber ausreicht) kostenfrei.
Kurzanleitung zur Installation ist u.a. hier zu finden:
Wie lange hast du gebraucht, um ein brauchbares Setup zu haben?
Wie lange braucht man pro bestehendem Dokument zur Erfassung?
Wenn die Installation durch ist, ist der Rest ne Sache von Sekunden.
PaperOffice hat ne ziemlich gute Scansoftware mit an Board. Je nach Scanner ist ne Seite im Duplex in 3-5 Sekunden durch. Danach noch auswählen, ob man eine intelligente Aufarbeitung durchführen will (Text auslesen, automatische Verschlagwortung usw) oder nicht und letztendlich abspeichern. Fertig ist die Kiste.Alternativ gescannte Dokumente per drag&drop in die Software reinziehen und dann abspeichern.
Man kann sich auch komplexe Erfassungssysteme zusammenbasteln mit automatischer Erkennung des Dokuments und Zuordnung zu einem Verkäufer / Lieferer (bei Rechnungen), auslesen von Rechnungsbetrag und Datum und das dann auch in entsprechende Unterordner automatisch abspeichern lassen. Da kann ich jetzt aber schlecht sagen, wie lange man dafür braucht. Wenn man sich im System auskennt ist das aber auch mit ein paar Klicks erledigt und die Vorlage in ner halben Minute fertig.
Vielleicht reicht dir aber auch das schon:
Wenn du scannst, dann auch direkt mit ocr in PDF. Dann in Windows - Systemsteuerung - Indizierungsdienst (oder so ähnlich) den Ordner/die Ordner/das Laufwerk hinzufügen und nachdem er den Index zum ersten mal vollständig aufgebaut hat, kannst du bequem über die Windows Suche auch nach dem Inhalt in den Dateien suchen.
PS: bereits existierende Scans kann man natürlich auch nochmal durch eine ocr Software laufen lassen und speichern. Manche Scannersoftware bietet sowas an, Abby zum Beispiel. Oder du machst es einfach mit pdf24, dafür kann man sich dann sogar ein kleines Script schreiben und auf die Sammlung loslassen.
Aus Datenschutzsicht natürlich äußerst fragwürdig. Die analysieren den Inhalt deiner Dateien ja nicht aus reiner Nächstenliebe zum Nulltarif.
Ich könnte nun Hyper-V von Microsoft als VM installieren und darauf dann Paperless-ngx um die PDFs mit OCR zu versehen und abzulegen.
Oder fehlt vielleicht ein Zwischenschritt?
Kofax Paperport / Everdoc wären schon mal 2 Kandidaten.
Da kann man Testversionen laden.
Und auch MS Onenote - gratis - kann man dafür missbrauchen.
500 Seiten sind bisl mau...
Kannst auch docker Desktop direkt installieren und nutzen.
Der Fehler ist ja eindeutig was hast du denn bereits probiert?
Docker, oder Linux?
Wenn man es nicht beruflich mit mehreren Usern nutzt, reicht PDF mit OCR und Kategorisieren/Ablegen/Suche der Scans anhand des Volltexts. Je höher der Aufwand, um so schneller verläßt einen privat die Lust an der Pflege.
Mehr im alten Kommentar mydealz.de/com…578
Es gibt noch ältere erläuternde Kommentare dazu, aber Du verwendest ja bereits eine Lösung.