Seite 5 von 6

Verfasst: Mo, 10. Apr 2006, 16:21
von Doc SoLo
Jaja, die alten Leichen kommen immer mal wieder hoch.

Für das Heftarchiv soll auf jeden Fall die Möglichkeit her, PDFs und Scans anbieten zu können. Schließlich macht es keinen Sinn, die PDFs erst in Bilder umzuwandeln, obwohl sie ja schon in einem höherwertigen Format vorliegen.

Ich hatte damals mit Ghostscript herumexperimentiert und eine Möglichkeit gefunden, die PCP-PDFs in einzelne Seiten zu zerlegen, jeweils ein PDF und eine simple txt-Datei, für die geplante Volltextsuche. Wenn das jemand wieder aufgreifen möchte...

Zu meiner Verteidigung möchte ich sagen, dass das Heftarchiv kein Bestandteil des CMS werden wird. Das ist eine separat zu entwickelnde Anwendung, die dann nur integriert wird. So gesehen könnte man damit jederzeit loslegen, unabhängig von PCPf-reloaded.

Ciao,

Doc SoLo

Verfasst: Mo, 10. Apr 2006, 17:36
von Cloud
Doc SoLo hat geschrieben:
Ich hatte damals mit Ghostscript herumexperimentiert und eine Möglichkeit gefunden, die PCP-PDFs in einzelne Seiten zu zerlegen, jeweils ein PDF und eine simple txt-Datei, für die geplante Volltextsuche. Wenn das jemand wieder aufgreifen möchte...

Zum Zerlegen und Text-Extrahieren gibt's auch Programme wie Sand am Meer. Das alles ist ja kein Problem.

So gesehen könnte man damit jederzeit loslegen

Das ist wohl eher das Problem ;)

Wie dem auch sei, ich werde ab sofort wieder regelmäßig Test-Scans (mittels der Screenshotmethode, solange ich nichts besseres finde) auf die Seite setzen. Ob das ganze später mal verwendet wird, oder nicht, spielt für mich keine Rolle. So hat aber wenigstens Ganon jede Woche was für den Newsletter :) Wenn jemand mithelfen möchte, kann er das gerne tun, in diesem Fall bitte einfach melden. EDIT: wobei das derart flott geht, dass es eigentlich nichts gibt, wobei man mir da helfen könnte ;) Drei weitere Tests sind fertig, werde sie nachher hochladen. Könnte man dann ja in einem Newsletter vermelden.

Verfasst: Mo, 10. Apr 2006, 17:45
von Abdiel
Qualitätsmäßig spricht jedenfalls zur Zeit alles für die Screenshotmethode. Und wenn ich das richtig verstanden habe, brauchen wir ja auch noch die PDFs als Grafik (wie auch später die restlichen Scans als PDF)? Da hakts noch mit dem Verständnis, dabei hat mir das SoLo mal ganz genau erklärt gehabt. :(

Verfasst: Di, 11. Apr 2006, 11:31
von Doc SoLo
Cloud hat geschrieben:
Wie dem auch sei, ich werde ab sofort wieder regelmäßig Test-Scans (mittels der Screenshotmethode, solange ich nichts besseres finde) auf die Seite setzen. Ob das ganze später mal verwendet wird, oder nicht, spielt für mich keine Rolle.

Ich finde, so leichtfertig sollten wir deinen Elan nicht wegwerfen. Wir sollten wenigstens ein Namens- und Verzeichnisschema für die Dateien festlegen und sie nicht aus den persönlichen Homebereichen heraus verlinken.

Ich überlege, ob wir die Domain "http://archiv.pcplayer.de" vielleicht irgendwann für uns brauchen könnten oder ob wir die alten Zeitungsinhalte darunter ablegen sollten. Fällt jemandem noch ein anderer Name für die Ablage der Scans ein?

Ansonsten bin ich auch immer noch dafür, die PDFs als einzelne Seiten zu veröffentlichen.

Ciao,

Doc SoLo

Verfasst: Di, 11. Apr 2006, 12:35
von Cloud
Doc SoLo hat geschrieben:
Wir sollten wenigstens ein Namens- und Verzeichnisschema für die Dateien festlegen und sie nicht aus den persönlichen Homebereichen heraus verlinken.

Aus den persönlichen Homebereichen werden sie doch gar nicht verlinkt, sondern wie alle anderen Tests auch aus dem history-spieletests-Verzeichnis. Sollte man die Scans auch später verwenden wollen, könnte man sie natürlich auch gleich vernünftig archivieren. Da musst du halt sagen wo und wie du es haben willst.

Verfasst: Di, 11. Apr 2006, 17:03
von tafkag
Fehlt bei den Meinungskästen von Starcraft, Fifa, ... (6/98 ) schon im pdf ein Stück?

Verfasst: Di, 11. Apr 2006, 18:17
von Cloud
Ja.

Verfasst: Di, 11. Apr 2006, 18:20
von tafkag
Ist ja doof...

Verfasst: Mi, 12. Apr 2006, 08:04
von wulfman
sorry, dass ich mich bis jetzt tot gestellt habe, aber hier war es internetmäßig etwas turbulent in den letzten tagen.

ich hatte die testscans damals einzeln händisch nachbearbeitet - selektiv den text geschärft & co, was eher zeitaufwändig war. ein einfaches konvertieren müsste ja sogar mir irfanview batchweise gehen...

mfg
wulfman

Verfasst: Mi, 12. Apr 2006, 09:13
von Cloud
wulfman hat geschrieben:
ich hatte die testscans damals einzeln händisch nachbearbeitet - selektiv den text geschärft & co, was eher zeitaufwändig war.

Das war schon klar (die Frage war eher, wieso du dann irgendwann damit aufgehört hast). Dumme Sache halt, dass damals niemand auf die Idee gekommen ist, einfach mal Screenshots anzufertigen. Dabei ist das doch eigentlich sehr naheliegend.

Verfasst: Mi, 12. Apr 2006, 15:24
von wulfman
vermutlich mangelndes feedback und (uni)stress.

mfg
wulfman

Verfasst: Sa, 29. Apr 2006, 10:37
von Doc SoLo
Cloud hat geschrieben:
Aus den persönlichen Homebereichen werden sie doch gar nicht verlinkt, sondern wie alle anderen Tests auch aus dem history-spieletests-Verzeichnis.

Ups, dann war das wohl nur ein Backup, was ich bei wulfman gesehen habe.

Sollte man die Scans auch später verwenden wollen, könnte man sie natürlich auch gleich vernünftig archivieren. Da musst du halt sagen wo und wie du es haben willst.

Einmal müsste man systematisierte Dateinamen und Verzeichnisse benutzen, damit man dies nicht in der Datenbank speichern muss, sondern bei Abruf automatisiert erzeugen kann.

Für die Seite 123 aus Heft 4/1993 also z.B. "./archiv/1993/04/1993-04-123.tif". Bei Sonderheften könnte man dem Erscheinungsmonat ein "S" voranstellen. Ich weiß aber nicht, was es da noch alles für Sonderfälle gegeben hat, müsste mal jemand schauen, der sich damit auskennt.

Zum anderen müsste man schon jetzt anfangen, eine Datenbank mit Informationen über den Seiteninhalt zu füllen:

Zu einer gescannten Seite müssten gespeichert werden:

  • Datentyp (PDF oder Scan)
  • Jahrgang
  • Ausgabe
  • Seitennummer
  • Rubrik
  • Seitentitel
  • (Seitentitel 2)
  • Klartext des Seiteninhalts


Den Klartext kann man bei PDF-Ausgaben automatisiert extrahieren. Bei Scans kommt das OCR-Ergebnis rein. Hab ich beides schon ausprobiert.

Das ganze ist nur ein Vorschlag von mir, den ich unbedingt erst diskutieren möchte. Gerade die Leute, die sich mit den alten PCP-Inhalten auskennen, sollen bitte mal gründlich überlegen, ob die Struktur so sinnvoll ist.

Wenn wir dann zu einem Ergebnis gekommen sind, kann Chellie daraus ein DB-Schema ableiten und vielleicht ein kleines Web-Frontend basteln mit dem man die DB füllen kann. Alternativ könnte man auch erstmal direkt in die DB schreiben.

Ciao,

Doc SoLo

Verfasst: Sa, 29. Apr 2006, 11:05
von Abdiel
Also die Kategorien müssten ausreichen, um die Inhalte ordentlich einordnen und archivieren zu können. Andere Änderungen im Laufe der PCP-Geschichte (z.B. alte Rubriken durch neue ersetzt o.Ä.) kann man ja problemlos über die DB regeln. Also mir fiele jetzt nichts weiter ein, ausser dass vielleicht die Sonderausgaben in einem eigenen Verzeichnisbaum gelagert werden könnten...

Verfasst: Sa, 29. Apr 2006, 12:49
von Frogo
Ich denke auch dass das so in Ordnung ist, mehr fällt mir auch nicht ein. Bei den Sonderheften ist einzig als minimales Problem zu sehen, dass es die 1/97 zweimal gab, aber da kann man ja einfach a und b oder so nehmen.

Verfasst: Mo, 1. Mai 2006, 11:29
von Cloud
Doc SoLo hat geschrieben:
Ups, dann war das wohl nur ein Backup, was ich bei wulfman gesehen habe.

(Wie schon irgendwo geschrieben:) Die Grüfte sind noch auf wulfmans Verzeichnis verlinkt. Wieso, weiß ich auch nicht, die Scans liegen auch alle im normalen Verzeichnis.

Für das Heftarchiv soll auf jeden Fall die Möglichkeit her, PDFs und Scans anbieten zu können. Schließlich macht es keinen Sinn, die PDFs erst in Bilder umzuwandeln, obwohl sie ja schon in einem höherwertigen Format vorliegen.

Du hast natürlich Recht, bei den PDFs ist es unsinnig, diese in JPGs umzuwandeln.

Mit dem richtigen Heft-Archiv müsste man halt einfach mal anfangen. D.h. ein PDF-Heft nach dem von dir beschriebenen System in eine Datenbank eintragen und zu Testzwecken eine Seite erstellen, über der die Inhalte aufgerufen werden können.