Benutzeravatar
Doc SoLo
Ghost Doc
Hauptmann
Hauptmann
Beiträge: 2111
Registriert: Mo, 8. Apr 2002, 11:19
Wohnort: Mittweida

Mo, 10. Apr 2006, 16:21

Jaja, die alten Leichen kommen immer mal wieder hoch.

Für das Heftarchiv soll auf jeden Fall die Möglichkeit her, PDFs und Scans anbieten zu können. Schließlich macht es keinen Sinn, die PDFs erst in Bilder umzuwandeln, obwohl sie ja schon in einem höherwertigen Format vorliegen.

Ich hatte damals mit Ghostscript herumexperimentiert und eine Möglichkeit gefunden, die PCP-PDFs in einzelne Seiten zu zerlegen, jeweils ein PDF und eine simple txt-Datei, für die geplante Volltextsuche. Wenn das jemand wieder aufgreifen möchte...

Zu meiner Verteidigung möchte ich sagen, dass das Heftarchiv kein Bestandteil des CMS werden wird. Das ist eine separat zu entwickelnde Anwendung, die dann nur integriert wird. So gesehen könnte man damit jederzeit loslegen, unabhängig von PCPf-reloaded.

Ciao,

Doc SoLo
 
Benutzeravatar
Cloud
Wolke 7
All Star
All Star
Beiträge: 11378
Registriert: So, 7. Apr 2002, 14:34
Wohnort: Ettlingen

Mo, 10. Apr 2006, 17:36

Doc SoLo hat geschrieben:
Ich hatte damals mit Ghostscript herumexperimentiert und eine Möglichkeit gefunden, die PCP-PDFs in einzelne Seiten zu zerlegen, jeweils ein PDF und eine simple txt-Datei, für die geplante Volltextsuche. Wenn das jemand wieder aufgreifen möchte...

Zum Zerlegen und Text-Extrahieren gibt's auch Programme wie Sand am Meer. Das alles ist ja kein Problem.

So gesehen könnte man damit jederzeit loslegen

Das ist wohl eher das Problem ;)

Wie dem auch sei, ich werde ab sofort wieder regelmäßig Test-Scans (mittels der Screenshotmethode, solange ich nichts besseres finde) auf die Seite setzen. Ob das ganze später mal verwendet wird, oder nicht, spielt für mich keine Rolle. So hat aber wenigstens Ganon jede Woche was für den Newsletter :) Wenn jemand mithelfen möchte, kann er das gerne tun, in diesem Fall bitte einfach melden. EDIT: wobei das derart flott geht, dass es eigentlich nichts gibt, wobei man mir da helfen könnte ;) Drei weitere Tests sind fertig, werde sie nachher hochladen. Könnte man dann ja in einem Newsletter vermelden.
Zuletzt geändert von Cloud am Mo, 10. Apr 2006, 17:55, insgesamt 1-mal geändert.
 
Benutzeravatar
Abdiel
Angry Angel
Goldfieber?
Goldfieber?
Beiträge: 8571
Registriert: Mo, 8. Apr 2002, 15:39
Wohnort: Sachsen (Mittweida)

Mo, 10. Apr 2006, 17:45

Qualitätsmäßig spricht jedenfalls zur Zeit alles für die Screenshotmethode. Und wenn ich das richtig verstanden habe, brauchen wir ja auch noch die PDFs als Grafik (wie auch später die restlichen Scans als PDF)? Da hakts noch mit dem Verständnis, dabei hat mir das SoLo mal ganz genau erklärt gehabt. :(
People may say I can't sing, but no one can ever say I didn't sing. (Florence Foster Jenkins)
 
Benutzeravatar
Doc SoLo
Ghost Doc
Hauptmann
Hauptmann
Beiträge: 2111
Registriert: Mo, 8. Apr 2002, 11:19
Wohnort: Mittweida

Di, 11. Apr 2006, 11:31

Cloud hat geschrieben:
Wie dem auch sei, ich werde ab sofort wieder regelmäßig Test-Scans (mittels der Screenshotmethode, solange ich nichts besseres finde) auf die Seite setzen. Ob das ganze später mal verwendet wird, oder nicht, spielt für mich keine Rolle.

Ich finde, so leichtfertig sollten wir deinen Elan nicht wegwerfen. Wir sollten wenigstens ein Namens- und Verzeichnisschema für die Dateien festlegen und sie nicht aus den persönlichen Homebereichen heraus verlinken.

Ich überlege, ob wir die Domain "http://archiv.pcplayer.de" vielleicht irgendwann für uns brauchen könnten oder ob wir die alten Zeitungsinhalte darunter ablegen sollten. Fällt jemandem noch ein anderer Name für die Ablage der Scans ein?

Ansonsten bin ich auch immer noch dafür, die PDFs als einzelne Seiten zu veröffentlichen.

Ciao,

Doc SoLo
 
Benutzeravatar
Cloud
Wolke 7
All Star
All Star
Beiträge: 11378
Registriert: So, 7. Apr 2002, 14:34
Wohnort: Ettlingen

Di, 11. Apr 2006, 12:35

Doc SoLo hat geschrieben:
Wir sollten wenigstens ein Namens- und Verzeichnisschema für die Dateien festlegen und sie nicht aus den persönlichen Homebereichen heraus verlinken.

Aus den persönlichen Homebereichen werden sie doch gar nicht verlinkt, sondern wie alle anderen Tests auch aus dem history-spieletests-Verzeichnis. Sollte man die Scans auch später verwenden wollen, könnte man sie natürlich auch gleich vernünftig archivieren. Da musst du halt sagen wo und wie du es haben willst.
 
Benutzeravatar
tafkag
Erklärbär
Büttenredner
Büttenredner
Thema Autor
Beiträge: 5274
Registriert: Do, 27. Jun 2002, 10:51
Wohnort: Bendorf

Di, 11. Apr 2006, 17:03

Fehlt bei den Meinungskästen von Starcraft, Fifa, ... (6/98 ) schon im pdf ein Stück?
Zuletzt geändert von tafkag am Di, 11. Apr 2006, 17:04, insgesamt 1-mal geändert.
 
Benutzeravatar
Cloud
Wolke 7
All Star
All Star
Beiträge: 11378
Registriert: So, 7. Apr 2002, 14:34
Wohnort: Ettlingen

Di, 11. Apr 2006, 18:17

Ja.
 
Benutzeravatar
tafkag
Erklärbär
Büttenredner
Büttenredner
Thema Autor
Beiträge: 5274
Registriert: Do, 27. Jun 2002, 10:51
Wohnort: Bendorf

Di, 11. Apr 2006, 18:20

Ist ja doof...
 
Benutzeravatar
wulfman
Leitwolf
Licht des Forums
Licht des Forums
Beiträge: 3063
Registriert: So, 7. Apr 2002, 17:28
Wohnort: Tansania

Mi, 12. Apr 2006, 08:04

sorry, dass ich mich bis jetzt tot gestellt habe, aber hier war es internetmäßig etwas turbulent in den letzten tagen.

ich hatte die testscans damals einzeln händisch nachbearbeitet - selektiv den text geschärft & co, was eher zeitaufwändig war. ein einfaches konvertieren müsste ja sogar mir irfanview batchweise gehen...

mfg
wulfman
______________________________
Vorläufig letzte Worte, heute:

der Exstudent auf der Insel
 
Benutzeravatar
Cloud
Wolke 7
All Star
All Star
Beiträge: 11378
Registriert: So, 7. Apr 2002, 14:34
Wohnort: Ettlingen

Mi, 12. Apr 2006, 09:13

wulfman hat geschrieben:
ich hatte die testscans damals einzeln händisch nachbearbeitet - selektiv den text geschärft & co, was eher zeitaufwändig war.

Das war schon klar (die Frage war eher, wieso du dann irgendwann damit aufgehört hast). Dumme Sache halt, dass damals niemand auf die Idee gekommen ist, einfach mal Screenshots anzufertigen. Dabei ist das doch eigentlich sehr naheliegend.
Zuletzt geändert von Cloud am Mi, 12. Apr 2006, 09:14, insgesamt 1-mal geändert.
 
Benutzeravatar
wulfman
Leitwolf
Licht des Forums
Licht des Forums
Beiträge: 3063
Registriert: So, 7. Apr 2002, 17:28
Wohnort: Tansania

Mi, 12. Apr 2006, 15:24

vermutlich mangelndes feedback und (uni)stress.

mfg
wulfman
______________________________

Vorläufig letzte Worte, heute:



der Exstudent auf der Insel
 
Benutzeravatar
Doc SoLo
Ghost Doc
Hauptmann
Hauptmann
Beiträge: 2111
Registriert: Mo, 8. Apr 2002, 11:19
Wohnort: Mittweida

Sa, 29. Apr 2006, 10:37

Cloud hat geschrieben:
Aus den persönlichen Homebereichen werden sie doch gar nicht verlinkt, sondern wie alle anderen Tests auch aus dem history-spieletests-Verzeichnis.

Ups, dann war das wohl nur ein Backup, was ich bei wulfman gesehen habe.

Sollte man die Scans auch später verwenden wollen, könnte man sie natürlich auch gleich vernünftig archivieren. Da musst du halt sagen wo und wie du es haben willst.

Einmal müsste man systematisierte Dateinamen und Verzeichnisse benutzen, damit man dies nicht in der Datenbank speichern muss, sondern bei Abruf automatisiert erzeugen kann.

Für die Seite 123 aus Heft 4/1993 also z.B. "./archiv/1993/04/1993-04-123.tif". Bei Sonderheften könnte man dem Erscheinungsmonat ein "S" voranstellen. Ich weiß aber nicht, was es da noch alles für Sonderfälle gegeben hat, müsste mal jemand schauen, der sich damit auskennt.

Zum anderen müsste man schon jetzt anfangen, eine Datenbank mit Informationen über den Seiteninhalt zu füllen:

Zu einer gescannten Seite müssten gespeichert werden:

  • Datentyp (PDF oder Scan)
  • Jahrgang
  • Ausgabe
  • Seitennummer
  • Rubrik
  • Seitentitel
  • (Seitentitel 2)
  • Klartext des Seiteninhalts


Den Klartext kann man bei PDF-Ausgaben automatisiert extrahieren. Bei Scans kommt das OCR-Ergebnis rein. Hab ich beides schon ausprobiert.

Das ganze ist nur ein Vorschlag von mir, den ich unbedingt erst diskutieren möchte. Gerade die Leute, die sich mit den alten PCP-Inhalten auskennen, sollen bitte mal gründlich überlegen, ob die Struktur so sinnvoll ist.

Wenn wir dann zu einem Ergebnis gekommen sind, kann Chellie daraus ein DB-Schema ableiten und vielleicht ein kleines Web-Frontend basteln mit dem man die DB füllen kann. Alternativ könnte man auch erstmal direkt in die DB schreiben.

Ciao,

Doc SoLo
 
Benutzeravatar
Abdiel
Angry Angel
Goldfieber?
Goldfieber?
Beiträge: 8571
Registriert: Mo, 8. Apr 2002, 15:39
Wohnort: Sachsen (Mittweida)

Sa, 29. Apr 2006, 11:05

Also die Kategorien müssten ausreichen, um die Inhalte ordentlich einordnen und archivieren zu können. Andere Änderungen im Laufe der PCP-Geschichte (z.B. alte Rubriken durch neue ersetzt o.Ä.) kann man ja problemlos über die DB regeln. Also mir fiele jetzt nichts weiter ein, ausser dass vielleicht die Sonderausgaben in einem eigenen Verzeichnisbaum gelagert werden könnten...
People may say I can't sing, but no one can ever say I didn't sing. (Florence Foster Jenkins)
 
Benutzeravatar
Frogo
Krötenhüter
im Goldrausch
im Goldrausch
Beiträge: 7479
Registriert: So, 7. Apr 2002, 14:56
Wohnort: Kiel
Kontaktdaten:

Sa, 29. Apr 2006, 12:49

Ich denke auch dass das so in Ordnung ist, mehr fällt mir auch nicht ein. Bei den Sonderheften ist einzig als minimales Problem zu sehen, dass es die 1/97 zweimal gab, aber da kann man ja einfach a und b oder so nehmen.
______________________
<robbe> ichhatteeinenstreitmitmeinerleertasteundjetztredenwirnichtmehrmiteinander (GBO)
 
Benutzeravatar
Cloud
Wolke 7
All Star
All Star
Beiträge: 11378
Registriert: So, 7. Apr 2002, 14:34
Wohnort: Ettlingen

Mo, 1. Mai 2006, 11:29

Doc SoLo hat geschrieben:
Ups, dann war das wohl nur ein Backup, was ich bei wulfman gesehen habe.

(Wie schon irgendwo geschrieben:) Die Grüfte sind noch auf wulfmans Verzeichnis verlinkt. Wieso, weiß ich auch nicht, die Scans liegen auch alle im normalen Verzeichnis.

Für das Heftarchiv soll auf jeden Fall die Möglichkeit her, PDFs und Scans anbieten zu können. Schließlich macht es keinen Sinn, die PDFs erst in Bilder umzuwandeln, obwohl sie ja schon in einem höherwertigen Format vorliegen.

Du hast natürlich Recht, bei den PDFs ist es unsinnig, diese in JPGs umzuwandeln.

Mit dem richtigen Heft-Archiv müsste man halt einfach mal anfangen. D.h. ein PDF-Heft nach dem von dir beschriebenen System in eine Datenbank eintragen und zu Testzwecken eine Seite erstellen, über der die Inhalte aufgerufen werden können.

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast