usa-reise.de Forum
Allgemeines => Technik => Software und Apps, Internet, Websites => Thema gestartet von: lurvig am 06.03.2008, 10:19 Uhr
-
Hallo zusammen,
da dieses Forum ja eine nahezu unerschöpflichen Wissensquelle ist, würde ich es natürlich gerne auch auf der nächsten Reise verfügbar haben. Da man ja nicht überall eine Internetverbidnung hat - gerade an den interessanten Stellen abseits der Ortschaften - frage ich mich, ob man das gesamte Forum, oder zumindest einen Teil davon, komplett offline verfügbar machen kann?
Es gibt Tools wie den WebDownloader, der ganze Webseiten incl. Bildern und Links herunterladen kann und offline verfügbar macht. Das würde wohl grundsätzlich auch mit dem Forum funktionieren. Man hätte dann zwar einen "eingefrorenen" Stand von irgendwann, aber die nützlichsten Infos wären immerhin offline verfügbar.
Ich frage mich allerdings, ob das ganze praktisch machbar ist und ob es sinnvoll ist. Ich kann nicht ansatzweise abschätzen, welche Datenmenge man herunterladen müsste. Hat irgendwer eine Vorstellung, wie gross das ganze Ding ist?
Was meint ihr? Ist diese Idee zu verwirklichen oder ist es nicht machbar... und/oder einfach nur Unsinn? ;)
Lurvig
-
http://www.httrack.com/
-
jou, genau so ein Tool sollte das können. Aber mit welchen Datenmengen ist zu rechnen? Und was meinen die Admins dazu? "Darf" man sowas? ;)
Lurvig
-
Es macht eh nur Sinn, wenn Du die Suchfunktion (im Forum ist es eine DB-Abfrage) bei der Vielzahl von Seiten nutzen kannst. Wenn nicht, dann hilft Dir der Download nicht viel weiter.... denn dann suchst Du dich ja zu Tode.
-
das stimmt. Keine Ahnung, ob das funktionieren würde.
Ich denke mal: Versuch macht kluch... oder so ;)
Lurvig
-
Du wirst wahrscheinlich die Board-Suche nicht benutzen können, aber wenn du das Forum heruntergeladen hast, liegt es ja lokal in deinem Dateisystem vor und da müsste es ja möglich sein, mit der im Windows Explorer eingebauten Suche nach Stichwörtern suchen zu können.
Bleibt nur das Problem mit dem Komplettdownload und der großen Speichermenge. Ihc weiß aus Erfahrung, wie lange es dauert, wenn ich meine kleine Homepage komplett herunterlade, aber das Forum dürfte da ja noch um einiges Größer sein.
-
Er wird mit Sicherheit die Board-Suche nicht verwenden können, da die Suche auf die Datenbank losgeht, in der die Beiträge hier abgespeichert werden.
Bei einer Datenmenge von 369361 Beiträge in 25845 Threads macht es keinen Sinn eines Downloads mittels wget oder httrack. Die Datenmenge würde riesig werden. Selbst wenn jeder Thread nur aus einer einzigen Seite bestehen würde, hätte man anschließend 25845 Einzelseiten.
Daher ist auch ein Forum ja DB-gestützt. Das Layout gibt der PHP-Prozessor aus, den Inhalt zur Anzeige holt er sich aus der Datenbank. Ein Tool wie httrack oder wget macht ja nichts anderes wie ein normaler Surfer, daher werden aus den dynamisch zusammengesetzten Seiten eben statische Seiten in enormer Datenmenge.
Davon abgesehen hat ein Forum normalerweise einen Spam-Schutz, der übermäßigen Traffic von einer IP-Adresse unterbindet. Es könnte daher sein, dass diese Website-Kopierer sowieso permanent abbrechen.
Wie das hier ist, weiss ich nicht, das muss der Admin sagen.
PS: Wenn man mal probeweise eine Seite über den Browser mittels 'Speichern unter...' ablegt, erhält man sowas hier (http://area51.kilu.de/index.txt)
Und genau das macht auch ein DL-Tool. Damit hat man einen Datenwust, bei dem sich keiner zurecht findet. Das liegt daran, dass das in einem Forum keine HTML-Seiten, sondern PHP-Seiten sind.
-
PS: Wenn man mal probeweise eine Seite über den Browser mittels 'Speichern unter...' ablegt, erhält man sowas hier (http://area51.kilu.de/index.txt)
Hier an einer Wintelkiste habe ich nach dem Download (mittels Speichern unter) ein Webarchiv (.mht Datei) und das ist quasi ein Ebenbild dieser Seite :roll: Aber wie gesagt.... ein Forum downloaden macht wenig Sinn (IMO)
-
Das gibts im Firefox nicht ;)
Du hast aber recht, es macht wenig Sinn.
Es wäre nur dann interessant, wenn man sich selbst einen lokalen Webserver mit Datenbank aufbaut, die Foren-SW installiert und dann die Beiträge und Themen mittels Import dort verwendet.
Dazu müsste man aber ein Backup der ForenDB erhalten. Würde ich als Admin aber keinesfalls rausgeben.
-
Bei einer Datenmenge von 369361 Beiträge in 25845 Threads macht es keinen Sinn eines Downloads mittels wget oder httrack. Die Datenmenge würde riesig werden.
Sorry - da muss ich schlicht lachen. Selbst wenn JEDER Beitrag 10KB groß wäre (was eine utopische Annahme ist), dann kämen durch den Volldownload ca. 3,5GB an Daten zusammen.
Mit meiner aktuellen 16.000kbit/s DSL Leitung habe ich die in 1 bis 2 Stunden auf der Platte.
Eine moderne Festplatte hat heutzutage gerne mal 500GB, das aktuell beste Angebot kommt von Samsung, die Platte kostet bei Amazon 72,- Euro. Auf dieser Platte würde der o.g. Download noch nicht einmal 1% Plattenplatz belegen. Last not least würde das ganze Paket sogar auf eine einzige DVD passen, notfalls auf eine DVD Dual Layer.
Die Anzahl Files (370000) ist marginal - NTFS kann ein zigtausendfaches davon verwalten, notfalls könnte man das aber auch unter Linux mit extf3 o.ä. speichern.
Das ist ein gutes Beispiel, welches anschaulich macht, wie gewaltig die Kapazitäten der heutigen Rechner sind. Eine Suche in dem "Datenwust" würde zwar eine Weile dauern, aber mehr als ein paar Minuten werden das auch nicht sein.
Besser (und einfacher) wäre natürlich ein MySQL Export - aber den müßte der Admin freigeben. Dennoch ist es technisch kein großer Akt, das Forum einfach platt auf den Rechner herunterzuladen.
Grüße
Rainer
-
Soweit richtig, aber es hat längst nicht jeder einen 16 Mbit-Download. Bei 1 Mbit sind es schon reichlich 10 Stunden.
Sicher, spielt dank Flatrate keine Rolle, aber alles weitere hast Du ja schon angesprochen. NAtürlich ist die Datenmenge vergleichsweise gering, auch der Preis kann vernachlässigt werden.
Die Datenmenge ist immer dann ein Problem, wenn eine Volltext-Suche durchgeführt wird. Das kann man nur verringern, wenn man einen Indexer vorher drüberlaufen lässt.
Mir wäre das alles viel zu aufwändig, weil ja mittlerweile fast überall ein Internet-Zugang verfügbar ist, um die Infos in sekundenschnelle zu finden, die man braucht.
Ich kaufe mir auch keinen VW-Bus, weil ich einmal in 5 Jahren einen Kühlschrank transportieren will ;)
EDIT: Ich habe das mal gerade mit einem Offline Explorer angestoßen. Selbst auf unserer 155 MBit-Leitung braucht der ewig, weil er für jede Datei eine neue Session öffnen muss. Das dauert viel länger als der eigentliche Download. Außerdem hat man als Ergebnis einzelne PHP-Seiten, die intern HTML sind. Die muss man dann wieder umbenennen, damit sie für Nicht-Programmierer lesbar sind.
Alles reichlich aufwändig.
-
Bitte denkt auch daran, dass sowas den Server stark beansprucht und Traffic verbraucht.
Achja, allein die HTML-Datei dieses Threads hat 87 KB.
-
Achja, allein die HTML-Datei dieses Threads hat 87 KB.
Geteilt durch 12 Beiträge macht 7,25kb im Schnitt pro Beitrag - liege ich mit meiner geschätzten Annahme von ca. 10kb pro Beitrag ja nicht so sehr schlecht. Wobei das Gros der Daten durch die Formatierung erzeugt wird, nicht durch die Anwendertexte.
Grüße
Rainer
-
Hallo zusammen,
wen es interessiert - die Forendatenbank hat aktuell ca. 622 MB.
Die alleine nutzt jedoch nichts, man bräuchte einen lokalen Webserver und die zugehörigen Scripte, um das Forum offline auszuführen (was ich z.B. in meiner Testumgebung mache).
Davon abgesehen, wird es die Datenbank natürlich nicht zum Download geben, alleine schon aus Gründen des Datenschutzes.
Eine "Download-Attacke" würde das Forum sicherlich überstehen, wie der Provider darauf reagiert (Blocken der IP), weiß ich natürlich nicht. Dieser Download wäre natürlich deutlich umfangreicher als die reine Datenbank, wie bereits erwähnt.
Bei meinem letzten USA Aufenthalt vor 3 Wochen hatte bis auf zwei Ausnahmen jedes Hotel einen kostenlosen WLAN-Zugang:
- einmal kostete es $10 Tag
- einmal war das Hotel so in der Pampa, dass es nicht mal Telefon auf dem Zimmer gab, selbst der Handyempfang war hart an der Grenze
Selbst der KOA neben einem unserer Hotels war komplett per WLAN versorgt, ergo sollte man das Forum auch online leicht bei der Hand haben, wenn man sowieso ein Notebook dabei hat.
-
Davon abgesehen, wird es die Datenbank natürlich nicht zum Download geben, alleine schon aus Gründen des Datenschutzes.
Welche Daten sollen geschützt werden?
Hier werden doch alle Daten frei angeboten - ob die in einem formatierten HTML Beitrag stehen oder in einer indizierten Datenbank, ist für die Rechtsfindung nicht maßgeblich. Mit einem Totaldownload und einem HTML Parser wäre es möglich, die Datenbank vollständig zu rekonstruieren. Für andere Forensysteme (Parsimony) habe ich das sogar schon programmiert.
Es geht mir nicht darum, ob das Verfahren sinnvoll ist - aber ich sehe nicht, was Datenschutz hier für eine Rolle spielt.
Grüße
Rainer
-
Hallo Rainer,
ein kompletter Dump der Forendatenbank würde z.B. auch die kompletten Userdaten inkl. der E-Mail Adressen erhalten, alle PMs, Protokollinformationen etc. - da stehen ja nicht nur die Postings drin.
Das kannst Du mit einem Totaldownload nicht rekonstruieren. Das, was Du hier via Web abrufen kannst ist eine Untermenge der in der Forendatenbank gespeicherten Daten.
-
Davon abgesehen, wird es die Datenbank natürlich nicht zum Download geben, alleine schon aus Gründen des Datenschutzes.
Welche Daten sollen geschützt werden?
Hier werden doch alle Daten frei angeboten - ob die in einem formatierten HTML Beitrag stehen oder in einer indizierten Datenbank, ist für die Rechtsfindung nicht maßgeblich. Mit einem Totaldownload und einem HTML Parser wäre es möglich, die Datenbank vollständig zu rekonstruieren. Für andere Forensysteme (Parsimony) habe ich das sogar schon programmiert.
Es geht mir nicht darum, ob das Verfahren sinnvoll ist - aber ich sehe nicht, was Datenschutz hier für eine Rolle spielt.
Grüße
Rainer
Die Datenbank enthält aber noch einiges mehr, was man hier gar nicht sieht, bzw. was man nur für das eigene Profil sieht. Und da sind Daten dabei, die durchaus schützenswert sind.
Ich möchte da mal auf einen aktuellen Fall einer anderen Forensoftware hinweisen: http://www.phpbb.de/viewtopic.php?t=164185
Wir haben übrigens sowas mal bei Rapidforum gemacht, als wir ein dort gehostetes Forum auf eine eigene Plattform umgestellt haben. Es gibt ein paar Scripte, um das dann abzuscannen, aber es werden längst nicht alle Daten übernommen. Mal davon abgesehen hat dieses Verfahren für lediglich 30.000 Beiträge über 6 Stunden gedauert. Grund: Es mussten ständig Pausen eingelegt werden, damit der User nicht wegen Spam gesperrt wird.
EDIT: Huch, Thomas hat ja schon geantwortet. Übersehen.... :oops:
-
Hallo Rainer,
ein kompletter Dump der Forendatenbank würde z.B. auch die kompletten Userdaten inkl. der E-Mail Adressen erhalten, alle PMs, Protokollinformationen etc. - da stehen ja nicht nur die Postings drin.
Ok, dass man die User-Tabelle nicht anbietet, ist natürlich klar. Die PMs interessieren auch keinen. Man muss ja nicht die ganze Datenbank anbieten, aber was spräche dagegen (wer es haben will - ich sehe persönlich allerdings auch keinen großen Nutzen), die Tabellen mit den Beitragsdaten anzubieten? Als Usertabelle kann man sich sehr einfach eine Dummy-Tabelle generieren.
Grüße
Rainer
-
Das Problem ist halt, dass die wenigsten User mit so einem Dump was anfangen können. Dann müsste ein Webserver aufgesetzt werden, was sicher auch nicht jeder PC-User kann, desweiteren muss die DB angelegt werden, die Forensoftware installiert werden und der Dump dann importiert werden.
Dann gehts wieder weiter: Die Forensoftware verweigert den Dienst, wenn nicht die komplette Tabellenstruktur vorhanden ist. Auch Konfigurationseinstellungen des Forums sowie diverse andere Informationen werden unbedingt zum Betrieb benötigt und in der DB gespeichert.
Alles in Allem zwar möglich, aber sehr aufwändig.
-
Das Problem ist halt, dass die wenigsten User mit so einem Dump
Bislang wollten auch nur die wenigsten User das Forum mitnehmen - Stücker einer.
Grüße
Rainer
-
Vielleicht sind andere nur noch nicht auf die Idee gekommen ;)
-
und den einen interessierte zunächst mal vor allem die technische Machbarkeit. Internet gibts in USA vielerorts, aber am Alstrom Point, den CBS oder im Cathedral Valley wohl kaum. Wäre nett, dort abends auf einem "Campingplatz" zu sitzen und Tipps für den nächten Tag offline recherchieren zu können.
Dass es technisch wohl doch ehr problematisch wird, war nicht zwangsläufig vorhersehbar. Nach dem, was ich jetzt weiss, werde ich es wohl sein lassen. Die Alternative ist, zu allen möglichen Zielgebieten Infos im Netz zu sammeln (das schadet nie) und sie als PDF-Druck auf dem Notebook zu speichern. Dann hat man auch "in the middle of nowhere" genug Lesestoff für die weitere Tourplanung. Guten Karten und ein paar hilfreiche Bücher sind eh dabei.
Natürlich könnte man auch zuhause schon jeden Meter planen.... aber wie unendlich unflexibel und vorbestimmt wäre das? ;)
Lurvig