Mydealz-Crawler zur schnellen Schnäppchen-Aggregation
306°Abgelaufen

Mydealz-Crawler zur schnellen Schnäppchen-Aggregation

56
eingestellt am 19. Jun 2012
Hallo,

ich weiß nicht ob die Kategorie hier die richtge ist, also verschiebt es doch bitte bei Bedarf.

---------------------------------------------------------------------
Worum geht es?
---------------------------------------------------------------------
Da ich selbst sehr häufig auf mydealz mir die aktuellen Schnäppchen ansehe und dabei meist aber zu faul bin mir mein Letztes zu merken, habe ich mir einen Crawler geschrieben. Dieser sucht die folgenden Seiten nach neuen Dealz ab und speichert die komplette Website lokal auf dem Rechner:

* myDealz Startseite
* HUKD - Dealz
* HUKD - Freebies
* den Sparboten

Da ich dies sehr nützlich finde, wollte ich dies natürlich mit euch teilen.

---------------------------------------------------------------------
Wie bekomme ich das?
---------------------------------------------------------------------
Ich habe meinen Dropbox-Ordner freigegeben. Dort findet ihr
* eine Batch (BAT-Datei) zum Starten des Programms
* eine Java-Datei (JAR-Datei), welche das eigentliche Programm beinhaltet
* eine Konfigurationsdatei mit den zuletzt aktuellen Dealz (CFG-Datei)
* einen Ordner Schnaeppchen_lib, welcher das Framework für das Programm bereitstellt und zur Ausführung benötigt wird

Ihr müsst euch nur den ganzen Inhalt lokal auf eurem PC speichern

Hier der Link:
dropbox.com/sh/…s52

---------------------------------------------------------------------
Wie benutze ich den Crawler?
---------------------------------------------------------------------
Behaltet bitte die Strukturen der Dateien bei, da es ansonsten zu unvorhergesehenen Problemen führen kann.
Ansonsten könnt ihr den Crawler über die BAT-Datei starten, es öffnen sich dann zwei Komandofenster, sowie nach einier Zeit der Browser Firefox.
Nachdem sich der Browser wieder geschlossen hat, ist die Arbeit des Programms getan. Ihr findet nun auf eurer Festplatte (im Ordner der BAT-Datei) die einzelnen Websiten und müsst diese nur noch öffnen.

---------------------------------------------------------------------
Was benötige ich für den Crawler?
---------------------------------------------------------------------
Es wird Java, sowie der Browser Firefox benötigt

---------------------------------------------------------------------
Kann ich den Crawler konfigurieren?
---------------------------------------------------------------------
Dies ist zur Zeit leider nicht möglich. Weder lassen sich nur bestimmte Seiten abgreifen, noch lässt sich z.Z. ein anderer Browser verwenden. Sollte dies jedoch gefordert werden, kann ich mich da ja auch mal ransetzen

---------------------------------------------------------------------
Fragen, Wünsche oder Anregungen?
---------------------------------------------------------------------
Ihr könnt mir gerne euer Feedback hier, per PN oder per E-Mail (cl4p(at)quantentunnel.de)

  1. Freebies
Gruppen
  1. Freebies
Beste Kommentare

Ich finds irgendwie schade wie sich hier alle über den fehlenden Nutzen und den schlechten Programmierstil auslassen. Für den Autor wird das Stück Software schon Sinn machen, sonst hätte er sich seine Mühe sicherlich gespart. Das nicht jeder einen Nutzen darin sieht ist doch völlig ok ...
Aber das er seine "unnütze Software" dann auch noch teilt, scheint hier wohl als eine Art "Frechheit" angesehen zu werden. Und anstatt ihm vielleicht eine verbesserte Codezeile zu schicken oder zu zeigen wie man es eleganter lösen kann, wird nur rumgemeckert wie schlecht doch alles ist. Helft ihm doch einfach wenn Ihr alle Coding-Profi's seid.
Undank ist der Welten Lohn, scheinbar vor allem bei Schnäppchenjägern. Traurig ...

n0x

lol schlecht geschrieben. dan noch mit java anfänger...unnötig belastet nur den server und jagt den traffic hoch.wen dan per pre-catcher und nicht einem java crawler :Ddie anderen nehmen einfach den rss und finden so so ihrem glück...



Bei deiner Orthographie würde es mich wundern wenn du einen Videorekorder programmieren kannst. X)

Was ein Aufwand. Und der Sinn erschliesst sich mir auch noch nicht recht.

Mach doch mal als iphone App :-)
Im Ernst, geile Idee, aber da ich selten am PC bin macht das für mich keinen Sinn.
Trotzdem ein HOT von mir für die Idee und den Community-Gedanken

56 Kommentare

Mach doch mal als iphone App :-)
Im Ernst, geile Idee, aber da ich selten am PC bin macht das für mich keinen Sinn.
Trotzdem ein HOT von mir für die Idee und den Community-Gedanken

Was ein Aufwand. Und der Sinn erschliesst sich mir auch noch nicht recht.

hacky

Was ein Aufwand. Und der Sinn erschliesst sich mir auch noch nicht recht.

Verfasser

oceanic815

Mach doch mal als iphone App :-)Im Ernst, geile Idee, aber da ich selten am PC bin macht das für mich keinen Sinn.Trotzdem ein HOT von mir für die Idee und den Community-Gedanken


Leider habe ich keine Erfahrungen in der iOS Programmierung.

hacky

Was ein Aufwand. Und der Sinn erschliesst sich mir auch noch nicht recht.


Dies ist noch die Alpha-Version. Eigentlich war es mal so geplant, dass die Dealz einzeln extrahiert werden, so dann am Ende für jeden Bereich nur eine Website entsteht.

Danke Dir für das Teilen! Finde ich lobenswert

Für mich persönlich hat dieser Crawler kein Nutzen. Für einige Leute ist dieser Crawler bestimmt interessant. Daher HOT X)

Hast du auch den Source-Code freigegeben?

Verfasser

Frieder123

Hast du auch den Source-Code freigegeben?


Hab ich nochmal dem Ordner hinzugefügt. Ist ja kein großes Geheimnis

wtf ... wofür braucht man sowas???

Interessant (_;)

Wann kommt die App?

Mir erschließt sich der Sinn deines Crawlers nicht. Das gleiche kann ich mit wget in einer Zeile machen. Wenn es mir nur um die Angebote geht, kann ich auch einfach den RSS-Feed abonnieren.

Da ist ja so ziemlich alles verkompliziert worden, was nur verkompliziert werden kann - aber das ist ja immerhin auch eine Leistung!

ich bin mit rss auch weitestgehend gut versorgt

hacky

Was ein Aufwand. Und der Sinn erschliesst sich mir auch noch nicht recht.

Definitiv ein Hot für die Mühe und den Willen, uns daran teilhaben zu lassen :-)

Moderator

Nette Idee - aber ich habe meinen eigenen Crawler. Nämlich Krueck83... ^^

Verfasser

JonasTraugold

Mir erschließt sich der Sinn deines Crawlers nicht. Das gleiche kann ich mit wget in einer Zeile machen. Wenn es mir nur um die Angebote geht, kann ich auch einfach den RSS-Feed abonnieren.


Ich komme meist nur einmal täglich zum Nachsehen, ob neue Angebote vorhanden sind, da reicht mir der RSS-Feed schon nicht mehr (an einem Tag sind es alleine bei den HUKD-Deals zwischen 5 und 7 neue Seiten).
Zum Thema wget: letzendlich basiert es ja auch darauf (nur eben komplizierter, ie schon angemerkt wurde), aber bei wget ist mir aktuell keine Möglichkeit bekannt, dass Herunterladen zu beenden, wenn ein entsprechendes Element vorhanden ist. Und genau dafür habe ich eben um den einfachen Download ein kleines Java-Programm geschrieben, welches diese Logik für mich erledigt.

Was war noch gleich der Vorteil von Java?
Achja, plattformunabhängig
Also warum schreien alle nach einer App? :P

Ansonsten würde ich auch sagen, dass man die Datenmenge ganz gut mit einem RSS Reader managen kann.

Dadurch das es eine jar ist, geht die auch für den Mac?

Verfasser

cmueller

Dadurch das es eine jar ist, geht die auch für den Mac?


Wenn du Firefox und Java installiert hast ja, alledings müsstest du dir dann ein eigenes Startskript schreiben, welches die Jar im Unterordner zuerst startet. Du kannst dich dabei ja an meiner BAT-Datei orientieren.

Sinnlos...man kann doch den RSS-Feed abonnieren...und außerdem noch die android App mit pushfunktion...wo ist der Mehrwert?

noch ein vote für sinnlos:
rss-Feed und fertig.

lol schlecht geschrieben. dan noch mit java anfänger...
unnötig belastet nur den server und jagt den traffic hoch.
wen dan per pre-catcher und nicht einem java crawler
die anderen nehmen einfach den rss und finden so so ihrem glück...

while (true) {

oO

n0x

[..]dan noch mit java anfänger...[..]


Ah, Programmiersprachenbashing, ja?

Ich würde sowas ja nur in Assembler machen und aus TCP Rohdaten die HTML-Datei manuell erstellen lassen

Ansonsten ist das Script zwar nicht elegant (while true ), aber für den Einsatzzweck völlig ausreichend. Für sowas braucht man kein MVC Design oder irgendwelche Designpattern...

Verfasser

ja, an dem while(true) sollte ich wohl noch arbeiten und durch eine Zählschleife ersetzen. Wie gesagt befindet sich das Skript noch in einem sehr frühen Statium. Ich wollte Aufwand und Nutzen auch ungefähr in Relation lassen.

Ohne Konfigurationsmöglichkeit sinnlos.

n0x

lol schlecht geschrieben. dan noch mit java anfänger...unnötig belastet nur den server und jagt den traffic hoch.wen dan per pre-catcher und nicht einem java crawler :Ddie anderen nehmen einfach den rss und finden so so ihrem glück...



Bei deiner Orthographie würde es mich wundern wenn du einen Videorekorder programmieren kannst. X)

n0x

lol schlecht geschrieben. dan noch mit java anfänger...unnötig belastet nur den server und jagt den traffic hoch.wen dan per pre-catcher und nicht einem java crawler :Ddie anderen nehmen einfach den rss und finden so so ihrem glück...



Schon mal was von Doppel-n gehört? (denn, wenn, dann...)

"finden so so ihrem glück" Der Dativ ist dem Genitiv sein Tod, leider passt das hier trotzdem nicht, haha ;-)

Ich denke, so etwas wäre nicht nötig, wenn es mal ein wirklich gutes Update für die Seite gäbe: Da HUKD oft als das Mydealz-Forum bezeichnet wird, ist es eigentlich naheliegend, daß man auch eine Forenstruktur bzw. -software benutzt. Damit würden gleich mehrere Probleme auf einen Schlag gelöst werden:
Man könnte sich die neuen Deals seit dem letzten Besuch mit einem Klick anzeigen lassen. Man könnte endlich sinnvoll auch innerhalb der Kommentare suchen. Man könnte die Deals, die man kommentiert hat, besser verfolgen. Das User-System wäre endlich mal OK. Nur um mal einige wenige Vorteile aufzuzählen.
Dann bräuchte auch man diesen Crawler nicht.

Von daher: Her mit dem Update!

Selbst wenn man es nicht braucht: HOT! Auch für Leute mit wenig Internet hilfreich.

Von einer "do-while"-Schleife hast du noch nichts gehört, oder?
Mal abgesehen davon, dass dein Projekt keinerlei zusätzlichen Nutzen hat als der RSS-Feed, ist das Programm an manchen Stellen sehr unschön programmiert.

Verfasser

D3pp

Von einer "do-while"-Schleife hast du noch nichts gehört, oder? Mal abgesehen davon, dass dein Projekt keinerlei zusätzlichen Nutzen hat als der RSS-Feed, ist das Programm an manchen Stellen sehr unschön programmiert.


Wie bereits oben erwähnt werde ich die Schleife bei Gelegenheit durch eine passendere ersetzen.
Könntest du mir das bitte näher erläutern? Obwohl es eben nur eine schnelle Lösung ist, freue ich mich doch über konkrete Verbesserungen. (:

Ich finds irgendwie schade wie sich hier alle über den fehlenden Nutzen und den schlechten Programmierstil auslassen. Für den Autor wird das Stück Software schon Sinn machen, sonst hätte er sich seine Mühe sicherlich gespart. Das nicht jeder einen Nutzen darin sieht ist doch völlig ok ...
Aber das er seine "unnütze Software" dann auch noch teilt, scheint hier wohl als eine Art "Frechheit" angesehen zu werden. Und anstatt ihm vielleicht eine verbesserte Codezeile zu schicken oder zu zeigen wie man es eleganter lösen kann, wird nur rumgemeckert wie schlecht doch alles ist. Helft ihm doch einfach wenn Ihr alle Coding-Profi's seid.
Undank ist der Welten Lohn, scheinbar vor allem bei Schnäppchenjägern. Traurig ...

Danke für dieses Programm.Ich bin auch Java Anfänger und was finden alle daran so schlimm dass er while(true) benutzt?Dass ist doch richtig oder?

Also ich habe mir für das Problem, dass man nicht direkt sieht, wo man das letzte mal aufgehört hat zu lesen ein kleinen Greasemonkey-Script geschrieben. Es merkt sich praktisch den Deal den man zuletzt gesehen hat und makiert ihn, dann beim nächsten Besuch. So weiß man direkt wo man aufhören kann weiterzuscrollen. Das ganze Funktioniert in allen Kategorien in HUKD. Das ganze sieht dann so aus: tolv1.jpg
Hier könnt ihr das ganze Runterladen: Download
Funktioniert in Firefox (Mit Greasemonkey Addon), Chrome (Mit Tampermonkey Addon) und Opera (Ohne Addon). Googled danach wie man das installiert falls ihs nicht wisst.

@ADMIN: Wie wärs denn mit einer "Ausschluss-Maske"? Hauptsächlich um Deals mit bestimmten Stichwörtern (Nutella, Badenia, Crucial...) wegfiltern zu können? Wäre ein "kleiner" Implementierungsaufwand, aber eine große Erleichterung für die Menschheit... Sind einfach viel zu viele Deals mittlerweile ("Individuell" taugt dafür nicht so toll)

-

AlexanderWa

Danke für dieses Programm.Ich bin auch Java Anfänger und was finden alle daran so schlimm dass er while(true) benutzt?Dass ist doch richtig oder?



Im Prinzip schon... aber siehe Link
buha.info/sho…php?56855-Warum-benutzt-man-while(true)-nicht

Knochenkopf

Ich komme meist nur einmal täglich zum Nachsehen, ob neue Angebote vorhanden sind, da reicht mir der RSS-Feed schon nicht mehr (an einem Tag sind es alleine bei den HUKD-Deals zwischen 5 und 7 neue Seiten).


Mit dem Crawler hast du doch die gleiche. wenn nicht sogar höhere Seitenanzahl bzw Datenmenge.
Ich habe den Feed im Google Reader abonniert, da kann ich auf unterschiedlichen Geräten reinschauen und die gelesenen ausblenden.

Verfasser

Knochenkopf

Ich komme meist nur einmal täglich zum Nachsehen, ob neue Angebote vorhanden sind, da reicht mir der RSS-Feed schon nicht mehr (an einem Tag sind es alleine bei den HUKD-Deals zwischen 5 und 7 neue Seiten).



Es ist richtig, dass ich durch den Crawler genauso viele Seiten durchblättern muss, als wenn ich mich eben selber durch die Website klicken würde. Im Endeffekt erledigt dies genau ja auch der Crawler. Deshalb kommt es aber dadurch auch zu keiner Mehrbelastung des Servers, da die Seiten ja anschließen von meinem PC gelesen werden.
Der Vorteil ist lediglich, dass ich quasi "gesagt bekomme", wann ich nicht mehr weiterschauen muss.
Da ich nur PC-Anwender bin und keine Smartphones oder ähnliches besitze, hat sich dies für mich einfach als der einfachste Weg herauskristallisiert.
Dein Kommentar
Avatar
@
    Text