[ amavisto @ 23.10.2002. 19:35 ] @
Casopis je linuxjournal. Arhiva svih brojeva se prodaje za 26$, i krenuh da je kupim al postarina izadje jos toliko otprilike :)

lm, svi brojevi su dostupni online. Link je: http://linuxjournal.com/article.php?sid=xxxx gde se xxxx menja od 0001 do nekih 6 hiljada (svi clanci iz 100 brojeva). Kako da ih skinem?

Da li moze wget i sa kojim opcijama? Ali samo da skida linkove sa http://linuxjournal.com/article.php?sid=****
[ Dragoslav Krunić @ 23.10.2002. 20:56 ] @
Napraviš shell ili još bolje Perl skript koji ima petlju od 1 do n (gde je n max broj clanka) i koji u svakoj iteraciji skida članak čiji je redni broj jednak i. Po želji, sadržaj koji preuzmeš obrađuješ i smeštaš u neku bazu.
[ random @ 24.10.2002. 02:21 ] @
wget ne može, ali curl može:

$ curl -O http://linuxjournal.com/article.php?sid=[0001-6999]
[ Dragoslav Krunić @ 24.10.2002. 09:41 ] @
Eto vidiš, za to nisam znao. Ali ako hoće da ih obrađuje i smešta samo tekst članka u neku bazu, onda je ono gore bolje rešenje. Hm...
[ amavisto @ 24.10.2002. 12:04 ] @
[quote]Ixqq:
Napraviš shell ili još bolje Perl ;) skript koji ima petlju od 1 do n (gde je n max broj clanka) i koji u svakoj iteraciji skida članak čiji je redni broj jednak
</quote>

Hm, a kako da napravim petlju koja broji od 0001 a ne 1?

[ Dragoslav Krunić @ 24.10.2002. 12:36 ] @
Pa lepo. Samo na trenutni broj dodaš onoliko nula koliko je dovoljno da taj broj (string) bude dužine 4 karaktera. Npr. u Perl-u:

Code:

#! /usr/bin/perl

$broj = 73; # uzimamo proizvoljan broj

while(length($broj)<4) #sve dok je duzina manja od 4 karaktera...
{
$broj = "0" . $broj; # ...dodaj nule ispred
}

print $broj; # voila!
[ axez @ 24.10.2002. 21:59 ] @
Ako neko skine sve te članke, jel može da stavi negde tarrball da se skine?
[ Dragoslav Krunić @ 24.10.2002. 23:05 ] @
Evo, recimo, ti skineš i okačiš to negde. A, šta kažeš?
[ axez @ 25.10.2002. 13:35 ] @
Kažem da ima puno više ljudi sa stabilnijim i bržim vezama ka internetu nego ja te će oni to mnogo brže završiti.
[ amavisto @ 25.10.2002. 17:58 ] @
Citat:
axez:
Ako neko skine sve te članke, jel može da stavi negde tarrball da se skine?


Sudeci po velicini do sada skinutog, ceo linux journal ce biti oko 150MB (u html-u).
Kad bi se pobrisali svi nepotrebni tagovi + kompresija to bi moglo da se svede na
neku razumnu cifru za dl. Ja cu skinuti sve clanke, samo mi pomozite da
prvi deo odradim automatski (sed mozda?). Pogledajte jednu stranu.
Recimo od ove linije:

<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=ISO-8859-1">

moze da se brise sve do

<!-- END HEADER -->

To ukupno bude oko 230 linija, tj. preko 12KB. 6000 strana * 12KB = 72000KB
[ Dragoslav Krunić @ 25.10.2002. 18:13 ] @
Pravljenje programa za skidanje je najmanji problem. Samo treba obratiti pažnju na to da LinuxJuornal možda blokira IP posle određenog broja zahteva, te zahteve treba ciklično slati kroz par različitih proxy-a. E sad, zaista treba neko sa bržom konekcijom da skida to... Ja zaista nisam imao pojma da je sve to ukupno toliko veliko.