[ aleksandarcrvc @ 11.06.2009. 14:21 ] @
| Evo o cemu se radi
http://www.posta.co.yu/adresnikod/pronadjiak.asp?naselje=Beogra*&ulica=&broj=&Submit=Pronadji
Na toj stranici nalazi se samo prva od 631 strane na kojima se nalaze popisi adresnih kodova sa nazivima gradova opstina i ulica koje pripadaju istim.Kada odem na klasican copy paste on savrseno tablicu iskopira u excel i sa njom mogu manipuulisati i grupisati kako hocu podatke.Problem je sto je meni potrebno da to uradim sa svih 631 stranica.Posto je stranica radjena u ASP tehnologiji ja sam topic postavio ovde i interesuje me jel ima neki script koji bi uspeo da mi napravi insert za neku od baza (oracle,mysql) da bih sve to lepo ucitao i pravio report sa grupisanjim....Ono sto je meni potrebno je hijerarhija
GRAD
Opstine
Ulice po opstinama
Unapred zahvalan za sve odgovore.
Pozdrav |
[ zeko007 @ 11.06.2009. 15:48 ] @
sad ja ne znam kako te ide programiranje ali mozda ti pomogne link
http://www.webmasterworld.com/forum88/10926.htm
ja sam nesto slicno radio sa zutim stranicama. u php-u sam napiso skriptu koja mi je izvlacila podatke iz sorsa i stavljala u access..
[ dejanet @ 17.06.2009. 11:53 ] @
Treba da uradiš jedan mini crawler koji će korišćenjem regular expression-a izdvajati podatke koji te zanimaju i ići na druge strane(linkove). Oko drugih strana (linkova), možda ne moraš raditi extract linka, možeš link za sledeću stranu dobiti iz petlje (ovde slučaj).
Znači kratko :
- dobiti html iz url-a, nešto kao (c#), ne znam u kom jeziku radiš
HttpWebRequest request = (HttpWebRequest)
WebRequest.Create(tvojURL);
// execute the request
HttpWebResponse response = (HttpWebResponse)
request.GetResponse();
// we will read data via the response stream
Stream resStream = response.GetResponseStream();
......
- dobiti podatke iz html-a, korišćenjem regexp-a, ovo će ti biti najteže:
definicija regexp-a za red (dobiješ red)
definicija regexp-a za kolonu iz reda (dobiješ kolonu, tj podatak koji te zanima)
insert u bazu
- dobiti linkove takodje preko regexp-a (sledeće strane)
ILI
- pusti petlju i predefinisane url-ove (sledeće strane)
Ako hoćeš da budeš profi, možda Apache UIMA Java Framework...
Ukratko, analiza i dobijanje podataka iz nestruktuiranih podataka je zeznut posao..
Pozdrav.
Copyright (C) 2001-2025 by www.elitesecurity.org. All rights reserved.