[ ||NeX|| @ 22.06.2006. 13:06 ] @
Svima su nam poznati news portali kao što je google news ili na domaćoj sceni b92 ili monitor.hr.
Ono što mene interesuje kako automatizovano rade neke skripte kao recimo Google news?
Ovi ostali su očigledno ručni CMS i nema neke automatizacije.

Ima recimo takav jedan bosanski portal koji ima odjel za newse: http://www.sarajevo-x.com/mediabase/

Tu se automatksi izlistavaju vijesti sa raznih stranica.
Tako nešto bih i ja rado napravio, ali na drugu skroz tematiku, znači specifičnu i kupio vijesti sa drugih stranica.

Razmišljao sam na koji način funkcionira, ali mislim da nisam nadošao na tačni sistem rada.

Pošto su svi ti portali sa kojih uzimaju vijesti različite strukture ne može niti jedan algoritam da kupi vijesti po istoj šemi, nego je potrebna neka skripta na site-u sa kojeg se uzima vijest da bi ovi slali redovno vijesti. Je li to tačno ili se ipak može?

Volio bih kada bi neko mogao da pojasni kako to radi. Hvala.
[ zweistein2 @ 22.06.2006. 14:18 ] @
Prva stvar koja je meni pala napamet je da to rade preko RSS feedova, ali sad sam pregledao par siteova s kojih skidaju podatke i, koliko sam vidio, niti jedan nema RSS feed (makar mi ih Firefox nije prikazao). Moguće je da su, u suradnji s tim siteovima, dobili neki RSS feed koji nije javan.

Budući da većina news siteova ima RSS feedove (makar vani, ovdje situacija nije baš tako sjajna, ali valjda će i oni doći pameti), možeš odabrati nekoliko takvih siteova tematike koja te zanima i napisati neki jednostavan parser za RSS ili koristiti već gotovi. To je najlakši i najbezbolniji način - može se i drugačije, ali onda moraš pisati parser za svaki od siteova koji želiš pratiti, a to je upitno isplativo.

O RSS-u više na ovim stranicama:
http://www.xml.com/pub/a/2002/12/18/dive-into-xml.html
http://en.wikipedia.org/wiki/RSS_(file_format)
http://www.webreference.com/authoring/languages/xml/rss/intro/
[ WawaHOO! @ 22.06.2006. 17:44 ] @


Ja mislim da to nema veze sa RSS feedovima, postoji i domaci sajt naslovi.net i koliko mi je poznato on vesti prikuplja preko "crawlera" , kao sto pretrazivaci traze informacije tako i ti sajtovi prave za svaki portal odredjeni crawler za prikupljanje vesti i onda ih po alogritmu sortira po vaznosti. Prvo, na tim sajtovima se prikazuju i slike uz vesti a koliko mi je poznato nije moguce objavljivati slike preko RSS-a tako da je sigurno neki crawler u pitanju.
[ bojan_bozovic @ 22.06.2006. 20:18 ] @
Treba:

1. Rad sa socketima
2. Poznavanje HTTP protokola
3. XML i (pozeljno) XSLT

Posaljes HTTP GET zahtev remote serveru, polupis izlaz, i parsiras XML u telu (body) http odgovora i prebacis u HTML (najbolje sa XSLT)
[ ||NeX|| @ 23.06.2006. 02:24 ] @
Citat:
WawaHOO!: Ja mislim da to nema veze sa RSS feedovima, postoji i domaci sajt naslovi.net i koliko mi je poznato on vesti prikuplja preko "crawlera" , kao sto pretrazivaci traze informacije tako i ti sajtovi prave za svaki portal odredjeni crawler za prikupljanje vesti i onda ih po alogritmu sortira po vaznosti. Prvo, na tim sajtovima se prikazuju i slike uz vesti a koliko mi je poznato nije moguce objavljivati slike preko RSS-a tako da je sigurno neki crawler u pitanju.


Neke od ljudi znam lično i nebih rekao da imaju znanje da to odrade. Više mi ovo baš smrdi na RSS, ali pošto sam nisam nešto upućen u RSS ne znam dokle je moguće tako.

Znači ovakvo što pogotovo nema free za skinuti negdje kao skriptu?
[ zira @ 24.06.2006. 21:28 ] @
Na http://www.24casa.com se koriste RSS ako su dostupni, a ako nisu sistem sam pravi RSS od sadrzaja ciljnog sajta. Dakle, uzima se veb strana/strane i parsira i to zavisi od izvora do izvora. Ne vjerujem da za ovo ima besplatna skripta :)
[ boccio @ 25.06.2006. 10:08 ] @
Citat:
WawaHOO!: Prvo, na tim sajtovima se prikazuju i slike uz vesti a koliko mi je poznato nije moguce objavljivati slike preko RSS-a tako da je sigurno neki crawler u pitanju.

A putanje do istih?

[ zira @ 25.06.2006. 10:45 ] @
I slike se moraju skinuti na lokalni server, eventualno promijeniti velicina i optimizovati i onda koristiti, jer nije lijepo na svom sajtu koristiti slike koje leze na tudjem serveru...
[ bojan_bozovic @ 25.06.2006. 11:17 ] @
@zira

I to moze da se odradi sa socketima i GD nema problema. Pitanje je sto bi se iko mucio toliko da automatski vuce content sa nekog sajta, ako ne misli da pravi feed to blog skriptu za spamere ;-)
[ zira @ 25.06.2006. 11:45 ] @
Pojma nemam sto bi se neko mucio :)

Meni je trebalo na www.24casa.com da bi prikazivao vijesti iz domacih izvora tako da ne postoji urednik vijesti i da se vijesti same i pomocu posjetilaca rangiraju po vaznosti. O domaci mediji po pravilu nemaju RSS, cast izuzecima. Slicno rade i naslovi.net i google news.

Koliko vidim, NeX-u treba specijalizovani servis i to ima smisla, da kad odes na njegov sajt sa temom X vidis sta referentni ili srodni sajtovi o toj temi X pisu. Vrijedi li truda praviti i odrzavati to, ne znam.

[ ||NeX|| @ 25.06.2006. 23:12 ] @
Citat:
Na http://www.24casa.com se koriste RSS ako su dostupni, a ako nisu sistem sam pravi RSS od sadrzaja ciljnog sajta. Dakle, uzima se veb strana/strane i parsira i to zavisi od izvora do izvora. Ne vjerujem da za ovo ima besplatna skripta :)


Svaka čast. U čemu si napravio? PHP?

Lično mislim ako se kvalitetno želi raditi site, onda bez ljudskog selektivnog rada nema ništa?
Ukoliko se želi napraviti news site koji privlači sve ljude, onda kupljenje čitavih feedova i nije loše.

Ja sam želio da napravim sebi skriptu u koju bi ja gurao članke onako copy paste,
ona mi je prevela koristeći profi toolse i onda sve to prebacila u utf-8 i postavila na stranicu automatski.
Naravno bi i slike ubacivao druge i automatizovao optimizaciju.

Kada sam shvatio da to mi se ne isplati raditi, onda sam mislio da to odradim ovako, a da ručno onda unpublishujem preko CMS-a ono što mi se ne sviđa.
Međutim, eto i to nije automatizovano (javno), a ja nisam neki ekspert u RSS-u, a vidim da i tu treba zaista puno vremena, koje mogu efektivnije da iskoristim. :)

Kakvo je stanje novinarstva i publikacije u Svijetu, zaista mislim da samo čovjek može ovoliko sranja da filtrira i da ocjeni valja li to čemu.