[ misa vranje @ 31.01.2005. 00:22 ] @
Treba da iz stringa primera:
<tbody><tr><th align="left" bgcolor="#f0f0f0" nowrap="nowrap">Engleski jezik</th><th align="left" bgcolor="#f0f0f0" nowrap="nowrap">Srpski jezik</th></tr><tr><th align="left">god</th><td>bog</td></tr>

izvucem ne html reci.Dosao sam do $_=~/(?:<.*?>)*([^<]+)/g
ali problem nastaje kod toga sto se ceo primer zavrsava sa praznim prostorom pa tek onda ide kraj stringa.Znaci umesto da dobijem cetri nova stringa ja dobijam 5 gde je peti sa jednim spaceom.
Koji mi regularni izraz treba?
[ OmerBeg @ 02.02.2005. 15:23 ] @
Evo ovo je code koji ti iz html stranice izvadi tekst

Code:
 

$ perl  -e 'use HTML::TokeParser; 
use LWP::UserAgent;

my $ua = new LWP::UserAgent;
my $html = $ua->get("http://www.srebrenik.net/")->content;

sub html2text {
  my($html) = shift;
  my $p = HTML::TokeParser->new(\$html);
  my $body = $p->get_tag("body");
  my $text = $p->get_trimmed_text("/body");
  $text =~ s/\240/ /g; # &nbsp;
  $text =~ s/\s+/ /g;

  $text;
}

my $txt = html2text($html);
print $txt, "\n";
'




Pozdrav!