Stripping HTML 
Author Message
 Stripping HTML

HGi,

I need a perlscript that strips HTML. Could yo
direct me to such a script.?

Ta in advance.



Fri, 20 Dec 2002 03:00:00 GMT  
 Stripping HTML

Quote:

> HGi,

> I need a perlscript that strips HTML. Could yo
> direct me to such a script.?

> Ta in advance.

Something like this would work!

-- nohtml.pl --
#!/usr/bin/perl



close(FILE);

open(FILE, ">$outfile") || die;


        $line =~ s/<.*>//g;
        print FILE $line;      

Quote:
}

close(FILE);

-- end --

//Yodiz



Fri, 20 Dec 2002 03:00:00 GMT  
 Stripping HTML

Quote:

> HGi,

> I need a perlscript that strips HTML. Could yo
> direct me to such a script.?

> Ta in advance.

Goto CPAN HTML::*

                      Alex Zolotarev



Sat, 21 Dec 2002 03:00:00 GMT  
 Stripping HTML
On Mon, 03 Jul 2000 14:52:27 GMT,

[...]

Quote:
> > I need a perlscript that strips HTML. Could yo
> > direct me to such a script.?

[...]

Quote:
> Something like this would work!

> -- nohtml.pl --
> #!/usr/bin/perl


> open(FILE, "$infile") || die;

> close(FILE);

> open(FILE, ">$outfile") || die;


>    $line =~ s/<.*>//g;
>    print FILE $line;      
> }
> close(FILE);

> -- end --

Det regulj?ra uttrycket strippar allt fr?n f?rsta < till sista > p?
samma rad, inte det mellan < och n?st f?ljande >. Dessutom klarar
inte denna kod HTML-taggar som ?r uppdelade p? flera rader.

Quote:
> #!/usr/bin/perl


> open(FILE, "$infile") || die;

> close(FILE);


$line =~ s/<.*?>//sg;

Quote:
> open(FILE, ">$outfile") || die;
> print FILE $line;
> close(FILE);

(Otestat)

Scriptet ?r inte heller l?mpat att k?ras i en os?ker milj? som CGI
eftersom indata direkt skickas fr?n anv?ndaren till systemet via
open (vet att exemplet inte ?r skrivet som ett CGI-script, men jag
tycker ?nd? det ?r v?rt att utf?rda denna varning). Vad h?nder t.ex.
om $infile inneh?ller 'rm -rf / |' (den som inte vet vad detta
kommando g?r - PROVA INTE!!!)? S?dana fad?ser kan man undvika genom
att k?ra Perl i "taint mode".

#!/usr/bin/perl -Tw

D? kommer ovanst?ende script ?.h.t. inte att k?ras (man b?r alltid
anv?nda "taint mode" i CGI-script).

Robban
--

PGP: http://www.lipogram.com/pgpkey.asc
5F1E 95C2 F0D8 25A3 D1BE 0F16 D426 34BD 166A 566C



Sat, 21 Dec 2002 03:00:00 GMT  
 Stripping HTML

 >
   > Det regulj?ra uttrycket strippar allt fr?n f?rsta < till sista > p?
  > samma rad, inte det mellan < och n?st f?ljande >. Dessutom klarar
  > inte denna kod HTML-taggar som ?r uppdelade p? flera rader.
  >
  > > #!/usr/bin/perl
  > >

  > > open(FILE, "$infile") || die;

  > > close(FILE);
  >

  > $line =~ s/<.*?>//sg;
  >
  > > open(FILE, ">$outfile") || die;
  > > print FILE $line;
  > > close(FILE);
  >
  > (Otestat)
  >
  > Scriptet ?r inte heller l?mpat att k?ras i en os?ker milj? som CGI
  > eftersom indata direkt skickas fr?n anv?ndaren till systemet via
  > open (vet att exemplet inte ?r skrivet som ett CGI-script, men jag
  > tycker ?nd? det ?r v?rt att utf?rda denna varning). Vad h?nder t.ex.
  > om $infile inneh?ller 'rm -rf / |' (den som inte vet vad detta
  > kommando g?r - PROVA INTE!!!)? S?dana fad?ser kan man undvika genom
  > att k?ra Perl i "taint mode".
  >
  > #!/usr/bin/perl -Tw
  >
  > D? kommer ovanst?ende script ?.h.t. inte att k?ras (man b?r alltid
  > anv?nda "taint mode" i CGI-script).
  >
  >
  > Robban

Borde man inte b?rja med att strippa bort allt utom det som finns mellan
<body> och </body> ?

if( $line =~ /<BODY[^>]*?>(.*)<\/BODY>/i ) { $body = $1; }

Sedan ?r ju konstruktioner som <APPLET ...> ... </APPLET>
<SCRIPT> ... </SCRIPT>, <!-- ... --> osv lite tr?kiga att ha med
i textversionen, liksom tabell- och listtaggarna.

<P> och <BR> borde ocks? bytas mot  radbrytning(ar)

<H1>,<H2>... borde ocks? hanteras, t.ex med radbrytning och en efterf?ljande
rad med = - tecken som understrykning.

osv, osv

snart har vi byggt en html-formaterare....

/Danne



Mon, 23 Dec 2002 03:00:00 GMT  
 Stripping HTML

Quote:
> Borde man inte b?rja med att strippa bort allt utom det som finns mellan
> <body> och </body> ?

> if( $line =~ /<BODY[^>]*?>(.*)<\/BODY>/i ) { $body = $1; }

> Sedan ?r ju konstruktioner som <APPLET ...> ... </APPLET>
> <SCRIPT> ... </SCRIPT>, <!-- ... --> osv lite tr?kiga att ha med
> i textversionen, liksom tabell- och listtaggarna.

> <P> och <BR> borde ocks? bytas mot  radbrytning(ar)

> <H1>,<H2>... borde ocks? hanteras, t.ex med radbrytning och en efterf?ljande
> rad med = - tecken som understrykning.

> osv, osv

> snart har vi byggt en html-formaterare....

> /Danne

Jo det scriptet jag skrev ?r ju l?ngt ifr?n komplett :)
kanske kan va skoj att g?ra ett som g?r det n?gerlunda bra!

//Yodiz



Mon, 23 Dec 2002 03:00:00 GMT  
 
 [ 6 post ] 

 Relevant Pages 

1. Replacing HTML::Parse for stripping HTML tags?

2. strip html tags from string $text

3. Stripping HTML problem

4. Replacing and Stripping HTML

5. stripping html tags

6. stripping html tags

7. Pattern Matching Question: stripping html from text

8. Stripping html tags within perl

9. Stripping html

10. regexp for selectively stripping html

11. How to Selectively strip html

12. regex question (stripping html tags/text)

 

 
Powered by phpBB® Forum Software