有关PHP、HTML单引号、双引号转义以及转成HTML实体的那些事!

2018-04-29 62 0

一、单引号和双引号转义在PHP的数据存储过程中用得比较多,即往数据库里面存储数据时候需要注意转义单、双引号;

先说几个PHP函数:

1、addslashes — 使用反斜线引用(转义)字符串;

  返回字符串,该字符串为了数据库查询语句等的需要在某些字符前加上了反斜线。这些字符是单引号(')、双引号(")、反斜线(\)与 NUL(NULL 字符)。

一个使用 addslashes() 的例子是当你要往数据库中输入数据时。例如,将名字 O'reilly 插入到数据库中,这就需要对其进行转义。大多数据库使用 \ 作为转义符:O\'reilly。这样可以将数据放入数据库中,而不会插入额外的 \。当 PHP 指令 magic_quotes_sybase 被设置成on 时,意味着插入 ' 时将使用 ' 进行转义。默认情况下,PHP 指令 magic_quotes_gpc 为 on,它主要是对所有的 GET、POST 和 COOKIE 数据自动运行 addslashes()。不要对已经被 magic_quotes_gpc 转义过的字符串使用 addslashes(),因为这样会导致双层转义。遇到这种情况时可以使用函数 get_magic_quotes_gpc() 进行检测。 

2、stripslashes — 去掉字符串的反斜杠引用(转义)

  即同addslashes()做相反的工作;

3、get_magic_quotes_gpc --- 检测魔术引用变量是否开启,倘若开启返回1,为开启则返回0;

if (!get_magic_quotes_gpc()) {
    $lastname=addslashes($_POST['lastname']);
} else {
    $lastname=$_POST['lastname' ];
}
echo$lastname;

$sql="INSERT INTO lastnames (lastname) VALUES ('$lastname')";

二、谈转义实体问题:

我们经常会遇到关于留言板之类的可以让用户输入信息的地方,这些地方都是需要注意的,因为不做转实体之类的话,html代码、script脚本可以轻易的被输入保存,并被其他用户执行;

所以类似用户在输入文本内输入<a href="xxx">hello</a>之类的,我们尽量要屏蔽掉,否则用户会乱搞,比如调CSS样式等,那样,我们页面将一塌糊涂。废话不多说,这里有几个关于PHP转实体的函数需要详细了解:

1、htmlspecialchars() 转义特别的字符为HTML实体;

  • '&' (ampersand) becomes '&amp;'
  • '"' (double quote) becomes '&quot;' when ENT_NOQUOTES is not set.
  • ''' (single quote) becomes '&#039;' only when ENT_QUOTES is set.
  • '<' (less than) becomes '&lt;'
  • '>' (greater than) becomes '&gt;'

2、htmlspecialchars_decode()将实体转成HTML代码,函数1的反函数

3、 htmlentities()这个是全部转换html实体,和htmlspecialchars()区别在于,这个函数是转义全部的字符,而htmlspecialchars()仅仅转义上面限定的5个特殊字符!

在处理网页字符串的时候,尤其是做爬虫类的应用时,经常会涉及到要处理的字符串中包含html标签,现在对这类字符串的处理做一个小的总结:

有时候获取到的字符串中有html标签,在入库的时候出于安全的考虑通常会对这样的字符串做转义处理,例如:

$a = '<div><p>11111</p></div>';
$b = htmlentities($a);
file_put_contents('./a.txt',$b);
echo $b;

在网页上显示是这样的:<div><p>11111</p></div>

但是如果echo $a;那么网页上只会显示:11111

由此可见,如果不转义,那么字符串里面的html标签就会被解析(如果是恶意代码,就会被执行),转义后会被当做字符串输出。

在来看看被转义后的$b,

&lt;div&gt;&lt;p&gt;11111&lt;/p&gt;&lt;/div&gt;
如果要反转义$b,那么使用php函数html_entity_decode,例如:
 

$a = '<div><p>11111</p></div>'; 
$b = htmlentities($a); 
$b = html_entity_decode($b); 
file_put_contents('./a.txt',$b);
 echo $b;
这时网页上显示11111,$b的值此时就是$a,

最近做了一个需求,像这种带html标签的字符串入库的时候需要转义保留,在页面上显示的时候在反转义。然而客户端需要这些数据的时候需要过滤掉这些html标签,所以给客户端的字符串需要过滤掉html标签,

$b = '&lt;div&gt;&lt;p&gt;11111&lt;/p&gt;&lt;/div&gt;'

返还给客户端的字符串,

$b = html_entity_decode($b);

过滤所有的html标签:

$pattern = array(

"@<script(.*?)</script>@is", //过滤掉js代码

"@<iframe(.*?)</iframe>@is",//过滤掉iframe

"@<style(.*?)</style>@is",//过滤掉css

"@<(.*?)>@is" //过滤html标签

);   

foreach($pattern as $k => $v){

$b = preg_replace($v,"",$b);

}

echo $b; //输出11111,html标签都被过滤掉了

有时候需要过滤掉某一个标签之外的其他html标签,那改怎么办呢?

"@<[^img](.*?)>@is" //过滤除了img标签之外的其他html标签


上一篇:没有了
下一篇:没有了

0 条评论