转换未知编码格式?(采集相关)
采集里都要用file_get_contents
然后怎么确定取到的网页编码格式?
直接echo的话编码不一致就会出乱码
转换不算很难
用iconv和mb_xxx系列应该可以完成
可是找了半天也没找到什么函数能确定编码格式
也想过用查找<meta http-equiv="Content-Type" content="text/html; charset=***" />的方法
但是有的网页没写这一行怎么办?
get_header也取不到编码信息
为这个问题困扰很长时间了 大家是怎么解决的呢?
搜索更多相关主题的帖子:
采集
编码
格式
昵称: cers 时间: 2008-8-21 15:19
没有这一行, 你就帮它加一行.....
自然就有了...
昵称: 于安 时间: 2008-8-21 15:23
然后怎么确定取到的网页编码格式?
直接echo的话编码不一致就会出乱码
转换不算很难
用iconv和mb_xxx系列应该可以完成
可是找了半天也没找到什么函数能确定编码格式
也想过用查找<meta http-equiv="Content-Type" content="text/html; charset=***" />的方法
但是有的网页没写这一行怎么办?
get_header也取不到编码信息
为这个问题困扰很长时间了 大家是怎么解决的呢?