+ -
当前位置:首页 → 问答吧 → 解析HTML用哪个更好【HtmlAgilityPack VS正则】

解析HTML用哪个更好【HtmlAgilityPack VS正则】

时间:2011-12-16

来源:互联网

解析html,用正则和用HtmlAgilityPack哪个性能更好啊(就不问哪个更容易用了,显然HtmlAgilityPack比正则用起来简单的多)?用HtmlAgilityPack的话碰到太大的网页是不是会很慢阿(因为相比正则分析,有个html转化成转化成xml的过程)。还有灵活性方面哪个更好,高手说说,谢谢了!!


另:求个正则表达式生成工具
应该有很多款吧,推荐个最强大的吧。有经验的高手说说。
PS:要是有C#开源的正则生成工具,那就推荐带C#开源的工具,开源有诱惑力啊

作者: OROCHIORI616   发布时间: 2011-12-16

多数情况下性能应该HtmlAgilityPack好些,对于大网页,可以先用普通的字符串方法截取所需的元素块区域做为html文档,再施用这个东西,效率应该不错。
正则测试推荐Convert.Net这个工具,里面包含很多实用功能,如html、url编码解码、正则测试、vb同c#互转、谷歌翻译、xml和json解析、加密解密等。

作者: dalmeeme   发布时间: 2011-12-16

学正则吧 学好了正则 很有帮助的!

作者: chaichangaini   发布时间: 2011-12-16

至于灵活性那还用说吗?当然是Dom的方式好,它甚至可以在抓取的html里进行插入、删除元素。用正则要繁一些。

作者: dalmeeme   发布时间: 2011-12-16

正则也很重要,我觉得正则是一个合格专业软件开发人员必须掌握的东西。

作者: dalmeeme   发布时间: 2011-12-16

引用楼主 orochiori616 的回复:
另:求个正则表达式生成工具


还有这个工具? 只用过调试工具,没用过生成工具

作者: q107770540   发布时间: 2011-12-16

如果正则很简单,就用正则,如果正则很复杂,就用 HtmlAgilityPack,因为通常复杂的正则式要不断的回溯才能匹配到正确格式的字符串,非常影响性能的,况且复杂的正则也不好写。

作者: orain   发布时间: 2011-12-16

引用 1 楼 dalmeeme 的回复:

多数情况下性能应该HtmlAgilityPack好些,对于大网页,可以先用普通的字符串方法截取所需的元素块区域做为html文档,再施用这个东西,效率应该不错。
正则测试推荐Convert.Net这个工具,里面包含很多实用功能,如html、url编码解码、正则测试、vb同c#互转、谷歌翻译、xml和json解析、加密解密等。

力挺

作者: LMAOhuaNL   发布时间: 2011-12-16