文章分类

站点统计

  • 分类总数: 13 个
  • 文章总数: 145 篇
  • 评论总数: 35 条
  • 附件总数: 59 个
  • 建站日期: 2008-08-18
  • 访问总数: 388175 人次
  • RSS订阅: 文章|评论

使用SgmlReader 将Html文档整理为规范的XML文档

Admin 于 2008-09-19 00:21:13 发表.Net

订阅: http://www.kaiyuan8.org/Feed/Article_69.aspx
引用: 点这里获取地址 (UTF-8)
使用DockPanel Suite开发类Visual Stutio多文档界面 < 使用SgmlReader 将Html文档整理为规范的XML文档 > BlogEngine.NET 一个开源Asp.net blog程序

有多种方式可以在.NET 平台进行HTML文件解析、数据提取,其中最简单、稳妥的办法是先使用工具将Html文档整理成XML文档,再通过XML Dom模型或XPath灵活地进行数据处理。SGML便是一个Html文档整理工具类库:

Microsoft的XML大师Chris Lovett专门开发了一个SGML解析器,叫做SgmlReader,它可以解析HTML文件,甚至将它们转换成一个格式规范的结构。 SgmlReader派生于XmlReader,这就是说,你可以像运用诸如XmlTextReader这样的类来解析XML文件那样来解析HTML文 件。 

这是一段示例代码:

  1. public static XmlDocument ConvertHtmlToXml(string html)    
  2.     
  3.    using (SgmlReader sgmlReader = new SgmlReader()) {    
  4.        sgmlReader.DocType = "HTML";    
  5.        sgmlReader.InputStream = new StringReader(html);    
  6.        using (StringWriter stringWriter = new StringWriter()){    
  7.            using (XmlTextWriter xmlWriter = new XmlTextWriter(stringWriter))    
  8.            {    
  9.                while (!sgmlReader.EOF) {    
  10.                    xmlWriter.WriteNode(sgmlReader, true);    
  11.                }    
  12.            }    
  13.        }    
  14.    }    
  15.   
  16.    XmlDocument xmlDoc = new XmlDocument();    
  17.    xmlDoc.LoadXml(stringWriter.ToString());    
  18.   
  19.    return xmlDoc;    
  20.    

 


主页:http://code.msdn.microsoft.com/SgmlReader  

语言:英文  授权形式:开源

相关网址:
http://www.sifung.com/pages/743.shtm
http://msdn.microsoft.com/en-us/library/aa302299.aspx

 

下载页(SourceForge)  SgmlReader 1.8   MSDN代码库

被阅1502次, 0投一票SgmlReader 开源
  • 看完了要说点啥么?
  • 昵称 (不填说不了话)
  • 信箱地址 (不会被公开,但是不填也说不了话)
  • 网址 (这个不填也成)
Powered by MiniBoke v2.0.0.8 Build 0828

Copyright © 2008 开源吧!. All rights reserved.

粤ICP备07500939号