本文整理汇总了Java中org.htmlparser.Parser.setInputHTML方法的典型用法代码示例。如果您正苦于以下问题:Java Parser.setInputHTML方法的具体用法?Java Parser.setInputHTML怎么用?Java Parser.setInputHTML使用的例子?那么, 这里精选的方法代码示例或许可以为您提供帮助。您也可以进一步了解该方法所在类org.htmlparser.Parser
的用法示例。
在下文中一共展示了Parser.setInputHTML方法的3个代码示例,这些例子默认根据受欢迎程度排序。您可以为喜欢或者感觉有用的代码点赞,您的评价将有助于系统推荐出更棒的Java代码示例。
示例1: getPlainText
import org.htmlparser.Parser; //导入方法依赖的package包/类
public static String getPlainText(String htmlStr) {
Parser parser = new Parser();
String plainText = "";
try {
parser.setInputHTML(htmlStr);
StringBean stringBean = new StringBean();
// 设置不需要得到页面所包含的链接信息
stringBean.setLinks(false);
// 设置将不间断空格由正规空格所替代
stringBean.setReplaceNonBreakingSpaces(true);
// 设置将一序列空格由单一空格替代
stringBean.setCollapse(true);
parser.visitAllNodesWith(stringBean);
plainText = stringBean.getStrings();
} catch (ParserException e) {
e.printStackTrace();
}
return plainText;
}
示例2: html2text
import org.htmlparser.Parser; //导入方法依赖的package包/类
/**
* Converts an HTML document into plain text.
*
* @param html HTML document
* @return plain text or <code>null</code> if the conversion failed
*/
public static synchronized String html2text(String html) {
// convert HTML document
StringBean sb = new StringBean();
sb.setLinks(false); // no links
sb.setReplaceNonBreakingSpaces (true); // replace non-breaking spaces
sb.setCollapse(true); // replace sequences of whitespaces
Parser parser = new Parser();
try {
parser.setInputHTML(html);
parser.visitAllNodesWith(sb);
} catch (ParserException e) {
return null;
}
String docText = sb.getStrings();
if (docText == null) docText = ""; // no content
return docText;
}
示例3: parseHtml
import org.htmlparser.Parser; //导入方法依赖的package包/类
/**
* @throws ParserException
*/
private void parseHtml() throws ParserException
{
htmlTags = new ArrayList();
Parser parser = new Parser();
parser.setInputHTML(fDocument.get());
for (NodeIterator e = parser.elements(); e.hasMoreNodes();)
{
Node node = e.nextNode();
VHtmlNodeVisitor htmlNodeVisitor = new VHtmlNodeVisitor();
node.accept(htmlNodeVisitor);
}
}