本文整理匯總了Java中org.htmlparser.Parser.setInputHTML方法的典型用法代碼示例。如果您正苦於以下問題:Java Parser.setInputHTML方法的具體用法?Java Parser.setInputHTML怎麽用?Java Parser.setInputHTML使用的例子?那麽, 這裏精選的方法代碼示例或許可以為您提供幫助。您也可以進一步了解該方法所在類org.htmlparser.Parser
的用法示例。
在下文中一共展示了Parser.setInputHTML方法的3個代碼示例,這些例子默認根據受歡迎程度排序。您可以為喜歡或者感覺有用的代碼點讚,您的評價將有助於係統推薦出更棒的Java代碼示例。
示例1: getPlainText
import org.htmlparser.Parser; //導入方法依賴的package包/類
public static String getPlainText(String htmlStr) {
Parser parser = new Parser();
String plainText = "";
try {
parser.setInputHTML(htmlStr);
StringBean stringBean = new StringBean();
// 設置不需要得到頁麵所包含的鏈接信息
stringBean.setLinks(false);
// 設置將不間斷空格由正規空格所替代
stringBean.setReplaceNonBreakingSpaces(true);
// 設置將一序列空格由單一空格替代
stringBean.setCollapse(true);
parser.visitAllNodesWith(stringBean);
plainText = stringBean.getStrings();
} catch (ParserException e) {
e.printStackTrace();
}
return plainText;
}
示例2: html2text
import org.htmlparser.Parser; //導入方法依賴的package包/類
/**
* Converts an HTML document into plain text.
*
* @param html HTML document
* @return plain text or <code>null</code> if the conversion failed
*/
public static synchronized String html2text(String html) {
// convert HTML document
StringBean sb = new StringBean();
sb.setLinks(false); // no links
sb.setReplaceNonBreakingSpaces (true); // replace non-breaking spaces
sb.setCollapse(true); // replace sequences of whitespaces
Parser parser = new Parser();
try {
parser.setInputHTML(html);
parser.visitAllNodesWith(sb);
} catch (ParserException e) {
return null;
}
String docText = sb.getStrings();
if (docText == null) docText = ""; // no content
return docText;
}
示例3: parseHtml
import org.htmlparser.Parser; //導入方法依賴的package包/類
/**
* @throws ParserException
*/
private void parseHtml() throws ParserException
{
htmlTags = new ArrayList();
Parser parser = new Parser();
parser.setInputHTML(fDocument.get());
for (NodeIterator e = parser.elements(); e.hasMoreNodes();)
{
Node node = e.nextNode();
VHtmlNodeVisitor htmlNodeVisitor = new VHtmlNodeVisitor();
node.accept(htmlNodeVisitor);
}
}