本文整理汇总了Java中org.apache.tika.parser.html.HtmlParser.parse方法的典型用法代码示例。如果您正苦于以下问题:Java HtmlParser.parse方法的具体用法?Java HtmlParser.parse怎么用?Java HtmlParser.parse使用的例子?那么, 这里精选的方法代码示例或许可以为您提供帮助。您也可以进一步了解该方法所在类org.apache.tika.parser.html.HtmlParser
的用法示例。
在下文中一共展示了HtmlParser.parse方法的2个代码示例,这些例子默认根据受欢迎程度排序。您可以为喜欢或者感觉有用的代码点赞,您的评价将有助于系统推荐出更棒的Java代码示例。
示例1: parse
import org.apache.tika.parser.html.HtmlParser; //导入方法依赖的package包/类
/**
* @see SchemaParser#parse(Request)
*/
@Override
public Schema parse(Request request) {
try {
SimpleHeadersContentHandler headersContentHandler = new SimpleHeadersContentHandler();
InputStream inputStream = request.getContent();
HtmlParser htmlParser = new HtmlParser();
Metadata metadata = new Metadata();
htmlParser.parse(inputStream, headersContentHandler, metadata, new ParseContext());
List<ColumnMetadata> columns = new ArrayList<>(headersContentHandler.getHeaderValues().size());
for (String headerValue : headersContentHandler.getHeaderValues()) {
columns.add(ColumnMetadata.Builder.column() //
.type(Type.STRING) // ATM not doing any complicated type calculation
.name(headerValue) //
.id(columns.size()) //
.build());
}
Schema.SheetContent sheetContent = new Schema.SheetContent();
sheetContent.setColumnMetadatas(columns);
return Schema.Builder.parserResult() //
.sheetContents(Collections.singletonList(sheetContent)) //
.draft(false) //
.build();
} catch (Exception e) {
LOGGER.debug("Exception during parsing html request :" + e.getMessage(), e);
throw new TDPException(CommonErrorCodes.UNEXPECTED_EXCEPTION, e);
}
}
示例2: parseHTML
import org.apache.tika.parser.html.HtmlParser; //导入方法依赖的package包/类
private String parseHTML(String text, HtmlParser htmlParser) throws IOException, SAXException, TikaException {
StringWriter writer = new StringWriter();
ContentHandler contentHandler = new BodyContentHandler(writer);
Metadata metadata = new Metadata();
metadata.set(Metadata.CONTENT_TYPE, "text/html");
htmlParser.parse(StringUtils.getInputStream(text), contentHandler, metadata, new ParseContext());
return writer.toString();
}