当前位置: 首页>>代码示例>>Java>>正文


Java Spider.run方法代码示例

本文整理汇总了Java中us.codecraft.webmagic.Spider.run方法的典型用法代码示例。如果您正苦于以下问题:Java Spider.run方法的具体用法?Java Spider.run怎么用?Java Spider.run使用的例子?那么, 这里精选的方法代码示例或许可以为您提供帮助。您也可以进一步了解该方法所在us.codecraft.webmagic.Spider的用法示例。


在下文中一共展示了Spider.run方法的4个代码示例,这些例子默认根据受欢迎程度排序。您可以为喜欢或者感觉有用的代码点赞,您的评价将有助于系统推荐出更棒的Java代码示例。

示例1: startSpider

import us.codecraft.webmagic.Spider; //导入方法依赖的package包/类
private static void startSpider(Params params) {
    ScriptProcessor pageProcessor = ScriptProcessorBuilder.custom()
            .language(params.getLanguage()).scriptFromFile(params.getScriptFileName()).thread(params.getThread()).build();
    pageProcessor.getSite().setSleepTime(params.getSleepTime());
    pageProcessor.getSite().setRetryTimes(3);
    pageProcessor.getSite().setAcceptStatCode(WMCollections.<Integer>newHashSet(200, 404,403, 500,502));
    Spider spider = Spider.create(pageProcessor).thread(params.getThread());
    spider.clearPipeline().addPipeline(new Pipeline() {
        @Override
        public void process(ResultItems resultItems, Task task) {

        }
    });
    if (params.getUrls() == null || params.getUrls().size() == 0) {
        System.err.println("Need at least one argument");
        System.out.println("Usage: java -jar webmagic.jar [-l language] -f script file [-t threadnum] [-s sleep time] url1 [url2 url3]");
        System.exit(-1);
    }
    for (String url : params.getUrls()) {
        spider.addUrl(url);
    }
    spider.run();
}
 
开发者ID:code4craft,项目名称:webmagic,代码行数:24,代码来源:ScriptConsole.java

示例2: main

import us.codecraft.webmagic.Spider; //导入方法依赖的package包/类
public static void main(String[] args) throws JMException {
    Spider spider = Spider.create(new OschinaBlogPageProcesser())
            .setScheduler(new QueueScheduler().setDuplicateRemover(new BloomFilterDuplicateRemover(2000)))
            .addUrl("http://my.oschina.net/flashsword/blog");
    //spider.addUrl("http://my.oschina.net/flashsword/blog");
    SpiderMonitor.instance().register(spider);

    spider.run();
}
 
开发者ID:mikeqian,项目名称:house,代码行数:10,代码来源:OschinaBlogPageProcesser.java

示例3: main

import us.codecraft.webmagic.Spider; //导入方法依赖的package包/类
public static void main(String[] args) {
    Spider spider = Spider.create(new ZipCodePageProcessor()).scheduler(new PriorityScheduler()).addUrl("http://www.ip138.com/post/");

    spider.run();
}
 
开发者ID:mikeqian,项目名称:house,代码行数:6,代码来源:ZipCodePageProcessor.java

示例4: testSeedUrlWithPort

import us.codecraft.webmagic.Spider; //导入方法依赖的package包/类
@Test
public void testSeedUrlWithPort() throws JMException {
    Spider spider = Spider.create(new TempProcessor()).addUrl("http://www.hndpf.org:8889/");
    SpiderMonitor.instance().register(spider);
    spider.run();
}
 
开发者ID:code4craft,项目名称:webmagic,代码行数:7,代码来源:SeedUrlWithPortTest.java


注:本文中的us.codecraft.webmagic.Spider.run方法示例由纯净天空整理自Github/MSDocs等开源代码及文档管理平台,相关代码片段筛选自各路编程大神贡献的开源项目,源码版权归原作者所有,传播和使用请参考对应项目的License;未经允许,请勿转载。