当前位置: 首页>>代码示例>>Java>>正文


Java CRFSegment类代码示例

本文整理汇总了Java中com.hankcs.hanlp.seg.CRF.CRFSegment的典型用法代码示例。如果您正苦于以下问题:Java CRFSegment类的具体用法?Java CRFSegment怎么用?Java CRFSegment使用的例子?那么恭喜您, 这里精选的类代码示例或许可以为您提供帮助。


CRFSegment类属于com.hankcs.hanlp.seg.CRF包,在下文中一共展示了CRFSegment类的8个代码示例,这些例子默认根据受欢迎程度排序。您可以为喜欢或者感觉有用的代码点赞,您的评价将有助于系统推荐出更棒的Java代码示例。

示例1: createCRF

import com.hankcs.hanlp.seg.CRF.CRFSegment; //导入依赖的package包/类
public static HanLPTokenizerFactory createCRF(IndexSettings indexSettings, Environment environment, String name, Settings settings) {
    return new HanLPTokenizerFactory(indexSettings, environment, name, settings) {
        @Override
        public Tokenizer create() {
            Segment seg = new CRFSegment().enablePartOfSpeechTagging(true);
            return new HanLPTokenizer(seg, null, enablePorterStemming);
        }
    };
}
 
开发者ID:hualongdata,项目名称:hanlp-ext,代码行数:10,代码来源:HanLPTokenizerFactory.java

示例2: testSegment

import com.hankcs.hanlp.seg.CRF.CRFSegment; //导入依赖的package包/类
public void testSegment() throws Exception
    {
        HanLP.Config.enableDebug();
        CRFSegment segment = new CRFSegment();
//        segment.enablePartOfSpeechTagging(true);
        System.out.println(segment.seg("乐视超级手机能否承载贾布斯的生态梦"));
    }
 
开发者ID:priester,项目名称:hanlpStudy,代码行数:8,代码来源:TestCRF.java

示例3: testEnglishAndNumber

import com.hankcs.hanlp.seg.CRF.CRFSegment; //导入依赖的package包/类
public void testEnglishAndNumber() throws Exception
    {
        String text = "2.34米";
//        System.out.println(CRFSegment.atomSegment(text.toCharArray()));
        HanLP.Config.enableDebug();
        CRFSegment segment = new CRFSegment();
        System.out.println(segment.seg(text));
    }
 
开发者ID:priester,项目名称:hanlpStudy,代码行数:9,代码来源:TestCRF.java

示例4: testIssue199

import com.hankcs.hanlp.seg.CRF.CRFSegment; //导入依赖的package包/类
public void testIssue199() throws Exception
{
    Segment segment = new CRFSegment();
    segment.enableCustomDictionary(false);// 开启自定义词典
    segment.enablePartOfSpeechTagging(true);
    List<Term> termList = segment.seg("更多采购");
    System.out.println(termList);
    for (Term term : termList)
    {
        if (term.nature == null)
        {
            System.out.println("识别到新词:" + term.word);
        }
    }
}
 
开发者ID:priester,项目名称:hanlpStudy,代码行数:16,代码来源:TestSegment.java

示例5: testCRFSegment

import com.hankcs.hanlp.seg.CRF.CRFSegment; //导入依赖的package包/类
public void testCRFSegment() throws Exception
    {
        HanLP.Config.enableDebug();
//        HanLP.Config.ShowTermNature = false;
        Segment segment = new CRFSegment();
        System.out.println(segment.seg("有句谚语叫做一个萝卜一个坑儿"));
    }
 
开发者ID:priester,项目名称:hanlpStudy,代码行数:8,代码来源:TestSegment.java

示例6: main

import com.hankcs.hanlp.seg.CRF.CRFSegment; //导入依赖的package包/类
public static void main(String[] args)
{
    HanLP.Config.ShowTermNature = false;    // 关闭词性显示
    Segment segment = new CRFSegment();
    String[] sentenceArray = new String[]
            {
                    "HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。",
                    "鐵桿部隊憤怒情緒集結 馬英九腹背受敵",           // 繁体无压力
                    "馬英九回應連勝文“丐幫說”:稱黨內同志談話應謹慎",
                    "高锰酸钾,强氧化剂,紫红色晶体,可溶于水,遇乙醇即被还原。常用作消毒剂、水净化剂、氧化剂、漂白剂、毒气吸收剂、二氧化碳精制剂等。", // 专业名词有一定辨识能力
                    "《夜晚的骰子》通过描述浅草的舞女在暗夜中扔骰子的情景,寄托了作者对庶民生活区的情感",    // 非新闻语料
                    "这个像是真的[委屈]前面那个打扮太江户了,一点不上品[email protected]",                       // 微博
                    "鼎泰丰的小笼一点味道也没有...每样都淡淡的...淡淡的,哪有食堂2A的好次",
                    "克里斯蒂娜·克罗尔说:不,我不是虎妈。我全家都热爱音乐,我也鼓励他们这么做。",
                    "今日APPS:Sago Mini Toolbox培养孩子动手能力",
                    "财政部副部长王保安调任国家统计局党组书记",
                    "2.34米男子娶1.53米女粉丝 称夫妻生活没问题",
                    "你看过穆赫兰道吗",
                    "国办发布网络提速降费十四条指导意见 鼓励流量不清零",
                    "乐视超级手机能否承载贾布斯的生态梦"
            };
    for (String sentence : sentenceArray)
    {
        List<Term> termList = segment.seg(sentence);
        System.out.println(termList);
    }
}
 
开发者ID:ml-distribution,项目名称:HanLP,代码行数:28,代码来源:DemoCRFSegment.java

示例7: testCRFSegment

import com.hankcs.hanlp.seg.CRF.CRFSegment; //导入依赖的package包/类
public void testCRFSegment() throws Exception
    {
//        HanLP.Config.enableDebug();
        HanLP.Config.ShowTermNature = false;
        Segment segment = new CRFSegment();
        System.out.println(segment.seg("尼玛不是新词,王尼玛是新词"));
        System.out.println(segment.seg("周杰伦在出品范特西之后,又出品了依然范特西"));
    }
 
开发者ID:ml-distribution,项目名称:HanLP,代码行数:9,代码来源:TestSegment.java

示例8: main

import com.hankcs.hanlp.seg.CRF.CRFSegment; //导入依赖的package包/类
public static void main(String[] args)
{
    Segment segment = new CRFSegment(); // CRF分词器效果好,速度慢,并行化之后可以提高一些速度

    String text = "举办纪念活动铭记二战历史,不忘战争带给人类的深重灾难,是为了防止悲剧重演,确保和平永驻;" +
            "铭记二战历史,更是为了提醒国际社会,需要共同捍卫二战胜利成果和国际公平正义," +
            "必须警惕和抵制在历史认知和维护战后国际秩序问题上的倒行逆施。";
    HanLP.Config.ShowTermNature = false;
    System.out.println(segment.seg(text));
    int pressure = 10000;
    StringBuilder sbBigText = new StringBuilder(text.length() * pressure);
    for (int i = 0; i < pressure; i++)
    {
        sbBigText.append(text);
    }
    text = sbBigText.toString();
    System.gc();

    long start;
    double costTime;
    // 测个速度

    segment.enableMultithreading(false);
    start = System.currentTimeMillis();
    segment.seg(text);
    costTime = (System.currentTimeMillis() - start) / (double) 1000;
    System.out.printf("单线程分词速度:%.2f字每秒\n", text.length() / costTime);
    System.gc();

    segment.enableMultithreading(true); // 或者 segment.enableMultithreading(4);
    start = System.currentTimeMillis();
    segment.seg(text);
    costTime = (System.currentTimeMillis() - start) / (double) 1000;
    System.out.printf("多线程分词速度:%.2f字每秒\n", text.length() / costTime);
    System.gc();

    // Note:
    // 内部的并行化机制可以对1万字以上的大文本开启多线程分词
    // 另一方面,HanLP中的任何Segment本身都是线程安全的。
    // 你可以开10个线程用同一个CRFSegment对象切分任意文本,不需要任何线程同步的措施,每个线程都可以得到正确的结果。
}
 
开发者ID:priester,项目名称:hanlpStudy,代码行数:42,代码来源:DemoMultithreadingSegment.java


注:本文中的com.hankcs.hanlp.seg.CRF.CRFSegment类示例由纯净天空整理自Github/MSDocs等开源代码及文档管理平台,相关代码片段筛选自各路编程大神贡献的开源项目,源码版权归原作者所有,传播和使用请参考对应项目的License;未经允许,请勿转载。