欢迎转载,请支持原创,保留原文链接:http://blog.ilibrary.me

#sumy 是什么 sumy 是一个机器摘要库,实现了LSA-5, LexRank, TextRank, Luhn, KL, Sum-Basic等摘要算法。

sumy 提供命令行程序供直接使用,也提供python库供代码集成.

sumy命令行怎么用

$ sumy lex-rank --length=10 --url=http://en.wikipedia.org/wiki/Automatic_summarization # what's summarization?
$ sumy luhn --language=czech --url=http://www.zdrojak.cz/clanky/automaticke-zabezpeceni/
$ sumy edmundson --language=czech --length=3% --url=http://cs.wikipedia.org/wiki/Bitva_u_Lipan
$ sumy_eval lex-rank reference_summary.txt --url=http://en.wikipedia.org/wiki/Automatic_summarization
$ sumy_eval lsa reference_summary.txt --language=czech --url=http://www.zdrojak.cz/clanky/automaticke-zabezpeceni/
$ sumy_eval edmundson reference_summary.txt --language=czech --url=http://cs.wikipedia.org/wiki/Bitva_u_Lipan

$ sumy --help # for more info

sumy python怎么用

简单粗暴,遍历各种算法。

def summarizations(originalText):
    for sum in [LSA, LexRank, Luhn, TextRank, SumBasic, KL]:
        parser = PlaintextParser.from_string(originalText, Tokenizer(LANGUAGE))
        # or for plain text files
        # parser = PlaintextParser.from_file("document.txt", Tokenizer(LANGUAGE))
        stemmer = Stemmer(LANGUAGE)

        summarizer = sum(stemmer)
        summarizer.stop_words = get_stop_words(LANGUAGE)

        
        for sentence in summarizer(parser.document, SENTENCES_COUNT):
            print(sentence)

sumy 效果怎样

Lex-rank, text-rank, luhn这三种效果感觉要优于其它算法。总体上,能用,但是和人工摘要还是差了些。