文本分析软件-智分析 SmartAnalyze
文本分析软件-智分析 SmartAnalyze
作者: AlexTan
CSDN: http://blog.csdn.net/alextan_
Github: https://github.com/AlexTan-b-z
e-mail: alextanbz@gmail.com
注:转载需注明出处
前言
目前,国内市面上几乎没有完整,且具有系统性的文本分析软件。
因此,要想运用自然语言处理技术进行文本数据分析,几乎都得涉及编程,有的做个词云图,都得耗费大量的精力查阅相关的资料,对于非技术人员来说,是一个门槛极高的过程。而很多文学领域,更需要使用文本分析从海量文本中提取重要信息,而对于大多数文学研究者来说,他们,基本上是不懂编程的!自然语言处理技术,对于他们来说,是一个奢侈的技术。
而国外,早已有层出不穷的文本分析软件(即自然语言处理工具,例如Gavagai、T-lab、NaturalText),使用这些软件,不需要编程,更不需要查很多技术资料。对于使用者来说能几乎做到无门槛!
为什么国外就有这么多的NLP(即Natural Language Processing,自然语言处理,是人工智能的一个子领域,文本分析技术的核心,以下都简称为NLP)软件,而在国内却寥寥无几?是咱们国家发展落后了?是咱们的技术赶不上人家了? 很大程度上,并不是!那是因为什么呢?
汉语的博大精深!汉语本身就要比世界上其他大多数语言的难度要难得多,不说什么唐诗宋词,就连最最基础的分词(分词,是NLP中最基础也是最重要的技术,一般NLP是以词为单位进行分析处理,而英文单词本身就是一个词,且词与词之间是自然隔开的。汉语不同,汉语里的词是由字构成,词与词直接并没有明显符号隔开,因此从某种角度上说,汉语NLP要比英文NLP难很多),都会碰到各种难解决的问题。例如下面这句话:
已结婚的和尚未结婚的青年都得实现计划生育。
分词不同,意思完全不同:
已结婚/的/和/尚未/结婚/的/青年/都/得/实行/计划/生育。
已结婚/的/和尚/未结婚/的/青年/都/得/实行/计划/生育。
这就造成了分词歧义的难题。而除此之外,还有好多词库(分词时可以参考词库中的词进行分词,目前虽然有很多自动化、不需要人工干预的分词算法,但效果都不理想。现在一般流行的是词库+算法的半自动分词模式)未收录的词,比如说人名、地名以及一些新的流行词,例如:“耗子为汁”、“一带一路”等,亦或者是某个专业领域的领域词,更是无从下手。
同时,加上国内很多国内研究者直接把国外Paper上的算法照搬到国内来分析汉语,效果自然很不理想。
因此,目前国内的NLP工具少之又少。
而智分析,便是来解决这一问题的。而读到这里的你可能会有疑问:智分析是如何解决以上问题的呢?
虽然对于某些特定领域而言,中文NLP技术还不算成熟,即使很多在国外已经成熟的算法,一旦运用在汉语上,准确率就显得没那么高。但是,不成熟并不代表不能运用,并不能全盘否定。何况,要让中文NLP技术走向成熟,靠的不仅仅是算法研究者、数学研究者,更不仅仅是那些技术研究者、编程的人!因为汉语本身,就属于人文社科领域的范畴,而对于这项技术而言,靠的不仅仅是技术,更多还需要人文社科研究者们一起齐头并进!
而智分析就是来做这样的事情的,人文社科研究者亦或者是普通的媒体工作者,都可以用它来做领域的专业词库(用传统的方法做词库是枯燥无趣且繁杂的,同时也许还需专业领域人士才能完成。而智分析通过新词发现算法,能通过数据,自动筛选出有可能成为新词的词语,只需要人工挑选即可。)。但并不是为了做词库而去做词库,因为做词库,仅仅是使用智分析的必经过程之一,是为了让智分析的结果更加精确!用另一句话说,顺便而已。
智分析提供关键词分析,词关联性分析,主题分析,计数项分析等功能,且都是通过可视化图形的形式来调试及展现结果,把复杂的数学算法隐藏在最底层,使用者可通过可视化的结果导向进行调试,最大程度降低NLP技术的使用门槛,让即使一点都不懂技术的人,也能使用NLP技术,发现文本奥秘。
智分析能做什么?
智分析简介如下:
智分析(SmartAnalyze)是一款基于自然语言处理技术的文本分析工具,同时通过可视化技术,大大减小了使用自然语言处理技术的门槛。
智分析主打傻瓜式、自动化,最大限度减少人工成本,完全不懂技术的用户也可以无障碍使用。
同时智分析秉着 “人工+智能=越用越智能” 的理念,使人工仅专注于领域内知识的刨析,相关技术性的东西可以完全交给智分析来处理,且人工也会使智分析更加的智能,分析得到更准确的结果。
此外,还可用智分析来做领域词库,让人文社科专业领域的NLP更加准确,同时也助力于汉语NLP技术的发展,带领汉语NLP技术更上一层楼。
那么你一定会好奇,智分析到底能做什么呢?
它能根据领导讲话内容作出这样的词云图,来展现领导讲话中的关键词:
也能作出这样的主题树图,来展现领导讲话中的主题分布:
还能通过时间字段来展现关键词以及主题的趋势:


还能通过计数项分析,分析出各类数据占比,同时还可结合时间、关键词等多维分析:


还能根据区块链相关专利的文本内容中分析出,区块链技术运用在存证领域中最为广泛:
智分析还能做的事情很多很多,还请大家自行使用尝试。
怎么用?
看到这里,可能有人会问,智分析到底怎么用呢?
其实使用方法很简单,前面已经说到:智分析已经尽量避免用户接触晦涩难懂的专业技术,把专业的东西都做到了最底层。
首先,只需要注册一个智分析用户,登陆进去后便可创建项目,然后上传文本文件(注意:普通用户上传的文件大小限制在100KB以内,如果没有文本文件,可在创建项目页面下载示例文件进行上传分析,上传的文本文件会通过特殊加密处理,保证其不会泄露)。创建项目完成后,点击项目即可进入项目,然后开始分析,即可开启你的智分析之旅,详细步骤请参考智分析官方使用手册中的快速入门中的四步开启您的智分析之旅。

然后怎么使用呢?
一方面,可通过新词发现功能进行词库的添加,另一方面可通过关键词提取功能进行停用词库的添加,添加完毕后,点击查看文件即可进行重新分析,详细步骤请参考智分析官方使用手册中的快速入门中的结果调试。


到这里,使用智分析的精髓就差不多啦,是不是特别简单?
更多的详细使用帮助请参考智分析官方使用手册,建议一边操作,一边阅读使用手册!当然,也许聪明的你可以完全不需要手册也能上手智分析
最后,感谢您的阅读,让我们为中文NLP技术贡献出自己的一份力量!
智分析官方网址:https://saz.codeghub.com
更多推荐



所有评论(0)