GooSeeker分词和情感分析工具通过扩展模块提供了聚类、LDA、主题发现(Top2Vec)等需要机器学习和深度学习的功能。这些功能往往需要比较大的机器学习或深度学习的模型,处理程序本身也很大。目前,压缩后的扩展模块是300多兆,解压以后尺寸增加了好几倍。另外,用户导入的文本数据经过运算以后,也会产生很多中间数据文件和最终结果文件。所以,如果电脑上有数据盘,比如,D盘,最好把扩展模块安装在数据盘上。 【注意】在安装扩展模块之前,必须在集搜客数据管家软件上进行设置,指定扩展模块的安装位置。如果已经安装了扩展模块,看下面的转移说明。 1. 指定扩展模块的安装位置 如上图,在集搜客数据管家的管理界面上,设置数据库存储路径。这里所谓的数据库就是指分词扩展功能的程序和数据库。 点击选择路径按钮后,看到资源管理器窗口。选择D盘,可以如图那样点击“新建文件夹”,并给新建文件夹起一个名字,比如,GooSeekerTag。然后选上这个文件夹(如上图,点击这个文件夹,这个文件夹图标的背景变成灰色表示选上了),然后点击选择文件夹按钮。就会在集搜客数据管家的管理界面上看到数据库存储路径变了。 【注意】千万不要共享使用数据管家的程序安装位置,防止相同名字的文件被覆盖。 2. 安装分词扩展模块 指定了新文件夹以后,像分词扩展模块首页上讲解的方法重新安装扩展模块即可。 3. 转移以前安装的扩展模块的程序和数据 如果以前使用过扩展模块,现在想把以前建立的任务和数据都移过来,那么,进入原先的安装位置,缺省是在 c:\Users\xxx\GooSeekerTag。其中,xxx就是登录windows所用的名字。打开资源浏览器的时候,缺省所在的工作目录,也叫$HOME目录。 c:\Users\xxx\GooSeekerTag中的bin文件夹是扩展模块的程序,其他是数据。可以连程序带数据都拷贝过来,也可以只拷贝数据。 4. 数据管家的安装位置 集搜客数据管家在安装的时候会有两个提示:
如果指定安装位置,数据管家也可以安装在数据盘上。有些杀毒软件,例如,360,火绒等,往往会开启系统文件保护功能,会把系统盘中的文件和目录的权限自动修改了。数据管家在运行的时候,会在硬盘上缓存很多采集到的网页数据,如果没有指定安装到数据盘,有可能由于没有文件写权限导致运行不正常。稳妥起见,安装的时候选择只为自己安装,而不是为所有用户安装。 【注意】千万不要共享使用扩展模块的存放位置,防止相同名字的文件被覆盖。 5. 数据管家采集结果数据的存放位置 除了数据管家程序的安装位置以外,还有爬虫功能存储采集结果的磁盘位置。这是跟程序位置不一样的,可以单独指定。如下图: |