这几天一直在研究在Mysql下通过存储过程对数据库中的原始数据进行汇总计算。过程中感到难以接受的就是处理的速度。虽然使用了索引,已经大大增加了速度,但还是不够。对于三张表A,B,C,数据量分别为几百万,上千万,几十万的关联分析要一个多小时。并且这么大的数据量,光处理之前的拷贝备份就够痛苦了。一个偶然的机会接触到了Infobright,看了其架构白皮书和用户使用手册,觉得这个数据仓库工具应该不错,比较符合我对一款开源数据仓库软件的期待吧,尽管它在增、删、改方面做了很大的限制。我只对数据仓库中的数据进行查询,对我来说没有那些功能又有什么关系?
发现网上关于infobright的中文资料太少,至于怎么安装和使用,网上也只有张晏写的一篇在linux下的安装和使用的文章以及这篇文章的无限量拷贝版。操作系统我只会windows和ios,所以下面我想写一篇如何在windows下安装的文章。如果有人想在ios下安装,那请暂时去火星吧。
其实InfoBright在windows下安装非常简单,跟平常的软件安装没什么两样,让你accept的时候点accept,让你next的时候点next。
不同的是,我原以为这个程序装好了只要把Mysql重启就可以在Mysql中使用InfoBright的引擎和功能了(请原谅我这么天真,谁叫它一直在说它跟Mysql之间的关系呢?它不是还带着一个Mysql么?它不是基于Mysql的数据仓库么?)事实上我发现我错了,当我装好后,我用Navicat新建表,并没有找到传说中的BrightHouse引擎。后来阅读InfoBright的用户说明,里面也说到可以用MySQL客户端工具直接连InfoBright,这时候我突然明白,或许系统上同时运行了两个Mysql,其中一个就是InfoBright中的那个,我该如何连上去?
对了,客户端工具连上Mysql不都是要端口号么?想到这,我马上在任务管理器中找到InfoBright这个服务,其PID为26456,然后在cmd中输入netstat -ano命令,找到PID为26456的连接的端口为5029,然后用Navicat连接该端口,测试一下果然成功。
连接成功后在Navicat里新建一个表,这时就可以看到选项的“引擎”下有BrightHouse这个选项了。
这样我们就可以在此新建数据库,表等等。至于导入数据,只能用load file那个了,这是ICE的限制。关于它的查询效率究竟怎么样,我将进一步测试一下。