本文涵盖了一个简单的C实现的搜索引擎的搭建始末。
我通常使用SQL Server和C #,但我教C/C++的朋友要远离微软。在过去,MySQL不是我想要的数据库,因为标准安装版不支持事务,但它变得越来越成熟。我使用64位InnoDB引擎的MySQL 5.6,使用Unicode(utf8)编码,这是我新数据库的默认设置。
Freetext是InnoDB的新特征,它在MySQL5.6版中被首次推出。
与C相比我通常更喜欢C++,即使在小项目中:不用知道所有的函数名,而且有一些内置的常用操作和漂亮的IntelliSense支持。在C++中,还有有STL及集合和字符串助手。
C++的Mysql接口比较弱,而C的接口很成熟,所以我决定使用C接口。
C的dll文件是和WCF一起发布的,以便完成AJAX请求,在Visual Studio Ultimate 2012中我使用C#的"WCF Service Application"模板,我搜索了使用C++搭建WebService的方法,但只找到一些使用C++处理WebServices调用的例子。
用户界面是一个使用Jquery和Jquery-UI自动提示的HTML界面,页面被增加到"WCF服务应用",项目被命名为VisionWeb
网页看起来是这样的:
我在.NET框架4.0,64位系统上配置这个项目,如果你使用32位的Mysql服务器,你必需随之做些更改。记得设置UNICODE选项为默认值。
配置MySQL
你有可能会从VisionSmall中打开这个VisionDAL项目, 假定你必须修改连接MySQL的C程序接口. 在这儿,我介绍了如何在新项目中安装MySQL接口: 检查那些设置是否符合你的要求,尤其是mysql.lib文件和VisionDAL.dll的路径.
在Visual Studio中,添加一个VisionDAL工程, 通过这个流程"Other Languages/Visual C++/Empty Project". 在这之中, 你只需要改变"应用类型" 为DLL. 把VisionDAL.cpp改名为VisionDAL.c, 这就清楚的告诉Visual Studio把编译器从C++改为C. 给这个工程添加一个头文件命名为VisionDAL.h.
在窗口中, 右击VisionDAL工程并选择属性. 然后在"配置属性"/Linker/Input, 选择 "Additional Dependencies" 并且添加libmysql.lib 到这个路径, 不要忘记了分隔符 ";".
在 "配置属性"/Linker/General这个菜单下, 选择"添加库目录" ,对我来说就是添加 C:\Program Files\MySQL\MySQL Server 5.6\lib>这个目录. 现在我们已经连接到C接口, 但是在libmysql.lib中调用执行的DLL必须是系统的可执行路径: 从控制面板, 选择系统, 点击 "高级系统设置", "点出环境变量" 在 "系统变量"下面,选择路径, 并添加这个 libmysql.lib 的路径 (DLL和这个lib文件在相同的文件夹里): C:\Program Files\MySQL\MySQL Server 5.6\lib.
我们也需要把这个VisionDal.dll放到我们的path路径里, IIS 并不能从这个网站的bin目录中取到DLL文件. 添加 <项目路径>/x64/debug 到路径变量path里. 重启后生效. 当网站得到一个request请求时将会加载VisionDAL.dll; 如果你现在重建项目, 你会得到一个VisionDAL.dll的写入错误: 为了解决它, 重启该网站或是用unlocker之类的解锁.
如果需要指定VisonDAL的包含属性. 在 "配置属性"/"C/C++" 菜单下添加MYSQL的头文件路径, 例如像这样: C:\Program Files\MySQL\MySQL Server 5.6\include.
下面我们在“C/C++”/"预编译头"菜单栏中,从“预编译头”切换到“不使用预编译头”,设置Preproccessor定义防止使用strcpy和fopen时产生的错误消息:在"C/C++"/预编译器/"预编译器定义 "中设定SE_STANDARD_FILE_FUNCTIONS和_CRT_SECURE_NO_WARNINGS。
当你现在连接,mysqllib引用的问题并没有解决,因为它们是64位处理器。通过在VisionDal中打开工程属性,选择“配置管理”,然后设置为x64平台。
现在我们来创建名为 Vision 的样本数据库
打开SQL Development 中的 MySql 工作台,打开你的实例。将会出现一个新窗口 "SQL File 1" 。 双击VisionDAL项目中的 Sql.txt 文件。复制所有内容到剪贴板,粘贴到工作台中的"SQL File 1"窗口。 点击螺栓图标(左边第三个图标),创建样本数据库。
接下来我们需要用来数据库登录的通用信息。
我们有一个关于此的配置文件: <installation director>VisionSmall\x64\Debug\VisionConfiguration.txt, 看起来像这样:
Host: localhost
User: root
Password: frob4frob
Database: vision
Port: 3306</div>
修改这些数值以匹配你的SQL-Configuration。
Vision 数据库
数据库中只有一张表
CREATE TABLE 'document' ( 'DocumentID' int(11) NOT NULL AUTO_INCREMENT, 'Title' varchar(255) DEFAULT NULL, 'Text' text, PRIMARY KEY ('DocumentID'), FULLTEXT KEY 'ft' ('Title','Text'), FULLTEXT KEY 'ftTitle' ('Title') ) ENGINE=InnoDB AUTO_INCREMENT=5 DEFAULT CHARSET=utf8;</div>
搜索的时候我们使用名为'ft'的全文索引,查找自动完成单词的时候我们使用名为'ftTitle'的全文索引。
如果你拥有一个很多字段的全文索引,你可以在Microsoft SQL Server中选择,查询的时候,哪个字段被包含进搜索。在MySQL中,通常全文索引的所有字段都被搜索,所以我们必须指定额外的全文索引'ftTitle'。
通过C接口进行MySQL查询
首先呢,为了执行查询我们需要连接到数据库并取得一个MYSQL的指针:
MYSQL *Connect(){ MYSQL *conn; // Connection // 连接到MySQL conn = mysql_init(NULL); if(mysql_real_connect( conn, Configuration.Host, Configuration.User, Configuration.Password, Configuration.Database, Configuration.Port, NULL, 0) == NULL) { fprintf(stderr, "sorry, no database connection ...\n"); return NULL; } return conn; }</div>
在启动的时候我们把VisionConfiguration.txt文件里的变量赋值到全局变量, 这个文件应该和我们的程序在同一目录. 这是一个例行操作.获取当前运行程序目录是通过Win32 API的GetModuleFileName函数,如下:
TCHAR *GetExecutablePath(){ TCHAR *pBuf = (TCHAR *)malloc(512); int bytes = GetModuleFileName(NULL, pBuf, 255); if(bytes == 0) return NULL; else return pBuf; }</div>
这里只有一个程序我们想要说明:GetDocuments. 在头文件定义:
#define FORMAT_TEXT 0 #define FORMAT_JSON 1</div>
__declspec(dllexport) TCHAR* __cdecl GetDocuments(TCHAR *search, int format, int forAutocomplete);
在资源文件中定义:
__declspec(dllexport) TCHAR* GetDocuments(TCHAR *search, int format, int forAutocomplete)
__declspec(dllexport)的声明和定义实现是通过添加到VisionDAL.lib文件并通过VisionDAL.dll文件输出.__cdecl定义如何调用这个过程, 这里我们使用C风格的调用约定.当UNICODE定义被设置时,TCHAR和WCHAR是一样的,否则TCHAR就是一个简单的char, 假定我们这里的UNICODE 已经设置好了.
- 注意这里有一些不同的 Unicode格式:
- 在C语言里我们使用两个字节来表示一个char值
- 在MYSQL和.NET 框架的UTF-8格式, 它意味着一个字节对应一个字符并且仅在超过一个字节被使用时
- 在终端程序中通过用一个字符对应一个字符并且当值大于127时使用Codepage 850.
参数格式是 FORMAT_TEXT 和 FORMAT_JSON,来保证输出在text和 JSON之间.
如果forAutocomplete是true,那么只有标题被搜索并返回.
VisionDALClientConsole
VisionDALClientConsole是一个很小的Windows Console应用程序。测试我们的GetDocuments程序将会涉及到VisionDAL工程集合,它将文件从VisionDAL输出到 VisionSmall\x64\Debug 。
VisionDALClientConsole 发出搜索字串请求,包括通配符“*”,它将会搜索title列和text列,并通过调用GetDocuments将字符输出。
一个简单的例子:
main 入口:
int _tmain(int argc,TCHAR* argv[]) { char c; TCHAR *result; TCHAR *search = (TCHAR *)malloc(1000*2); char *searchA = (char *)malloc(1000); int retval = 1; char buffer[32000]