查看:1854|回复:0
MongoDb+GridFS+Nginx闲谈发表时间:2010-08-30 22:57:29

大虾

0分享0主题0帖子

学徒一级

(初出茅庐)

MongoDb果然是个好东西. 最近的一个项目实践中, 实验性的用到了这个东西.

在测试中,对于GridFS相当满意. 首先, 和传统的MogileFS不同, gridfs可以和其它的meta数据部署在同一个

db中,默认的会为gridfs的collection分别创建fs.files和fs.chunks.

当存储一个文件时,可以附加存入任意的附加信息,因为这些信息实际上也是一个普通的collection.

这个特性给我们省了好多的事情. 以前,如果要存储一个附件,通常的做法是,在主数据库中存放文件的属性,并且记录

文件的path.当查询某个文件时,需要首先查询数据库,获得path,然后从存储系统中获得相应的文件.


在使用gridfs时,则非常简单, 我们可以直接将这些信息直接存储到文件中. 比如下面的PHP代码,存储上传的文件到gridfs:



public function store($file,$attrs=array()) {

if (!is_file($file)) {

throw new CZone_Core_Service_Exception("File:$file not exists");

}


$defaults = array(

’content_type’=> null,

’art_id’=>-1,

’state’ => self::STORE_STATE_TMP,

’created_on’ => time(),

’is_thumb’=> false,

’md5’=> md5_file($file)

);


$asset_attrs = $attrs+$defaults;

if (!isset($asset_attrs[’content_type’])) {

$asset_attrs[’content_type’] = Doggy_Util_File::mime_content_type($file);

}


$fs = $this->db->get_fs();

return $fs->storeFile($file,$asset_attrs);

}


调用store时,可以附件任意属性数组. 之后, 检索文件时则可以根据这些属性来查找:




public function fetch_by_id($id) {

return $this->fetch(array(’_id’=>$id));

}


public function delete_by_id($id) {

return $this->delete(array(’_id’=>$id));

}


public function delete_art_assets($art_id) {

return $this->delete(array(’art_id’=>$art_id));

}


public function delete_asset($asset_id) {

return $this->delete_by_id($asset_id) && $this->delete_asset_thumbs($asset_id);

}


public function delete($options) {

if (isset($options[’_id’])) {

$options[’_id’] = Doggy_Mongo_Db::id($options[’_id’]);

}

$fs = $this->db->get_fs();

return $fs->remove($options);

}


public function find_all($query=array(),$fields=array()) {

return $this->db->fs_find($query,$fields);

}


使用gridfs,可以把原先复杂的操作变得相当简单, 真正实现了mogodb设计者的想法,

数据库为什么不能做文件系统?


在实践中,我发现GridFS和之前研究的MogileFS一些基本方式其实是相通的. 只不过, mogilefs的存储节点是

使用了简化版本的DAV 而已.

从这个角度,完全可以设计一个基于mongo gridfs的mogilefs.


至于性能, 从我的体会来说, 还不错. 毕竟我的项目的目前看存储仅限于TB级别.

不过在生产环境中,国外有用于存储视频流的.


GridFS的一个优点是可以存储上百万的文件而无需担心扩容性.

通过同步复制,可以解决分布式文件的备份问题.

目前,mongo支持主-从和Replica Pairs以及受限的Master-Master Replication.

比较实用的还是前2种.


通过ARP-ping可以实现一个双机热备切换,类似我正在用的mysql的mmm.


在实验过后,感觉使用mongo是非常轻松. 很轻松就解决了高并发中经常会遇到的问题,

比如实时的日志处理,实时的统计,更新某个字段.

通过使用mongo的capped collection,可以实现cache, message queue等特性,无需附加成本.

还有share session.


部署


gridfs的部署的选择方案不多,大概有以下几种:


1. 通过mongo client 的script, 比如PHP.

优点是简单,缺点是每次都要读取mongo数据库. 虽然mongo的性能不错,但是似乎总是不忍.

另外,像PHP的DRIVER并不支持HTTP RANGE header,这样就无法支持断点续传.


2.使用Nginx module


http://github.com/mdirolf/nginx-gridfs


这是gridfs的nginx module. 可以通过nginx直接访问读取mongo gridfs中的文件.

和nginx对应的mogilefs module类似.


优点: 由于直接通过nginx,速度是最快的.

缺点: 只能通过file_path来查找,目前不支持_id来查找.因此必须在file_path上建立索引.


优化方案:

我自己构想了以下的优化方案:


1. squid/varnish+script-backend

在nginx前端加上一个squid或者varnish作为反向加速. 如果没有则通过 PHP脚本来获取.

应用场景: 特别适合读取频繁的文件,比如用户的头像,热门图片,缩略图等. 不适合大文件.

缺点: 文件的过期必须正确设置. 此外配置好varnish或者squid


2. 基于proxy_store或fastcgi-cache, try_files

这种方案的应用场景同1, 但都是使用nginx的相应模块即可实现.

通过对fastcgi/proxy进行cache或store,就可以实现文件按需存储.

当使用proxy_store时,当后端文件变动时,需要purge这些文件.实现起来不难.


对于大文件,我觉得性价比比较高的一个方案是:

使用Perl或者PHP写一个脚本作为fastcgi运行. 前端用nginx进行负载均衡.

如果使用Pelr则当前driver支持随机读取,支持断点续传. 用PHP则需要做个简单处理,

手动判断HEADER,并计算出offset,然后再读取相应的字节流.

注意,如果是用PHP,则最好的方案是单独编译一个PHP,仅保留”最基本”的特性.

这样,可以节省很多的资源占用,稳定性和速度也比较好.我建议的保留的特性有:

json+mongo+spl.

PHP driver要比Perl更为成熟,虽然二者核心开发者都是一个人. Perl目前还是beta,也没有特别

广泛的使用,但据说由于大部分使用的是PHP的C代码,所以还是非常可靠的.


其他一些信息:

1.通过runcommand可以直接在mongodb端运行处理脚本. 比如像mapreduce,或者一些需要读取数据然后进行处理的.

这些command则是使用javascript方式来编写的,很容易. 好处就是避免了数据在服务端和客户端之间的读取和传输,

提高效率.

2. sharding

sharding在目前开发版中已经具备,但还不成熟. 但是可以自己实现sharding比较好.因为目前的sharding还是比较硬性的.

3.灵活使用magic操作符和upsert,比如$inc,$all,$in 等等

这些轻松解决一些麻烦的操作.


3.其他的复制方案

对于文件系统, 其实可以通过一个脚本来定期将文件复制到其他的节点. 实现类似mogilefs的功能.

我对此比较有兴趣.


相关帖子

您需要登录以后才可以回帖    登录|注册