PHP定时任务全量同步开发方案

2015/01/18 | 星期日 分类:PHP | 没有评论 标签: , | 作者: | 2,177 views

最近开发了几个定时任务,全量同步个人基本信息(Oracle数据同步到MySql),浏览量延迟更新,每日订阅邮件发送,年度统计报表汇总等开发任务,万变不离其宗,几乎一样的业务逻辑,完成任务开发工作。

定时任务有“串行”,“并行”执行,即所谓的单线程与多线程,本文就介绍一种串行的任务开发成多线程执行方法,时间超短的关键场景串行执行,到数据处理(耗时大)并行执行方案,这就好比电脑、手机CPU多核的缘故,瞬间“高大上”。

定时任务使用场景有哪些呢?.seedpaddy.com
系统版本升级,业务数据结构改动,有时不可避免的需要刷相应的全量数据;不同系统之间数据全量同步,比如用户信息全量同步;报表统计,比如年度统计报表等等;

定时任务尽量满足如下条件:

  1. 可单个执行(单数据调试,同步);
  2. 分时、分段执行(避免执行超时或内存溢出);
  3. 可多线程执行(数据量大提高执行效率,避免几天没法完成刷数据或全量同步);
  4. 可重复执行(这个非必须)。

看业务流程图:
timer-corntab

图解,定时任务进程启动,设置Memcache锁,到解除Memcache锁,这一步操作是串行执行,主要耗时在取数据阶段(此时定时任务,对大数据量操作尽量SQL简单,带索引查询哦,减少串行阻塞);只要Memcache没锁,任务往下执行。

有了内存锁,为啥还要文件锁?当任务并发来时,程序就会异常,此时定时任务满足条件4就不影响,否则增加一个文件锁,程序会更加严谨(定时任务可控性,建议多个进程跑时,尽量错开运行)。.seedpaddy.com

为啥有标志位?标志位其实就是为了顺序取数据,或者判断定时任务跑了一个全量,是否循环继续跑定时任务,比如全量同步个人信息,取数据阶段若没取到数据,则可以设置标志位为复位(一般设为0即可)。

解除Memcache锁定后,就到了定时任务的核心(数据处理),此处根据业务需求,酌情开发,不再另阐述。

文章中使用到的知识点:Memcache锁,文件锁请参考另外一篇博客:
PHP文件锁核心类库与Flock锁函数

2015年1月27日,优化版流程图:
timer-corntab-better

PHP与Memcache结合浏览量延迟方案

2015/01/11 | 星期日 分类:PHP | 没有评论 标签: , | 作者: | 2,267 views

这篇干货,适用中小型网站浏览更新频繁,减少mysql服务器(鸭梨),减少服务器io的一种绝佳方案。

平常在工作,开发中设计或做数据统计的时候,习惯把浏览量放在资源表中,一般小网站做法是访问一次更新一次资源浏览量:比如blog系统,访问blog详情页时,blog浏览量增加1,就会做一次数据update,这样的后果是,频繁更新数据库,造成数据库链接过多 + 服务器IQ读写频繁,网站浏览量稍大点服务器就容易宕机。.seedpaddy.com

看图说话,浏览量更新流程图.seedpaddy.com
view-delay

结合上图,解析下流程图:
1.资源浏览量,比如blog详情页的浏览量 views = mysql(数据表的浏览量) + memcache(浏览量) 每次访客访问blog详情页,浏览量就会+1,使用浏览延迟更新,仅更新memcache中的浏览量,并把浏览量缓存的key hash到array中(这很重要),当memcache中的浏览量达到某一值,比如100时,做一次update mysql数据的浏览量,并即时把memcache的浏览量设置为0。

2.由于资源浏览量部分保存在memcache中,重启memcache,或者其他原因,浏览量会丢失,需要额外开发一个定时任务更新缓存的浏览量到mysql中;
阅读全文

PHP之in_array,isset,strpos对比与效率优化

2015/01/10 | 星期六 分类:PHP | 没有评论 标签: , | 作者: | 2,085 views

PHP内部函数有时也有不靠谱的时候,比如:in_array也是一个坑,当自己项目中出现了效率问题后,才不断的追踪,查阅相关资料解决这等难题,才有了这篇文章,转帖加工解决实际难题。

或许这就是一个小公司与大公司的区别,或许一个普通开发与资深的区别,或许这就月薪是拿15K的分水岭,这篇文章绝对干货,值得细细品味。.seedpaddy.com

项目开发中不少地方可能都用过in_array来判断一个数据是否在一个数组中,一般我们的数组可能数据都比较小,对性能没什么影响,所以也就不会太在意,但是如果数组比较大的时候,且频繁或循环调用时性能就会下降厉害,运行效率差,那如果针对在大数组情况下做优化呢,下面说两种方法(都是通过自定义函数+内部函数来实现):

1.数组key与value翻转,通过isset判断key是否存在于数组中

至于为什么不用 array_key_exists 来做判断二用isset呢?.seedpaddy.com
下面看下array_key_exists() 与 isset() 的对比:

isset()对于数组中为NULL的值不会返回TRUE,而array_key_exists()会。

$search_array = array(‘first’ => null, ‘second’ => 4);

isset($search_array[‘first’]);
// return false

array_key_exists(‘first’, $search_array);
// return true

2.用implode连接,直接用strpos判断
用implode函数+逗号连起来,直接用strpos判断。php里面字符串取位置速度非常快,尤其是在大数据量的情况下。需要注意的是首尾都要加”,” ,这样比较严谨。
比如: ,email1,email2,email3,email4,email5, 查找的时候,查,email1,。还有strpos要用!== false,因为第一个会返回0。

关于in_array的执行效率分析可以查看手册+Google+Baidu查看相关文章:.seedpaddy.com
php中的in_array函数效率分析

PHP之Curl抓取数据与模拟POST核心类库

2014/11/04 | 星期二 分类:PHP | 没有评论 标签: , | 作者: | 6,406 views

本篇文章中主要讲解php curl库的知识,带着如下几个问题:怎么样才能从其他站点获取内容呢?怎么把本站的数据提交到其他服务器?比如完成订单支付接口需要POST数据,并返回处理结果等。

带着这两个问题,通读如下类库,调用CURL核心类,curl 算入门到精通了。.

CULR抓取网页数据,调用简单

CURL引入类库调用类,之后 如下操作 POST数据 .

接收页面(类似网页表单POST处理页),如上的url

CURL核心类

PHP文件锁核心类库与Flock锁函数

2014/10/31 | 星期五 分类:PHP | 一条评论 标签: | 作者: | 2,093 views

本文介绍PHP文件锁核心类库与Flock锁函数调用,文件锁

并发下常见的加锁及锁的PHP具体实现,在最近的项目中有这样的场景:

1.生成文件的时候,由于多用户都有权限进行生成,防止并发下,导致生成的结果出现错误,需要对生成的过程进行加锁,只容许一个用户在一个时间内进行操作,这个时候就需要用到锁了,将这个操作过程锁起来..

2.在用了cache的时候,cache失效可能导致瞬间的多数并发请求穿透到数据库此时也可以得需要用锁在同一并发的过程中将这个操作锁定.

3.串行定时任务,特定场合.

先介绍使用方法如下:

方法一,在非 NFS 以及其它一些网络文件系统,所以此方法有局限性

方法二,任何系统都可以.

具体类如下:.

PHP算法之快速冒泡产牛猴子大王算法

2014/10/18 | 星期六 分类:PHP | 没有评论 标签: | 作者: | 1,088 views

最近突然迷恋上算法了。温故而知新,这些简单而基础的东西是学习算法的基石,所以又必要再次练习下。

冒泡排序 && 选择排序 这两个算法很相近,至于原理请自己分析,很容易混淆。

猴子选大王算法:.

产牛算法,按在08年腾讯在广州天河社招时面试题,记得当时俺写不出来.

冒泡算法:

选择排序算法:
对比冒泡算法,其优点在哪里? 分析下代码即可…

快速排序算法:.

插入排序算法:

PHP错误日记打印与调试Demo

2014/09/16 | 星期二 分类:PHP | 没有评论 标签: , , | 作者: | 1,063 views

PHP错误日记打印与调试Demo 注意:此Demo 适合在本地调试,方便自己开发,做项目,若php_error.log 日记文件过大,浏览器会崩溃哦。

场景:在做项目的时候,有时候会需要查看一下PHP/Apache的错误日志,然后就需要很繁琐的打开那个目录下面,看信息,只有当错误的时候才会去打开那个文件。但是最近我发现在开发的时候,自己忽略掉了很多错误,虽然不会导致出错,但是搞不好哪天就会爆发。

而且每次打开那个文件,然后自己又要手动的刷新,太麻烦,所以就做了个网页版的Demo,能够实时查看错误日志。

这个小工具比较简陋,就是简单的将文件内容打印到页面中,并在有新错误的时候做个title的闪动小提示。
跟着做如下四步即可:
第一步,先做些准备工作,配置PHP日记:

阅读全文

Cookie跨域之P3P解决方案

2013/05/27 | 星期一 分类:PHP | 没有评论 标签: , | 作者: | 1,905 views

Cookie跨域(第三方cookie)接收限制问题:本文是基于cookie保存session id 引出的问题,涉及浏览器的第三方cookie限制,这个在IE8、IE9才出现的问题。

情景:处理一个 js 跨域问题,使用 jsonp 跨域提交用户名密码请求,实现自动登录第三方网站,即 SSO(single-sign-on) 单点登录,一处登录处处登录。在 Chrome 下没问题,IE 却不行。查看 HTTP 的几个来回,发现登录请求是成功的,问题出在第三方网站返回的 cookie (session id) IE 并没有接受,下一次发送请求时根本没有带上 cookie,说明之前的 Set-Cookie 指令没有效果,所以怎么也登录不了。查了一下,有人使用 iframe 内嵌网页的形式,也遇到了 IE 下不能设置 cookie 的情况。

如果在“Internet选项”中把“隐私”级别设置为低,或者把第三方域名列入“可信站点”就没问题了。但是我们不可能让每个用户去更改 IE 设定吧?因此否决此观点…这是一个很常遇到的场景,肯定有别的解决办法。.

简单的说是“你访问域名A却接收到域名B的cookie 设定指令”这可能是由于网页A请求或链接了B的网页,比如 iframe 以及 jsonp问题。

相关概念:Session 默认都是基于 Cookie;PHP中的session在默认情况下是使用客户端的Cookie来保存session id的,所以当客户端的cookie出现问题的时候就会影响session了。
必须注意的是:session不一定必须依赖cookie,这也是 session相比cookie的高明之处。
当客户端的Cookie被禁用或出现问题时,PHP会自动把session id附着在URL中,这样再通过session id就能跨页使用session变量了。但这种附着也是有一定条件的,即“php.ini中session.use_trans_sid = 1或者编译时打开打开了–enable-trans-sid选项”.

Session非基于Cookie的情况:可以手动通过URL传值、隐藏表单传递session id,然后通过这个session id 获取session。

再看下另外一个概念:P3P,说明是P3P?
P3P 全称 Platform for Privacy Preferences,隐私设定平台规范。简言之,就是网站向浏览器声明自己的隐私政策,比如网站是否搜集访问者的个人信息,设置 cookie 的用途等等。浏览器会依据设置,决定在第三方请求的条件下是否接受网站的 cookie。这个规范极其复杂,跳过,请另查阅相关资料。

了解了情景与相关概念后:使用P3P规范让IE跨域接受第三方cookie 既可以解决问题。

至于完整地部署 P3P 包括设立隐私政策文件(policy.html)、原则档(policy.xml)、参考档(p3p.xml),非本文研究,可另查相关资料。

三种常用语言解决方案:发送头文件即可。 注意前面“#”注释

看了header,比如 IDC DSP 什么的是啥意思啊?

这些标签就是 P3P 所规定的了,例如 NOI 表示不搜集可识别用户的资料,ADM 表示信息搜集会用于网站管理……查看完整清单,中文简要清单。

浏览器会根据这些标签决定是否接受 cookie,根据测试结果,加上 NOI 最省事,一个就够了。不过网站一般很难做到 NOI,除非永远匿名,“登录”功能可能就违背了NOI。理论上讲,标签应该真实地反映网站的信息搜集行为,若声明的隐私政策与实际行为不符,是会要负法律责任的。Stackoverflow 有篇讨论提出了法律相关议题,可以参考。.

除了传送 P3P http header,还可以通过 HTML meta 标签,或者设定IIS服务器来声明P3P。

看完,文章也就解决了。

PHP性能优化

2013/04/28 | 星期日 分类:PHP | 没有评论 标签: | 作者: | 1,349 views

PHP性能优化主要是对php.ini中的相关主要参数进行合理调整和设置,本地开发环境很少需要另外配置,运行环境就不一样了。如下是php.ini中的部分对性能影响较大的参数设置:

1.PHP函数禁用找到:
disable_functions = phpinfo,exec,shell_exec,proc_open,proc_get_status
该选项可以设置哪些PHP函数是禁止使用的,道号分割.
需注意:若服务器中含有一些系统状态检测的PHP程序,则不要禁用shell_exec,proc_open,proc_get_status等函数。

2.PHP脚本执行时间找到:
max_execution_time = 30
该选项设定PHP程序的最大执行时间,如果一个PHP脚本被请求,且该PHP脚本在max_execution_time时间内没能执行完毕,则PHP不再继续执行,直接给客户端返回超时错误。没有特殊需要该选项可保持默认设置30秒,如果您的PHP脚本确实需要长执行时间则可以适当增大该时间设置。

3.PHP脚本处理内存占用找到:根据需要配置
memory_limit = 8M

4.PHP全局函数声明找到:
register_globals = Off #默认为Off

5.PHP上传文件大小限制找到:
upload_max_filesize = 2M
#该选项设定PHP所能允许最大上传文件大小,默认为2MB。根据实际应用需求,可以适当增大该设置。

PHP开发中需要注意的,特别是在高并发网站中,注意了自然而然就做了优化:比如:

阅读全文

PHP招聘MySQL知识点

2013/04/17 | 星期三 分类:求职招聘 | 没有评论 标签: , | 作者: | 1,503 views

PHP基本、基础知识点,Example PHP招聘Mysql知识点,在工作日常用或许亦能用到:
1.php程序中连接数据库,host是localhost,账号是root, 密码是123,查询数据库test中表user的记录并显示出来?

2、查看锁表命令:SHOW FULL PROCESSLIST;
MYSQL取得当前时间的函数是?,格式化日期的函数是:now(),dateformat()
MySQL远程登陆:.
mysql -uroot -p123 -h192.168.1.250
#用户名:root 密码:123
MySQL命令行修改密码:
>mysql -u root -p

3、建立索引:普通索引INDEX、唯一索引UNIQUE INDEX、主键索引PRIMARY KEY、全文索引FULLTEXT
创建:CREATE INDEX <索引名> ON tablename (索引字段)
修改:ALTER TABLE tablename ADD INDEX [索引名] (索引字段)
创表指定索引:CREATE TABLE tablename([…],INDEX[索引名](索引字段))

创建:CREATE UNIQUE <索引名> ON tablename (索引字段)
修改:ALTER TABLE tablename ADD UNIQUE [索引名] (索引字段)
创表指定索引:CREATE TABLE tablename([…],UNIQUE[索引名](索引字段))

它是唯一索引,一般在创建表是建立,格式为:
CREATA TABLE tablename ([…],PRIMARY KEY[索引字段])

修改:ALTER TABLE tablename ADD FULLTEXT [索引名] (索引字段).

4、优化MYSQL数据库的方法。
a.数据库设计方面,这是DBA和Architect的责任,设计结构良好的数据库,必要的时候,去正规化(英文是这个:denormalize,中 文翻译成啥我不知道),允许部分数据冗余,避免JOIN操作,以提高查询效率;
b.系统架构设计方面,表散列,把海量数据散列到几个不同的表里面.快慢表,快表只留最新数据,慢表是历史存档.集群,主服务器Read & write,从服务器read only,或者N台服务器,各机器互为Master;
c.(a)和(b)超越PHP Programmer的要求了,会更好,不会没关系.检查有没有少加索引;
d.写高效的SQL语句,看看有没有写低效的SQL语句,比如生成笛卡尔积的全连接,大量的Group By和order by,没有limit等等.必要的时候,把数据库逻辑封装到DBMS端的存储过程里面.缓存查询结果,explain每一个sql语句;
e.所得皆必须,只从数据库取必需的数据,比如查询某篇文章的评论数,select count(*) … where article_id = ? 就可以了,不要先select * … where article_id = ?然后msql_num_rows.
只传送必须的SQL语句,比如修改文章的时候,如果用户只修改了标题,那就update … set title = ? where article_id = ?不要set content = ?(大文本);
f.必要的时候用不同的存储引擎.比如InnoDB可以减少死锁.HEAP可以提高一个数量级的查询速度;.

5.Mysql导出数据
mysqldump –opt -h192.168.1.18 -uUsername -pPassword databaseName>database.sql
#mysqldump –opt -h192.168.1.88 -uwebsites -pseedpaddy -P3396 seedpaddy >E:\abc\seedpaddy.sql
本地服务器机器:
mysqldump -u 用户名 -p 数据库名 > 导出的文件名
#mysqldump -u wcnc -p smgp_apps_wcnc > wcnc.sql

6.mysql导出数据库一个表
mysqldump -u 用户名 -p 数据库名 表名> 导出的文件名.
#mysqldump -u wcnc -p smgp_apps_wcnc users> wcnc_users.sql

7.mysql导出一个数据库结构
mysqldump -u wcnc -p -d –add-drop-table smgp_apps_wcnc >d:wcnc_db.sql
-d 没有数据 –add-drop-table 在每个create语句之前增加一个drop table

8.mysql导入数据库
进入mysql数据库控制台,如mysql -u root -p
mysql>use 数据库
mysql>set names ‘utf8’
mysql>source d:\db.sql

9.创建数据库
#CREATE DATABASE jacking DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci;
a.复制表结构及数据到新表
#CREATE TABLE 新表 SELECT * FROM 旧表
b.只复制表结构到新表.
#CREATE TABLE 新表 SELECT * FROM 旧表 WHERE 1=2
#即:让WHERE条件不成立.
c.复制旧表的数据到新表(假设两个表结构一样)
#INSERT INTO 新表 SELECT * FROM 旧表
d.复制旧表的数据到新表(假设两个表结构不一样)
#INSERT INTO 新表(字段1,字段2,…….) SELECT 字段1,字段2,…… FROM 旧表
#还可以用REPLACE INTO 这种方法会更好!

10.常用的SQL语句

第 1 页,共 2 页12