- 浏览: 2582854 次
- 来自: 杭州
文章分类
- 全部博客 (1190)
- webwork (4)
- 网摘 (18)
- java (104)
- hibernate (1)
- Linux (85)
- 职业发展 (1)
- activeMQ (2)
- netty (15)
- svn (1)
- webx3 (12)
- mysql (81)
- css (1)
- HTML (6)
- apache (3)
- 测试 (2)
- javascript (1)
- 储存 (1)
- jvm (5)
- code (13)
- 多线程 (12)
- Spring (18)
- webxs (2)
- python (119)
- duitang (0)
- mongo (3)
- nosql (4)
- tomcat (4)
- memcached (20)
- 算法 (28)
- django (28)
- shell (1)
- 工作总结 (5)
- solr (42)
- beansdb (6)
- nginx (3)
- 性能 (30)
- 数据推荐 (1)
- maven (8)
- tonado (1)
- uwsgi (5)
- hessian (4)
- ibatis (3)
- Security (2)
- HTPP (1)
- gevent (6)
- 读书笔记 (1)
- Maxent (2)
- mogo (0)
- thread (3)
- 架构 (5)
- NIO (5)
- 正则 (1)
- lucene (5)
- feed (4)
- redis (17)
- TCP (6)
- test (0)
- python,code (1)
- PIL (3)
- guava (2)
- jython (4)
- httpclient (2)
- cache (3)
- signal (1)
- dubbo (8)
- HTTP (4)
- json (3)
- java socket (1)
- io (2)
- socket (22)
- hash (2)
- Cassandra (1)
- 分布式文件系统 (5)
- Dynamo (2)
- gc (8)
- scp (1)
- rsync (1)
- mecached (0)
- mongoDB (29)
- Thrift (1)
- scribe (2)
- 服务化 (3)
- 问题 (83)
- mat (1)
- classloader (2)
- javaBean (1)
- 文档集合 (27)
- 消息队列 (3)
- nginx,文档集合 (1)
- dboss (12)
- libevent (1)
- 读书 (0)
- 数学 (3)
- 流程 (0)
- HBase (34)
- 自动化测试 (1)
- ubuntu (2)
- 并发 (1)
- sping (1)
- 图形 (1)
- freemarker (1)
- jdbc (3)
- dbcp (0)
- sharding (1)
- 性能测试 (1)
- 设计模式 (2)
- unicode (1)
- OceanBase (3)
- jmagick (1)
- gunicorn (1)
- url (1)
- form (1)
- 安全 (2)
- nlp (8)
- libmemcached (1)
- 规则引擎 (1)
- awk (2)
- 服务器 (1)
- snmpd (1)
- btrace (1)
- 代码 (1)
- cygwin (1)
- mahout (3)
- 电子书 (1)
- 机器学习 (5)
- 数据挖掘 (1)
- nltk (6)
- pool (1)
- log4j (2)
- 总结 (11)
- c++ (1)
- java源代码 (1)
- ocr (1)
- 基础算法 (3)
- SA (1)
- 笔记 (1)
- ml (4)
- zokeeper (0)
- jms (1)
- zookeeper (5)
- zkclient (1)
- hadoop (13)
- mq (2)
- git (9)
- 问题,io (1)
- storm (11)
- zk (1)
- 性能优化 (2)
- example (1)
- tmux (1)
- 环境 (2)
- kyro (1)
- 日志系统 (3)
- hdfs (2)
- python_socket (2)
- date (2)
- elasticsearch (1)
- jetty (1)
- 树 (1)
- 汽车 (1)
- mdrill (1)
- 车 (1)
- 日志 (1)
- web (1)
- 编译原理 (1)
- 信息检索 (1)
- 性能,linux (1)
- spam (1)
- 序列化 (1)
- fabric (2)
- guice (1)
- disruptor (1)
- executor (1)
- logback (2)
- 开源 (1)
- 设计 (1)
- 监控 (3)
- english (1)
- 问题记录 (1)
- Bitmap (1)
- 云计算 (1)
- 问题排查 (1)
- highchat (1)
- mac (3)
- docker (1)
- jdk (1)
- 表达式 (1)
- 网络 (1)
- 时间管理 (1)
- 时间序列 (1)
- OLAP (1)
- Big Table (0)
- sql (1)
- kafka (1)
- md5 (1)
- springboot (1)
- spring security (1)
- Spring Boot (3)
- mybatis (1)
- java8 (1)
- 分布式事务 (1)
- 限流 (1)
- Shadowsocks (0)
- 2018 (1)
- 服务治理 (1)
- 设计原则 (1)
- log (0)
- perftools (1)
最新评论
-
Aqu415:
,默认是netty还是hassion?
dubbo入门 -
siphlina:
课程——基于Python数据分析与机器学习案例实战教程分享网盘 ...
Python机器学习库 -
san_yun:
leibnitz 写道hi,我想知道,无论在92还是94版本, ...
hbase的行锁与多版本并发控制(MVCC) -
leibnitz:
hi,我想知道,无论在92还是94版本,更新时(如Puts)都 ...
hbase的行锁与多版本并发控制(MVCC) -
107x:
不错,谢谢!
Latent Semantic Analysis(LSA/ LSI)算法简介
运营让我查询一个活动中参与的物品数,然后需要前60个评论+赞的人。
最开始我用子查询实现,巨慢无比:
原因是in子句的数据量大的话,性能就会非常低下。详见:
修改成多表查询:
性能解决了,但发现有重复记录:
+----------+------------+----------------+-----------+---------------------+
| id | like_count | favorite_count | sender_id | add_datetime |
+----------+------------+----------------+-----------+---------------------+
| 33850491 | 2 | 220 | 471956 | 2012-06-29 20:42:47 |
| 33778187 | 14 | 167 | 122216 | 2012-06-29 12:24:15 |
| 33779339 | 8 | 165 | 122216 | 2012-06-29 12:33:57 |
| 34068745 | 0 | 112 | 3054 | 2012-07-01 15:00:26 |
| 33782239 | 4 | 94 | 116633 | 2012-06-29 12:58:23 |
| 33815718 | 2 | 92 | 4287 | 2012-06-29 17:10:13 |
| 33905850 | 3 | 87 | 85131 | 2012-06-30 10:36:39 |
| 33827272 | 1 | 75 | 171462 | 2012-06-29 18:21:31 |
| 33778798 | 7 | 69 | 122216 | 2012-06-29 12:29:38 |
| 33780283 | 8 | 64 | 122216 | 2012-06-29 12:42:15 |
| 33816638 | 0 | 59 | 4287 | 2012-06-29 17:16:16 |
122216一个会员发了多条记录,看来需要做distinct,直接把distinct加在字段前面是没有效果,可以通过结合子查询来和group来做,最终版:
这个人提到说通过
http://hi.baidu.com/liveinyc/blog/item/facac543a2dc260b9213c658.html
最开始我用子查询实现,巨慢无比:
select id,like_count,favorite_count from message_message where id in(select message_id from message_message_tags where messagetag_id=62101) and (category=9 or category=1) order by (like_count+favorite_count) desc
原因是in子句的数据量大的话,性能就会非常低下。详见:
修改成多表查询:
select t1.sender_id,t1.id,t1.like_count,t1.favorite_count,t1.add_datetime from message_message t1, message_message2tag t2 where t1.id = t2.message_id and t2.tag_id=120560 and t1.category in (9,1) and t1.add_datetime>'2012-06-29' and t1.add_datetime < '2012-07-03' order by (like_count+favorite_count) desc limit 60
性能解决了,但发现有重复记录:
+----------+------------+----------------+-----------+---------------------+
| id | like_count | favorite_count | sender_id | add_datetime |
+----------+------------+----------------+-----------+---------------------+
| 33850491 | 2 | 220 | 471956 | 2012-06-29 20:42:47 |
| 33778187 | 14 | 167 | 122216 | 2012-06-29 12:24:15 |
| 33779339 | 8 | 165 | 122216 | 2012-06-29 12:33:57 |
| 34068745 | 0 | 112 | 3054 | 2012-07-01 15:00:26 |
| 33782239 | 4 | 94 | 116633 | 2012-06-29 12:58:23 |
| 33815718 | 2 | 92 | 4287 | 2012-06-29 17:10:13 |
| 33905850 | 3 | 87 | 85131 | 2012-06-30 10:36:39 |
| 33827272 | 1 | 75 | 171462 | 2012-06-29 18:21:31 |
| 33778798 | 7 | 69 | 122216 | 2012-06-29 12:29:38 |
| 33780283 | 8 | 64 | 122216 | 2012-06-29 12:42:15 |
| 33816638 | 0 | 59 | 4287 | 2012-06-29 17:16:16 |
122216一个会员发了多条记录,看来需要做distinct,直接把distinct加在字段前面是没有效果,可以通过结合子查询来和group来做,最终版:
select * from (select t1.sender_id,t1.id,t1.like_count,t1.favorite_count,t1.add_datetime from message_message t1, message_message2tag t2 where t1.id = t2.message_id and t2.tag_id=120560 and t1.category in (9,1) and t1.add_datetime>'2012-06-29' and t1.add_datetime < '2012-07-03' order by (like_count+favorite_count) desc limit 60) as t group by t.sender_id order by (like_count+favorite_count) desc;
这个人提到说通过
select *, count(distinct name) from table group by name来实现
http://hi.baidu.com/liveinyc/blog/item/facac543a2dc260b9213c658.html
发表评论
-
MySQL 中的重做日志,回滚日志 ,以及二进制日志的简单总结
2018-06-06 17:44 1020ImportNew 5天前 (点击上方公众号,可快速关注) ... -
mysql 设置字符集 中文乱码
2016-02-04 15:45 2864一、登录MySQL查看用SHOW VARIABLES LIK ... -
mysql slow log控制
2014-08-28 10:15 5267参考官方文档:http://dev.mysql.com/do ... -
MySQL数据库InnoDB存储引擎 Buffer Pool Flush List详解
2014-08-21 10:36 1191原文:http://www.zhdba.com/mysqlo ... -
Percona-Server安装记录
2014-07-28 23:05 1371本文档记录安装Percona-Server开发环境,非生产 ... -
mysql创建用户权限
2014-07-11 17:01 717mysql 权限如下: root@localhost : ... -
mysql group测试脚本
2014-06-25 15:38 801sql数据语句: CREATE TABLE `access ... -
mysql性能优化之 show profile
2014-06-20 10:46 2363很漂亮的结果,没有creating sort index ... -
MYSQL INNODB中GAP LOCK引起死锁的问题
2014-06-06 13:08 2266先了解一下什么是GAP LOCK 在INNODB中,rec ... -
MySQL出现Waiting for table metadata lock的场景浅析
2014-04-23 14:27 662原文:http://ctripmysqldba.iteye ... -
mysql 索引原理
2014-03-27 20:02 453对于这条SQL: from message where ... -
mysql中group的实现
2014-01-24 10:31 693同学问到group by的实现 ... -
MySQL Innodb日志机制深入分析
2013-12-02 22:28 01.1. Log & Checkpoint In ... -
优化临时表使用,SQL语句性能提升100倍
2013-12-02 22:25 898【问题现象】 线上mysql数据库爆出一个慢查询,DBA观 ... -
也说快速关闭MySQL/InnoDB
2013-09-21 13:56 762原文:http://www.orczhou.com/ind ... -
关于mysql优化一些总结
2013-09-21 08:41 1023最近在做mysql数据库的 ... -
robbin谈MySQL InnoDB性能调整的一点实践
2013-09-21 08:13 719因为JavaEye网站的数据 ... -
mysql文档集合
2013-09-05 12:11 799理解MySQL——索引与优化 理解MySQL——架构与概念 ... -
mysql binlog细节
2013-09-05 12:06 942原来mysql binlog内容是先保存在trx_cache中 ... -
MySQL如何避免使用swap
2013-09-04 09:52 1024原文: http://www.taobaodba.com/ ...
相关推荐
6、查询出的数据量过大(可以采用多次查询,其他的方法降低数据量) 7、锁或者死锁(这也是查询慢最常见的问题,是程序设计的缺陷) 8、sp_lock,sp_who,活动的用户查看,原因是读写竞争资源。 9、返回了不必要...
视图就是一个表或多个表的查询结果,它是一张虚拟的表,因为它并不能存储数据。 视图的作用、优点: 限制对数据的访问 让复杂查询变得简单 提供数据的独立性 可以完成对相同数据的不同显示 创建、修改视图 create or...
关联数据基础架构的选择导致了数据源的概要,其中包含大量域上的重复和碎片信息。 使非专家用户能够访问此数据纲要的一种方法是提供可以利用关联数据的固有特征的关键字搜索框架。 由于三个主要原因,开发此类系统...
⼤数据概念: ⼤数据概念: ⼤数据是指数据规模⼤,尤其指因为数据形式多样、⾮结构化特征明显,导致数据存储、处理和挖掘异常困难的那类数据集。 ⼤数据性质: ⼤数据性质: ⾮结构性,不完备性,时效性,安全性,...
# 限制Innodb能打开的表的数据,如果库里的表特别多的情况,请增加这个。这个值默认是300 innodb_buffer_pool_size = 1048576 # InnoDB使用一个缓冲池来保存索引和原始数据, 不像MyISAM. # 这里你设置越大,你在存取...
查询表顺序的影响 在FROM后面的表中的列表顺序会对SQL执行性能影响,在没有索引及ORACLE没有对表进行统计分析的情况下ORACLE会按表出现的顺序进行链接,由此因为表的顺序不对会产生十分耗服务器资源的数据...
修复了从服务器更新组件数据时由于过多的数据请求导致的ActiveBOM延迟问题。 27535 修复了BOM报表中组件的供应商链接顺序与该组件的供应商链接参数的实际顺序(BC:9691)不匹配的问题。 27714 修复了BOM报告问题,...
对于有主明细的表来说,明细表必须包含两个字段:主表关键字、SN,SN字段的类型为 int型,目的为与主表关键字联合组成明细表的关键字,以及标示明细记录的先后顺序, 如1,2,3……。表必须填写描述信息,后台表名尽量...
对于有主明细的表来说,明细表必须包含两个字段:主表关键字、SN,SN字段的类型为 int型,目的为与主表关键字联合组成明细表的关键字,以及标示明细记录的先后顺序, 如1,2,3……。表必须填写描述信息,后台表名尽量...
这导致空间浪费而且无法与外部数据文件进行“二进制”读写。能否关掉填充,或者控制结构域的对齐方式? 27 2.14 为什么sizeof返回的值大于结构大小的期望值,是不是尾部有填充? 28 2.15 如何确定域在结构中的...
这导致空间浪费而且无法与外部数据文件进行“二进制”读写。能否关掉填充,或者控制结构域的对齐方式? 2.14 为什么sizeof返回的值大于结构大小的期望值,是不是尾部有填充? 2.15 如何确定域在结构中的字节偏移...
用熊猫来合并数据使用SQL / pgAdmin在执行联合时导致行被删除随后验证所有数据是否正确传输 分析 将所有重复的标题放在数据框中,以查看哪些歌曲在多个来源和年份中很流行 为了更深入地了解所做
size,数据量大的时候效率比较低,而且很费内存,每次会把from*size条记录全部加载到内存中,对结果返回前进行全局排序,然后丢弃掉范围外的结果,重复这样的操作会导致内存占用过大而使es挂掉,并且受数据条数限制...
人才缺口:数据中台的火热,导致数据平台研发、数据应用开发和数据产品经理 的职位紧缺 人才来源:互联网一二线大公司和一些专门做数据的公司 19 | 高科技 高科技 | 20 AIoT架构师 边缘计算专家 数据架构师 30-40% ...
2个目标文件,FTP的目标是:(1)提高文件的共享性(计算机程序和/或数据),(2)鼓励间接地(通过程序)使用远程计算机,(3)保护用户因主机之间的文件存储系统导致的变化,(4)为了可靠和高效地传输,虽然用户...
但是联合训练不适用于任务不断更新和迭代的应用场景,会造成知识图谱的重复训练,导致资源浪费,且时间空间开销大.为了解决这些问题,本文提出多源知识图谱终身表示学习的范式.如图1(c)所示,随着任务不断迭代,不同的知识...
模拟大脑神经元,建立多层网络结构之间的不同权重信号连接传导,提供尽可能多的例子,调整权重等参数直到系统稳定 神经网络 1957年康奈尔大学Frank Rosenblatt 提出名为感知机的程序化神经元,由于学术竞争导致方法...