- 浏览: 2650696 次
- 来自: 杭州
最新评论
-
siphlina:
课程——基于Python数据分析与机器学习案例实战教程分享网盘 ...
Python机器学习库 -
san_yun:
leibnitz 写道hi,我想知道,无论在92还是94版本, ...
hbase的行锁与多版本并发控制(MVCC) -
leibnitz:
hi,我想知道,无论在92还是94版本,更新时(如Puts)都 ...
hbase的行锁与多版本并发控制(MVCC) -
107x:
不错,谢谢!
Latent Semantic Analysis(LSA/ LSI)算法简介 -
107x:
不错,谢谢!
Python机器学习库
文章列表
Naive Bayes Classifer介绍
- 博客分类:
- 机器学习
Naive Bayes属于机器学习算法中的一种,机器学习分为监督学习和非监督学习,监督学习通常用于预测分类,简单的讲监督学习是需要人为参与给数据添加标签,比如人为地判断某段评论是正面还是负面。非监督学习是直接根据数据特征进行处理,常见的有聚类算法。最基本的Naive Bayes公式为其中P(A|B)表示B发生情况下A发生的概率,P(B|A)表示A发生情况下B发生的概率,P(A)表示A发生的概率,P(B)表示B发生的概率。当条件变量为多个时,则公式扩展为其中Y有不同的取值,yk表示其中的某一个值,X1...Xn为不同的特征,为了简化公式,其中分母项可以表示成因为,最初公式可以表示为为了简化问题, ...
maven 常用命令
- 博客分类:
- maven
mvn clean install --projects tlive-dao -Dmaven.test.skip=true
字符串拼接
cat /tmp/log | awk '{print "\"" $1 "\","}'
架构的执念(https://afoo.me/posts/2016-02-24-what-defines-an-archtect.html)
王福强 - fujohnwang AT gmail DOTA com
2016-02-18
1 前瞻性的眼光
2 系统性的思考
我的时间到哪里去了 ------怎样修炼良好的时间使用习惯
你是否经常遇到这些情况?
咦,还要做啥?好像没啥要做了?
忙着点鼠标,忙着翻邮件,忙着搞学习,忙着聊天...
惨,居然会这样!实在没时间 ...
使用dig查询dns解析
- 博客分类:
- Linux
一般来说linux下查询域名解析有两种选择,nslookup或者dig,而在使用上我觉得dig更加方便顺手。如果是在debian下的话,只要装上dnsutils这个包就可以使用dig命令了。
最基本的使用方式就是
dig www.oolec.com
即查询域名的A记录,查询的dns服务器将采用系统配置的服务器,即/etc/resovle.conf 中的。
如果要查询其他类型的记录,比如MX,CNAME,NS,PTR等,只需将类型加在命令后面即可
dig www.oolec.com mxdig www.oolec.com ns
此外,如果你是一个系统管理员,部署好了一 ...
Mac OSX网络诊断命令
- 博客分类:
- 网络
下面是一些Mac OSX下常用的网络诊断命令。它们能帮助我们发现网络问题。文中提到的协议和网络通信原理,可参考协议森林。
有些工具,如arping, arp-scan,需要借助HomeBrew安装。
基本工具
网络诊断的第一步,是了解自己的 ...
https://docs.oracle.com/cd/E19957-01/806-3568/ncg_goldberg.html
mvn 秘籍
mvn dependency:tree -Dverbose -Dincludes=org.springframework:spring-core >log
表达式引擎aviator
- 博客分类:
- 表达式
简介
Aviator是一个高性能、轻量级的 java 语言实现的表达式求值引擎, 主要用于各种表达式的动态求值。现在已经有很多开源可用的 java 表达式求值引擎,为什么还需要 Avaitor 呢?Aviator的设计目标是轻量级和高性能,相比于Groovy、JRuby的笨重, Aviator非常小, 加上依赖包也才450K,不算依赖包的话只有 70K; 当然, Aviator的语法是受限的, 它不是一门完整的语言, 而只是语言的一小部分集合。其次, Aviator的实现思路与其他轻量级的求值器很不相同, 其他求值器一般都是通过解释的方式运行, 而Aviator则是直接将表达式编译成Java ...
ConcurrentHashMap 的实现原理
- 博客分类:
- 算法
概述
我们在之前的博文中了解到关于 HashMap 和 Hashtable 这两种集合。其中 HashMap 是非线程安全的,当我们只有一个线程在使用 HashMap 的时候,自然不会有问题,但如果涉及到多个线程,并且有读有写的过程中,HashMap 就不能满足我们的需要了(fail-fast)。在不考虑性能问题的时候,我们的解决方案有 Hashtable 或者Collections.synchronizedMap(hashMap),这两种方式基本都是对整个 hash 表结构做锁定操作的,这样在锁表的期间,别的线程就需要等待了,无疑性能不高。
所以我们在本文中学习一个 util.con ...
目标转换率变化区间估计:在做A/B test的时候,抽样得到的数据并不能准确反映整体的真实水平,即样本得到的估计是有偏差的,因此需要去评估这个值可能的变化区间。例如通过区间估计得到:
A方案转换率为:6.5% ± 1.5%
B方案转换率为:7.5% ± 1.5%
方案胜出概率估计:由于最终有意义的是确立胜出的版本,然而并不是所有的实验都能做到样本足够大,区分度足够高的,因此确定版本胜出的概率,很多英文资料里面记为Chance to beat baseline,即在给定转换率下,变体版本的实际转换率高于参展版本(默认是原始版本)的实际转换率的可能性。在实 ...
BloomFilter——大规模数据处理利器
- 博客分类:
- 算法
参考:http://www.cnblogs.com/heaad/archive/2011/01/02/1924195.html
Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合。
一. 实例
为了说明Bloom Filter存在的重要意义,举一个实例:
假设要你写一个网络蜘蛛(web crawler)。由于网络间的链接错综复杂,蜘蛛在网络间爬行很可能会形成“环”。为了避免形成“环”,就需要知道蜘蛛已经访问过那些URL。给一个URL,怎样知道 ...