`
san_yun
  • 浏览: 2650696 次
  • 来自: 杭州
文章分类
社区版块
存档分类
最新评论
文章列表
Naive Bayes属于机器学习算法中的一种,机器学习分为监督学习和非监督学习,监督学习通常用于预测分类,简单的讲监督学习是需要人为参与给数据添加标签,比如人为地判断某段评论是正面还是负面。非监督学习是直接根据数据特征进行处理,常见的有聚类算法。最基本的Naive Bayes公式为其中P(A|B)表示B发生情况下A发生的概率,P(B|A)表示A发生情况下B发生的概率,P(A)表示A发生的概率,P(B)表示B发生的概率。当条件变量为多个时,则公式扩展为其中Y有不同的取值,yk表示其中的某一个值,X1...Xn为不同的特征,为了简化公式,其中分母项可以表示成因为,最初公式可以表示为为了简化问题, ...

maven 常用命令

mvn clean install --projects tlive-dao -Dmaven.test.skip=true

awk 技巧

    博客分类:
  • awk
字符串拼接   cat /tmp/log | awk '{print "\"" $1 "\","}'

架构的执念

架构的执念(https://afoo.me/posts/2016-02-24-what-defines-an-archtect.html) 王福强 - fujohnwang AT gmail DOTA com 2016-02-18   1 前瞻性的眼光 2 系统性的思考
参考论文  
我的时间到哪里去了 ------怎样修炼良好的时间使用习惯   你是否经常遇到这些情况?    咦,还要做啥?好像没啥要做了?       忙着点鼠标,忙着翻邮件,忙着搞学习,忙着聊天...    惨,居然会这样!实在没时间 ...
一般来说linux下查询域名解析有两种选择,nslookup或者dig,而在使用上我觉得dig更加方便顺手。如果是在debian下的话,只要装上dnsutils这个包就可以使用dig命令了。 最基本的使用方式就是 dig www.oolec.com 即查询域名的A记录,查询的dns服务器将采用系统配置的服务器,即/etc/resovle.conf 中的。 如果要查询其他类型的记录,比如MX,CNAME,NS,PTR等,只需将类型加在命令后面即可 dig www.oolec.com mxdig www.oolec.com ns 此外,如果你是一个系统管理员,部署好了一 ...
下面是一些Mac OSX下常用的网络诊断命令。它们能帮助我们发现网络问题。文中提到的协议和网络通信原理,可参考协议森林。 有些工具,如arping, arp-scan,需要借助HomeBrew安装。   基本工具 网络诊断的第一步,是了解自己的 ...
https://docs.oracle.com/cd/E19957-01/806-3568/ncg_goldberg.html

mac 工具库

    博客分类:
  • mac
Mweb #markdown 文档编辑工具 OmniPlan #最好的项目管理工具
  mvn 秘籍 mvn dependency:tree -Dverbose -Dincludes=org.springframework:spring-core >log
简介 Aviator是一个高性能、轻量级的 java 语言实现的表达式求值引擎, 主要用于各种表达式的动态求值。现在已经有很多开源可用的 java 表达式求值引擎,为什么还需要 Avaitor 呢?Aviator的设计目标是轻量级和高性能,相比于Groovy、JRuby的笨重, Aviator非常小, 加上依赖包也才450K,不算依赖包的话只有 70K; 当然, Aviator的语法是受限的, 它不是一门完整的语言, 而只是语言的一小部分集合。其次, Aviator的实现思路与其他轻量级的求值器很不相同, 其他求值器一般都是通过解释的方式运行, 而Aviator则是直接将表达式编译成Java ...
概述 我们在之前的博文中了解到关于 HashMap 和 Hashtable 这两种集合。其中 HashMap 是非线程安全的,当我们只有一个线程在使用 HashMap 的时候,自然不会有问题,但如果涉及到多个线程,并且有读有写的过程中,HashMap 就不能满足我们的需要了(fail-fast)。在不考虑性能问题的时候,我们的解决方案有 Hashtable 或者Collections.synchronizedMap(hashMap),这两种方式基本都是对整个 hash 表结构做锁定操作的,这样在锁表的期间,别的线程就需要等待了,无疑性能不高。 所以我们在本文中学习一个 util.con ...
目标转换率变化区间估计:在做A/B test的时候,抽样得到的数据并不能准确反映整体的真实水平,即样本得到的估计是有偏差的,因此需要去评估这个值可能的变化区间。例如通过区间估计得到:          A方案转换率为:6.5% ± 1.5%          B方案转换率为:7.5% ± 1.5% 方案胜出概率估计:由于最终有意义的是确立胜出的版本,然而并不是所有的实验都能做到样本足够大,区分度足够高的,因此确定版本胜出的概率,很多英文资料里面记为Chance to beat baseline,即在给定转换率下,变体版本的实际转换率高于参展版本(默认是原始版本)的实际转换率的可能性。在实 ...
参考:http://www.cnblogs.com/heaad/archive/2011/01/02/1924195.html   Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合。   一. 实例    为了说明Bloom Filter存在的重要意义,举一个实例:   假设要你写一个网络蜘蛛(web crawler)。由于网络间的链接错综复杂,蜘蛛在网络间爬行很可能会形成“环”。为了避免形成“环”,就需要知道蜘蛛已经访问过那些URL。给一个URL,怎样知道 ...
Global site tag (gtag.js) - Google Analytics