打算用这个页面来记录我掌握的机器学习相关资源和学习情况。
大部分是互联网上的资源,如果你也感兴趣,可以作为参考。这么说的前提是你已经有一定的编程和数学基础,否则的话,可能需要先在python上多花一点时间。
我走的是常见的Python -> ML路线,目前的认知是:通过python的几个第三方库(Numpy、pandas、sklearn等)较为快捷地掌握机器学习。
当然,在数学(统计、概率、线代等)方面我还有很多欠账要补。机器学习可能会用到的Hadoop等分布式解决方案也是应当掌握的内容。这些锦上添花的东西都靠自己花功夫,就不列出来了。
虽然我自己的学习顺序是混乱的,但我会把已有一定了解的内容按阶段划分罗列。
而一些可能对特定群体有用的资源则列在最后的「其他资料」中。等这部分积累多了我也会做子分类的。


前期:
中期:
后期:
其他资料:
数学方法和模型:
机器学习算法:
- Top 10 algorithms in data mining
This paper presents the top 10 data mining algorithms identified by the IEEE International Conference on Data Mining (ICDM) in December 2006: C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART. These top 10 algorithms are among the most influential data mining algorithms in the research community. With each algorithm, we provide a description of the algorithm, discuss the impact of the algorithm, and review current and further research on the algorithm. These 10 algorithms cover classification, clustering, statistical learning, association analysis, and link mining, which are all among the most important topics in data mining research and development.
- WEKA
著名的免费机器学习算法程序库,由新西兰Waikato大学研究人员基于JAVA开发
- Java的推荐算法库——librec
A Java Library for Recommender Systems
数据工具: