High Performance – Twisted Meadows

工作需要，最近在学高性能计算相关的知识。
这个领域，不涉足的时候觉得高深莫测，真正接触起来，不仅不神秘，而且十分有趣。
本文基于我对 LAFF-On Programming for High Performance （UTAustinX UT.PHP.16.01x）这门课的学习，结合个人在机器学习方面的经验总结形成，与大家分享。不当之处请指正。

如何实现高性能计算

从字面上来说，算得快就是高性能计算。
以此为定义，拥有超级计算机是做高性能计算的第一步，因为它从硬件性能上支持了「high performance」。
但显然，「硬件快」只是「high performance」的一个组成部分。在有限的硬件性能下，还有方法可以算得快。
例如分布式和并行化：把任务拆分成可以并行执行的多个部分，用多台机器同步运算，是个好主意。
或者给机器上插很多块显卡（GPU），利用显卡的并行计算能力，来做异构计算（由CPU执行串行部分，GPU执行并行部分）。
——如果只有一台机器，没有显卡，机器的性能也很一般呢？

本文接下来要讨论的，就是在常规架构的普通计算机单机上，如何做高性能计算编程。
特殊地，我们讨论最常用的一种运算：矩阵乘法。我们将会看到，它在时下流行的神经网络中如何被广泛应用，又是如何被最高效地实现为C代码。

The path twists, and the future is uncertain.

分类： High Performance

Nvidia 显卡架构详解

高性能计算初步：矩阵乘法

如何实现高性能计算