Paper-Analysis-Feature-based Low-Rank Compression of Large Language Models via Bayesian Optimization
相关论文,论文阅读
Paper-Analysis-Tensor Decomposition for Hyperspectral data process in remote sense
Hyperspectral remote sensing imaging 关注了大量时空信息。
Mathematical notations
- T-product. The T-product of two three-order tensors $\mathcal{A} \in \mathbb{R}^{n_1 \times n_2 \times n_3}$ and $\mathcal{B} \in \mathbb{R}^{n_2 \times n_4 \times n_3}$ is denoted by $\mathcal{C} \in \mathbb{R}^{n_1 \times n_4 \times n_3}$
Tensor n-mode product.
Four special tensors
- First mode-k unfolding/matricization
- Second mode-k unfolding/matricization
- mode-k permutation
- multilinear product
- circular dimensional permuation
hyperspectral restoration
an observed degraded HS image can be formulated as follows:
$\mathcal{T, X, S,N}$分别表示观测图像、重构图像、稀疏误差以及加性误差。这个加性误差建模为独立的信号,通常为高斯误差。$M(\cdot)$为不同的重构问题的表示不同的线性退化操作。
- 当$M(\mathcal{X})=\mathcal{X}$, $\eqref{eq1}$ 是HS destriping problem ($\mathcal{T=X+S}$)或者是HS denoising problem (只有高斯噪声 $\mathcal{T=X+N}$或者混合噪声$\mathcal{T=X+S+N}$)
- 当$M(\cdot)$表示二元操作,1为原始像素,0为缺失数据,$\eqref{eq1}$变为HS inpainting problem.
- 当$M(\cdot)$是一个blur kernel,也被称为point spread function(PSF),$\eqref{eq1}$称为HS deblurring problem.
HS restoration通过$\mathcal{T}$来评估$\mathcal{X}$。这个ill-posed问题表明,需要对$\mathcal{X}$实施额外的约束才能得到最优解。这些额外的约束解释了HS的期望属性和各种类型的HS先验信息,例如非局部相似性、空间和光谱平滑度以及子空间表示。HS restoration problem可以总结为
$\tau$ and $\lambda$是正则参数,且$f(\mathcal{X})$和$g(\mathcal{S})$分别代表正则化,用于探索recovered $\mathcal{X}$和稀疏项$\mathcal{S}$. 空间和光谱的信息可以使用不同的先验约束来体现,例如 the LR property, sparse representation, nonlocal similarity and total variation(TV).
low-rank tensor decomposition
LRTD可以分为factorization-based approaches和rank minimizatio-based approaches.前者需要预定义rank的值,后者可以直接最小化rank。
factorization-based approaches
常见的就是tucker分解和CP分解。
rank minimization approaches
$rank(\mathcal{X})$表示HS tensor $\mathcal{X}$,包括不同的rank 定义,例如 tucker rank, CP rank, TT rank and tubal rank. 由于上述秩最小问题属于非凸问题,因此是NP-hard问题。核范数通常用作非凸秩函数的凸替代。
$\lambda_1$控制稀疏噪声的强度,$\lambda_2$控制加性高斯噪声的强度。
ADMM已经成为解决约束优化问题的流行方法,在ADMM中引入了辅助变量,推导出一个等效问题,该问题具有可分离的无约束函数,该函数受原始变量和辅助变量之间的线性兼容性约束。ADMM几乎不依赖于优化问题的平滑性,并且可以快速收敛到一个具有中等精度的最优解。
other priors-regularized low-rank tensor decomposition
nonlocal similarity
HS图像通常具有许多重复的局部空间模式,因此a local patch在HS图像中总是具有许多相似的patch。
spatial and spectral smoothness
HS image在空间和光谱上往往具有相对平滑的特性。一般使用TV method来处理这个平滑性。为了增强HS图像的空间分段平滑性和光谱一致性,分别制定了3DTV范数和空间光谱TV范数
subspace representation
transformer中attention score的计算
原文地址 [towardsdatascience.com](https://towardsdatascience.com/transformers-explained-visually-part-3-multi-head-attention-deep-dive-1c1ff1024853)
Paper-Analysis-SVD-LLM: Truncation-aware Singular Value Decomposition for Large Language Model Compression
相关论文,论文阅读
transformer的工作过程
原文地址 [towardsdatascience.com](https://towardsdatascience.com/transformers-explained-visually-part-2-how-it-works-step-by-step-b49fa4a64f34)
transformer宏观理解
原文地址 [towardsdatascience.com](https://towardsdatascience.com/transformers-explained-visually-part-1-overview-of-functionality-95a6dd460452)
importance sampling in stochastic gradient
研究重要性采样在sgd中的优化方式
Paper-Analysis-Exploring Extreme Parameter Compression for Pre-trained Language Models
论文分析
LLM的基础理解
LLM的阶段描述