【Pytorch】FM推导及其实现

因子分解机(Factorization Machine, FM, 2010年)是由Steffen Rendle提出的一种基于矩阵分解的机器学习算法。最大的特点是易于整合交叉特征、可以处理高度稀疏数据，主要应用在推荐系统及广告CTR预估等领域。数理推导FM的原始的模型方程为：y^(x):=w0+∑i=1nwixi+∑i=1n∑j=i+1n⟨vi,vj⟩xixj\hat{y}(x):=w_0+\sum

Jnchin

5161人浏览 · 2021-11-15 16:52:30

Jnchin · 2021-11-15 16:52:30 发布

因子分解机(Factorization Machine, FM, 2010年)是由Steffen Rendle提出的一种基于矩阵分解的机器学习算法。最大的特点是易于整合交叉特征、可以处理高度稀疏数据，主要应用在推荐系统及广告CTR预估等领域。

数理推导

FM的原始的模型方程为：
$\hat{y}(x):=w_0+\sum^n_{i=1}w_ix_i+\sum^n_{i=1}\sum^n_{j=i+1}\left \langle v_i,v_j \right \rangle x_ix_j$
这个式子的前两项就是一个简单的线性函数，这没什么好说的。接下来主要说一下最后这一项：
$\sum^n_{i=1}\sum^n_{j=i+1}\left \langle v_i,v_j \right \rangle x_ix_j$
如果直接按照上面这个公式计算的话，复杂度就是 $O(n^2)$ 。可以对其进行矩阵分解，优化成复杂度为 $O (k n)$ 的线性复杂度，推导过程如下：
$\sum^n_{i=1}\sum^n_{j=i+1}\left \langle v_i,v_j \right \rangle x_ix_j \\ =\frac{1}{2}\sum^n_{i=1}\sum^n_{j=1}\left \langle v_i,v_j \right \rangle x_ix_j-\frac{1}{2}\sum^n_{i=1} \left \langle v_i,v_i \right \rangle x_ix_i\\ =\frac{1}{2}(\sum^n_{i=1}\sum^n_{j=1}\sum^k_{f=1}v_{if}v_{jf}x_ix_j-\sum^n_{i=1}\sum^k_{f=1}v_{if}v_{if}x_ix_i)\\ =\frac{1}{2}\sum^k_{f=1}\left[(\sum^n_{i=1}v_{if}x_i)(\sum^n_{j=1}v_{jf}x_j)-\sum^n_{i=1}v_{if}^2x_i^2\right]\\ =\frac{1}{2}\sum^k_{f=1}\left[(\sum^n_{i=1}v_{if}x_i)^2-\sum^n_{i=1}v_{if}^2x_i^2\right]$
其中， $\left \langle v_i,v_j \right \rangle=\sum^k_{f=1}v_{if}v_{jf}$

总的FM方程就是：
$\hat{y}(x):=w_0+\sum^n_{i=1}w_ix_i + \frac{1}{2}\sum^k_{f=1}\left[(\sum^n_{i=1}v_{if}x_i)^2-\sum^n_{i=1}v_{if}^2x_i^2\right]$

实现过程

稠密型数值特征

对于原始数据的特征是数值型的任务，可以直接使用上述公式，实现过程如下：

1、首先将上述式子改写成矩阵相乘的格式，方便后续编码实现，如下。

设输入的每一个样本可以表示成：
$X=(x_1,x_2,...,x_i,...,x_n) \in \mathbb{R}^{1\times n}$
设可学习的权重矩阵：
$\begin{pmatrix} w_1\\ w_2\\ \vdots\\ w_i\\ \vdots\\ w_n \end{pmatrix} \in \mathbb{R}^{n\times 1}$
和
$\begin{pmatrix} v_{11}&v_{12}&\cdots&v_{1f}&\cdots&v_{1k}\\ v_{21}&v_{22}&\cdots&v_{2f}&\cdots&v_{2k}\\ \vdots&\vdots&\ddots&\vdots&\ddots&\vdots\\ v_{i1}&v_{i2}&\cdots&v_{if}&\cdots&v_{ik}\\ \vdots&\vdots&\ddots&\vdots&\ddots&\vdots\\ v_{n1}&v_{n2}&\cdots&v_{nf}&\cdots&v_{nk} \end{pmatrix} \in \mathbb{R}^{n\times k}$
那么矩阵形式的FM模型方程就是：
$\hat{y}(x):=w_0+\sum^n_{i=1}w_ix_i + \frac{1}{2}\sum^k_{f=1}\left[(\sum^n_{i=1}v_{if}x_i)^2-\sum^n_{i=1}v_{if}^2x_i^2\right] \\ = w_0 + XW + \frac{1}{2}\sum_{f=1}^k \left \{ \left[ \begin{pmatrix} x_1,x_2,...x_n \end{pmatrix} \begin{pmatrix} v_{1f}\\ v_{2f}\\ \vdots\\ v_{nf} \end{pmatrix} \right]^2 - \begin{pmatrix} x_1^2,x_2^2,...x_n^2 \end{pmatrix} \begin{pmatrix} v_{1f}^2\\ v_{2f}^2\\ \vdots\\ v_{nf}^2 \end{pmatrix} \right \}\\ \\ = w_0 + XW + \frac{1}{2}sum((XV) \circ (XV)-(X \circ X)(V \circ V), axis=1)$
其中， $\circ$ 表示哈达玛积，即两个同阶矩阵对应元素相乘。

2、Pytorch代码实现：

import torch
import torch.nn as nn


class FactorizationMachine(nn.Module):
    def __init__(self, n, k):
        super(FactorizationMachine, self).__init__()
        self.n = n
        self.k = k
        self.linear = nn.Linear(self.n, 1, bias=True)
        self.v = nn.Parameter(torch.Tensor(self.k, self.n))  # 注：权重矩阵是(k,n)的，与公式里的相反，目的是下一步能在n的维度上分布初始化
        nn.init.xavier_uniform_(self.v)

    def forward(self, x):
        """
        :param x: Long tensor of size ``(b, n)``
        :return: Long tensor of size ``(b, 1)``
        """
        x1 = self.linear(x)
        square_of_sum = torch.mm(x, self.v.T) * torch.mm(x, self.v.T)
        sum_of_square = torch.mm(x * x, self.v.T * self.v.T)
        x2 = 0.5 * torch.sum((square_of_sum - sum_of_square), dim=-1, keepdim=True)
        x = x1 + x2
        return x

稀疏型类值特征

1、类别型特征不好直接送入fm方程，需要先将其转换成稠密型嵌入向量。如下：

仍然设输入的每一个样本为：
$X=(x_1,x_2,...,x_i,...,x_n) \in \mathbb{R}^{1\times n}$
设嵌入函数为：
$E_{w_i}(x_i)=embedding\_lookup(w_i,x_i) \in \mathbb{R}^{1 \times 1}\\ 则：E_W(X) \in \mathbb{R}^{1 \times n \times 1}$
和
$E_{v_i}(x_i)=embedding\_lookup(v_i,x_i) \in \mathbb{R}^{1 \times emb\_dim}\\ 则：E_V(X) \in \mathbb{R}^{1 \times n \times emb\_dim}$
其中， $x_i \in N$ 表示第 $i$ 个特征的类值，是自然数。

则FM方程可以表示为：
$\hat{y}(x):=w_0+\sum^n_{i=1}E_{w_i}(x_i)+\frac{1}{2}\sum^{emb\_dim}_{f=1}\left[(\sum^n_{i=1}E_{v_{if}}(x_i))^2-\sum^n_{i=1}E_{v_{if}}(x_i)^2\right]\\ =w_0 + sum(E_W(X), axis=1) + \\ \frac{1}{2}sum(sum(E_V(X), axis=1) \circ sum(E_V(X), axis=1) - sum(E_V(X) \circ E_V(X), axis=1), axis=1)$
2、Pytorch实现：

源代码来自https://github.com/rixwew/pytorch-fm/blob/master/torchfm/model/fm.py，这里整合了一下：

import torch


class FeaturesLinear(torch.nn.Module):
    def __init__(self, field_dims, output_dim=1):
        super().__init__()
        self.fc = torch.nn.Embedding(sum(field_dims), output_dim)
        self.bias = torch.nn.Parameter(torch.zeros((output_dim,)))
        self.offsets = np.array((0, *np.cumsum(field_dims)[:-1]), dtype=np.long)

    def forward(self, x):
        """
        :param x: Long tensor of size ``(batch_size, num_fields)``
        """
        x = x + x.new_tensor(self.offsets).unsqueeze(0)
        return torch.sum(self.fc(x), dim=1) + self.bias
    
    
class FeaturesEmbedding(torch.nn.Module):
    def __init__(self, field_dims, embed_dim):
        super().__init__()
        self.embedding = torch.nn.Embedding(sum(field_dims), embed_dim)
        self.offsets = np.array((0, *np.cumsum(field_dims)[:-1]), dtype=np.long)
        torch.nn.init.xavier_uniform_(self.embedding.weight.data)

    def forward(self, x):
        """
        :param x: Long tensor of size ``(batch_size, num_fields)``
        """
        x = x + x.new_tensor(self.offsets).unsqueeze(0)
        return self.embedding(x)
    
    
class FactorizationMachine(torch.nn.Module):
    def __init__(self, reduce_sum=True):
        super().__init__()
        self.reduce_sum = reduce_sum

    def forward(self, x):
        """
        :param x: Float tensor of size ``(batch_size, num_fields, embed_dim)``
        """
        square_of_sum = torch.sum(x, dim=1) ** 2
        sum_of_square = torch.sum(x ** 2, dim=1)
        ix = square_of_sum - sum_of_square
        if self.reduce_sum:
            ix = torch.sum(ix, dim=1, keepdim=True)
        return 0.5 * ix
    
    
# 接口
class FactorizationMachineModel(torch.nn.Module):
    """
    A pytorch implementation of Factorization Machine.

    Reference:
        S Rendle, Factorization Machines, 2010.
    """

    def __init__(self, field_dims, embed_dim):
        super().__init__()
        self.embedding = FeaturesEmbedding(field_dims, embed_dim)
        self.linear = FeaturesLinear(field_dims)
        self.fm = FactorizationMachine(reduce_sum=True)

    def forward(self, x):
        """
        :param x: Long tensor of size ``(batch_size, num_fields)``
        """
        x = self.linear(x) + self.fm(self.embedding(x))
        return torch.sigmoid(x.squeeze(1))

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

收藏必备！小白/程序员大模型学习指南：智能体(Agent)核心技术+企业应用实战全解析

2048 AI社区

灵机一物AI智能电商小程序用 AI Agent 替代真人客服做砍价：一套 LLM + 规则混合驱动的智能议价产品方案

workflow.add_node("parse_user_input", parse_user_input_node)# LLM 解析。workflow.add_node("evaluate_offer", evaluate_offer_node)# 规则定价。返回 JSON：{{"intent": "...", "price": 数字或null, "reason": "..."}}"""cur