【知出乎争】时序近邻样本的聚合特征工程

2022-04-11 15:41:19

首先，在正确时间顺序下，Optiver数据应该如下所示：

图1：在正确时间顺序下的，Optiver数据样例[1]

而量化里，数据时效性很高，很多时候预测，更多依赖于近期的行情表现，那如果知道目标时间点周围时间点的target，很可能会降低我们预测的不确定性。那在Optiver时间特征time_id不能真实反映时间顺序的情况下，我们可以依赖其他特征找到近邻样本，而不是依赖time_id来找近邻样本。在找到近邻样本后，我们对近邻样本的target值做聚合统计特征，加入模型训练即可。示意图如下：

图2：时间和股票的近邻示意图[1]

如图2所示，不仅可以找出时间近邻样本，还能找到股票近邻样本。具体的实现步骤如下：

1. 基于重要特征f，在times/stocks上，找近邻样本；

2. 对近邻样本的目标变量target做聚合特征。

在这个过程中，你可以自主配置相关参数：

● 近邻的距离度量方式：曼哈顿距离、欧式距离等；

● 近邻样本聚合长度；3、20、30等；

● 近邻样本聚合统计方式：mean、min、max、std等；

但直接拿Optiver开源代码[2]会有两点问题：

1. 它直接在全数据集上做近邻搜索，忽略的时间先后顺序，而在真实场景下，time_id一般是有序，直接应用他开源代码在真实场景下，会有时间穿越的风险；

2. 在真实场景时，我们不可能在横截面上找近邻stock做聚类target特征，因为你不可能知道预测当天，其它stocks的target表现。

因此，我基于Kaggle：Ubiquant Market Prediction的数据集（time_id是真实有序的，且同time_id下stock们的target是不可见的），代码改进，使得每次近邻的搜索空间都在历史时间点内，同时只做time-along的近邻搜索，而不做stock-along的近邻搜索。

Ubiquant的数据样例如下：

数据说明：

● investment_id: A股资产id;

● time_id：有序的时间id；

● f0-f299：300个匿名特征；

● target：横截面标准化后的收益率。

我们先定义求近邻样本的聚合特征的函数：

from tqdm import tqdmimport copyimport pandas as pdimport numpy as npfrom sklearn.preprocessing import minmax_scalefrom sklearn.neighbors import NearestNeighbors
def make_nn_feature(feature_values, feature_pivot, f_col, n=5, agg=np.mean, postfix=''):    """求近邻样本的聚合特征    args:        feature_values         (array): 近邻样本array，维度：(N_NEIGHBORS_MAX, time数量, investment_id数量)        feature_pivot   (pd.DataFrame): 目标target的pivot        f_col                    (str): 找近邻样本所用的特征        n                        (int): 将n-1个近邻样本的目标target做聚合特征        agg            (np.agg_method): 聚合的方法        postfix                  (str): 聚合特征命名的后缀    return:        dst             (pd.DataFrame): 聚合特征数据    """    pivot_aggs = pd.DataFrame(agg(feature_values[:n-1,:,:], axis=),                               columns=feature_pivot.columns,                               index=feature_pivot.index)    dst = pivot_aggs.unstack().reset_index()    dst.columns = ['investment_id', 'time_id', f'{f_col}_cluster{n}{postfix}_{agg.__name__}']    return dst

再导入数据和定义近邻聚合参数配置：

# 导入数据train = pd.read_pickle('./input/train.pkl')train = train.astype(np.float32)
#################################### 参数区###################################target_feature = 'target'                                       # 目标变量名p = 2metric = 'minkowski'metric_params = Nonetime_id_neigbor_sizes = [3, 20, 30]                             # 时间近邻的聚合长度列表  time_id_agg_funcs = {'f_1':[np.mean, np.min, np.max, np.std],}# 近邻搜索所用特征合搜索方法N_NEIGHBORS_MAX = max(time_id_neigbor_sizes)                    # 关注近邻样本的大数量

对训练集，找近邻样本，并做聚合特征：

########################################################## Time维度：基于f_col找近邻样本，并聚合target特征（针对训练集）#########################################################for f_col in time_id_agg_funcs.keys():    dsts_list = []    # 获取f_col的pivot    train_pivot = train.pivot('time_id', 'investment_id', f_col)   # 行:time_id, 列:investment_id    train_pivot = train_pivot.fillna(train_pivot.mean())    train_pivot = pd.DataFrame(minmax_scale(train_pivot),          # 时间-along做minmax_scale                                columns=train_pivot.columns,                                index=train_pivot.index)           # 获取target的pivot    feature_pivot = train.pivot('time_id', 'investment_id', target_feature)    feature_pivot = feature_pivot.fillna(feature_pivot.mean())
    # 遍历每个时间点，选择这个时间点前的数据做近邻搜索空间    time_id_num = len(train_pivot.index)    start_time_idx = N_NEIGHBORS_MAX + 10 # 让搜索空间更大一些    for time_idx in tqdm(range(start_time_idx, time_id_num)):        nn = NearestNeighbors(        n_neighbors=N_NEIGHBORS_MAX, # 查询k个近邻的数目        p=p,                         # 1是曼哈顿距离，2是欧式距离        metric=metric,               # 距离度量方法，默认'minkowski'        metric_params=metric_params, # 评估函数的其它关键参数        n_jobs=-1)            nn.fit(train_pivot.iloc[:time_idx,:])        # 返回近邻样本的 距离 和 索引位置 (time数量，N_NEIGHBORS_MAX)        _, neighbors = nn.kneighbors(train_pivot.iloc[[time_idx],:], return_distance=True) 
        # 对时间维度上的近邻样本的target数据, 按距离顺序，排序写入feature_values        target_pivot = feature_pivot.iloc[:time_idx,:]        feature_values = np.zeros((N_NEIGHBORS_MAX, 1, target_pivot.shape[1]))        for i in range(N_NEIGHBORS_MAX):            feature_values[i, :] += target_pivot.values[neighbors[:, i], :]
        has_dsts = False        dsts = pd.DataFrame()        # 便利不同的聚合方法        for agg_func in time_id_agg_funcs[f_col]:            # 遍历不同的聚合维度            for n in time_id_neigbor_sizes:                # 对目标变量的近邻样本做聚合特征                dst = make_nn_feature(feature_values, train_pivot.iloc[[time_idx],:], f_col, n=n, agg=agg_func, postfix='time')                # 列合并当前的聚合特征                if has_dsts == False:                    dsts = copy.deepcopy(dst)                    has_dsts = True                else:                    dsts = pd.merge(dsts, dst, on=['investment_id', 'time_id'], how='left')           dsts_list.append(dsts)
    # 将聚合特征拼接到原数据集上    all_dsts = pd.concat(dsts_list, axis=)    train = pd.merge(train, all_dsts, on=['investment_id', 'time_id'], how='left')    
# 因为train开头有部分数据集因时间长度不够，导致统计值为NaN，这里要drop掉train = train.dropna()

训练集新增近邻聚合特征后：

针对测试集，我们是单步做近邻聚合特征：

########################################################## Time维度：基于f_col找近邻样本，并聚合target特征（针对测试集）#########################################################train = pd.read_pickle('./input/train.pkl')train = train.astype(np.float32)all_df = pd.concat([train, test_df], axis=)
for f_col in time_id_agg_funcs.keys():    # 获取f_col的pivot    all_pivot = all_df.pivot('time_id', 'investment_id', f_col)   # 行:time_id, 列:investment_id    all_pivot = all_pivot.fillna(all_pivot.mean())    all_pivot = pd.DataFrame(minmax_scale(all_pivot),          # 时间-along做minmax_scale                                columns=all_pivot.columns,                                index=all_pivot.index)    
    # document: https://scikit-learn.org/dev/modules/generated/sklearn.neighbors.NearestNeighbors.html#sklearn.neighbors.NearestNeighbors    nn = NearestNeighbors(        n_neighbors=N_NEIGHBORS_MAX, # 查询k个近邻的数目        p=p,                         # 1是曼哈顿距离，2是欧式距离        metric=metric,               # 距离度量方法，默认'minkowski'        metric_params=metric_params, # 评估函数的其它关键参数        n_jobs=-1,    )    nn.fit(all_pivot)    # 返回近邻样本的 距离 和 索引位置 (time数量，N_NEIGHBORS_MAX)    test_pivot = all_pivot[all_pivot.index == test_time_id]    _, neighbors = nn.kneighbors(test_pivot, return_distance=True)     
    # 获取target的pivot    feature_pivot = all_df.pivot('time_id', 'investment_id', target_feature)    feature_pivot = feature_pivot.fillna(feature_pivot.mean())       # 对unseen time一列填充均值    feature_pivot = feature_pivot.fillna()                          # 对unseen investment一行填充均值，即0
    # 对时间维度上的近邻样本的target数据, 按距离顺序，排序写入feature_values    feature_values = np.zeros((N_NEIGHBORS_MAX, 1, feature_pivot.shape[1]))    for i in range(N_NEIGHBORS_MAX):        feature_values[i, :] += feature_pivot.values[neighbors[:, i], :]
    # 遍历不同的聚合方法    for agg_func in time_id_agg_funcs[f_col]:        # 遍历不同的聚合维度        for n in time_id_neigbor_sizes:            # 对目标变量的近邻样本做聚合特征            dst = make_nn_feature(feature_values, test_pivot, f_col, n=n, agg=agg_func, postfix='time')            # 将聚合特征拼接到原数据集上            test_df = pd.merge(test_df, dst, on=['investment_id', 'time_id'], how='left')