有没有可以用成对的整数集训练的机器学习算法?

问题描述:

[编者注:请移动这个问题到交叉验证的社区]有没有可以用成对的整数集训练的机器学习算法?

一样,训练集由正例 (S1,S2),其中S1是一个整数集和s2另一个整数组。 s1和s2可能有不同的基数。负例子类似:整数集合的对(s3,s4)。

+0

人类如何区分正面和负面的例子? – Andnp

+0

正面示例将从数据集中提取。 – ligand

+0

在正面示例的数据集中,可以通过一些随机化来构造否定示例,从而避免产生任何正面示例。 – ligand

似乎主要的问题是实际从输入数据中提取特征。一旦你将你的对集合作为向量进行编码,你几乎可以使用任何你想要的算法。

最明显的方法是使用整数作为单词的Bag of Words方法(具体来说,分别编码两个集合然后连接它们的项频率矩阵似乎是合适的)。

当然,你必须接受你在开始时给出可能的整数范围,或者某些整数不被编码。

如果你想要一些练习BoW模型,我建议尝试this hackerrank problem。例如,你可以使用scikit学习解决它 - 它的文档包含Working With Text Data的教程。

+0

是否可以使用SVM来执行相同的任务?就像svm_train(s1,s2,Good)和svm_train(s1,s3,Bad) – ligand

+0

我所描述的技术只提取特征。您可以在提取的数据集上运行机器学习算法。 –

+0

我在问一个算法;而不是提取特征。因为我怀疑大多数机器学习算法在一个稀疏且很长的向量上运行良好。这就是为什么我要求可以直接使用整数集的算法。 – ligand