第一印象(First Impressions)人物性格特征预测

User interview agreeableness conscientiousness extraversion neuroticism openness
heysky 0.920916 0.913731 0.919769 0.921289 0.914613 0.917014
hershd23 0.9180 0.9111 0.9153 0.9150 0.9100 0.9102
baseline 0.916202 0.91123 0.915228 0.91122 0.910378 0.911123
bekhouche 0.915746 0.910312 0.913775 0.91551 0.908297 0.910078
*MS1997 0.9047 0.9075 0.9066 0.9030 0.9018 0.9046
go2chayan 0.901859 0.903216 0.894914 0.90266 0.901147 0.904709
azzasama 0.872129 0.891004 0.865975 0.878842 0.863237 0.874761

more

0x01 Dataset

V1 (ECCV ‘16, ICPR ‘16) http://chalearnlap.cvc.uab.es/dataset/20/description/
V2 (CVPR’17) http://chalearnlap.cvc.uab.es/dataset/24/description/

First Impressions 数据集包含10,000个剪辑(平均持续时间15s),这些剪辑是从3,000个不同的YouTube高清晰度(HD)视频中提取出来的,这些视频分别是面对和用英语对着摄像机说话的人。这些视频按3:1:1的比例分为训练/验证/测试集。视频中的人包括不同的性别,年龄,国籍和种族。

视频有人格特征标签(personality traits variables),使用Amazon Mechanical Turk(AMT)生成,采用了可靠的程序来保证标签的可靠性。认为的人格特质来自五因素模型(也称为“Big Five”),这是人格研究中的主导范式。它从五个方面对人格进行建模:性格外向(Extroversion),乐于助人(Agreeableness),尽职尽责(Conscientiousness),神经质(Neuroticism)和开放经验(Openness to experience)。因此,每个剪辑都有针对这五个特征的地面真相标签,并以[0,1]范围内的值表示。有关数据集的更多详细信息,请参见此处

此前基于 MTurk 注释和“小片段音/视频”对人格特质的进行预测的研究可以参考:

J.-I. Biel, O. Aran, and D. Gatica-Perez, You Are Known by How You Vlog: Personality Impressions and Nonverbal Behavior in YouTube in Proc. AAAI Int. Conf. on Weblogs and Social Media (ICWSM), Barcelona, Jul. 2011

J.-I. Biel and D. Gatica-Perez, The YouTube Lens: Crowdsourced Personality Impressions and Audiovisual Analysis of Vlogs, IEEE Trans. on Multimedia, Vol. 15, No. 1, pp. 41-55, Jan. 2013

以及在ACM Multimedia 2014上的相关事件:

此外,我们还提供一个扩展数据集。具体来说,我们用新的语言数据(transcriptions)补充数据集,以补充现有的感官数据(videos)以及新的求职面试变量(interview annotations),后者补充现有的人格特质变量(trait annotations)。

转录(Transcriptions) 视频片段中的所有单词均由专业转录服务机构转录。总共录制了435984个单词(183861个非停用词),相当于每个视频平均43个单词(18个非停用词)。在这些单词中,有14535个是唯一的(14386个非停用词)。

面试标注(Interview annotations) 除了标记明显的人格特征之外,AMT工作者还为每个视频标记了一个变量,该变量指示是否应邀请该人参加工作面试(“工作面试变量”)。此变量还用[0,1]范围内的值表示。

数据格式(Groundtruth file format)

注释和转录存储在pickled dictionaries中。每个阶段应该有一个文件用于注释(annotations),一个文件用于转录(transcriptions)。

每个视频都有一个转录(如果视频中没有要转录的内容,则其对应的转录将是一个空字符串)。每个转录都是一个unicode对象。转录文件是一个字典。也就是说,其键是视频的名称,其值是相应的转录。例如:

transcription [‘a_video_name’]将给出名为“ a_video_name”的视频的转录。

每个视频还具有六个注释(五个特征和一个采访)。每个注释都是介于零和一之间的值。注释文件是词典的字典。也就是说,外部字典的键是注释的名称,其值是字典。内部词典的键是视频的名称,其值是与外部词典的键相对应的实际注释。例如:

annotation[‘interview’] [‘a_video_name’] 会给出名为 “ a_video_name” 的视频的采访注释的值。
annotation[‘openness’] [‘another_video_name’] 会给出名为 “ another_video_name” 的视频的开放性注解的值。

可以在此处找到测试阶段的样本预测文件(定量)。

您可以在此处找到第二阶段的样本预测文件(定性)。

密钥

Encryption key for validation groundtruth and test set (without groundtruth) is “zeAzLQN7DnSIexQukc9W”.
Encryption key for files test80_01.zip to test80_25.zip is “.chalearnLAPFirstImpressionsSECONDRoundICPRWorkshop2016.”.

New!

我们正在为第一印象数据集提供可用的性别和种族注释。这些标签由Heysem Kaya和Albert Ali Salah提供。

请引用以下论文以引用此类注释:

Hugo Jair Escalante, Heysem Kaya, Albert Ali Salah, Sergio Escalera, Yagmur Gucluturk, Umut Guclu, Xavier Baro, Isabelle Guyon, Julio Jacques Junior, Meysam Madadi, Stephane Ayache, Evelyne Viegas, Furkan Gurpinar, Achmadnoer Sukma Wicaksana, Cynthia C. S. Liem, Marcel A. J. van Gerven, Rob van Lier Explaining First Impressions: Modeling, Recognizing, and Explaining Apparent Personality from Videos. ArXiv, 1802.00745, 2018

标签如下:

  • 种族:亚洲人= 1,高加索人= 2,非裔美国人= 3
  • 性别:男= 1,女= 2