第一印象(First Impressions)人物性格特征预测
User | interview | agreeableness | conscientiousness | extraversion | neuroticism | openness |
---|---|---|---|---|---|---|
heysky | 0.920916 | 0.913731 | 0.919769 | 0.921289 | 0.914613 | 0.917014 |
hershd23 | 0.9180 | 0.9111 | 0.9153 | 0.9150 | 0.9100 | 0.9102 |
baseline | 0.916202 | 0.91123 | 0.915228 | 0.91122 | 0.910378 | 0.911123 |
bekhouche | 0.915746 | 0.910312 | 0.913775 | 0.91551 | 0.908297 | 0.910078 |
*MS1997 | 0.9047 | 0.9075 | 0.9066 | 0.9030 | 0.9018 | 0.9046 |
go2chayan | 0.901859 | 0.903216 | 0.894914 | 0.90266 | 0.901147 | 0.904709 |
azzasama | 0.872129 | 0.891004 | 0.865975 | 0.878842 | 0.863237 | 0.874761 |
more
- MS1997 blog
- https://github.com/InnovArul/first-impressions
- raphaellederman.github.io
0x01 Dataset
V1 (ECCV ‘16, ICPR ‘16) http://chalearnlap.cvc.uab.es/dataset/20/description/
V2 (CVPR’17) http://chalearnlap.cvc.uab.es/dataset/24/description/
First Impressions 数据集包含10,000个剪辑(平均持续时间15s),这些剪辑是从3,000个不同的YouTube高清晰度(HD)视频中提取出来的,这些视频分别是面对和用英语对着摄像机说话的人。这些视频按3:1:1的比例分为训练/验证/测试集。视频中的人包括不同的性别,年龄,国籍和种族。
视频有人格特征标签(personality traits variables),使用Amazon Mechanical Turk(AMT)生成,采用了可靠的程序来保证标签的可靠性。认为的人格特质来自五因素模型(也称为“Big Five”),这是人格研究中的主导范式。它从五个方面对人格进行建模:性格外向(Extroversion),乐于助人(Agreeableness),尽职尽责(Conscientiousness),神经质(Neuroticism)和开放经验(Openness to experience)。因此,每个剪辑都有针对这五个特征的地面真相标签,并以[0,1]范围内的值表示。有关数据集的更多详细信息,请参见此处。
此前基于 MTurk 注释和“小片段音/视频”对人格特质的进行预测的研究可以参考:
J.-I. Biel, O. Aran, and D. Gatica-Perez, You Are Known by How You Vlog: Personality Impressions and Nonverbal Behavior in YouTube in Proc. AAAI Int. Conf. on Weblogs and Social Media (ICWSM), Barcelona, Jul. 2011
J.-I. Biel and D. Gatica-Perez, The YouTube Lens: Crowdsourced Personality Impressions and Audiovisual Analysis of Vlogs, IEEE Trans. on Multimedia, Vol. 15, No. 1, pp. 41-55, Jan. 2013
以及在ACM Multimedia 2014上的相关事件:
此外,我们还提供一个扩展数据集。具体来说,我们用新的语言数据(transcriptions)补充数据集,以补充现有的感官数据(videos)以及新的求职面试变量(interview annotations),后者补充现有的人格特质变量(trait annotations)。
转录(Transcriptions) 视频片段中的所有单词均由专业转录服务机构转录。总共录制了435984个单词(183861个非停用词),相当于每个视频平均43个单词(18个非停用词)。在这些单词中,有14535个是唯一的(14386个非停用词)。
面试标注(Interview annotations) 除了标记明显的人格特征之外,AMT工作者还为每个视频标记了一个变量,该变量指示是否应邀请该人参加工作面试(“工作面试变量”)。此变量还用[0,1]范围内的值表示。
数据格式(Groundtruth file format)
注释和转录存储在pickled dictionaries中。每个阶段应该有一个文件用于注释(annotations),一个文件用于转录(transcriptions)。
每个视频都有一个转录(如果视频中没有要转录的内容,则其对应的转录将是一个空字符串)。每个转录都是一个unicode对象。转录文件是一个字典。也就是说,其键是视频的名称,其值是相应的转录。例如:
transcription [‘a_video_name’]将给出名为“ a_video_name”的视频的转录。
每个视频还具有六个注释(五个特征和一个采访)。每个注释都是介于零和一之间的值。注释文件是词典的字典。也就是说,外部字典的键是注释的名称,其值是字典。内部词典的键是视频的名称,其值是与外部词典的键相对应的实际注释。例如:
annotation[‘interview’] [‘a_video_name’] 会给出名为 “ a_video_name” 的视频的采访注释的值。
annotation[‘openness’] [‘another_video_name’] 会给出名为 “ another_video_name” 的视频的开放性注解的值。
可以在此处找到测试阶段的样本预测文件(定量)。
您可以在此处找到第二阶段的样本预测文件(定性)。
密钥
Encryption key for validation groundtruth and test set (without groundtruth) is “zeAzLQN7DnSIexQukc9W”.
Encryption key for files test80_01.zip to test80_25.zip is “.chalearnLAPFirstImpressionsSECONDRoundICPRWorkshop2016.”.
New!
我们正在为第一印象数据集提供可用的性别和种族注释。这些标签由Heysem Kaya和Albert Ali Salah提供。
请引用以下论文以引用此类注释:
标签如下:
- 种族:亚洲人= 1,高加索人= 2,非裔美国人= 3
- 性别:男= 1,女= 2