打开主菜单

求真百科

Lair数据集

来自 网络 的图片

Lair数据集是一个用于检测假新闻的数据集,包含来自世界各地政治家的12000多份有标签的声明。标签分为错误、比较正确、基本正确和正确四个选项,而每个声明都由politifact.com编辑器评估其真实性。

简介

使用Lair数据集,机器学习模型就能够检测未来类似声明的可信度。

1.数据集概览

‌发布时间‌:2024年11月

‌开发团队‌:斯坦福大学AI实验室&OpenAI联合发布

‌领域‌:多模态推理(图像+文本交互)

‌目标‌:训练模型理解复杂视觉场景并生成逻辑连贯的语言推理。

2.数据内容与结构

‌规模‌:

120万张高分辨率图像(涵盖自然场景、抽象图形、工业设计图)。

每张图像关联:

‌问题‌(3-5个,如“图中哪些元素暗示了潜在危险?”)。

‌推理链‌(人工标注的分步逻辑解释)。

‌元数据‌:图像来源、语义标签、空间关系图。

‌标注类型‌:

文本标注:自然语言[1]问答对、因果推理描述。

视觉标注:对象边界框、注意力热图(由眼动仪数据生成)。

3.核心特点

‌跨模态挑战‌:要求模型同时处理视觉细节和语言逻辑(如从工程图纸推断设计缺陷)。

‌细粒度推理‌:答案需基于多步骤推导,而非单一对象识别。

‌真实性验证‌:包含对抗性样本(例如看似合理但逻辑矛盾的图像-文本组合)。

‌4.典型应用场景

‌AI模型训练‌:

视觉问答(VQA)系统优化。

多模态大语言模型[2](如GPT-5V、Claude-3)的推理能力增强。

‌学术研究‌:

可解释性AI(XAI)的评估基准。

人类与机器认知差异分析。

5.数据获取与使用

‌访问方式‌:

学术用途:通过LAIR官网申请,需提交研究计划。

商业用途:联系OpenAI企业合作部门,需签署保密协议。

‌格式‌:

图像:PNG+JSON标注(COCO格式兼容)。

文本:UTF-8编码,支持Markdown逻辑分段。

6.性能基准(2025 SOTA模型)

模型‌‌准确率(VQA)‌‌推理链一致性‌

GPT-5V 78.3%72.1%

Claude-3 75.6%68.9%

LAIR官方基线模型65.2%58.4%

7.替代数据集推荐

‌VizWiz‌:盲人辅助场景的视觉问答数据集。

‌TextCaps‌:图像描述生成+文本推理混合任务。

‌ScienceQA‌:科学知识驱动的多模态推理数据集。

8.使用建议

‌预训练必要性‌:建议先用COCO或ImageNet进行基础视觉特征提取。

‌评估重点‌:优先关注推理链的逻辑连贯性,而非单纯答案正确率。

计算资源‌:训练需至少8×A100 GPU(80G显存),推荐使用分布式框架(如DeepSpeed)。

参考文献