常用的公共数据集(一)
CVonline:图像数据库
这是一个整理的图像和视频数据库列表,这些数据库对计算机视觉研究和算法评估很有用。(Google直接翻译的,希望对大家有帮助)
原文链接:CVonline: Image Databases
CVonline: Image DatabasesCVonline vision databases page
https://homepages.inf.ed.ac.uk/rbf/CVonline/Imagedbase.htm#action
目录
一、行动数据库
二、农业
三、属性识别
四、自动驾驶
五、生物/医药
六、相机校准
七、面部和眼睛/虹膜数据库
八、指纹
九、一般图像
十、一般RGBD和深度数据集
十一、一般视频
十二、手,手抓,手动和手势数据库
十三、图像,视频和形状数据库检索
十四、对象数据库
十五、人(静态和动态),人体姿势
十六、人员检测和跟踪数据库
十七、遥感
十八、机器人
十九、场景或场所,场景分割或分类
二十、细分(一般)
二十一、同时定位和映射
二十二、监督和跟踪
二十三、纹理
二十四、城市数据集
二十五、视觉与自然语言
二十六、其他收藏
二十七、其他
另外两个有用的 站是:
- YACVID – 某些计算机视觉数据集的标记索引
- 学术种子 – 计算机视觉 – 以BitTorrent形式提供的30多个大型数据集
一、行动数据库
- 20bn-Something-Something – 密集标记的视频剪辑,显示人类使用日常物品执行预定义的基本动作(Twenty Billion Neurons GmbH)
- 3D在线行动数据集 – 有七个行动类别(微软和南洋理工大学)
- 50沙拉 – 完整注释的4.5小时RGB-D视频+加速度计数据数据集,捕获25人准备两个混合沙拉(邓迪大学,塞巴斯蒂安斯坦)
- 办公活动的第一人称视觉数据集(FPVO) – FPVO包含使用12名参与者收集的办公活动的第一人称视频片段。(G. Abebe,A。Catala,A。Cavallaro)
- ActivityNet – 人类活动理解的大型视频基准(200个课程,每班100个视频,648个视频小时)(Heilbron,Escorcia,Ghanem和Niebles)
- 视频中的动作检测 – MERL购物数据集由106个视频组成,每个视频的序列长约2分钟(Michael Jones,Tim Marks)
- 演员和动作数据集 – 3782个视频,七个类别的演员表演八种不同的动作(Xu,Hsieh,Xiong,Corso)
- 用于行动识别的各种标记视频数据集的分析整理(Kevin Murphy)
- ASLAN动作相似性标记挑战数据库(Orit Kliper-Gross)
- 用于理解非结构化社交活动的属性学习 – 包含10种非结构化社交事件类别的视频数据库,以及69个属性的注释。(Y. Fu Fudan / QMUL,T。Hospedales Edinburgh / QMUL)
- 视听事件(AVE)数据集 – AVE数据集包含4143个YouTube视频,涵盖28个事件类别和AVE数据集中的视频,在时间上标有视听事件边界。(田亚鹏,景石,李伯辰,段志尧,徐晨亮)
- AVA:原子视觉动作的视频数据集 – 430个15分钟电影剪辑中的80个原子视觉动作。(谷歌机器感知研究小组)
- BBDB – 棒球数据库(BBDB)是一个大型棒球视频数据集,包含4200小时的完整棒球比赛视频,有400,000个临时注释的活动片段。(Shim,Minho,Young Hwi,Kyungmin,Kim,Seon Joo)
- 使用标记来交互人物视频数据(Scott Blunsden,Bob Fisher,Aroosha Laghaee)
- BU动作数据集 – 三个图像动作数据集(BU101,BU101未过滤,BU203未过滤),与视频数据集UCF101和ActivityNet的类别1:1对应。(S. Ma,SA Bargal,J。Zhang,L。Sigal,S。Sclaroff。)
- 伯克利MHAD:综合多模人类行动数据库(Ferda Ofli)
- 伯克利多模人类行动数据库 – 扩展应用领域的五种不同模式(加州大学伯克利分校和约翰霍普金斯大学)
- 早餐数据集 – 这是一个包含1712个视频剪辑的数据集,显示10个厨房活动,这些活动被手工分割成48个原子动作类。(H. Kuehne,AB Arslan和T. Serre)
- Bristol Egocentric Object Interactions数据集 – 包含从第一人称(以自我为中心)观点拍摄的视频,其中3-5个用户在六个不同的位置执行任务(Dima Damen,Teesid Leelaswassuk和Walterio Mayol-Cuevas,布里斯托尔大学)
- 布朗早餐行动数据集 – 70个小时,10个不同的早餐准备活动400万帧(Kuehne,Arslan和Serre)
- CAD-120数据集 – 侧重于高级活动和对象交互(康奈尔大学)
- CAD-60数据集 – CAD-60和CAD-120数据集包含人类活动的RGB-D视频序列(康奈尔大学)
- CVBASE06:带注释的体育视频(Janez Pers)
- Charades数据集 – 来自267名志愿者的10,000个视频,每个视频都注释了多个活动,字幕,对象和时间本地化。(Sigurdsson,Varol,Wang,Laptev,Farhadi,Gupta)
- 可组合活动数据集 – 26个原子动作的不同组合形成16个活动类别,由14个科目和注释提供(智利大学和智利大学)
- 人类跌倒的连续多模态多视图数据集 – 数据集包括正常日常活动和模拟跌倒,用于评估人体跌倒检测。(Thanh-Hai Tran)
- 康奈尔活动数据集CAD 60,CAD 120(康奈尔机器人学习实验室)
- DMLSmartActions数据集 – 十六名受试者以自然的方式进行了12种不同的行动。(不列颠哥伦比亚大学)
- DemCare数据集 – DemCare数据集由来自不同传感器的一组不同数据集合组成,可用于从可穿戴/深度和静态IP摄像机识别人类活动,用于Alzheimmer疾病检测的语音识别以及用于步态分析和异常检测的生理数据。(K. Avgerinakis,A.Karakostas,S.Vrochidis,I。Kompatsiaris)
- 包含深度的人类行动视频数据集 – 它包含23种不同的行动(中央研究院的CITI)
- DogCentric活动数据集 – 从安装在*狗*上的相机拍摄的第一人称视频*(Michael Ryoo)
- 爱丁堡ceilidh头顶视频数据 – 从头顶观看16个地面舞蹈,10个舞者遵循结构化的舞蹈模式(2种不同的舞蹈)。该数据集对于高度结构化的行为理解非常有用(Aizeboje,Fisher)
- EPIC-KITCHENS – 由32名参与者在其原生厨房环境中记录的以自我为中心的视频,非脚本日常活动,11.5M帧,39.6K帧级动作片段和454.2K物体边界框(Damen,Doughty,Fidler等)
- EPFL绉纱烹饪视频 – 分析1920×1080分辨率的6种结构化烹饪活动(12)视频(Lee,Ognibene,Chang,Kim和Demiris)
- ETS曲棍球比赛事件数据集 – 此数据集包含使用固定摄像头拍摄的两个曲棍球比赛的镜头。(M.-A. Carbonneau,AJ Raymond,E。Granger和G. Gagnon)
- FCVID:复旦 – 哥伦比亚视频数据集 – 根据239个类别手动注释的91,223个 络视频(江,吴,王,薛,张)
- SoccerNet – 用于在足球视频中进行动作发现的可扩展数据集:500个足球游戏,完全注释主要动作(目标,牌,潜艇)和超过13K的足球比赛注释500K评论用于事件字幕和游戏摘要。(Silvio Giancola,Mohieddine Amine,Tarek Dghaily,Bernard Ghanem)
- G3D – 使用Microsoft Kinect(Victoria Bloom)捕获的20个游戏动作的同步视频,深度和骨架数据
- G3Di – 此数据集包含12个科目,分为6对(金斯顿大学)
- 游戏3D数据集 – 游戏场景中的实时动作识别(金斯顿大学)
- 佐治亚理工学院自我中心活动 – 凝视(+) – 人们观看的视频和他们的凝视位置(Fathi,Li,Rehg)
- HMDB:大型人体运动数据库(Serre Lab)
- 好莱坞三维数据集 – 涵盖14个动作类(哈德菲尔德和鲍登)的650个3D视频剪辑
- 人类行动和场景数据集(Marcin Marszalek,Ivan Laptev,Cordelia Schmid)
- 人体搜索搜索人类注释器的序列,其任务是在AVA和THUMOS14数据集中发现动作。(Alwassel,H.,Caba Heilbron,F.,Ghanem,B。)
- Hollywood Extended – 937个视频剪辑,总共787720帧,包含来自69部好莱坞电影的16种不同动作的序列。(Bojanowski,Lajugie,Bach,Laptev,Ponce,Schmid和Sivic)
- HumanEva:用于评估关节人体运动的同步视频和运动捕捉数据集(布朗大学)
- I-LIDS视频事件图像数据集(用于智能检测系统的图像库)(Paul Hosner)
- I3DPost多视图人类行动数据集(Hansung Kim)
- IAS-lab Action数据集 – 包含足够多的操作和执行操作的人数(帕多瓦大学的IAS实验室)
- ICS-FORTH MHAD101行动共同分割 – 共享一个或多个共同动作以共同分割的 101对长期动作序列,包含三维骨架和视频相关的基于帧的特征(克里特岛大学和FORTH-ICS, K. Papoutsakis)
- IIIT极限运动 – 来自YouTube的160个第一人称(自我中心)体育视频,帧级注释为18个动作类。(Suriya Singh,Chetan Arora和CV Jawahar。轨迹对齐)
- INRIA Xmas运动采集序列(IXMAS)(INRIA)
- InfAR数据集 – 不同时间神经计算的红外动作识别(陈强强,杜银河,刘江,吕静,杨鲁宇,孟德玉,Alexander G. Hauptmann)
- JHMDB:基于来自HMDB51的928个剪辑的HMDB数据集(J-HMDB)的关节,包括21个动作类别(Jhuang,Gall,Zuffi,Schmid和Black)
- JPL第一人称互动数据集 – 从第一人称角度拍摄的7种人类活动视频(Michael S. Ryoo,JPL)
- 耶拿行动识别数据集 – 爱宝犬行动(Korner和Denzler)
- K3Da – Kinect 3D主动数据集 – K3Da(Kinect 3D主动)是一个真实的临床相关人类动作数据集,包含骨架,深度数据和相关参与者信息(D. Leightley,MH Yap,J。Coulson,Y。Barnouin和JS McPhee)
- 动力学人类行动视频数据集 – 300,000个视频剪辑,400个人类动作classe,10秒剪辑,每个剪辑单个动作(Kay,Carreira,et al)
- KIT Robo-Kitchen活动数据集 – 由17人组成的540张剪辑,进行12项复杂的厨房活动。(L.R.R.Robok,S。Friedberger,UD Hanebeck,R。Stiefelhagen)
- KTH人类行动识别数据库(KTH CVAP实验室)
- 卡尔斯鲁厄运动,意图和活动数据集(MINTA) – 7种类型的日常生活活动,包括完全运动的原始部分。(D。Gehrig,P。Krauthausen,L。Rybok,H。Kuehne,UD Hanebeck,T。Schultz, R. Stiefelhagen)
- LIRIS人类活动数据集 – 包含(灰色/ rgb /深度)视频,显示人们进行各种活动(Christian Wolf等,法国国家科学研究中心)
- MEXaction2动作检测和本地化数据集 – 支持开发和评估在相对较大的视频数据库中“发现”短行动实例的方法:77小时,117个视频(Michel Crucianu和Jenny Benois-Pineau)
- MLB-YouTube – 棒球视频中的活动识别数据集(AJ Piergiovanni,Michael Ryoo)
- 时间数据集中的时刻 – 时间数据集中的时刻1M使用操作类型注释的3秒视频,这是用于在视频中识别和理解动作的最大数据集。(蒙福特,奥利瓦等人)
- MPII烹饪活动数据集用于细粒度烹饪活动识别,其中还包括连续姿势估计挑战(Rohrbach,Amin,Andriluka和Schiele)
- MPII Cooking 2数据集 – 细粒度烹饪活动的大型数据集,是MPII烹饪活动数据集的延伸。(Rohrbach,Rohrbach,Regneri,Amin,Andriluka,Pinkal,Schiele)
- MSR-Action3D – 基准RGB-D动作数据集(Microsoft Research Redmond和University of Wollongong)
- MSRActionPair数据集 – :深度序列中活动识别的定向4D法线直方图(中佛罗里达大学和微软)
- MSRC-12 Kinect手势数据集 – 来自执行12个手势的人的594个序列和719,359个帧(Microsoft Research Cambridge)
- MSRC-12数据集 – 人体运动的序列,表示为身体部位,以及相关的姿势(Microsoft Research Cambridge and Cambridge of Cambridge)
- MSRDailyActivity3D数据集 – 有16项活动(微软和西北大学)
- ManiAc RGB-D动作数据集:不同的操纵动作,15种不同的版本,30种不同的操纵对象,20种长而复杂的链式操作序列(Eren Aksoy)
- Mivia数据集 – 它由14个主题执行的7个高级动作组成。(Salemo大学的Mivia Lab)
- MuHAVi – Multicamera人类行动视频数据(Hossein Ragheb)
- 多模态动作检测(MAD)数据集 – 它包含由20个主题执行的35个连续动作。(卡内基·梅隆大学)
- 多视图3D事件数据集 – 此数据集包括8个主题(加州大学洛杉矶分校)执行的8类事件
- 名古屋大学超低分辨率FIR图像动作数据集 – 由16×16低分辨率FIR传感器捕获的动作识别数据集。(名古屋大学)
- NTU RGB + D动作识别数据集 – NTU RGB + D是用于人类动作识别的大规模数据集(Amir Shahroudy)
- 西北 – 加州大学洛杉矶分校Multiview Action 3D – 有10个行动类别🙁西北大学和加州大学洛杉矶分校)
- Office活动数据集 – 它由Kinect 2.0从执行常见办公活动的不同主体获取的骨架数据组成。(A. Franco,A。Magnani,D。Maiop)
- 牛津电视人体互动(牛津视觉几何组)
- 议会 – 议会数据集是228个视频序列的集合,描绘了希腊议会的政治演讲。(Michalis Vrigkas,Christophoros Nikou,Ioannins A. kakadiaris)
- 程序性人类行动视频 – 该数据集包含大约40,000个用于人类动作识别的视频,这些视频是使用3D游戏引擎生成的。该数据集包含大约600万帧,其可用于训练和评估模型,不仅是动作识别,而且还用于深度图估计,光流,实例分割,语义分割,3D和2D姿势估计以及属性学习的模型。(Cesar Roberto de Souza)
- RGB-D活动数据集 – 数据集中的每个视频包含2-7个涉及与不同对象交互的操作。(康奈尔大学和斯坦福大学)
- RGBD-Action-Completion-2016 – 该数据集包括414个完整/不完整的对象交互序列,跨越六个动作并呈现RGB,深度和骨架数据。(Farnoosh Heidarivincheh,Majid Mirmehdi,Dima Damen)
- 基于RGB-D的动作识别数据集 – 包含不同rgb-d动作识别数据集的列表和链接的论文。(张静,李万庆,Philip O. Ogunbona,王必皓,唐昌)
- RGBD-SAR数据集 – RGBD-SAR数据集(中国电子科技大学和微软)
- 罗切斯特日常生活活动数据集(Ross Messing)
- SBU Kinect交互数据集 – 它包含八种类型的交互(Stony Brook大学)
- SBU-Kinect-Interaction数据集v2.0 – 它包含进行交互活动的人类RGB-D视频序列(Kiwon Yun等)
- SDHA 2010年人类活动语义描述 – 人类互动(Michael S. Ryoo,JK Aggarwal,Amit K. Roy-Chowdhury)
- SDHA人类活动语义描述2010年比赛 – 空中观点(Michael S. Ryoo,JK Aggarwal,Amit K. Roy-Chowdhury)
- SFU排球小组活动识别 – 排球视频的2级注释数据集(9个玩家的动作和8个场景的活动)。(M.Ibrahim,S。Muralidharan,Z。Deng,A。Vahdat和G. Mori / Simon Fraser大学)
- SYSU 3D人 – 对象交互数据集 – 40个科目进行12项不同的活动(中山大学)
- ShakeFive数据集 – 仅包含两个动作,即握手和高五。(Universitit Utrecht)
- ShakeFive2 – 153个高清视频中8个类别的肢体水平注释的二元人体交互数据集(Coert van Gemeren,Ronald Poppe,Remco Veltkamp)
- 野外体育视频(SVW) – SVW由Coach Eye智能手机用户使用智能手机拍摄的4200个视频,这是TechSmith公司开发的运动训练的领先应用程序。(Seyed Morteza Safdarnejad,Xiaoming Liu)
- 斯坦福体育赛事数据集(贾莉)
- 利兹活动数据集 – 早餐(LAD – 早餐) – 由15个带注释的视频组成,代表五个不同的人吃早餐或其他简单的一餐;”>
- THU-READ(清华大学RGB-D自我中心行动数据集) – THU-READ是一个用于RGBD视频中动作识别的大型数据集,带有像素杠杆手部注释。(Yansong Tang,Yi Tian,Lu Jiwen Lu,Jianjiang Feng,Jie Zhou)
- THUMOS – 在时间上未修剪的视频中的动作识别! – 430小时的视频数据和4500万帧(Gorban,Idrees,Jiang,Zamir,Laptev Shah,Sukthanka)
- TUM厨房数据集的日常操作活动(Moritz Tenorth,Jan Bandouch)
- 电视人体互动数据集(Alonso Patron-Perez)
- 下降检测数据集 – 两个场景中的六个主题连续执行了一系列操作(德克萨斯大学)
- TJU数据集 – 包含在两个不同环境中由20个主题执行的22个动作;”>
- UCF-iPhone数据集 – 使用Apple iPhone 4智能手机上的惯性测量单元(IMU)从(6-9)个科目记录了9个有氧运动。(Corey McCall,Kishore Reddy和Mubarak Shah)
- UPCV动作数据集 – 数据集由20个受试者两次执行的10个动作组成。(帕特雷大学)
- UC-3D运动数据库 – 可用的数据类型包括高分辨率运动捕捉,通过Xsens的MVN Suit和Microsoft Kinect RGB以及深度图像采集。(葡萄牙科英布拉系统与机器人研究所)
- UCF 101动作数据集 101动作类,超过13k个剪辑和27小时视频数据(佛罗里达中部大学)
- UCF-犯罪数据集:监控视频中的真实异常检测 – 用于监控视频中真实异常检测的大型数据集。它包括1900长和未经修剪的现实监控视频(128小时),包括13个现实异常,如战斗,交通事故,入室盗窃,抢劫等,以及正常活动。(中佛罗里达大学计算机视觉研究中心)
- UCFKinect – 数据集由16个动作组成(中佛罗里达大学奥兰多分校)
- 加州大学洛杉矶分校人与人对象互动(HHOI)数据集Vn1 – RGB-D视频中的人机交互(Shu,Ryoo和Zhu)
- 加州大学洛杉矶分校人与人对象互动(HHOI)数据集Vn2 – RGB-D视频中的人机交互(第2版)(Shu,Gao,Ryoo和Zhu)
- UCR Videoweb多摄像机广域活动数据集(Amit K. Roy-Chowdhury)
- UTD-MHAD – 八名受试者进行了四次27次动作。(德克萨斯大学达拉斯分校)
- UTKinect数据集 – 10个受试者(德克萨斯大学)进行了两次人类行为的十种类型
- UWA3D多视图活动数据集 – 由10个人(西澳大利亚大学)进行了30项活动
- 佛罗里达中部大学 – 现实视频中的50个动作类别识别(3 GB)(Kishore Reddy)
- 佛罗里达中部大学 – ARG航空相机,屋顶摄像机和地面摄像机(UCF计算机视觉实验室)
- 佛罗里达中部大学 – 长片动作数据集(佛罗里达中部大学)
- 佛罗里达中部大学 – 体育行动数据集(佛罗里达中部大学)
- 佛罗里达中部大学 – YouTube动作数据集(体育)(佛罗里达中部大学)
- 未分类体育新闻视频 – 74个体育新闻视频数据库,标记有10类体育。旨在测试多标签视频标记。(T. Hospedales,爱丁堡/ QMUL)
- 乌得勒支多人运动基准(UMPM)。 – 基于动作捕捉数据的人物视频录像和基础事实的集合。(NP van der Aa,X。Luo,GJ Giezeman,RT Tan,RC Veltkamp。)
- VIRAT视频数据集 – 从涉及人类和车辆的两大类活动(单一对象和双对象)中识别事件。(Sangmin Oh等)
- 维罗纳社交互动数据集(Marco Cristani)
- ViHASi:虚拟人体动作剪影数据(用户ID:VIHASI密码:虚拟$虚拟)(Hossein Ragheb,金斯顿大学)
- Videoweb(multicamera)活动数据集(B. Bhanu,G。Denina,C。Ding,A。Ivers,A。Kamal,C。Ravishankar,A。Roy-Chowdhury,B。Varda)
- WVU多视图动作识别数据集(西弗吉尼亚大学)
- WorkoutSU-10用于锻炼动作的Kinect数据集(Ceyhun Akgul)
- WorkoutSU-10数据集 – 包含由专业培训师为治疗目的选择的锻炼行动。(萨班哲大学)
- 腕上摄像机视频数据集 – 对象操作(Ohnishi,Kanehira,Kanezaki,Harada)
- YouCook – 带有注释的88个开源YouTube烹饪视频(Jason Corso)
- YouTube-8M数据集 – 用于视频理解研究的大型多样化标签视频数据集(Google Inc.)
二、农业
- 阿伯里斯特威斯叶评估数据集 – 用手标记的植物图像标记了一些时间步骤的叶级分割,以及来自植物牺牲的生物数据。(Bell,Jonathan;”>
- FieldsaFE;”>
- KOMATSUNA数据集 – 数据集用于使用连续多视图RGB图像和深度图像进行叶子的实例分割,跟踪和重建。(九州大学Hideaki Uchiyama)
- 叶子计数数据集 – 估算小型植物生长阶段的数据集。(奥胡斯大学)
- 叶片分割挑战烟草和拟南芥植物图像(Hanno Scharr,Massimo Minervini,Andreas Fischbach,Sotirios A. Tsaftaris)
- 多物种果实花朵检测 – 该数据集由四组花卉图像组成,来自三种不同的树种:苹果,桃子和梨,以及伴随的地面真实图像。(Philipe A. Dias,Amy Tabb,Henry Medeiros)
- 植物表型分析数据集 – 适用于植物和叶子检测,分割,追踪和物种识别的植物数据(M. Minervini,A。Fischbach,H。Scharr,SA Tsaftaris)
- 植物幼苗数据集 – 12种杂草种的高分辨率图像。(奥胡斯大学)
三、属性识别
- 用于理解非结构化社交活动的属性学习 – 包含10种非结构化社交事件类别的视频数据库,以及69个属性的注释。(Y. Fu Fudan / QMUL,T。Hospedales Edinburgh / QMUL)
- 具有属性2 – 37322(自由许可)的动物50个动物类的图像,具有85个每类二进制属性。(Christoph H. Lampert,IST奥地利)
- 鸟类这个数据库包含6个不同类别的鸟类的600张图像(每个100个样本)。(Svetlana Lazebnik,Cordelia Schmid和Jean Ponce)
- 蝴蝶这个数据库包含719种不同类型蝴蝶的619张图像。(Svetlana Lazebnik,Cordelia Schmid和Jean Ponce)
- CALVIN研究组数据集 – 使用眼睛跟踪,图像 络边界框,同步活动,火柴人和身体姿势,youtube对象,面部,马,玩具,视觉属性,形状类(CALVIN ggroup)进行对象检测
- CelebA – 大型CelebFaces属性数据集(刘紫薇,罗平,王小刚,王小鸥)
- DukeMTMC属性 – DukeMTMC-reID的23个行人属性(Lin,Zheng,Zheng,Wu和Yang)
- EMOTIC(情境中的情绪) – 嵌入其自然环境中的人物(34357)的图像,用2种不同的情感表示进行注释。(Ronak kosti,Agata Lapedriza,Jose Alvarez,Adria Recasens)
- 拥有27个人类属性的HAT数据库(Gaurav Sharma,Frederic Jurie)
- 用于学习相对属性的LFW-10数据集 – 10,000对面部图像的数据集,具有10个属性的实例级注释。(CVIT,IIIT Hyderabad。)
- 市场-1501属性 – 1501名购物者的27个视觉属性。(林,郑,郑,吴,杨)
- 多级天气数据集 – 我们的多级基准数据集包含来自6个常见类别的65,000张图像,适用于晴天,阴天,下雨,下雪,阴霾和雷电天气。该数据集有益于天气分类和属性识别。(迪林)
- 个人照片集中的人物识别 – 我们引入了三个更难分割的评估和长期属性注释和每照片时间戳元数据。(哦,Seong Joon和Benenson,Rodrigo和Fritz,Mario和Schiele,Bernt)
- UT-Zappos50K Shoes – 大型鞋类数据集,包含50,000个目录图像和超过50,000个成对相对属性标签,共11个细粒度属性(Aron Yu,Mark Stephenson,Kristen Grauman,UT Austin)
- 视觉属性数据集可视属性注释,用于超过500个对象类(动画和无生命),它们都在ImageNet中表示。每个对象类都使用基于636个属性的分类的视觉属性进行注释(例如,具有毛皮,由金属制成,是圆形的)。
- 视觉隐私(VISPR)数据集 – 隐私多标签数据集(22k图像,68隐私属性)(Orekondy,Schiele,Fritz)
- WIDER属性数据集 – WIDER属性是一个大规模的人类属性数据集,有13789个图像属于30个场景类别,57524个人类边界框,每个用14个二进制属性注释。(Li,Yining和Huang,Chen和Loy,Chen Change and唐小鸥)
四、自动驾驶
- AMUSE – 在多个测试驱动期间在真实交通场景中拍摄的汽车多传感器(AMUSE)数据集。(Philipp Koschorrek等)
- 自动驾驶 – 语义分割,行人检测,虚拟世界数据,远红外线,立体声,驾驶员监控。(CVC研究中心和UAB和UPC大学)
- 福特校园视觉和激光雷达数据集 – 来自专业(Applanix POS LV)和消费者(Xsens MTI-G)惯性测量单元(IMU),Velodyne 3D激光雷达扫描仪,两个推扫式前视Riegl激光雷达的时间注册数据,以及Point Grey Ladybug3全方位相机系统(Pandey,McBride,Eustice)
- FRIDA(Foggy Road Image DAtabase)图像数据库 – 用于可见性和对比度恢复算法的性能评估的图像。FRIDA:18个城市道路场景的90幅合成图像。FRIDA2:330种不同道路场景的合成图像,其视点与车辆驾驶员的视点相近。(Tarel,Cord,Halmaoui,Gruyer,Hautiere)
- House3D – House3D是一个虚拟3D环境,由数千个室内场景组成,这些场景配备了各种场景类型,布局和源自SUNCG数据集的对象。它包括超过45,000个室内3D场景,从工作室到带游泳池和健身室的两层房屋。所有3D对象都使用类别标签进行完全注释。环境中的代理可以访问多种模态的观察,包括RGB图像,深度,分割掩模和自上而下的2D地图视图。渲染器以每秒数千帧的速度运行,使其适用于大规模RL训练。(Yi Wu,Yuxin Wu,Georgia Gkioxari,Yuandong Tian,facebook research)
- 印度驾驶数据集(IDD) – 来自印度的非结构化驾驶条件,具有50,000帧(10,000个语义和40,000个粗略注释),用于训练自动驾驶汽车以查看使用对象检测,场景级和实例级语义分段(CVIT,IIIT Hyderabad和Intel )
- 自动
声明:本站部分文章内容及图片转载于互联 、内容不代表本站观点,如有内容涉及侵权,请您立即联系本站处理,非常感谢!