还记得LOCATA的挑战吗? 不久前的一篇论文和IEEE都介绍过这一挑战。 其目标是为声源定位领域的研究人员提供机会,并在包含不同场景和麦克风配置的真实多声道录音的通用数据语料库上比较模型的准确性。
https://arxiv.org/pdf/1812.04942.pdf
https://signalprocessingsociety.org/get-involved/audio-and-acoustic-signal-
processing/newsletter/locata-challenge
最近新发表的一篇论文提供了相关定位追踪算法的基本介绍,并对这一领域的文献进行了回顾。与此同时,它还详细讨论了提交给LOCATA挑战的基准测试结果、仍存在的开放性问题以及潜在的未来发展方向。
这一开源LOCATA挑战数据库为开发者提供了一个能够客观分析最新定位与追踪算法的框架。它的水平达到了怎样的高度?目前,该研究主要集中在静态场景上,只有一小部分解决了涉及多个移动源的任务。这一结果表明我们仍有很大的改进空间。如果你感兴趣,定位和跟踪技术仍然是一个开放的挑战,这一论文的作者希望大家能够提供数据集或评估工具,以此来刺激和评估未来的进展。
https://arxiv.org/abs/1909.01008
NuScenes 更新:又一个多模型自动驾驶数据集
Aptiv Autonomous Mobility(原名NuTonomy)近日发布了NuScenes的更新版本,这一更新使研究人员能够使用真正的自动驾驶汽车的完整传感器套件有效地研究具有挑战性的城市驾驶情况。第一个数据集发布于2019年3月。
https://medium.com/ai%C2%B3-theory-practice-business/the-first-and-only-dataset-containing-the-full-autonomous-vehicle-sensor-suite-677e13449c8f
更新的数据集现在具有完整的传感器套件(1个激光雷达,5个雷达,6个摄像头,以及IMU和GPS),1000个场景,1400,000个摄像头图像,390,000个激光雷达扫描结果,并覆盖波士顿和新加坡。除此之外,还有左右侧交通以及详细的地图信息 、23类对象的人工注释,以2Hz注释的1.4M 3D边界框以及来自包括不同车辆、行人、移动设备和其他对象的23个类别的可见性、活动和姿势等属性。
NuScenes是第一个也是目前唯一一个包含完整360°传感器套件(激光雷达、图像和雷达)的数据集,它可以免费用于非商业用途。据称,它在尺寸和准确性方面超过了公共KITTI、百度ApolloScape、Udacity和Berkeley DeepDrive数据集。
毫无疑问,NuScenes将大力支持和推动计算机视觉和自动驾驶领域的研究和进步。其丰富的复杂性和极高的质量也将鼓励学生、学者以及业界开发者们不断研究针对城市的自动驾驶技术。
https://arxiv.org/abs/1903.11027v2
近日,一项最新研究提供了3D 脸部模型(3DMM)发展历程的详细回顾,涵盖了它的起源、现状和未来。在本文中,研究人员目前面临的问题主要是捕获、建模、图像形成和图像分析构建,以及实际构建3D 脸部模型所面临的挑战。
3D 脸部模型领域中一个最大的挑战是要在低维参数模型和可建模的细节程度之间达到平衡。遗憾的是,目前还没有针对眼睛、牙齿、毛发、皮肤细节、软组织等解剖学方面的肌肉参数模型。
研究人员还指出,这些方法仍然是这一领域活跃的研究课题,他们还回顾了这些领域的最新技术。 向前展望,他们也指出来很多未解决的挑战,并为未来的研究提出了他们的建议以及现有与未来的应用方向。
3D脸部模型有很多潜在应用。本文为该领域的新研究人员构建了一个可靠的回顾和介绍。作为一个高质量的3D 脸部模型参考指南,它为这一领域提供了许多令人兴奋的开放性研究问题。
https://arxiv.org/abs/1909.01815
StarNet: 一种计算灵活的、非卷积的自动驾驶感知目标检测器
在这项研究中,研究人员提出了一种新的检测器模型,通过在三维 LiDAR数据的背景下重新检查目标检测系统的设计,从而来更好地匹配数据形态和自动驾驶汽车感知的需求。他们首先指出一个事实,即三维区域的提议本质上是不同的,地面上的每个反射点都必须属于一个对象。
他们还表明,点云上的有效采样方案(零学习参数)足以生成区域提议。采样是因为它计算成本低,并且具有通过匹配场景的数据分布来间接利用数据稀疏性的特点。
研究人员随后在没有整体环境或共享信息的情况下处理每个提议的区域。最后,它们完全避免了任何离散化过程,并在其位置上使用本地点云分类和回归对象的边界框位置。通过重新审视当前技术的一些设计假设,他们在没有训练提议,也没有全局环境的情况下得到了一个非卷积的、基于点的对象检测器模型。
在使用KITTI和Waymo开放数据集进行评估时,这一StarNet检测器模型能在较低的推理成本下达到与现有技术一样的精确度,在类似的推理成本下甚至能做到更精确。
该模型不会浪费对空区域的计算。并且,该模型不使用全局语境,完全基于点,并且可以在推理时动态地改变提议的数量与每个提议的点数。由于每个区域都是完全独立的,因此可以在运行时根据环境选择分配区域提议的位置。简单来说,StarNet可用于定位空间位置,不需要重新训练,也不会牺牲预测质量。
https://arxiv.org/abs/1908.11069v1
谷歌推出了新版的Google Lens,并在Google Go中更新了阅读功能。新的Google Lens应用程序意图帮助面临阅读和跨语言挑战的人。这些人现在可以用手机摄像头对准他们不明白的文本,翻译后的文本将直接显示,并且可以语音播放。为了做到这一点,镜头需要能在不同设备上捕捉高质量的图像,识别文本并理解其结构,翻译并将结果叠加在上下文中,最后大声朗读出来。该应用还能在阅读的同时高亮每个单词。此外,虽然Google Go之前仅能在Android Go设备上使用,但现在谷歌已经将此应用在Play Store商店中全球上市了。谷歌镜头的新阅读能力无疑在帮助全球数百万人应对阅读和其它各种基于语言的挑战方面起了至关重要的作用。我相信,在机器学习与智能手机发展的结合下,未来会更好。想亲自体验一把谷歌镜头的,请在Google Go中通过镜头了解下吧。
https://ai.googleblog.com/2019/09/giving-lens-new-reading-capabilities-in.html
https://ai.googleblog.com/2019/09/giving-lens-new-reading-capabilities-in.html
更快速的、基于DNN的视频修复模型,其性能优于最先进的方法:https://arxiv.org/abs/1908.11587v1
https://arxiv.org/abs/1909.01203
https://arxiv.org/abs/1909.01417
https://arxiv.org/abs/1909.01067
https://arxiv.org/abs/1908.08854v2
https://svrobo.org/2019-robot-launch-startup-competition-is-open/?utm_campaign=Artificial%2BIntelligence%2BWeekly&utm_medium=email&utm_source=Artificial_Intelligence_Weekly_122
给跪了orz:艾伦研究所的BERT模型人工智能Aristo以优异成绩通过了八年级科学测验:https://www.nytimes.com/2019/09/04/technology/artificial-intelligence-aristo-passed-test.html
思科前CEO发话——人工智能将以更高速率产生比互联网更大的影响:https://www.forbes.com/sites/richkarlgaard/2019/09/04/former-cisco-ceo-says-ai-will-have-bigger-impact-than-the-internet/#2e272bc0f0e9
麻省理工学院的新报告探讨了如何使新技术更好地为社会服务:https://news.mit.edu/2019/work-future-report-technology-jobs-society-0904
https://www.bloomberg.com/press-releases/2019-09-05/itri-and-microsoft-collaborate-on-ai-chip-applications