README.md

Awesome AI controlled autonomous drones

A curated list of papers, frameworks, datasets, tutorials for autonomous drones development

Focused on:

  • application like delivery.
  • AI development

Mostly in Russian

Список статей, фреймворков, датасетов полезных для разработки автономных дронов. Основной фокус:

  • Применение для автономного поиска точек посадки
  • машинное обучение, computer vision и не только

Вне фокуса: физические платформы (двигатели, полётные контроллеры и пр)

Table of Contents

other-awesome-lists

регулярно обновляемые репы со списками на статьи и исходный код. Имеет смысл подписаться, чтобы получать письма о пополнении списка.

  • jslee02/awesome-robotics-libraries - коллекция симуляторов, библиотек по робототехническим задачам (SLAM, Motion plannins, Vision, Inverse Kinematis, Machinie Learning). Популярная и регулярно обновляется. Так же есть вложенный список на другие ресурсы. [github) awesome-robotics-libraries]
  • visionxiang/awesome-object-detection-in-aerial-images- Детекция на спутниковых\аэро снимках. Статьи и ссылки сгруппированы по темам, включая обзорные, small object detection, UAV object detection.
  • visionxiang/awesome-camouflaged-object-detection Детекция камуфлированных объектов. Датасеты из мира животных и рыб: белый медведь на снегу, рыбы
  • visionxiang/awesome-salient-object-detection Детекция выпуклых объектов на местности по стереоизображению.

Datasets

DATASETS (relevant to Autonomous Drones)

Датасеты в открытом доступе, полезные для обучения и проверки моделей компьютерного зрения для дронов

xView

xView is one of the largest publicly available datasets of overhead imagery. It contains images from complex scenes around the world, annotated using bounding boxes. It contains over 1M object instances from 60 different classes.

1M объектов аэрофотосьемки, object detection

Особенности:

  • много объектов транспорта и дорожной техники, включая локомотивы, танкеры, вертолёты, самолёты, техника с прицепами
  • Без снежного покрова

https://paperswithcode.com/dataset/xview

download links (use Kaggel CLI to download): https://www.kaggle.com/datasets/hassanmojab/xview-dataset review

Classes:

Aircraft Hangar, Building, Bus, Cargo Truck, Cargo/container car, Cement mixer, Construction site, Container crane, Container ship, Crane Truck, Damaged/demolished building, Dump truck, Engineering vehicle, Excavator, Facility, Ferry, Fishing vessel, Fixed-wing aircraft, Flat car, Front loader/Bulldozer, Ground grader, Haul truck, Helicopter, Helipad, Hut/Tent, Locomotive, Maritime vessel, Mobile crane, Motorboat, Oil Tanker, Passenger Vehicle, Passenger car, Passenger/cargo plane, Pickup, Truck, Pylon, Railway vehicle, Reach stacker, Sailboat, Shed, Shipping container, Shipping container lot, Small aircraft, Small car, Storage Tank, Straddle carrier, Tank car, Tower, Tower crane, Tractor, Trailer, Truck, Truck Tractor, Truck Tractor w/ Box Trailer, Truck Tractor w/ Flatbed Trailer, Truck Tractor w/ Liquid Tank, Tugboat, Utility Truck, Vehicle Lot, Yacht

xView2 (disasters)

Датасет катастроф: пожары, разрушенные дома

pretrained models

VisDrone

https://paperswithcode.com/paper/vision-meets-drones-a-challenge

Особенности:

  • В основном автомобили и пешеходы в городском ландшафте, вид с небольшой высоты (100..200м)
  • есть ночные снимки

Примеры с roboflow:

fMoW

  • Спутниковая, аэрофотосьёмка объектов инфраструктуры (в т.ч. атомные станции)
  • мултиспектральная
  • Включает “пустые” (False detection) примеры для оценки ложного срабатывания

https://paperswithcode.com/dataset/fmow

We present a new dataset, Functional Map of the World (fMoW), which aims to inspire the development of machine learning models capable of predicting the functional purpose of buildings and land use from temporal sequences of satellite images and a rich set of metadata features. The metadata provided with each image enables reasoning about location, time, sun angles, physical sizes, and other features when making predictions about objects in the image. Our dataset consists of over 1 million images from over 200 countries. For each image, we provide at least one bounding box annotation containing one of 63 categories, including a “false detection” category. We present an analysis of the dataset along with baseline approaches that reason about metadata and temporal views. Our data, code, and pretrained models have been made publicly available.

DOTA

  • Аэрофотосьемка объектов транспорта и дорожной сети (мосты)
  • Содержит в том числе небольшие на картинке объекты (10 пикселов)
  • bounding box - с поворотом

https://paperswithcode.com/dataset/dota

paper

(Dataset for Object deTection in Aerial Images)

DOTA is a large-scale dataset for object detection in aerial images. It can be used to develop and evaluate object detectors in aerial images. The images are collected from different sensors and platforms. Each image is of the size in the range from 800 × 800 to 20,000 × 20,000 pixels and contains objects exhibiting a wide variety of scales, orientations, and shapes. The instances in DOTA images are annotated by experts in aerial image interpretation by arbitrary (8 d.o.f.) quadrilateral. We will continue to update DOTA, to grow in size and scope to reflect evolving real-world conditions. Now it has three versions:

DOTA-v1.0 contains 15 common categories, 2,806 images and 188, 282 instances. The proportions of the training set, validation set, and testing set in DOTA-v1.0 are 1/2, 1/6, and 1/3, respectively.

DOTA-v1.5 uses the same images as DOTA-v1.0, but the extremely small instances (less than 10 pixels) are also annotated. Moreover, a new category, ”container crane” is added. It contains 403,318 instances in total. The number of images and dataset splits are the same as DOTA-v1.0. This version was released for the DOAI Challenge 2019 on Object Detection in Aerial Images in conjunction with IEEE CVPR 2019.

DOTA-v2.0 collects more Google Earth, GF-2 Satellite, and aerial images. There are 18 common categories, 11,268 images and 1,793,658 instances in DOTA-v2.0. Compared to DOTA-v1.5, it further adds the new categories of ”airport” and ”helipad”. The 11,268 images of DOTA are split into training, validation, test-dev, and test-challenge sets. To avoid the problem of overfitting, the proportion of training and validation set is smaller than the test set. Furthermore, we have two test sets, namely test-dev and test-challenge. Training contains 1,830 images and 268,627 instances. Validation contains 593 images and 81,048 instances. We released the images and ground truths for training and validation sets. Test-dev contains 2,792 images and 353,346 instances. We released the images but not the ground truths. Test-challenge contains 6,053 images and 1,090,637 instances.

Примеры на roboflow:

https://universe.roboflow.com/sadab-mostafa/dota_full_dataset

Roboflow

Большая свалка датасетов, включая “любительские”

Пример

SODA: A large-scale Small Object Detection dAtaset

SODA is a large-scale benckmark for Small Object Detection, including SODA-D and SODA-A, which concentrate on Driving and Aerial scenarios respectively.

link

paper

Papers

Paperwithcode

Key papers to reproduce

“Swarm of micro flying robots in the wild”

  • paper Команда китайских инженеров. 10 дронов размерам с ладонь (palm sized) могут летать сквозь бамбуковый лес, держать формацию, опознавать препятсвтия в виде людей. Есть исходный код и описание железа, даны цифры по вычислительной сложности отдельных блоков. GPU - Nvidia Xavier 8Gb (в 4 раза дороже и в 12 раз быстрее чем Nvidia Nano)

“Learning High-Speed Flight in the Wild”

Команда Цурихского университета. 1 дрон летает со скоростью 10 м/с (36 км/ч) сквозь лес. Особенности: 1) чтобы достичь такой скорость (60 кадров в секунду) - нейронная сеть на прямую обрабатывает данные и дает команды без промежуточных стадий, типа детекции объектов. 2) обучение на синтетическом датасете.

Algorithms

ML papers

Object Detection modern and classic

  • real-time (30FPS and more on GPU) список статей, лидеры и метрик: paperswithcode
  • большое количество объектов, список статей, лидеры и метрики: paperswithcode
  • Performance-comparison-of-yolo-models learnopencv

  • (2022, November) DAMO-YOLO A Report on Real-Time Object Detection Design

  • (2022, December) RTMDet: An Empirical Study of Designing Real-Time Object Detectors
  • (2022, November) PP-YOLOE-R: An Efficient Anchor-Free Rotated Object Detector
  • (2022) Slicing Aided Hyper Inference and Fine-tuning for Small Object Detection paperwithcode
Intro, Tutorials:
  • Fine tuning examples: learnopencv
  • Fine_tuning_YOLOS_for_object_detection_on_custom_dataset_(balloon). colab
  • custom-object-detection-training-using-yolov5 learnopencv

Object tracking

  • Leaderboard paperswithcode
  • Observation-Centric SORT: Rethinking SORT for Robust Multi-Object Tracking 2022 - object tracking  на video - для сложных сцен, когда множество движущихся объектов перекрываются с друг другом. 30FPS, но на видеокарте. Лучше чем фильтры Калмана. Скорее всего такое решение не подойдет для практических задач,однако, можно использовать часть идей для построение путь худшего качества, но более быстрой системы.
  • smiletrack-similarity-learning-for-multiple
  • fast motion detection 2014 год
  • Unsupervised moving object detetion от “robotics and inception group” (Цурих) / Продолжение от другой группы авторов (2022) Multi motion and appearence MOT

Segmentation

https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=&cad=rja&uact=8&ved=2ahUKEwiM–Luhpz8AhUSx4sKHdu5Bk4QFnoECAsQAQ&url=https%3A%2F%2Fwww.mdpi.com%2F2076-3417%2F12%2F17%2F8856%2Fpdf%3Fversion%3D1662190862&usg=AOvVaw0lbQBrPfRpwhrFPQSzrR_V

Other papers to read

Domain adaptation

Self\Semi Supervised, Few shots learning

Visual inertial odometry \ visual SLAM

  • KITTI odometry benchmark качество и время выполнения решений на KITTI dataset (на дорогах города). Решения - это статьи, иногда с исходным кодом.

Optical flow

  • Сборник: paperswithcode optical flow estimation
  • Ключевые:
  • https://paperswithcode.com/paper/unifying-flow-stereo-and-depth-estimation
  • https://paperswithcode.com/paper/models-matter-so-does-training-an-empirical (используется в некоторых других статьях)

Specific frameworks and libraries

  • TochGeo - набор датасетов и моделей для анализа космических и аэрофотоснимков (мультиспектральных). Есть модель (changeSTAR) для детекции изменений на снимках одной и той же местности, сделанных в разное время.

Tools

Labeling

Label Studio

CVAT

ROS

Hardware

AI hardware

  • Аппаратное ускорение глубоких нейросетей: GPU, FPGA, ASIC, TPU, VPU, IPU, DPU, NPU, RPU, NNP и другие буквы habr
  • Mythic Analog Computing: youtube

Jetson family

UAV harware

DYI / самоделки

  • How Did I Use Python And Ai To Create A Fully Autonomous Drone? ArduCopter pixhawk and OpenCV. youtube

Military communication

Books

Contributing

Contributions are very welcome! Please read the contribution guidelines first. Also, please feel free to report any error.

Не забывайте изменить почту и имя для этого локального проекта, чтобы не применились глобальные параметры git и не допустить утечки ваших контактных данных

git config user.name "my.anonymous.email"
git config user.email "my.anonymous.email@mail.ru"

Unsorted trash and draft

Описание

Опишите проект

Конвейеры
0 успешных
0 с ошибкой