Общая Перепись Птиц, Или Биоинформатика В Орнитологии. Проект В Надежных Руках

Всем добрый день, друзья.



Введение

Когда мы думаем о биоинформатике, мы обычно думаем о какой-то сложной последовательности ДНК, сворачивании белка или, на худой конец, о моделировании диффузии вируса.

В этой статье мы поговорим немного о другой теме, гораздо ближе, можно сказать, к машинному зрению и анализу документов или даже к прикладной автоматизации, чем к высокой науке.

Но на самом деле тема важная и актуальная хотя бы потому, что существует в очень интересной экологической нише.

КДПВ:

Общая перепись птиц, или Биоинформатика в орнитологии.
</p><p>
 Проект в надежных руках

Если кому интересно, смотрите кат. ТЛ;ДР: Презентация проекта по распознаванию рисованных карт. У проекта есть сайт: biorec.sourceforge.net Код размещен в SVN: sourceforge.net/p/biorec/code/HEAD/tree /ТЛ;ДР; Эта история имеет несколько «корней» и я постараюсь, не слишком углубляясь в дебри, кратко описать их, чтобы создать в голове читателя более полную картину.

Для начала, что такое орнитология? Орнитология — это раздел экологии, наука о поведении птиц, о том, как они себя ведут и как выбирают стратегии выживания в этом сложном мире.

Можно сказать, что главная фундаментальная задача экологии — выяснить, почему у нас существуют именно эти виды, а не какие-то другие.

Какие же энергетические минимумы существуют в странном многомерном пространстве, которым является наша жизнь, позволяя одним видам выжить (например, домашние коровы очень хорошо приспособлены и вряд ли когда-нибудь вымрут), а некоторым — вымереть (скажем, мамонтам) ).

Орнитология решает эту проблему применительно к птицам.

Скажем, наверное, многие из читателей на вопрос, чем занимаются орнитологи, скажут «вешают кольца на птиц и смотрят, куда они улетают».

Действительно, это один из методов, используемых орнитологами.

В частности, например, благодаря ему можно установить, по каким маршрутам проходят перелетные птицы с одного конца нашей огромной, но все же такой маленькой Земли на другой.

Картина:

Общая перепись птиц, или Биоинформатика в орнитологии.
</p><p>
 Проект в надежных руках

Из приведенной выше картины можно понять, что России в каком-то смысле повезло, ведь точка пересечения множества разных, непохожих друг на друга маршрутов оказывается именно на территории России.

Собственно, именно в месте пересечения регионов расположена одна из ведущих в мире лабораторий по изучению птиц - ИП Енисейская биологическая станция?? РАН «Мирное».



Сбор данных

Однако в этой статье я хочу обратить ваше внимание на еще один метод, используемый при изучении птиц.

Можно сказать, что как микроскоп может иметь разное разрешение и бессмысленно пытаться рассмотреть нечеткий шрифт с помощью атомно-силового микроскопа, так и орнитологические методы имеют разное разрешение.

Упомянутый выше метод звонка имеет типичный радиус действия в тысячи километров.

Тот самый метод, о котором я хочу рассказать – всего лишь десятки метров.

Этот метод называется общей переписью птиц.

Его идея состоит в том, чтобы _каждый_ день_ специально обученные люди, способные определить тип птицы по внешнему виду, приходили на исследовательский участок и отмечали в своей рабочей тетради разных увиденных птиц.

Формат маркеров, отмеченный специалистами, вы можете увидеть на следующем слайде.



Общая перепись птиц, или Биоинформатика в орнитологии.
</p><p>
 Проект в надежных руках

А вот как выглядит фрагмент данных, собранных на местности:

Общая перепись птиц, или Биоинформатика в орнитологии.
</p><p>
 Проект в надежных руках

О, как было бы здорово, если бы эту работу могли выполнять роботы! На каждый участок можно было бы отправить своего робота, который бы облетал каждое дерево и сообщал обо всем, что видел.

Но увы, до этого технологии еще не дошли (хотя, возможно, дойдут в обозримом будущем).

Между тем, для наблюдения нужны специально обученные люди, которым необходимо усваивать огромное количество информации о поведении, внешнем виде, звуковом профиле и социальных навыках птиц.

Более того, эта информация, к сожалению, также плохо применима в повседневной жизни человека.

С другой стороны, трудно переоценить умение читать лес, как открытую книгу.

Уже одно это может сделать человека орнитологом.

И еще более впечатляет то, что вся территория Великобритании, где был изобретен этот метод (в 1962 году), покрыта квадратами, которые подобным образом наблюдались ежегодно в течение 38 лет, вплоть до 2000 года, когда точность метод был признан ненужным.

bto.org.uk

Общая перепись птиц, или Биоинформатика в орнитологии.
</p><p>
 Проект в надежных руках

Кстати, метод придумал Дж.

Деннис Саммер-Смит, вообще говоря, удивительный человек.

Кто еще перевел статью о нем в Wiki на английский? Однако внимательный читатель подскажет мне еще одно место, где можно было бы применить имеющиеся на данный момент технологии.

Ну да ладно, допустим, автоматически собрать данные невозможно.

Но должна же быть хотя бы возможность сохранить их в каком-нибудь удобном формате? К сожалению, ответ на этот вопрос – нет. К сожалению, в наиболее удобных для наблюдения местах большие проблемы с электричеством, водо- и грязезащитой, холодом и плохой связью с «большой землей».

Там, где есть такие проблемы, возникает задача выпуска стандартизированного оборудования (под которое можно было бы представить себе какой-нибудь планшет промышленного уровня на Linux/Windows).

Что у нас есть, спросите вы! Вот что: Здесь я еще раз покажу вам картинку с данными:

Общая перепись птиц, или Биоинформатика в орнитологии.
</p><p>
 Проект в надежных руках

На изображении вы видите фрагмент карты, разделенный на столбцы и строки с буквами и цифрами (обратите внимание на «формат данных» на предыдущем слайде).

Это такая же неприглядная, но такая дорогая и важная реальность.

Именно здесь мы видим, как птицы передвигаются из точки в точку, дерутся, женятся и заботятся о своем потомстве.

Каждый такой лист – это многочасовая тяжелая полевая работа, которая в итоге должна дать нам ответ на самый трудный вопрос на свете: как правильно жить? Как жить так, чтобы жить долго, не болеть, производить потомство, воспитывать его, петь лучшую (по каким параметрам?) песню и реализовывать себя в ней.

Почему одни птицы большие, а другие маленькие? Почему у одних диапазон большой, а у других маленький? Почему у одних птиц много детей, а у других мало?

Анализ данных

Хорошо, ты спросишь меня.

А вот если данные каким-то образом (пусть и аналоговым способом) собираются.

Если они как-то (хотя бы на бумаге) хранятся.

Но мы с вами — специалисты по данным.

Ну и надо ли как-то обрабатывать эти данные? И на этот вопрос есть ответ, хотя и далеко не такой радостный, как хотелось бы.

Самая очевидная задача предварительной обработки — разделить данные листа на несколько слоев, где каждый слой будет соответствовать только одному представлению.

Это логичная и содержательная задача, поскольку птиц разных видов целесообразно изучать вместе, как выборки из одной выборки, а возможно, и сравнивать их с другими видами с точки зрения адаптационных стратегий.

И эта проблема решается.

Вот результат:

Общая перепись птиц, или Биоинформатика в орнитологии.
</p><p>
 Проект в надежных руках

Но видите, какой подвох.

Как и большинство технических процессов в столь деликатной области, он решается аналогово.

В результате построение даже одной такой карты занимает очень много времени, а если принять во внимание, что (как уже писалось выше), по крайней мере, российский полигон Общего учета птиц расположен в крайне выгодной с точки зрения точки зрения точке.

видового разнообразия, построение такой карты для всех 200 видов – это очень трудоемкая задача.

Однако на карте есть еще один элемент, которого не видно на дневных фрагментах: карандашные круги.

Кто они такие? И они представляют собой именно это, шаг к тем самым альфам и омегам, к пониманию поведения вида.

Это отдельные территории.

Можно сказать, рождение частной собственности.

Это территории, которые птицы считают «своими», на которых они активно кормятся, строят гнездо и которые готовы защищать вплоть до самых тяжелых последствий.

Но как они нарисованы? Здесь возникает еще один важный научный вопрос.

Потому что на этот вопрос есть два ответа.

Один приведен, например, в руководстве по проведению CBC от Британского орнитологического треста (изобретателей этого метода).

www.bto.org/sites/default/files/u31/downloads/details/CBC-instructions-g100.pdf Другой, например, чисто механический, в статье Филипа Норта www.jstor.org/stable/2347022Эseq=1#page_scan_tab_contents Какая из них лучше? Очень интересный вопрос.

В рекомендациях BTO указано, что этот метод должен использоваться одной и той же группой экспертов в течение многих лет, чтобы обеспечить согласованность результатов.

Другими словами, они говорят: «Мы можем обучить человека, но не можем сформулировать закон природы».

В ИП?? РАН делает то же самое.

Насколько хорош метод Норта? Отличный вопрос! Кто хочет принять участие? Я призываю вас к слабости! В принципе, очевидный подход — как-то сгруппировать точки, чтобы затем очертить кластеры… ну, например, немного за пределами их выпуклой оболочки.

Но как их сгруппировать? Вы можете видеть, что некоторые скопления имеют внутри большие пустоты.

И какая именно степень гладкости границ должна соблюдаться?

Начало автоматизации

Когда ваш покорный слуга был моложе и смелее и работал над компьютерным зрением, он представлял себя белым рыцарем на коне и решил, что такая мощная задача заслуживает того, чтобы стать для него испытанием.

Я начал решать задачу с помощью компьютерного зрения, пытаясь подобрать и распознать буквы и цифры столбцов и строк.

Для этого я даже договорился с Cognitive Technologies использовать их промышленный движок (!) для распознавания рукописного текста.

Вот некоторые следы этой работы: Например, проецируя все изображение на одну ось, вы можете относительно легко обрезать края:

Общая перепись птиц, или Биоинформатика в орнитологии.
</p><p>
 Проект в надежных руках

Комбинируя эрозию и расширение, вы можете вычесть фон и сетку:

Общая перепись птиц, или Биоинформатика в орнитологии.
</p><p>
 Проект в надежных руках

С помощью преобразования Хафа можно определить угол поворота изображения и зафиксировать его:

Общая перепись птиц, или Биоинформатика в орнитологии.
</p><p>
 Проект в надежных руках

Используя ту же проекцию картинки на одну ось, можно выделить отдельные буквы:

Общая перепись птиц, или Биоинформатика в орнитологии.
</p><p>
 Проект в надежных руках

И в конце концов даже найти их всех на фрагменте:

Общая перепись птиц, или Биоинформатика в орнитологии.
</p><p>
 Проект в надежных руках

А затем передайте его в механизм распознавания:

Общая перепись птиц, или Биоинформатика в орнитологии.
</p><p>
 Проект в надежных руках

К сожалению, нам пришлось работать с такими числами:

Общая перепись птиц, или Биоинформатика в орнитологии.
</p><p>
 Проект в надежных руках



Общая перепись птиц, или Биоинформатика в орнитологии.
</p><p>
 Проект в надежных руках



Общая перепись птиц, или Биоинформатика в орнитологии.
</p><p>
 Проект в надежных руках

Результаты этой работы до сих пор не опубликованы, поскольку результат не впечатлял — точность распознавания составила 66%, хотя это позволило мне в свое время защитить диссертацию.

Работу еще можно было завершить, но к окончанию диплома я понял, что без хорошей _ручной_ разметки мне делать нечего, поскольку к тому времени у меня был собран список из более чем пятидесяти различных возможных косяков в изображениях, каждый из которых который надо было как-то поймать.

И тогда, уже окончив институт, в свободное время, в качестве хобби, я взялся писать ручной аннотатор, что в конечном итоге и подтолкнуло меня приступить к написанию этой статьи.

На следующих слайдах вы можете увидеть элементы интерфейса этого инструмента разметки.

Руководитель проекта:

Общая перепись птиц, или Биоинформатика в орнитологии.
</p><p>
 Проект в надежных руках

Позиционирование означает маркировку букв и цифр.

Но вообще говоря, я сделал больше - отметил ВСЕ маркеры, которые существуют.

Общая перепись птиц, или Биоинформатика в орнитологии.
</p><p>
 Проект в надежных руках

Маркер оказался более содержательным, чем я ожидал.

Просто в какой-то момент я понял, что если просто запустить его на планшете, то можно будет собирать данные прямо в него, минуя бумажный этап.

В результате вместо картинки типа

Общая перепись птиц, или Биоинформатика в орнитологии.
</p><p>
 Проект в надежных руках

Вы можете получить такое изображение:

Общая перепись птиц, или Биоинформатика в орнитологии.
</p><p>
 Проект в надежных руках

И даже выделить территории.

Вручную, конечно.



Общая перепись птиц, или Биоинформатика в орнитологии.
</p><p>
 Проект в надежных руках

Отметив год вручную, можно было бы проводить регулярные тесты автоматизации, не говоря уже о том, что можно было бы заниматься содержательной аналитикой (вроде расчета территорий), а не только копаться в машинном зрении.



Результаты

Здесь мне следовало бы закончить эту статью каким-то весёлым финалом.

Но его, увы, нет. В ИП?? РАН хранит на бумаге собранные за двадцать пять лет данные.

Объем данных, доступных в BTO Великобритании, кажется неисчислимым.

_Вся_ территория Соединенного Королевства за 38 лет. С другой стороны, к сожалению, я поссорился с людьми, которые помогали мне работать над проектом, и вообще перестал интересоваться этой сферой.

Поэтому мне очень хочется найти героя, который захотел бы унаследовать проект от меня, и довел бы его до логического завершения.

Вас ждут слава и борьба, а ваш труд принесет человечеству неоценимую пользу.

Маркер проекта почти готов и отмечено примерно пол года наблюдений в ИП.

(То есть основная работа по очистке данных проделана.

) Проект обработки данных переписи птиц называется BioRec и написан в MATLAB 2015b. В проекте есть осмысленная модель данных, он готов работать как с «Картами посещений», так и с «Картами видов».

У проекта есть сайт: biorec.sourceforge.net Код размещен в SVN: sourceforge.net/p/biorec/code/HEAD/tree В проекте есть рассылка, баг-трекер, всё как у взрослых.

Есть алгоритм, который можно немного модифицировать, чтобы часть данных распознавалась автоматически.

Для любителей компьютерного зрения можно попробовать сделать детектор маркеров, используя уже размеченные данные и в дальнейшем автоматизировать вторую половину.

Для любителей геопространственного анализа можно попробовать формализовать алгоритм BTO, реализовать алгоритм Норта или попробовать написать свой, например, на основе диаграммы Вороного.

Тогда можно будет сравнить алгоритмически идентифицированные территории с экспертными.

Можно попробовать наложить территории на карту местности и посмотреть, как связаны, например, размеры территорий и ландшафт. В общем, благородные воины, жаждущие крови и славы – это ваш шанс.

Напишите мне на адрес [email protected] или в Skype lockywolf. Форки, патчи, разговоры с описаниями непонятных кусков кода — всё к вашим услугам.

Теги: #машинное зрение #Наука #географические системы #matlab #Обработка изображений #Интеллектуальный анализ данных #Обработка изображений #Геоинформационные сервисы #математика #Визуализация данных

Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2019-12-10 15:07:06
Баллов опыта: 0
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.