Компьютерное Зрение: Как Ии Наблюдает За Нами

Недавно мы сказал о том, как нас анализируют в кинотеатрах с помощью технологий компьютерного зрения: эмоции, жесты и все.

Сегодня мы публикуем разговор с нашим коллегой из Microsoft Research. Он занимается созданием того самого видения.

Ниже под катом подробности о развитии технологии, немного о GDPR, а также областях применения.

Присоединяйтесь к нам!

Компьютерное зрение: как ИИ наблюдает за нами

Говоря техническим языком, специалисты по компьютерному зрению «создают алгоритмы и системы для автоматического анализа изображений и извлечения информации из видимого мира».

С точки зрения непрофессионала, они создают машины, которые могут видеть.

Именно этим и занимаются главный научный сотрудник и директор по исследованиям доктор Ган Хуа и команда экспертов по компьютерному зрению.

Для таких устройств, как персональные роботы, беспилотные автомобили и дроны, с которыми мы все чаще сталкиваемся в повседневной жизни, зрение очень важно.

Сегодня доктор Хуа расскажет нам, как последние достижения в области искусственного интеллекта и машинного обучения помогли улучшить распознавание изображений, понимание видео и достижения в области искусства.

Он также объяснит суть распределенного ансамблевого подхода к активному обучению, при котором люди и машины работают вместе в лаборатории над созданием систем компьютерного зрения, которые могут видеть и распознавать открытый мир.



Компьютерное зрение: как ИИ наблюдает за нами

Ган Хуа, главный научный сотрудник и руководитель исследовательского отдела.

Фотография любезно предоставлена Maryatt Photography.



Интервью

Если мы оглянемся на десять-пятнадцать лет назад, в сообществе компьютерного зрения было больше разнообразия.

Чтобы посмотреть на проблему с разных сторон и найти решение, были использованы всевозможные методы машинного обучения и знания из разных областей, таких как физика и оптика.

Мы подчеркиваем важность разнообразия во всех областях, поэтому я думаю, что научное сообщество выиграет от более разнообразных точек зрения.

Мы представляем вам передовые технологические исследования и ученых, стоящих за ними.

Говоря техническим языком, специалисты по компьютерному зрению «создают алгоритмы и системы для автоматического анализа изображений и извлечения информации из видимого мира».

С точки зрения непрофессионала, они создают машины, которые могут видеть.

Именно этим и занимаются главный научный сотрудник и директор по исследованиям доктор Ган Хуа и команда экспертов по компьютерному зрению.

Для таких устройств, как персональные роботы, беспилотные автомобили и дроны, с которыми мы все чаще сталкиваемся в повседневной жизни, зрение очень важно.

Сегодня доктор Хуа расскажет нам, как последние достижения в области искусственного интеллекта и машинного обучения помогли улучшить распознавание изображений, понимание видео и достижения в области искусства.

Он также объяснит суть распределенного ансамблевого подхода к активному обучению, при котором люди и машины работают вместе в лаборатории над созданием систем компьютерного зрения, которые могут видеть и распознавать открытый мир.

Об этом и многом другом — в новом выпуске подкаста Microsoft Research. Вы — главный научный сотрудник и директор по исследованиям в MSR (Microsoft Research), и ваша специальность — компьютерное зрение.

Да.

В общих чертах, почему специалист по компьютерному зрению встает утром? Какова его главная цель? Компьютерное зрение — сравнительно молодая область исследований.

Короче говоря, мы пытаемся создать машины, которые смогут видеть мир и воспринимать его так же, как человек.

Говоря более техническим языком, информация, поступающая в компьютер в виде простых изображений и видео, может быть представлена как последовательность чисел.

Мы хотим извлечь из этих чисел некие структуры, описывающие мир, некую смысловую информацию.

Например, я могу сказать, что какая-то часть изображения соответствует кошке.

А другая часть соответствует машине, я имею в виду такую интерпретацию.

Это цель компьютерного зрения.

Людям это кажется простой задачей, но за последние 10 лет нам пришлось проделать большую работу, чтобы научить этому компьютеры.

Однако компьютерному зрению как области исследований уже 50 лет. Тем не менее, нам еще предстоит решить множество проблем.

Да.

5 лет назад вы сказали следующее, я перефразирую: «Почему мы до сих пор работаем над проблемой распознавания лиц после 30 лет исследованийЭ» Расскажите, как вы тогда ответили на этот вопрос и что изменилось с тех пор.

Если рассматривать пятилетнюю перспективу, я бы сказал, что за 30 лет, прошедших с тех пор, как мы начали исследования в области компьютерного зрения и распознавания лиц, мы многого достигли.

Но по большей части речь идет о контролируемой среде, где при съемке лиц вы можете регулировать освещение, камеру, пейзаж и тому подобное.

Пять лет назад, когда мы начали больше работать в естественной, неконтролируемой среде, стало ясно, что существует огромный разрыв в точности распознавания.

Однако за последние пять лет наше сообщество добилось большого прогресса в использовании более продвинутых методов глубокого обучения.

Даже в области естественного распознавания лиц мы добились прогресса и действительно дошли до того, что эти технологии можно использовать в самых разных коммерческих приложениях.

Оказывается, за последние несколько лет глубокое обучение действительно позволило добиться больших успехов в области компьютерного зрения и распознавания изображений.

Верно.

Когда мы начали говорить о разнице между полностью контролируемой и непредсказуемой средой, мне вспомнились в подкасте несколько учёных, которые отмечали, что компьютеры выходят из строя, когда данные недостаточно полны.

например, последовательность «собака, собака, собака».

, собака с тремя ногами» — компьютер начинает сомневаться, а является ли последняя тоже собакой? Да.

Не правда ли? Так что же такого могут сделать методы глубокого обучения, чего вы не можете сделать сегодня в области распознавания? Это большой вопрос.

С исследовательской точки зрения глубокое обучение открывает несколько возможностей.

Во-первых, можно провести комплексное обучение для определения правильного представления смыслового образа.

Например, вернемся к собаке.

Предположим, мы рассматриваем различные фотографии собак, например, изображения размером 64x64 пикселя, где каждый пиксель может принимать примерно двести пятьдесят различных значений.

Если вдуматься, это огромное количество комбинаций.

Но если говорить о собаке как о шаблоне, где пиксели коррелированы друг с другом, то количество комбинаций, соответствующих «собаке», будет значительно меньше.

Используя сложные методы глубокого обучения, систему можно обучить определять правильное числовое представление слова «собака».

Благодаря глубине структур мы можем создавать по-настоящему сложные модели, способные обрабатывать большие объемы обучающих данных.

Таким образом, если мои обучающие данные охватывают все возможные варианты и представления паттерна, то в конце концов я смогу распознать его в более широком контексте, поскольку я рассмотрел почти все возможные комбинации.

Это первое.

Другая возможность глубокого обучения — это своего рода композиционное поведение.

Есть слой структуры и уровень представления, поэтому, когда информация или изображение попадает в глубокие сети и начинается извлечение примитивных изображений низкого уровня, то постепенно модель может собирать из этих примитивных изображений семантические структуры все большей и большей сложности.

Алгоритмы глубокого обучения идентифицируют более мелкие шаблоны, соответствующие более крупным шаблонам, и объединяют их, чтобы сформировать окончательный шаблон.

Таким образом, это очень мощный инструмент, особенно для задач визуального распознавания.

Итак, основная тема конференции CVPR — распознавание образов в компьютерном зрении.

Да все верно.

Распознавание образов — это то, в чем действительно развиваются технологии.



Компьютерное зрение: как ИИ наблюдает за нами

Да, конечно.

Фактически, цель компьютерного зрения — уловить смысл в пикселях.

Если говорить с технической точки зрения, то компьютеру необходимо понять, что представляет собой изображение, и мы получаем от него определенный числовой или символический результат. Например, численный результат может представлять собой трехмерное облако точек, описывающее структуру пространства или форму объекта.

Также оно может быть связано с некоторыми смысловыми тегами, например, «собака» или «кошка», как я говорил ранее.

Ясно.

Итак, давайте немного поговорим о этикетках.

Интересной и важной особенностью процесса машинного обучения является тот факт, что компьютер должен быть снабжен как пикселями, так и метками.

Да, конечно.

Вы рассказали о трёх вещах, которые наиболее интересны вам в контексте компьютерного зрения.

Видео, лица, искусство и мультимедиа.

Давайте поговорим о каждом из них по отдельности, но давайте начнем с вашего текущего исследования, того, что вы называете «пониманием» видео.

Да.

Выражение «видеопонимание» говорит само за себя.

В качестве входных данных мы используем видео вместо изображений.

Здесь важно не только распознавать пиксели, но и учитывать, как они движутся.

Для компьютерного зрения распознавание изображений является пространственной проблемой.

В случае с видео оно становится пространственно-временным, поскольку появляется третье – временное – измерение.

И если вы посмотрите на многие реальные приложения потокового видео, будь то камеры видеонаблюдения в помещении или камеры дорожного движения, идея состоит в том, что объект движется в постоянном потоке кадров.

И нам нужно из этого потока извлечь информацию.

Такие камеры создают огромное количество видеоматериала.

Камеры видеонаблюдения круглосуточно ведут съемку в супермаркетах и тому подобном.

Какую пользу вы можете принести людям из этих записей? Моя команда работает над инкубационным проектом, в рамках которого мы создаем фундаментальные технологии.

В рамках этого проекта мы пытаемся анализировать движение на дорогах.

В городах установлено огромное количество дорожных камер, но большая часть записываемого ими видео теряется.

Однако эти камеры могут быть полезны.

Давайте рассмотрим один пример: вы хотите более эффективно управлять светофорами.

Обычно смена красных и зеленых сигналов определяется установленным графиком.

Однако если бы я увидел, что в одном направлении движется гораздо меньше машин, чем в других, то для оптимизации движения я мог бы дольше держать зеленый свет включенным на перегруженных направлениях.

Это всего лишь одно приложение.

Пожалуйста, реализуйте эту идею! Давай попробуем! Кто из нас не стоял на красный свет светофора, хотя на зеленый свет в другую сторону почти никто не ехал? Вот и все! Просто вопрос: почему я должен ждать?

Компьютерное зрение: как ИИ наблюдает за нами

Соглашаться.

Эту технологию можно применять и в других случаях, например, когда мы накапливаем большие архивы видеозаписей.

Допустим, граждане попросили больше велосипедных дорожек.

Мы могли бы использовать видеозаписи, проанализировать данные о дорожном движении, а затем решить, следует ли строить велодорожку в этом месте.

Внедрив эту технологию, мы могли бы оказать существенное влияние на транспортные потоки и помочь городам принимать аналогичные решения.

Я думаю, что это отличная идея, потому что большую часть времени мы принимаем эти решения, основываясь на наших собственных идеях, а не на данных, на которые мы могли бы посмотреть и сказать: «Эй, вы знаете, вот тут-то и пригодится велосипедная дорожка».

очень кстати.

Но здесь это только усложнит движение».

Совершенно верно.

Иногда для этого используются другие датчики.

Они нанимают компанию, которая устанавливает на дорогах спецтехнику.

Но это не рентабельно.

Но камеры дорожного движения уже установлены и просто болтаются без дела.

Видеопотоки теперь доступны.

Верно? Так почему бы не воспользоваться этим? Соглашаться.

Это отличный пример того, как можно применить машинное обучение и понимание видео.

Точно.

Итак, еще одна важная область применения — распознавание лиц.

Мы снова возвращаемся к вопросу «Почему мы до сих пор работаем над проблемой распознавания лицЭ» Точно.

Кстати, подобные технологии в некоторых случаях можно использовать весьма интересными способами.

Расскажите, что происходит в области распознавания лиц.

Кто это делает и что нового? Если оглянуться назад, технология распознавания лиц изучалась Microsoft, когда я еще работал в Live Labs Research. Затем мы создали первую библиотеку распознавания лиц, которую могли использовать различные команды разработчиков продуктов.

Эта технология впервые была использована в Xbox. Тогда разработчики попытались использовать распознавание лиц для автоматического входа в систему.

Я думаю, это был первый раз.

Со временем фокус исследований в области распознавания лиц переместился в Microsoft Research Asia, где у нас до сих пор есть группа исследователей, с которыми я сотрудничаю.

Мы постоянно пытаемся раздвинуть границы возможного.

Сейчас мы работаем с техническими службами, чтобы помочь нам собрать больше данных.

На основе этих данных мы обучаем более продвинутые модели.

В последнее время мы сосредоточились на направлении исследований, которые мы называем «синтезом лиц, сохраняющим распознавание».

Сообщество глубокого обучения также добилось больших успехов.

Они используют глубокие сети для обучения генеративных моделей, которые могут моделировать распространение изображений и извлекать из них данные, по сути, синтезируя изображение.

Таким образом, можно создавать глубокие сети, производящие изображения.

Но мы хотим сделать еще один шаг вперед. Мы хотим синтезировать лица.

В то же время мы хотим сохранить признание этих личностей.

Наши алгоритмы не должны просто создавать случайный набор лиц без какого-либо смыслового значения.

Допустим, мы хотим воссоздать лицо Брэда Питта.

Вам нужно создать лицо, которое действительно будет похоже на него.

Если мне нужно воссоздать лицо знакомого мне человека, результат должен быть точным.

Итак, вы хотите сохранить узнаваемость лица, которое пытаетесь воссоздать? Верно.

Кстати, мне интересно, будет ли эта технология работать долго, по мере старения человека, или базу данных с лицами придется постоянно обновлять? Это очень хороший вопрос.

В настоящее время мы проводим исследования для решения этой проблемы.

При нынешнем уровне технологий по-прежнему необходимо время от времени обновлять базу данных.

Особенно если лицо сильно изменилось.

Например, если была проведена пластическая операция, современная система не сможет дать правильный результат. Подожди, это не ты.

Да, совсем не похоже.

К этому вопросу можно подойти с нескольких сторон.

Человеческие лица особо не меняются в возрасте от 17-18 до 50 лет. Но что происходит сразу после рождения? Лица детей сильно меняются по мере роста костей, изменения формы лица и кожи.

Но как только человек взрослеет и вступает в стадию зрелости, изменения начинают происходить очень медленно.

В настоящее время мы проводим исследования, в которых разрабатываем модели процесса старения.

Они помогут создать улучшенную систему распознавания лиц по возрасту.

На самом деле это очень полезная технология, которую можно использовать в правоохранительных органах, например, для того, чтобы распознавать похищенных много лет назад детей, которые.

Они выглядят совершенно по-другому.

Да, они выглядят по-другому.

Если бы только умные алгоритмы распознавания лиц могли посмотреть на исходную фотографию.

А скажите, как бы они выглядели в 14 лет, если бы их похитили гораздо раньше или что-то в этом роде? Да да именно так.

Это отличное приложение.

Давайте поговорим о другой области, которую вы активно изучаете, — мультимедиа и искусство.

Расскажите, как наука пересекается с искусством и особенно ваша работа в области глубокой передачи художественного стиля.

Отлично.

Давайте посмотрим на потребности людей.

Прежде всего нам нужна еда, вода и сон, верно? Как только основные потребности удовлетворены, у человека появляется сильное стремление к искусству.

И желание творить.

И творить искусство.

В этом направлении исследований мы хотим связать компьютерное зрение с художественными объектами мультимедиа и искусства.

Мы можем использовать компьютерное зрение, чтобы доставлять людям художественное удовольствие.

В рамках отдельного исследовательского проекта, над которым мы работали последние два года, мы создали последовательность алгоритмов, которые могут создать изображение в любом художественном стиле, если будут предоставлены образцы этого стиля.

Например, мы можем создать изображение в стиле Ван Гога.

Ван Гог? Да или любой другой художник.

Ренуар или Моне.

или Пикассо.

Да, любой из них.

Любой, кого ты помнишь.

Интересный.

Используете пиксели? Да, с использованием пикселей.

Все это также создается глубокими сетями с использованием некоторых разработанных нами технологий глубокого обучения.

Похоже, что это исследование требует знаний из нескольких областей.

Где найти специалистов, которые.

Я бы сказал, что в каком-то смысле наша цель состоит в том, чтобы.

Знаете, произведения искусства не всегда доступны каждому.

Некоторые произведения искусства действительно очень дорогие.

С помощью подобных цифровых технологий мы пытаемся сделать такие произведения доступными для простых людей.

Демократизируйте их.

Да, демократизировать искусство, как вы говорите.

Это впечатляет. Наш алгоритм позволяет создать четкую числовую модель каждого стиля.

И мы можем даже смешивать их, если хотим создать новые стили.

Это похоже на создание арт-пространства, где мы можем исследовать промежуточные этапы и видеть, как техники меняются от одного художника к другому.

А можно даже заглянуть глубже и попытаться понять, что именно определяет стиль конкретного художника.

Что меня особенно интересует, так это то, что, с одной стороны, речь идет о работе с числами: информатика, алгоритмы, математика.

С другой стороны, мы говорим об искусстве – категории гораздо более метафизической.

И все же, если сложить их вместе, это покажет, что мозг ученого может иметь творческую сторону.

Точно.

Я думаю, что самым важным инструментом, который мы использовали, который помог собрать все воедино, была статистика.

Интересный.

Всевозможные алгоритмы машинного обучения на самом деле просто собирают попиксельную статистику.

Мы уже говорили о технической стороне дела, но давайте углубимся в техническую сторону.

В некоторых из ваших недавно опубликованных работ, которые наши слушатели могут найти как на веб-сайте MSR, так и на вашем веб-сайте, вы говорили о новый распределенный ансамблевый подход к активным тренировкам.

Расскажите, в чем особенность этого подхода и какие преимущества он дает? Отличный вопрос.

Когда мы говорим об активном обучении, мы имеем в виду процесс, в котором участвует человек-руководитель.

В традиционном активном обучении у нас есть.

обучающаяся машина.

Эта машина может разумно выбирать некоторые образцы данных, а затем просить человека-контролера предоставить дополнительные данные.

Обучающаяся машина выбирает образцы и просит человека-контролера предоставить, например, метку для изображения.

Процесс ансамблевого машинного обучения намного сложнее.

Мы пытаемся реализовать активное обучение в краудсорсинговой среде.

Возьмем, к примеру, платформу Mechanical Turk от Amazon. Люди отправляют на него свои данные и просят других пользователей присвоить этим данным метку.

Однако если не соблюдать осторожность и не следить за процессом, результат может быть очень плохим.

Вы не сможете использовать полученные теги.

Чтобы решить подобные проблемы, мы пытаемся достичь двух целей.

Во-первых, мы хотим разумно распределить данные, чтобы сделать маркировку максимально рентабельной.

Во-вторых, нам нужно оценить качество проделанной работы, чтобы пользователь мог впоследствии отправлять свои данные только хорошим работникам.

Вот как работает наша модель.

У нас есть модель распределенного ансамбля.

Каждый краудсорсинговый работник связан с одной из обучающихся машин.

Также мы стараемся проводить статистическое тестирование по всем моделям, чтобы сразу получить качественную оценку по каждому из рабочих.

В этом случае мы можем использовать модель не только для отбора образцов, но и для отправки данных для размещения меток лучшим работникам.

Таким образом, вы сможете быстро получить хорошую модель.

Но это подводит нас к проблеме, связанной с необходимостью взаимодействия человека и машины внутри модели.

Нужна какая-то система регулирования таких взаимодействий.

Помимо того, что вы уже рассказали, как еще люди и машины могут работать вместе для решения проблем контроля качества? Я давно думал об этой проблеме, в основном в контексте робототехники.

Любая интеллектуальная система, если она не находится в полностью закрытом мире, может работать автономно.

Но как только она выходит в открытый мир (как современные интеллектуальные системы, основанные на машинном обучении), мы замечаем, что системе не всегда удается справиться с возникающими проблемами, потому что часто происходит что-то, с чем она раньше не сталкивалась.

И появляются переменные, о которых вы не подумали.

Точно.

Я думал о том, как вовлечь в процесс людей, чтобы они могли помочь машине, когда это необходимо, и в то же время сформировать некий механизм, который помог бы ей справляться с подобными ситуациями в будущем.

Я приведу очень конкретный пример.

Когда я учился в Технологическом институте Стивенса, я работал в Национальном институте здравоохранения над проектом, который мы называли короботами.

Что за роботы? Короботы.

По сути, это были роботизированные инвалидные коляски.

Идея заключалась в том, чтобы управлять коляской с помощью движений головы.

На голове была установлена специальная камера, которая позволяла отслеживать ее положение.

И если бы человек сохранял хотя бы подвижность шеи, он уже мог бы самостоятельно управлять коляской.

Однако нам не требовалось, чтобы пользователь делал это постоянно.

Предположим, человек находится дома.

Мы хотели, чтобы роботизированная инвалидная коляска в основном перемещала пользователя самостоятельно, только после того, как ему сказали, куда идти.

Например, если пользователь захотел перейти в другую комнату, робот должен добраться туда самостоятельно.

Но что, если он столкнется с ситуацией, с которой не знает, как справиться? Например, не знает, как обойти препятствие? В такой ситуации робот сам должен попросить человека взять управление на себя.

Далее пользователь начнет управлять роботом и решать сложную для машины ситуацию.

Возможно, в следующий раз, когда этот робот столкнется с подобными трудностями, он сможет справиться с ними сам.

Чем вы занимались до работы в Microsoft Research и как сюда попали? Я второй раз работаю в Microsoft. Я уже упоминал, что работал здесь в 2006-2009 годах в лаборатории Live Labs. Это был мой первый раз.

Затем я создал первую библиотеку распознавания лиц.

После этого мне захотелось, так сказать, исследовать внешний мир.

Я работал в Nokia Research, IBM Research и в конце концов остался в Технологическом институте Стивенса в качестве преподавателя.

Это в Нью-Джерси, да? Да, это в Нью-Джерси, на восточном побережье.

Я вернулся в Microsoft Research в 2015 году и начал работать в лаборатории в Пекине.

Моя семья все еще была здесь, поэтому я переехал еще в 2017 году.

Итак, после Пекина вы оказались в Редмонде.

Как это произошло? Моя семья всегда жила в Сиэтле.

Исследовательская лаборатория Microsoft в Пекине — замечательное место.

Мне там очень понравилось.

Одним из уникальных преимуществ этой лаборатории является невероятно динамичная программа стажировок.

В течение года в лаборатории работают несколько сотен стажеров.

И все они тесно сотрудничают со своими наставниками.

Очень динамичная среда.

Я проводил некоторые эксперименты вдали от дома, но моя семья жила в Сиэтле, поэтому, когда Intelligent Group основала здесь команду по компьютерному зрению, я присоединился к ней.

И ты снова живешь в Сиэтле.

Да.

Я задаю этот вопрос всем учёным, которые приходят на подкаст, и вам тоже.

Есть ли что-то в вашей работе, о чем нам следует беспокоиться? Я имею в виду, есть ли что-нибудь, что не дает тебе спать по ночам? Я бы сказал, что конфиденциальность вызывает наибольшую озабоченность, особенно когда мы говорим о компьютерном зрении.

По всему миру разбросаны сотни миллионов камер.

Они повсюду: в общественных местах и в зданиях.

Учитывая скорость развития технологий, идея о том, что можно отследить человека, где бы он ни находился, уже не является чем-то из области научной фантастики.

У всего есть две стороны.

Да, с одной стороны, компьютерное зрение может помочь нам, например, справиться с преступностью.

Но для обычных граждан это представляет огромную угрозу конфиденциальности.

Что может. Я задаю этот вопрос, потому что он заставляет людей задуматься: Итак, у меня есть эта мощная технология, как она может навредить? Итак, что же можно сделать, какие законы следует принять, чтобы решить эту проблему? Microsoft очень серьезно относится к Общему регламенту защиты данных (GDPR).

И я считаю, что это здорово, потому что этот механизм создан для того, чтобы все, что мы производим, соответствовало определенным правилам.

С другой стороны, необходимо найти баланс между практичностью технологии и безопасностью или конфиденциальностью.

Когда вы пользуетесь любым онлайн-сервисом, все, что вы делаете, оставляет след. Это способ облегчить себе жизнь в будущем.

Если вы хотите удобства, иногда вам придется раскрыть некоторую информацию.

Но ведь никто не хочет предоставлять всю информацию о себе, верно? Это сложный вопрос, и ответ не является черно-белым.

Нужно внимательно следить за происходящим.

Мы должны получать только ту информацию, которая необходима для лучшего обслуживания клиента, а не иметь неограниченный доступ к его личным данным и информации, которой он не хотел бы делиться.

Да, сегодня важно получить разрешение от пользователя.

Он должен иметь возможность сказать: «Я не против этого.

Но мне это не нравится».

Да все верно.

Ган, завершая нашу беседу, поделитесь с нами своим видением того, чего может ожидать следующее поколение специалистов по компьютерному зрению в ближайшем будущем.

Какие большие проблемы могут привести к невероятным прорывам после их решения? Над чем вам нужно работать в ближайшие 10 лет? Это отличный и очень глубокий вопрос.

Действительно, существуют большие проблемы, которые нам предстоит решить.

Сейчас специалисты по компьютерному зрению в значительной степени полагаются на статистические методы машинного обучения.

Мы можем обучить модели распознавания, которые смогут добиться больших успехов.

Но этот процесс по-прежнему во многом основан на визуальных подсказках.

Нам необходимо лучше понять процесс распознавания и фундаментальные принципы компьютерного зрения, такие как 3D-геометрия.

Есть и другие проблемы, особенно когда дело доходит до «понимания» видео.

Это сложная проблема, требующая работы с пространственно-временными категориями и учета когнитивных концепций, таких как причинность.

Если что-то произошло, что на самом деле стало причиной этого? Методы машинного обучения в основном работают с корреляциями между данными.

Корреляция и причинно-следственная связь — это два совершенно разных понятия.

Я думаю, стоит над этим поработать.

Есть и другие фундаментальные проблемы, такие как обучение на небольших данных и языке, которые необходимо решить в будущем.

Обратите внимание на то, как люди учатся.

Мы учимся на опыте, но есть и другой путь.

Мы учимся через язык.

Мы учимся, разговаривая.

Например, сегодня я уже узнал от вас много нового.

И я от тебя.



Компьютерное зрение: как ИИ наблюдает за нами

Вот и все.

Это очень компактный поток информации.

В настоящее время мы фокусируемся на глубоком обучении.

Но если вы вернетесь на 10–15 лет назад, в сообществе компьютерного зрения будет больше разнообразия.

Чтобы посмотреть на проблему с разных сторон и найти решение, были использованы всевозможные методы машинного обучения и знания из разных областей, таких как физика и оптика.

Мы подчеркиваем важность разнообразия во всех областях, поэтому я думаю, что научное сообщество выиграет от более разнообразных точек зрения.

Это очень хороший совет. Исследовательское сообщество приветствует новое поколение ученых, мыслителей общей картины, которые могут проложить путь к следующему большому прорыву.

Да, точно! Чтобы узнать больше о докторе Ган Хуа и удивительных достижениях в области компьютерного зрения, посетите нас по адресу: Microsoft.com/research Теги: #Машинное обучение #Популярная наука #microsoft #Интервью #искусственный интеллект #Обработка изображений #компьютерное зрение #компьютерное зрение #GDPR #исследования

Вместе с данным постом часто просматривают: