Как работают технологии OneSoil часть 1_Обложка_OneSoil Блог

Как OneSoil работает с большими данными для сельского хозяйства

Время прочтения — 10 минут
Мы редко рассказываем о том, как работают наши технологии — пора исправляться. Приложения OneSoil построены на анализе больших данных и машинном обучении. Чем больше у нас данных, тем точнее наши расчёты и прогнозы. А это напрямую влияет на функциональность, которую видят фермеры в приложении. Потому рассказываем, как работает магия в OneSoil — или то, что в современном мире называется data science.
Но для начала — как понять, что магия работает? Посмотреть на цифры.

Мы определили границы полей по спутниковым снимкам в 57 странах мира, поэтому фермерам легко начать пользоваться нашим приложением. Надо просто выбрать своё поле на карте. Ещё мы часто слышим, что в наших приложениях хороший дизайн и всё быстро работает. Похоже на правду — за 1,5 года в OneSoil зарегистрировались более 120 тысяч пользователей (по состоянию на февраль 2020).
Вот как увеличивалось количество пользователей OneSoil с момента появления платформы
Наши пользователи занесли в платформу 30 миллионов гектаров земли (по состоянию на февраль 2020 г.). По последним оценкам FAO, в мире сейчас 1 миллиард 567 тысяч гектаров пахотных земель. Получается, что в OneSoil занесено 1,9% всех пахотных земель на планете.

И есть страна, в которой треть всех сельскохозяйственных земель занесена в платформу OneSoil — привет, Украина!
Доля сельскохозяйственных земель в платформе OneSoil от общей площади с/х земель стран мира_OneSoil Блог
Как мы всё это делаем? При разработке приложений мы используем большие данные и науку, и за это отвечает наша команда R&D из восьми человек.

Охота за данными

Нам нужно много, очень много данных для того, чтобы обучать наши алгоритмы машинного обучения. Мы собираем данные по реальным полям, при помощи специальных математических операций увеличиваем количество данных в тысячи раз — и потом учим нейросеть находить закономерности.
Нейросеть — это компьютерная программа, которая состоит из алгоритмов и работает по принципу человеческого мозга. Она получает на вход данные, обрабатывает их и отдаёт результат. С каждой новой попыткой нейросеть учитывает прошлый опыт вычислений и улучшает результат.
Нам нужно много, очень много данных для того, чтобы обучать наши алгоритмы машинного обучения. Мы собираем данные по реальным полям, при помощи специальных математических операций увеличиваем количество данных в тысячи раз — и потом учим нейросеть находить закономерности.

Разберёмся на примере определения границ полей по спутниковым снимкам. Сперва у нас были данные лишь от нескольких хозяйств в Беларуси и Прибалтике, по которым алгоритмы машинного обучения учились предсказывать границы полей. Это работало так: для каждого настоящего поля (границы которого мы знали благодаря хозяйствам) мы считали площадь совпадения с границами, которые предсказали алгоритмы. Если алгоритм обвёл лишние участки — он за это получал штраф. Так и учился. Такой показатель называется intersection over union, он может принимать значения от 0 до 1, где 1 — идеальное совпадение. У нас этот показатель варьируется от региона к региону, но в среднем составляет 0,85–0,88.
Нейросеть — это компьютерная программа, которая состоит из алгоритмов и работает по принципу человеческого мозга. Она получает на вход данные, обрабатывает их и отдаёт результат. С каждой новой попыткой нейросеть учитывает прошлый опыт вычислений и улучшает результат.
Потом мы начали показывать нейросети миллионы изображений сельскохозяйственных полей для того, чтобы она научилась определять, где поле, а где, например, дом или аэродром. Алгоритм долго учится, мы смотрим на результаты и много раз улучшаем его, пока точность определения границ полей для конкретного региона не станет хорошей. Как мы понимаем, что точность улучшилась? Опять же сравниваем наши расчёты с реальными данными по полям. Сейчас стран, в которых мы хорошо определяем границы полей, 57.
Когда мы уверенно определяем поля, скажем, в Украине, это не значит, что всё будет работать так же где-нибудь в Бразилии — ведь там свои поля и свои особенности сельского хозяйства. Поэтому нам снова нужны реальные данные, чтобы уточнять и улучшать наш алгоритм.

Всё это мы рассказываем для того, чтобы стало понятно — без данных по реальным полям нам никуда. А найти их это непростая задача, приходится подключать самые разные ресурсы. Как мы это делаем? Рассказываем дальше.
Мы получаем данные от пользователей
Пользователи OneSoil оставляют в наших приложениях данные по культурам, которые растут на их полях, датам сева и уборки, средней урожайности и фенофазам. Несколько месяцев назад мы впервые задействовали эти данные при обучении алгоритмов машинного обучения — R&D команда проверяла точность предсказаний даты сева в одном регионе.
30 млн га
1 млн полей
Данные, которые пользователи занесли в платформу OneSoil. Февраль 2020 г.
Тут важно сделать отступление. Все данные пользователей поступают в наши алгоритмы в общем виде. Нам (точнее, нашим нейросетям), совершенно не важно, кому принадлежат поля. Алгоритму нужно знать, что растёт на полях в регионе в принципе. Иными словами, не важно, что поле кукурузы принадлежит Марье Ивановне из деревни Иваново под Черниговом. Важно, сколько полей кукурузы в Черниговской области есть в целом. Нас не интересуют детали, нас интересует большая картина. Поэтому данные пользователей в приложениях OneSoil находятся в безопасности, и при этом ещё помогают нейросетям становиться умнее.
Мы общаемся
Наша R&D команда постоянно знакомится с институтами и отдельными исследователями, которые работают в том же направлении, что и мы. Часто они находят нас сами.

После выхода интерактивной карты OneSoil Map в 2018 году нам написал Гвидо Лемуан (Guido Lemoine), руководитель одного из подразделений в исследовательском институте Joint Research Center (JRC). А в прошлом году на конференции Европейского космического агентства (ESA) наша специалистка по Data Science Кристина Бутько познакомилась с ним лично.
«Они поделились списком открытых источников данных, которыми пользуются сами и которые не так-то просто найти, — рассказывает Кристина. — Я очень жду их уникальный датасет по фенофазам растений, которые они собирали на протяжении двух лет полевых исследований».
Наша R&D команда в прошлом году активно решала задачу предсказания стадий роста культур по спутниковым снимкам, и датасет от JRC поможет ещё ближе подойти к решению этой задачи.
Симпозиум Living Planet от Европейского космического агентства_OneSoil Блог
Симпозиум Living Planet от Европейского космического агентства, май 2019. Одна из конференций, на которых мы знакомимся с будущими партнёрами и обмениваемся знаниями
Мы обмениваемся
Наш специалист по точному земледелию и сооснователь OneSoil Всеволод Генин редко бывает в офисе — большую часть года он проводит в полях. Сева разговаривает с фермерами, анализирует их поля, они вместе проводят эксперименты по дифференцированному посеву и внесению удобрений и пестицидов. Короче, Сева очень много общается с фермерами, и нередко они договариваются о сотрудничестве.

В прошлом году несколько десятков украинских и российских компаний в обмен на анализ своих данных предоставили нам информацию за 4 года по полям общей площадью 7 миллионов гектаров. В эту базу данных входит информация по культурам, датам сева, датам уборки и средней урожайности — настоящий подарок для нашей команды R&D. Во многом благодаря анализу этих данных мы можем определять дату сева на полях Украины с точностью в 2–3 дня и помогать лучше планировать полевые работы. Дальше — больше.
«В 2020 году мы проведём эксперименты по дифференцированному посеву на полях общей площадью более 100 тысяч гектаров» — рассказывает Сева.
Похоже, в 2020 году мы по-прежнему редко будем видеть его в офисе.
Сева исследует поля для одного из экспериментов_OneSoil Блог
Сева исследует поля для одного из экспериментов
Мы спрашиваем
В 2018 году наш CEO Слава Мазай написал письмо Канаде. Нам не хватало данных по полям и культурам в этой стране для того, чтобы проверить точность расчётов алгоритмов машинного обучения. Поэтому Слава написал в одно из министерств Канады письмо, которое так и начиналось: «Уважаемая Канада». Серьёзно.
Письмо в одно из министерств Канады_OneSoil Блог
Оказывается, так можно
Чудо в том, что они ответили. Год спустя нам прислали ответное письмо. Так мы получили данные по 50 тысячам полей в трёх провинциях, которые помогли нам точнее распознавать культуры в Канаде и сделать платформу OneSoil ещё более удобной для фермеров региона.
170 млн га
30 млн полей
Объём данных, которыми с нами поделись партнёры: научные институты, государственные организации, агрохолдинг и проч. Февраль 2020 г.
Получается, что когда у нас есть много данных из открытых источников и от разных партнёров, мы улучшаем наши алгоритмы, которые уже используем в приложениях OneSoil (или будем в ближайшем будущем). Когда у нас много данных от пользователей, мы снова-таки улучшаем точность наших расчётов. Вот так данные и технологии работают друг на друга.

Разбиралась в магии Ольга Полевикова
Рисовали Ваня Уваров и Даша Сазанович
Верстал Антон Сидоров
Нравится этот пост?
Статьи по теме
Комментарии