ПРОГНОЗИРОВАНИЕ РЕЖИМА РАБОТЫ СКВАЖИН С ПОМОЩЬЮ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ
Уланов В.В. (UlanovVV@samnipi.rosneft.ru),
Ситников А.В. (SitnikovAV@samnipi.rosneft.ru)
ООО «СамараНИПИнефть» (Россия, Самара)
Аннотация
В качестве одного из способов оптимизации трудозатрат и повышения качества проводимых работ в процессе эксплуатации скважин рассматривается возможность применения прогнозирования режима работы скважин на основе данных, полученных во время их эксплуатации. Определены три алгоритма, позволяющих проводить прогнозирование. Рассмотрены достоинства и недостатки данных методов, а также принцип их работы. В дальнейшем будет проводиться разработка и оптимизирование данных алгоритмов.
Ключевые слова:
Прогнозирование режима работы скважин, нейросети, алгоритмы машинного обучения, временные ряды
Abstract
The possibility of forecasting the operating mode over the loss of time is being considered as one of the options to optimize costs and improve the quality of work performed during well operating process. Three variants of algorithms are considered that allow forecasting. The advantages and disadvantages of these methods are shown, as well as the principle of their work. In the future, these algorithms will be developed and optimized.
Keywords:
Forecasting of well operation mode, neural networks, machine learning algorithms, time series
Во время эксплуатации нефтяной скважины ежедневно фиксируются все параметры, на основе которых отслеживается состояние скважины с целью своевременного проведения необходимых мероприятий, направленных на поддержание работоспособности, предотвращение аварий и обеспечение максимально возможной добычи.
Используя этот массив данных можно спрогнозировать дебит скважины на ближайшее время, чтобы спланировать работу персонала и обеспечить бесперебойную эксплуатацию скважины.
Для решения задачи прогнозирования хорошо подходят алгоритмы машинного обучения. В работе будут использоваться нейронные сети, алгоритм Random Forest и временные ряды.
Все представленные алгоритмы предназначены для того, чтобы прогнозировать что-либо, но сначала их нужно обучить. Обучение будет осуществляться на реальных данных эксплуатации нефтяных скважин. Данные будут обрабатываться и приводиться к нужному виду для того, чтобы с ними было удобно работать и алгоритмы могли воспринимать эти данные.
Далее рассмотрим каждый алгоритм подробнее.
Для того чтобы прогнозировать что-либо с помощью нейронных сетей, требуется решить задачу регрессии. Для такой задачи идеально подходит архитектура полносвязной нейронной сети. В полносвязной нейронной сети каждый нейрон передает выходное значение каждому нейрону из следующего слоя.
Рисунок 1. Архитектура полносвязной нейронной сети
На рисунке 1 представлена архитектура полносвязной нейронной сети, где Х1-Х4 это входные нейроны. На каждый из них подается одно значение признака, например заглубление ЭЦН под динамический уровень жидкости в скважине. Количество этих нейронов должно соответствовать количеству признаков. Y1-Y3 это выходные нейроны, в которых, при работе нейронной сети, содержится нужная нам информация. Например, если нам нужно спрогнозировать дебит скважины, у нас будет всего один нейрон со значением данного параметра. Бирюзовым цветом на рисунке отмечены нейроны скрытых слоев. Каждый нейрон, если говорить простым языком, представляет собой какую-либо формулу, в которой обрабатываются входные параметры. При обучении, нейронная сеть корректирует данные формулы так, чтобы нейросеть выдавала правильные значения.
Для того чтобы нейронная сеть обучалась, ей нужен большой набор значений. В общем виде процесс обучения устроен следующим образом:
есть набор параметров и желаемое значение, которое нейросеть должна спрогнозировать. Все параметры загружаются в нейросеть, проходят через нейроны и на выходе получается значение, но оно будет ошибочным. В этот момент, мы «сообщаем» нейронной сети правильный ответ, она сравнивает свой ответ с правильным и корректирует свои формулы. Это один цикл операции. Чтобы нейросеть обучилась необходимо многократно повторить такой цикл с разными данными.
Также очень важно предотвратить переобучение – явление, когда построенная модель хорошо объясняет примеры из обучающей выборки, но относительно плохо работает на примерах, не участвовавших в обучении.
То есть, если проверять ее работоспособность на примерах, на которых она обучалась, точность будет очень высока, но если предоставить ей значения, которых нет в обучающей выборке, она выдаст значение с большой ошибкой.
На рисунке 2 абстрактно представлен пример переобучения при задаче классификации красных и синих точек. Все синие и красные точки здесь из обучающей выборки.
Рисунок 2. Проблема переобучения нейронной сети
Линия зеленого цвета показывает пример переобученной нейронной сети. Модель слишком точно пытается выделить все синие и красные точки в отдельные классы. Таким образом, на тестовой выборке, где точки будут расположены по-другому, они могут не попасть в границы зеленой линии.
Линия черного цвета показывает хорошо обученную модель. При таком случае есть небольшая погрешность, но в среднем, такая модель будет показывать хорошие значения, как на тестовой, так и на обучающей выборке.
Таким образом, жертвуя точностью на обучающей выборке, мы получаем большую точность на тестовой выборке, что является основной задачей обучения нейронной сети.
Теперь рассмотрим алгоритм Random Forest. Это очень распространенный алгоритм, который применяется для задач регрессии. Основная идея заключается в использовании большого ансамбля решающих деревьев, каждое из которых само по себе даёт невысокое качество классификации, но за счёт их большого количества результат получается хорошим.
Что же такое «решающее дерево»? Дерево решений – интуитивно понятная базовая единица алгоритма «случайный лес». Мы можем рассматривать его как серию вопросов «да»/«нет» о входных данных. В конечном итоге вопросы приводят к прогнозированию определённого класса (величины, в случае регрессии). Это интерпретируемая модель, так как решения принимаются так же, как и человеком: мы задаём вопросы о доступных данных до тех пор, пока не приходим к определённому решению.
Рисунок 3. Пример принципа работы алгоритма Random Forest
На рисунке 3 представлен пример простейшего дерева решений для задачи классификации (для задачи регрессии будем получать в ответе не классы, а значения).
В данном случае мы подаем на вход все признаки и поступаем так же, как с нейронной сетью – начинаем обучать. До обучения не существует «дерева», есть только входная точка. В процессе обучения алгоритм сам находит, при каких параметрах нужно производить разветвление. В конце обучения получаем готовое «дерево».
Такой алгоритм тоже может испытывать сложности с переобучением. Для предотвращения этого явления мы можем ограничивать «глубину» дерева, ограничивать количество ветвей и количество параметров в каждом разветвлении, а также использовать несколько деревьев – ансамбль.
В нашем случае, при задаче регрессии значения всех деревьев усредняются и мы получаем ответ. В задаче классификации происходит обычное голосование.
Также в работе будем рассматривать временные ряды.
Временной ряд – собранный в разные моменты времени статистический материал о значении каких-либо параметров исследуемого процесса (в простейшем случае – одного параметра). Каждая единица статистического материала называется измерением или отсчётом, также допустимо называть его уровнем на указанный с ним момент времени. Во временном ряде, для каждого отсчёта должно быть указано время измерения или номер измерения по порядку. Временной ряд существенно отличается от простой выборки данных, так как при анализе учитывается взаимосвязь измерений со временем, а не только статистическое разнообразие и статистические характеристики выборки.
Временные ряды, как правило, возникают в результате измерения некоторого показателя. Это могут быть как показатели (характеристики) технических систем, так и показатели природных, социальных, экономических и других систем (например, погодные данные). Типичным примером временного ряда можно назвать биржевой курс, при анализе которого пытаются определить основное направление развития (тенденцию или тренд).
В работе планируется использовать модель авторегрессии скользящего среднего ARMA. Модель ARMA обобщает две более простые модели временных рядов – модель авторегрессии (AR) и модель скользящего среднего (MA).
Моделью ARMA (p, q), где p и q – целые числа, задающие порядок модели, называется следующий процесс генерации временного ряда { X t }:
Формула 1. Модель ARMA (Авторегрессии скользящего среднего)
где c – константа, { ε t } – белый шум, то есть последовательность независимых и одинаково распределённых случайных величин, с нулевым средним, а α 1 , … , α p и β 1 , … , β q – действительные числа, авторегрессионные коэффициенты и коэффициенты скользящего среднего, соответственно.
Данный алгоритм похож на предыдущие, но имеет свои особенности, так как напрямую используется для задачи регрессии, в отличие от нейросетей и Random Forest, набор задач которых несколько больше.
Рисунок 4. Процесс прогнозирования
На рисунке 4 представлен процесс прогнозирования. Можно сказать, что алгоритм «обучается», но этот процесс обучения несколько отличается от предыдущих. Скорее, мы просто добавляем новые значения к суммам из формулы. Таким образом, прогноз корректируется относительно полученных данных.
Для решения поставленной задачи будем использовать набор различных параметров скважины за большой промежуток времени. Эти данные реальны и собраны с реальных скважин, так как необходимо, чтобы алгоритмы правильно обучались и выдавали точные значения с минимальной погрешностью в процессе прогнозирования.
Далее каждый алгоритм будет обучаться на этих данных. Результаты работы алгоритмов будут анализироваться и, на их основе, параметры алгоритмов будут корректироваться для достижения максимальной точности.
Были рассмотрены способы прогнозирования режима работы скважин с помощью алгоритмов машинного обучения.
На текущий момент процесс поддержания и обеспечения бесперебойной работы скважины весьма трудоемок и не имеет инструментов для прогнозирования. Чаще всего снятие параметров работы скважины происходит только вручную – во время «обхода» фонда дважды в сутки по фактическому приезду на каждую скважину. Учитывая отдаленность некоторых месторождений и скважин, сбор параметров это весьма длительный и трудозатратный процесс, с низкой дискретностью данных. С последующим внесением технологической службой собранной информации в программный комплекс. Часть скважин фонда оборудована телесистемой, позволяющей в online режиме удаленно снимать параметры работы скважины и автоматически вносить их в специализированное ПО. Оснащенность датчиками позволяет кратно повысить контроль над скважиной, а так же открывает широкие возможности, в том числе, и для применения методов прогнозирования событий на скважине.
Применение новых методов контроля скважины на основе прогнозных данных позволит оперативно управлять добычей, сократит трудозатраты всей цепочки технологического и обеспечивающего персонала, позволит оперативно провести комплекс предупреждающих мероприятий для исключения остановки скважины, либо заблаговременно спланировать логистику оборудования для проведения ТКРС, с учетом отдаленности и труднодоступности объектов, тем самым существенно снизить или вовсе исключить потери добычи сырья.