Под зонтиком IT публикация - 2021-12-23 / cоздание - 2017-11-11 - из архива Big data: «дерево решений»
Оказывается, в big data можно делать автоматизированный причинно - следственный анализ: задал результирующий параметр, определил перечень влияющих переменных, далее… дело за компьютером.
Современные средства углубленной аналитики как правило позволяют найти цифровую модель интересующего процесса. Есть черный ящик. На вход его подаются входные переменные, на выходе задается результирующий параметр. С помощью различных автоматизированных инструментов, например, множественной регрессии, нейросетей, фаззи логики … - а на текущий момент их более 30, ищут цифровую модель, которая описывает результирующий параметр в зависимости от входных переменных с определенной точностью. Такую цифровую модель можно использовать для прогнозирования, для поиска оптимального состояния объекта управления, но у нее есть один существенный недостаток: она не позволяет найти причинно - следственные связи между выходным и входными параметрами. Это отпугивает большинство технологов от применения статистических методов анализа.
Оказывается, «big data» имеет решение в части автоматизации причинно - следственного анализа. Инструмент называется «дерево решений». Название стоит запомнить, так как по всей видимости этот метод позволит решить проблему недоверия технологов к результатам статистического анализа и станет переходным мостикам к полномасштабному применению цифровых моделей.
«Дерево решений» не сложно в освоении. Его вполне способен освоить любой специалист, умеющий хорошо логически мыслить и пользоваться средствами вычислительной техники. Достаточно определится с программным продуктом, освоить интерфейс, а далее … задать целевой для анализа результирующий параметр, определить все возможные влияющие на него переменные и назначить моделирование по методу «дерево решений». Дальше программный продукт с «big data» сам определяет причинно - следственный связи. В формате дерева. В формате логических переходов. Анализируя найденную машиной структуру дерева, можно разобраться с логикой влияния входных параметров на выходной. Конечно, данная методология работает, если есть исходная информация в оцифрованном виде.
На промышленных предприятиях на уровне АСУТП и АРМ генерируются громадные объемы исходных данных. В основном их используют для контроля производства. Хотя при должной квалификации, используя «big data», можно буквально «выжимать» практическую ценность из имеющихся данных и использовать её для улучшения технологических и бизнес - процессов. Если посмотреть на реакцию к «big data» в мире, интерес у передовых бизнес-компании начинает расти по мере того, как они начинают осознавать новые возможности.
До сих пор процесс освоения углубленной аналитики носил спонтанный характер. Есть "умники", которые осваивают компоненты статистического анализа, иногда даже не понимая, что это относится к «big data»: изучают автоматизированный сбор данных (SQL), нормализуют исходные данные, осуществляют предварительную обработку для анализа и моделирования (OLAP), ищут статистические зависимости (цифровые модели), определяют на основании их причины отклонений… Они осваивают элементы «big data» по собственной инициативе. Спонтанные порывы "умников" важны, через них формируется интерес к серьезной работе с данными. Но обязательно придет время, когда "умники" с новыми квалификациями становятся уникальными и незаменимыми, что ставит бизнес в невыгодное положение. Поэтому важно системно осваивать инструментарий «big data» и стремиться делать его доступным для всех специалистов и менеджеров. |