Интеграция Corpwiki (XWiki) и приложений на языке R

Версия 1.12 от Coluns на 23.10.2024

Что такое язык программирования R

R - язык программирования, созданный специально для статистического анализа данных. Его разработали на факультете статистики Оклендского университета.

Особенности языка R:

  • Интерпретируемый. Программа на языке R сразу готова к исполнению — её не нужно собирать в исполняемый файл с помощью компилятора. 
  • Простой по синтаксису. R в своей основе не содержит сложных конструкций и запутанных функций. Даже типов данных у него всего четыре: символьные, числовые, логические и комплексные. 
  • Рабочая среда. В R встроены готовые методы статистического анализа и инструменты для визуализации. 

Сфера применения языка R: математики, биологи, генетики и другие учёные, которым нужно проводить статистические исследования и строить модели. Также R востребован среди аналитиков данных и специалистов по Data Science. 

Распространение: язык и среда доступны под лицензией GNU GPL. Распространяются в виде исходных кодов, а также откомпилированных приложений под ряд операционных систем.

Какая польза от использования языка R в бизнесе

С точки зрения бизнеса разработку приложений для анализа данных на языке R можно считать почти идеальным решением:

  1. Отсутствуют какие-либо финансовые барьеры для начала использования:
    • Не надо никаких первоначальный вложений в лицензии.
    • Нет никаких лицензионных ограничений и проблем потенциального расширения.
    • Нет никаких ежегодных платежей за поддержку лицензий.
    • Все прекрасно работает на linux, нет необходимости в приобретении дополнительных ОС.
  2. Если ваши внешние системы выдают необходимую информацию, то этого уже достаточно для начала проекта. Сопутствующие проекты по доработке не требуются, все можно будет сделать на уровне аналитики.
  3. Уже есть доказанная практика применения R в бизнесе практически во всех вертикалях.
  4. Не надо планировать глобальный проект, достаточно начать с частных проблемных мест.
    • Проекты получаются компактными и быстрыми, результаты легко переводятся в деньги (заработанные или сэкономленные).
    • Полученные результаты позволяют взглянуть на существующие задачи под иным углом зрения, обнаружить реальные проблемы и расставить акценты в более правильном виде.

Что умеют приложения на R

  • Импорт данных из различных источников. txt\csv, xls (Excel), web scrapping, RDBMS.
  • Обработка данных: фильтрация, группировка, агрегирование, добавление и вычисление.
  • Временной анализ (как правило, 80% данных сопровождаются временными метками).
  • Расширенная обработка (элементы высшей математики, включая элементы машинного обучения): Наиболее популярен поиск аномалий, различные классификаторы, рекомендации и прогнозирование и "process mining".
  • Визуализация данных различными способами.
  • Интеграция с внешними информационными системами для экспорта рассчитанных данных.
  • Экспорт в форматы, удобные для восприятия человеком, такие как: pdf, html, xls, doc, ppt.
  • Web-base рабочее место для аналитика\рядового пользователя.

Приведенный функционал доступен в рамках экосистемы R без особой необходимости инсталляции каких-либо дополнительных сторонних компонент.

Как работает интеграция между Corpwiki (XWiki) и приложениями на языке R

Примеры результатов работы приложений на языке R