¿Qué es Weka y qué tiene que ver con Big Data?

Weka es una plataforma de software destinada al aprendizaje automático y la minería de datos. Descubre más sobre ella en el post de hoy.

auto

 

La generación de datos masivos es una realidad desde hace años. La posibilidad de almacenaje y acceso a la información junto con la capacidad del ser humano para ejercer análisis exhaustivos que permitan alcanzar el conocimiento ha contribuido al nacimiento de técnicas como el data mining.

Aún así, el potencial reside en la información oculta que se puede extraer de los datos. Te contamos qué es Weka y su relación con el big data.

¿Qué es Weka?

Weka (Waikato Environment for Knowledge Analysis) es una plataforma de software destinada al aprendizaje automático y la minería de datos (Data Mining) escrita en lenguaje Java y desarrollada en la Universidad de Waikato (Nueva Zelanda)

En un principio, la versión original de Weka se desarrolló en un front-end TCL/TK para modelar algoritmos implementados en otros lenguajes de programación, más unas utilidades destinadas al preprocesamiento de datos desarrolladas en C para hacer experimentos de aprendizaje automático.

No obstante, cuatro años más tarde (1997) dado el potencial del lenguaje Java, se decantaron por implementarlo junto con algoritmos de modelado.

En el año 2005 recibió el galardón “Data Mining and Knowledge Discovery Service” y un año más tarde, Pentaho adquirió la licencia para utilizar Weka en Busines Intelligence.

Esta unificación, permitió dar lugar al componente de minería de datos y análisis predictivo de software Pentaho Business Intelligence.

Características Weka

weka

La plataforma Weka se caracteriza por los siguientes parámetros:

  • Disponible: esta plataforma de software es libre gracias a la licencia pública general de GNU.
  • Adaptable: al estar implementada en lenguaje Java, es compatible casi con cualquier plataforma.
  • Funcional: está formada por un amplio repositorio de técnicas para preprocesamiento de datos y modelado.
  • Sencilla: su uso es muy fácil gracias a su interfaz gráfica de usuario.

 

La interfaz de usuario

Al ejecutar la aplicación nos aparece el selector de interfaz de Weka que da la opción de seleccionar entre cuatro posibles interfaces de usuario para acceder a las funcionalidades del programa, éstas son:

  • Explorer: Es el interface visual de que permite trabajar fácilmente. Permite procesar, clasificar, asociar y visualizar datos intuitivamente sobre un sólo archivo de datos.
  • Experimenter: permite la comparación sistemática de una ejecución de los algoritmos predictivos de Weka sobre una colección de conjuntos de datos.
  • KnowledgeFlow: es el interface gráfico utilizado para desarrollar proyectos a través de flujos de información.
  • Simple CLI: Simple Command-Line Interface es una una consola que permite acceder a todas las opciones de Weka desde línea de comandos.

Weka y Machine Learning, una relación simbiótica

La minería de datos o Data Mining utiliza cuatro clases de tareas:

  1. Clasificación.
  2. Agrupamiento (clustering).
  3. Regresión.
  4. Reglas de asociación.

Para llevarlas a cabo, se sirve de técnicas estadísticas, algoritmos matemáticos y algoritmos de aprendizaje automático que ayudan a mejorar el rendimiento en base a la experiencia.

El aprendizaje automático o machine learning, como hemos visto en otras entradas es un subcampo del Data Science, el cual abarca el proceso de obtención del conocimiento a través de la búsqueda, análisis, visualización y despliegue de datos.

Por su parte, el machine learning, son todos aquellos algoritmos y técnicas basadas en datos que se utilizan en la fase de análisis y modelado de este proceso. Dentro del machine learning existen tres tipos de aprendizaje:

  • Aprendizaje supervisado. El algoritmo se entrena con datos históricos y así “aprende” a asignar la etiqueta de salida adecuada a un nuevo valor, es decir, predice el valor de salida.
  • Aprendizaje no supervisado. No se disponen de datos para el entrenamiento. Sólo se conocen los datos de entrada, pero no existen datos de salida. Por tanto suele utilizarse como un método de carácter exploratorio.
  • Aprendizaje de refuerzo. Este tipo aprendizaje se basa en mejorar la respuesta del modelo usando un proceso de retroalimentación. El algoritmo aprende observando el mundo que le rodea.

Como decíamos, Weka es una plataforma de software basado en lenguaje Java que puede resolver una amplia variedad de funciones de aprendizaje automático. Todas las técnicas se basan en que los datos están disponibles en un fichero plano o una relación, en la que cada registro de datos está descrito por un número fijo de atributos.

La plataforma Weka también proporciona acceso a bases de datos vía SQL gracias a la conexión JDBC (Java Database Connectivity) y puede procesar el resultado devuelto por una consulta hecha a la base de datos.

Puedes descargar Weka desde aquí

Fuente original:  Redacción España

Deja un comentario