Glosario de Inteligencia Artificial, Machine Learning y Ciencia de Datos

En esta sección van a poder encontrar las definiciones de los términos más utilizados en el mundo de la Inteligencia Artificial y la Ciencia de Datos.

A - B - C - D - E - F - G - H - I - J - K - L - M - N - O - P - Q - R - S - T - U - V - W - X - Y - Z

Algoritmo

Una serie de pasos repetibles para llevar a cabo cierto tipo de tarea con datos. Al estudiar Ciencia de Datos debemos conocer los diferentes algoritmos y sus respectivas ventajas y desventajas.

Aprendizaje supervisado

En Machine Learning el aprendizaje supervisado es una técnica para deducir una función a partir de datos de entrenamiento. Los datos de entrenamiento consisten de pares de objetos (normalmente vectores): un componente del par son los datos de entrada y el otro, los resultados deseados, es decir, los resultados a los que debe arribar el modelo.

Aprendizaje no supervisado

El aprendizaje no supervisado es un método de Machine Learning en donde el modelo es ajustado a las observaciones. En este caso el algoritmo es entrenado usando un conjuntos de datos que no tiene ninguna etiqueta; nunca se le dice lo que representan los datos. La idea es que el algoritmo pueda encontrar por si solo patrones que ayuden a entender los datos.

Aprendizaje por refuerzo

En los problemas de aprendizaje por refuerzo, el algoritmo aprende observando el mundo que le rodea. Su información de entrada es el feedback o retroalimentación que obtiene del mundo exterior como respuesta a sus acciones. Por lo tanto, el sistema aprende en base a prueba-error.

Arboles de Decisión

Los Arboles de Decision son un algoritmo de Machine Learning que consisten en diagramas con construcciones lógicas, muy similares a los sistemas de predicción basados en reglas, que sirven para representar y categorizar una serie de condiciones que ocurren de forma sucesiva, para la resolución de un problema.

Atributos

Los Atributos son las propiedades individuales que se pueden medir de un fenómeno que se observa. La elección de atributos informativos, discriminatorios e independientes es un paso crucial para la eficacia de los algoritmos de Machine Learning.

Backpropagation

La propagación hacia atrás o backpropagation es un algoritmo para el ajuste iterativo de los pesos utilizados por las redes neuronales.

BCI

BCI o Brain Computer interfaces constituyen una tecnología que se basa en la adquisición de ondas cerebrales para luego ser procesadas e interpretadas por una máquina u ordenador. Establecen el camino para interactuar con el exterior mediante nuestro pensamiento.

Big Data

La Big Data es la rama de las Teconlogías de la información que estudia las dificultades inherentes a la manipulación de grandes conjuntos de datos.

Ciencia de datos

La Ciencia de Datos es un campo interdisciplinario que involucra métodos científicos, procesos y sistemas para extraer conocimiento o un mejor entendimiento de datos en sus diferentes formas, ya sea estructurados o no estructurados.

Clasificación

En Machine Learning los problemas de Clasificación son aquellos en dónde el algoritmo de aprendizaje debe clasificar una serie de vectores en base a información de ejemplos previamente etiquetados. Es una caso típico del Aprendizaje supervisado

Clustering

El Clustering o agrupamiento consiste en agrupar un un conjunto de objetos de tal manera que los miembros del mismo grupo (llamado clúster) sean más similares, en algún sentido u otro. Es el caso típico del Aprendizaje no supervisado.

Computación en la nube

La computación en la nube es un paradigma que permite ofrecer servicios de computación a través de una red, que usualmente es la internet. Los servicios que generalmente se ofrecen, se dividen en tres grandes categorías: Infraestructura como servicio (IaaS), plataforma como servicio (PaaS) y software como servicio (SaaS).

Conjunto de datos

Un Conjunto de datos o dataset es una colección de Datos que habitualmente están estructurados en forma tabular.

Datos

Un dato es una representación simbólica (numérica, alfabética, algorítmica, espacial, etc.) de un atributo o variable cuantitativa o cualitativa. Los datos describen hechos empíricos, sucesos y entidades. Es el elemento fundamental con el que trabaja la Ciencia de Datos.

Deep Learning

El Deep Learning o aprendizaje profundo es un subcampo dentro del Machine Learning, el cuál utiliza distintas estructuras de redes neuronales para lograr el aprendizaje de sucesivas capas de representaciones cada vez más significativas de los datos. Actualmente es el campo con más popularidad dentro de la Inteligencia Artificial.

Estadística

La Estadística suele ser definida como la ciencia de aprender de los datos o como la ciencia de obtener conclusiones en la presencia de incertidumbre. Se divide en dos grandes ramas: Estadística descriptiva y Estadística inferencial

Estadística Descriptiva

La estadística descriptiva se dedica a recolectar, ordenar, analizar y representar a un conjunto de datos, con el fin de describir apropiadamente las características de este. Calcula los parámetros estadísticos que describen el conjunto estudiado. Algunas de las herramientas que utiliza son gráficos, medidas de frecuencias, medidas de centralización, medidas de posición, medidas de dispersión, entre otras.

Estadística Inferencial

La estadistica inferencial estudia cómo sacar conclusiones generales para toda la población a partir del estudio de una muestra, y el grado de fiabilidad o significación de los resultados obtenidos. Sus principales herramientas son el muestreo, la estimación de parámetros y el contraste de hipótesis.

Función de activación

En redes neuronales la Función de activación es la que define la forma en que una neurona se activa de acuerdo a una entrada o conjunto de entradas.

Función de pérdida

En Machine Learning y Optimización, la Función de pérdida es aquella que representa la pérdida de información o el precio pagado por la inexactitud en las predicciones.

Gradiente

El concepto de Gradiente es la generalización de derivada a funciones de más de una variable o vectores. Un método de Optimización muy utilizado en Deep Learning es el de gradientes descendientes.

Hadoop

Hadoop es un framework de software, desarrollado en el lenguaje de programación Java, que permite el procesamiento distribuido de grandes conjuntos de datos a través de clusters de computadoras utilizando simples modelos de programación.

Hipótesis

En Estadística, una Hipótesis es una suposición de algo posible o imposible para sacar de ello una o más conclusiones. Su valor reside en la capacidad para establecer más relaciones entre los hechos y explicar por qué se producen. La misma debe ser contrastada contra los datos que la soporten.

IAAR

IAAR es la comunidad argentina de Inteligencia Artificial.

Inteligencia Artificial

La Inteligencia Artificial es el estudio de la inforseramática centrándose en el desarrollo de software o máquinas que exhiben una inteligencia humana.

Interfaz cerebro computadora

La interfaz cerebro computadora o BCI es un campo multidisciplinario que utiliza los nuevos avances en neurociencia, procesamiento de señales, machine learning y las tecnologías de la información para explorar la forma de comunicar nuestro cerebro en forma directa con las máquinas, de la misma forma en que lo hacemos con nuestro cuerpo.

Internet de las cosas

La Internet de las cosas o IoT es un concepto que se refiere a la interconexión digital de objetos cotidianos con internet, permitiendo la creación de un sin fin de sistemas inteligentes que aprovechan los beneficios de la Big Data.

Java

Java es un lenguaje de programación orientado a objetos diseñado para ser multiplataforma y poder ser empleado el mismo programa en diversos sistemas operativos. Es uno de los lenguajes más utilizados en el mundo empresarial por su alto rendimiento.

Javascript

Javascript es el lenguaje de programación de la Web. Se caracteriza por ser fácil de aprender, orientado a objetos, interpretado y basado en prototipos. Es ideal para generar contenido dinámico en internet.

Keras

Keras es una librería de alto nivel para Deep Learning, muy fácil de utilizar. Está escrita y mantenida por Francis Chollet, miembro del equipo de Google Brain. Permite a los usuarios elegir si los modelos que se construyen serán ejecutados en el grafo simbólico de Theano, TensorFlow o CNTK.

K-Means

K-means es un algoritmo de Machine Learning no supervisado muy popular para problemas de Agrupamiento; funciona reduciendo al mínimo la suma de las distancias cuadradas desde la media dentro de un agrupamiento. Para hacer esto establece primero un número previamente especificado de conglomerados, $K$, y luego va asignando cada observación a la agrupación más cercana de acuerdo a su media.

KNN

KNN o K vecinos más cercanos es un algoritmo de Machine Learning que consiste en realizar predicciones sobre una clase en base a la clase a la que pertenecen los puntos vecinos más cercanos al que intentamos predecir.

Machine Learning

El Machine Learning o aprendizaje automático es el diseño y estudio de las herramientas informáticas que utilizan la experiencia pasada para tomar decisiones futuras; es el estudio de programas que pueden aprender de los datos. El objetivo fundamental del Machine Learning es generalizar, o inducir una regla desconocida a partir de ejemplos donde esa regla es aplicada.

Matrices

Una matriz es un arreglo bidimensional de números (llamados entradas de la matriz) ordenados en filas (o renglones) y columnas, donde una fila es cada una de las líneas horizontales de la matriz y una columna es cada una de las líneas verticales. En una matriz cada elemento puede ser identificado utilizando dos índices, uno para la fila y otro para la columna en que se encuentra.

Modelo

En Machine Learning, un modelo es el objeto que va a representar la salida del algoritmo de aprendizaje. El modelo es lo que utilizamos para realizar las predicciones.

Muestra

En Estadística un muestra es un subconjunto de casos o individuos de una población. Debemos tratar que la misma sea lo más representativa posible.

Neurona

Una Neurona en una red neuronal artificial es una aproximación matemática de una neurona biológica. Requiere un vector de entradas, realiza una transformación en los datos y genera un único valor de salida. Puede ser pensado como un filtro.

Open Source

Open Source es un modelo de desarrollo de software que se caracteriza por promover el rápido desarrollo e implementación de mejoras y corrección de errores en una solución de software. Su principal característica es que el código fuente es distribuido junto con la solución de software; por lo que cualquiera puede acceder a ver como esta construido el software y proponer mejoras o modificarlo a su gusto. Se basa en el principio fundamental de que la información debe circular libremente, sin restricciones.

Optimización

La Optimización consiste en la selección del mejor elemento (con respecto a algún criterio) de un conjunto de elementos disponibles. En el caso más simple, un problema de optimización consiste en maximizar o minimizar una función real eligiendo sistemáticamente valores de entrada (tomados de un conjunto permitido) y computando el valor de la función.

Probabilidad

La Probabilidad es la rama de las matemáticas que se ocupa de los fenómenos aleatorios y de la incertidumbre. Existen muchos eventos que no se pueden predecir con certeza; ya que su observación repetida bajo un mismo conjunto específico de condiciones puede arrojar resultados distintos, mostrando un comportamiento errático e impredecible. En estas situaciones, la Probabilidad proporciona los métodos para cuantificar las posibilidades asociadas con los diversos resultados.

Procesamiento del lenguaje natural

El Procesamiento del lenguaje natural es una disciplina interdisciplinaria cuya idea central es la de darle a las máquinas la capacidad de leer y comprender los idiomas que hablamos los humanos. La investigación del Procesamiento del lenguaje natural tiene como objetivo responder a la pregunta de cómo las personas son capaces de comprender el significado de una oración oral / escrita y cómo las personas entienden lo que sucedió, cuándo y dónde sucedió; y las diferencias entre una suposición, una creencia o un hecho.

Python

Python es actualmente uno de los lenguajes más utilizados en Inteligencia Artificial y la Ciencia de Datos; es un lenguaje de programación de alto nivel que se caracteriza por hacer hincapié en una sintaxis limpia, que favorece un código legible y fácilmente administrable.

R

R es un lenguaje de programación interpretado diseñado específicamente para el análisis estadístico y la manipulación de datos. Junto con Python son los lenguajes más populares en Ciencia de Datos.

Red Neuronal

Las Redes Neuronales son un modelo computacional basado en un gran conjunto de unidades neuronales simples (neuronas artificiales), de forma aproximadamente análoga al comportamiento observado en los axones de las neuronas en los cerebros biológicos. Son la unidad de trabajo fundamental del Deep Learning.

Regresión

En Machine Learning, la Regresión consiste en encontrar la mejor relación que representa al conjuntos de datos. Es una caso típico del Aprendizaje supervisado.

Sobreajuste

En Machine Learning un modelo va a estar sobreajustado cuando vemos que se desempeña bien con los datos de entrenamiento, pero su precisión es notablemente más baja con los datos de evaluación; esto se debe a que el modelo ha memorizado los datos que ha visto y no pudo generalizar las reglas para predecir los datos que no ha visto.

SVM

Las máquinas de vectores de soporte o SVM es un algoritmo de Machine Learning cuya idea central consiste en encontrar un plano que separe los grupos dentro de los datos de la mejor forma posible. Aquí, la separación significa que la elección del plano maximiza el margen entre los puntos más cercanos en el plano; éstos puntos se denominan vectores de soporte.

Tensor

Un Tensor un un arreglo de números que generaliza los conceptos de escalares, vectores, y matrices a un grado mayor de dimensiones. Es la estructura de datos fundamental que utilizan los principales frameworks de Deep Learning.

TensorFlow

TensorFlow es un frameworks desarrollado por Google para Deep Learning. Es una librería de código libre para computación numérica usando grafos de flujo de datos. Actualmente es la librería más popular para el armado de modelos de Deep Learning.

Vector

Un vector es una serie de números. Los números tienen una orden preestablecido, y podemos identificar cada número individual por su índice en ese orden. Podemos pensar en los vectores como la identificación de puntos en el espacio, con cada elemento que da la coordenada a lo largo de un eje diferente.

Visión por computadora

La Visión por computadora es una disciplina científica que incluye métodos para adquirir, procesar, analizar y comprender las imágenes del mundo real con el fin de producir información numérica o simbólica para que puedan ser tratados por una computadora. Es una de las ramas de la Inteligencia Artificial.