El problema que intenta resolver debe determinar la función de costo que utiliza. La función de pérdida a menudo tiene una interpretación del “mundo real”. Cuando estás construyendo una máquina de aprendizaje estadístico, tendrás algo que estás tratando de predecir o modelar. Esto vendrá junto con una métrica que desea maximizar o minimizar. Elegirá su función de pérdida para optimizar esa métrica. Si no puede optimizarlo directamente incorporando la función de costo correcta en su algoritmo (tal vez debido al método de aprendizaje que debe usar), debe experimentar con un montón de métodos y funciones de costo para ver cuál funciona mejor para su métrica. .
Por ejemplo, digamos que está creando un algoritmo de predicción de tasa de clics. En este caso, desea maximizar los ingresos de publicidad al predecir con precisión si un usuario hará clic en un anuncio o no. Por lo tanto, tendrá que predecir la probabilidad de que un usuario haga clic en un anuncio para que pueda hacer una oferta en consecuencia. Puede pensar en esto como un problema de clasificación (1 o 0, clic o no hacer clic), o como un problema de regresión que predice la probabilidad de que un usuario haga clic. Por lo tanto, su métrica está maximizando los ingresos = (hace clic en la oferta y gana) * (ingresos por clic) – (gasto publicitario).
Para simplificar, digamos que lo modelas como un problema de clasificación con una oferta fija. Su función de pérdida es
[math] L (p) = \ sum_i b * p_i – (r_c * y_i) p_i [/ math]
[math] r_c [/ math] = ingresos de un solo clic a través
[math] y_i [/ math] = 1 si se hace clic, 0 si no se hace clic aunque
[math] p_i [/ math] = predicción, mismas clases que [math] y_i [/ math]
[math] b [/ math] = valor de oferta
Por lo tanto, la función de costo tiene 2 partes, una penalización si omite predecir un clic y una parte de minimización de costo. Es solo lo negativo de la ganancia esperada para la campaña publicitaria. Tenga en cuenta que es relativamente fácil generalizar esto a un problema de regresión y variar el monto de la oferta.
- ¿Cuál es el mejor sitio web para encontrar tutores?
- ¿Cómo enseña a los niños pequeños técnicas eficaces de estudio, redacción de documentos y gestión del tiempo?
- ¿Cuánto tiempo tardas en dominar una materia que estás estudiando por tu cuenta?
- ¿Las personas con memorias laborales más grandes aprenden más rápido?
- ¿Cómo puedo preparar mejor a mi hijo para el sistema de educación superior del futuro?
Una vez que tiene la función de costo y decide una parametrización para la máquina de aprendizaje, es relativamente sencillo ajustar sus parámetros minimizando la función de costo utilizando el descenso de gradiente estocástico o algún otro método de descenso de gradiente.
En el caso de que desee utilizar una red neuronal o algo con una función de costo fijo, o simplemente desee usar una biblioteca estándar con alguna función de pérdida incorporada, debe probar un montón de máquinas diferentes con diferentes funciones de pérdida y usar el uno que minimiza su función de pérdida “real” durante la validación cruzada.