Tutorial do Azure: predizendo os preços do gás usando o Azure Machine Learning Studio
Ciência De Dados E Bancos De Dados
E se você pudesse prever se sua ação preferida aumentaria ou cairia durante o próximo mês? Ou se seu time de futebol favorito ganhar ou perder a próxima partida? Como você pode fazer tais previsões? Talvez o aprendizado de máquina possa fornecer parte da resposta. Cortana, o novo assistente pessoal digital desenvolvido por Bing isso vem com Windows Phone 8.1 previu com precisão 15 dos 16 jogos da Copa do Mundo FIFA 2014.
Neste tutorial do Azure, exploraremos os recursos e capacidades do Azure Machine Learning por meio da solução de um dos problemas que enfrentamos no dia a dia.
De desenvolvedor de aprendizado de máquina ponto de vista, os problemas podem ser divididos em dois grupos - aqueles que podem ser resolvidos usando métodos padrão e aqueles que não podem ser resolvidos usando métodos padrão. Infelizmente, a maioria dos problemas da vida real pertence ao segundo grupo. É aqui que o aprendizado de máquina entra em ação. A ideia básica é usar máquinas para encontrar padrões significativos em dados históricos e usá-los para resolver o problema.
Os preços do gás são provavelmente um dos itens que já estão no orçamento da maioria das pessoas. O aumento ou diminuição constante pode influenciar os preços de outros mantimentos e serviços também. Existem muitos fatores que podem influenciar os preços do gás, desde as condições climáticas até as decisões políticas e taxas administrativas, e até fatores totalmente imprevisíveis, como desastres naturais ou guerras.
O plano para este tutorial de aprendizado de máquina do Azure é investigar alguns dados acessíveis e encontrar correlações que podem ser exploradas para criar um modelo de previsão.
Azure Machine Learning Studio é um ambiente de desenvolvimento integrado (IDE) baseado na web para o desenvolvimento de experimentos de dados. Ele está intimamente ligado ao restante dos serviços de nuvem do Azure e simplifica o desenvolvimento e a implantação de modelos e serviços de aprendizado de máquina.
Existem cinco etapas básicas para criar um exemplo de aprendizado de máquina. Examinaremos cada uma dessas etapas por meio do desenvolvimento de nosso próprio modelo de previsão para os preços do gás.
A coleta de dados é uma das etapas mais importantes neste processo. A relevância e a clareza dos dados são a base para a criação de bons modelos de previsão. O Azure Machine Learning Studio fornece vários conjuntos de dados de amostra. Outra grande coleção de conjuntos de dados pode ser encontrada em archive.ics.uci.edu/ml/datasets.html .
Depois de coletar os dados, precisamos fazer o upload para o Studio por meio de seu mecanismo simples de upload de dados:
para que serve o node js
Depois de carregado, podemos visualizar os dados. A imagem a seguir mostra parte dos nossos dados que acabamos de enviar. Nosso objetivo aqui é prever o preço na coluna E95.
Nossa próxima etapa é criar um novo experimento arrastando e soltando os módulos do painel à esquerda para a área de trabalho.
O pré-processamento dos dados disponíveis envolve o ajuste dos dados disponíveis às suas necessidades. O primeiro módulo que usaremos aqui é “Estatística Descritiva”. Ele calcula dados estatísticos a partir dos dados disponíveis. Além do módulo “Estatísticas descritivas”, um dos módulos comumente usados é “Limpar dados ausentes”. O objetivo desta etapa é dar significado aos valores ausentes (nulos), substituindo-os por algum outro valor ou removendo-os completamente.
Outro módulo aplicado nesta etapa em nosso tutorial é o módulo “Seleção de recursos com base em filtro”. Este módulo determina os recursos do conjunto de dados que são mais relevantes para os resultados que queremos prever. Neste caso, como você pode ver na imagem abaixo, os quatro recursos mais relevantes para os valores “E95” são “EDG BS”, “Petróleo”, “USD / HRK” e “EUR / USD”.
Uma vez que “EDG BS” é outro valor de “produção” que não pode ser usado para fazer previsões, selecionaremos apenas dois dos recursos importantes restantes - que é o preço do petróleo e a taxa de câmbio na coluna USD / HRK.
A amostra do conjunto de dados após o processamento é mostrada abaixo:
Nosso próximo passo é dividir os dados disponíveis usando o módulo “Dividir”. A primeira parte dos dados (no nosso caso 80%) será usada para treinar o modelo e o restante é usado para pontuar o modelo treinado.
As etapas a seguir são as etapas mais importantes em todo o processo de aprendizado de máquina do Azure. O módulo “Train Model” aceita dois parâmetros de entrada. O primeiro são os dados de treinamento brutos e o outro é o algoritmo de aprendizado. Aqui, estaremos usando o algoritmo de “Regressão Linear”. A saída do módulo “Train Model” é um dos parâmetros de entrada do módulo “Score Model”. O outro é o restante dos dados disponíveis. Score Model adiciona uma nova coluna ao nosso conjunto de dados, Scored Labels. Os valores na coluna “Etiquetas pontuadas” estão mais próximos dos valores de seus valores E95 correspondentes quando o algoritmo de aprendizagem aplicado funciona bem com os dados disponíveis.
O módulo Avaliar modelo nos dá uma avaliação do modelo treinado expresso em valores estatísticos. Se olharmos para o “Coeficiente de Determinação”, podemos concluir que há cerca de 80% de chance de prever o preço correto usando este modelo.
Agora, vale a pena tentar usar o módulo “Neural Network Regression”. Precisaremos adicionar novos módulos “Train Model” e “Score Model” e conectar a saída ao módulo “Evaluate Model” existente.
O módulo “Neural Network Regression” requer um pouco mais de configuração. Como este é o módulo mais importante de todo o experimento, é onde devemos concentrar nossos esforços, ajustando e experimentando as configurações e a seleção do algoritmo de aprendizagem apropriado como um todo.
Nesse caso, o módulo Avaliar nos oferece uma comparação de nossos dois modelos treinados. Novamente, com base no coeficiente de determinação, vemos que as redes neurais fornecem previsões um pouco menos precisas.
Neste ponto, podemos salvar os modelos treinados selecionados para uso futuro.
Quando tivermos um modelo treinado, podemos prosseguir com a criação de “Experiência de pontuação”. Isso pode ser feito criando um novo experimento do zero ou usando o auxiliar do Azure Machine Learning Studio. Basta selecionar o modelo treinado e clicar em “Criar experimento de pontuação”. Os novos módulos de que precisamos aqui são “entrada de serviço da Web” e “saída de serviço da Web”. Adicionaremos um módulo “Colunas do projeto” para selecionar nossos valores de entrada e saída. Os valores de entrada são Petróleo e USD / HRK, e a saída é o valor previsto na coluna “Etiquetas com pontuação” da saída “Modelo de pontuação”.
A imagem abaixo mostra nosso experimento de pontuação após esses poucos ajustes e depois de conectar os módulos “entrada de serviço da Web” e “saída de serviço da Web” de acordo.
Outro recurso auxiliar bacana entra em ação neste ponto. Com “Publicar serviço da Web”, você pode criar um serviço da web simples hospedado na infraestrutura de nuvem do Azure.
o que é ajuste de desempenho no servidor sql
Por fim, podemos testar nosso serviço da web de previsão usando um formulário de teste simples.
Através deste simples tutorial de aprendizado de máquina mostramos como criar um serviço da web de previsão totalmente funcional. Azure Machine Learning Studio integrado à plataforma Azure pode ser muito ferramenta poderosa para criar experimentos de dados. Além do Machine Learning Studio, existem outras soluções de aprendizado de máquina, como laranja e Tibério . Independentemente do ambiente de desenvolvimento de que você gosta, incentivo você a explorar o aprendizado de máquina e encontrar seu cientista de dados interno.