Interface para regressão polinomial

O pacote legTools reune funções e conjuntos de dados que são ferramentas no Ensino de Estatística para o LEG. Embora o pacote esteja ainda bem no começo do seu desenvolvimento, com menos de um mês de existência, já existe um conjunto estabelecido de funções destinadas a este pacote. Parte dessas funções fazem interfaces gráficas e foram construídas para atender demandas no nnsino de Estatística. Nessa matéria, será apresentada a função polyGui que foi desenvolvida para trabalhar o tema regressão polinomial.

Um modelo de regressão polinomial é aquele cujo preditor linear é uma função polinomial de ordem \(k\) em \(x\) \[ \text{E}(Y|x) = \beta_0+\beta_1 x^1 +\beta_2 x^2 + \cdots + \beta_k x^k, \] em que \(\text{E}(Y|x)\) denota esperança da variável aleatória \(Y\) para valores fixados da variável \(x\).

Um polinômio de grau 1 é a conhecida equação da reta e com grau 2 é uma parábola. A medida que o grau do polinômio cresce, maior sua capacidade de se ajustar aos dados. Meu colega, Professor Paulo Justiniano, costuma dizer que o modelo tem mais liberdade para “correr atrás dos dados” quando tem mais parâmetros. Inclusive, o ajuste chega a ser perfeito quando o grau do polinômio é o número de valores de \(x\) menos 1. Tanto do ponto de vista estatístico quanto prático, não existe interesse em uma função que dê um ajuste exato pois essa função, com um número elevado de termos (ou um algo grau), não representa mais a tendência média. Ou seja, não descreve a relação entre os valores esperados de \(Y\) e os valores de \(x\). Dito isso, o que se procura é um polinômio de grau suficiente de forma a representar a relação entre as variáveis.

Com a função polyGui pode-se controlar o grau do polinômio empregado para ajustar o modelo polinomial. Alterando os valores por meio dos botões de incremento da interface, percebe-se instantaneamente que 1) um baixo grau do polinômio pode não apresentar um ajuste satisfatório e 2) um polinômio de alto grau, embora o coeficiente de determinação (\(R^2\)) seja elevado, tem um baixo poder de predição, conforme o valor de PRESS (prediction residual error sum of squares).

O interessante e pouco discutido são os reflexos do sobre ajuste na banda de confiança dos valores preditos. Interface dá uma boa impressão visual do que ocorre. Pode-se perceber que a escolha de um modelo guiada simplesmente por valores de \(R^2\) é completamente equivocada. O lamentável é que ainda é uma prática comum na ciência aplicada. Talvez em parte seja devido ao hábito de ajustar modelos e não se fazer gráficos dos valores ajustados, preditos e bandas de confiança pois muitos aplicativos não fazem tais gráficos, apenas retornam saídas de texto onde sempre o \(R^2\) está presente, e uma menor parte é capaz de fazer gráficos de incluir bandas de confiança.

O código fonte da função está disponível no github do LEG. Sugestões e críticas são muito bem vindas! Para instalar o legTools é só correr o código abaixo.

Share

Leave a Reply

Your email address will not be published. Required fields are marked *

To create code blocks or other preformatted text, indent by four spaces:

    This will be displayed in a monospaced font. The first four 
    spaces will be stripped off, but all other whitespace
    will be preserved.
    
    Markdown is turned off in code blocks:
     [This is not a link](http://example.com)

To create not a block, but an inline code span, use backticks:

Here is some inline `code`.

For more help see http://daringfireball.net/projects/markdown/syntax

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">