https://doi.org/10.33326/27086062.2021.2.1181

Artículo original

El margen de error en los estudios de opinión para las elecciones generales de Bolivia 2020

The margin of error in opinion studies for the 2020 Bolivian general elections

¹Eddy Angel Foronda Monasterios

ORCID: 0000-0002-8292-3268

eforondax@hotmail.com

¹Universidad Mayor de San Andrés. La Paz, Bolivia

Recibido: 17/05/2021 Aceptado: 13/07/2021

RESUMEN

En Bolivia existe un fuerte debate sobre la precisión en la estimación de resultados que difunden los estudios de opinión en materia electoral, sobre todo en las últimas elecciones generales de la gestión 2020, esencialmente las encuestas preelectorales que estiman el porcentaje de intención de voto de un candidato que postula para ser autoridad política. En este estudio se analizó cómo deberían estar estructuradas las encuestas preelectorales principalmente en la parte del diseño muestral, por otro lado, se analizaron los resultados que difundieron empresas habilitadas para realizar estos estudios, también se puso especial énfasis en el margen de error que es un elemento muy importante en la difusión de resultados. Asimismo, se compararon resultados de las últimas elecciones generales 2020. Por último, se estimó el error estándar del voto válido para cada candidato con el método de remuestreo Boostrap con el software libre R.

Palabras clave: Intención de voto, voto válido, margen de error, intervalos de confianza, diseño muestral, tamaño de muestra. Código JEL:C1

ABSTRACT

n Bolivia there is a strong debate about the precision in the estimation of results disseminated by opinion studies on electoral matters, especially in the last general elections of the 2020 administration, essentially the pre-election polls that estimate the percentage of intention to vote of a candidate running for political authority. In this study, it was analyzed how pre-election surveys should be structured mainly in the part of the sample design, on the other hand, the results released by companies authorized to carry out these studies were analyzed, special emphasis was also placed on the margin of error that is a very important element in the dissemination of results. Likewise, the results of the last general elections 2020 were compared. Finally, the standard error of the valid vote for each candidate was estimated with the Boostrap resampling method using the free software R.

Keywords: Voting intention, valid vote, margin of error, confidence intervals, sample design, sample size. JEL code: C1

INTRODUCCIÓN

n estos últimos años, estimar las tendencias de los resultados de intención de voto para los candidatos de una elección, se ha vuelto muy complejo, lo que ha llevado a que las encuestas realizadas por diferentes empresas se equivoquen rotundamente y tengan una diferencia amplia cuando se comparan con el verdadero porcentaje obtenido el día de las elecciones. Uno de los primeros antecedentes de estos estudios de opinión en materia electoral y que introdujo la metodología de una encuesta probabilística fue Gallup en el año 1936, el cual utilizó una muestra de 3000 personas para pronosticar qué candidato iba a ganar la presidencia de los Estados Unidos. En esos años no existían medios de comunicación masivos ni redes sociales, tampoco teléfonos celulares, por lo que la preferencia electoral fue muy homogénea. En cambio, en los últimos años la intención de voto se ha vuelto muy heterogénea, por lo que se debe analizar minuciosamente qué tipo de muestreo aplicar y cuál es el mejor método de recolección de información en cuestionarios.

Se introdujo la metodología de un diseño muestral probabilístico, para calcular el tamaño de muestra se utilizan términos de confiabilidad y precisión, de esta forma, la precisión está medida por el margen de error. Pero los encargados de realizar y difundir los estudios de opinión en materia electoral en especial las encuestas preelectorales, en su mayoría, no realizan un cálculo minucioso del margen de error a posteriori. Solo hubo dos entidades que realizaron el cálculo de este margen de error. Por otro lado, los medios de comunicación cometen el error de difundir el margen de error que se utilizó para el cálculo del tamaño de muestra, y no el que se obtuvo con los datos recolectados en el operativo de campo, el cual puede variar, al superar a veces el margen inicial utilizado. En efecto, se debería difundir el margen de error a posteriori (e intervalo de confianza) y no solo el valor puntual obtenido. También este margen de error varía con el tipo de muestreo que se utilizó, el cual es muy diferente al calculado y que proviene de un muestreo aleatorio simple que es muy utilizado en estos estudios.

Las empresas plantearon en sus fichas técnicas la utilización de un muestreo polietápico, no obstante, para el cálculo de la desviación estándar del porcentaje de intención de voto ponen la fórmula de un muestreo aleatorio simple. De este modo, se asume que hubo un cálculo erróneo de esta desviación, la cual es un insumo para el cálculo del margen de error. Por lo cual, la propuesta en este estudio es utilizar un método de remuestreo denominado Boostrap para analizar si hubo diferencias significativas sobre la desviación estándar del estimador comparado con la desviación arrojada por el método de Boostrap.

ANTECEDENTES

Paras (2018), en su análisis sobre la compra de voto con un panel electoral en México 2018, aplica un cuestionario auto administrado por la sensibilidad del tema, donde se le preguntaba a las personas escogidas “si los partidos políticos le regalaban despensas, dinero en efectivo, materiales de construcción, medicinas o facilitaban el acceso a programas de gobierno”. Estimó que este fenómeno afecta a 29.9 millones de electores. La mayoría expresaba que no había problema en votar por un partido diferente al que le hacía ese ofrecimiento. Sin embargo, hay algunos casos donde se mencionaban que no votar por un partido les ocasionaba la pérdida del empleo o agresiones. Así que, eran señalados todos los partidos políticos por cometer este hecho. Por otra parte, analiza la inseguridad del trabajo de campo y su impacto negativo en la precisión de los resultados de opinión pública ligado a la representatividad y selección muestral. Además, el número elevado de encuestas que se realizan antes de las elecciones (de 4 a 7) y el poco tiempo para supervisar y validar el trabajo de campo genera datos de pobre calidad, confiabilidad y validez. El autor recalca el problema de la prisa en los estudios electorales, por consiguiente, es importante que los estudios electorales futuros lo hagan sin prisa y con alta calidad en la recopilación de los datos.

Hernández (2013), con base en las encuestas preelectorales realizadas para elección presidencial de 2012, menciona un aspecto relevante sobre la influencia que tienen las encuestas en las personas que van a ejercer su voto, ya que deberían sujetarse a una regulación por los errores muéstrales, no muestrales y la sobreestimación en la preferencia de voto hacia un candidato de manera intencional, errores que cometen las empresas que las realizan. De esta forma, se hace notar la creación de una política de transparencia que fomentará el acceso a la información, en donde las bases de datos y documentos deben ser públicos, así disminuir el riesgo de que circule información falsa. El resultado final dio como ganador a la coalisión del Partido Revolucionario Institucional (PRI) y el Partido Verde (PV) con una diferencia de 7 puntos sobre el Movimiento Progresista (MP), pero en la mayoría de las encuestas la diferencia era de dos dígitos porcentuales. Asimismo, se hizo la pregunta ¿Por qué se equivocaron las encuestas? Donde fueron escasas las que pronosticaron el resultado verdadero y los márgenes de error correctos. Si bien existen reglamentos para la elaboración de fichas técnicas, una política de transparencia reforzaría y corroboraría que la información sea confiable.

Berumen (2017), en su estudio sobre la precisión e incertidumbre en las encuestas electorales, menciona que en muchos sexenios la discusión previa a una elección en México era que en el padrón electoral estaban incluidos fallecidos, personas que migraron y no tenían derecho a voto, por otra parte, clonaciones de votos a favor del partido de gobierno, por lo cual, el padrón electoral estaba abultado. De esta manera, en la década de los 90, el Instituto Federal Electoral (IFE) realizó auditorías técnicas para depurar el padrón, después contrató a tres empresas para realizar un conteo rápido, para esto utilizaron un muestreo estratificado polietápico; en cada estrato se utilizó una afijación proporcional, y la selección de unidades fueron equiprobables. Cabe aclarar que en un conteo rápido la unidad de análisis es el acta electoral. De esta forma, las encuestas preelectorales ya contaban con un marco muestral depurado. A su vez, las estimaciones de las empresas convergieron a un solo resultado, lo que dio una confianza pública.

Berumen también menciona un punto intratable en las encuestas preelectorales que es la no respuesta, otros analistas lo solapaban como indecisos, solo las encuestas de tipo panel pueden minimizar este porcentaje. Asimismo, en el año 2000 hubo la “guerra de encuestas” donde hasta los conteos rápidos perdieron credibilidad, también en el año 2012 ocurrió lo mismo, lo cual ocasionó que las encuestas fueran duramente criticadas por la holgura que presentaban en comparación con los resultados oficiales, sin embargo, las empresas no se preocuparon en minimizar la no respuesta, solo algunas trataron de solucionar esto vía encuestas de panel. Además, lo que ocasionaba otra distorsión en las estimaciones era el uso del muestreo por cuotas, por ende, las empresas encuestadores se dedicaron a los muestreos estrictamente probabilísticos.

MATERIAL Y MÉTODOS

En el trabajo son analizados, en primer término, las fichas técnicas de las empresas inscritas en el Tribunal Supremo Electoral (TSE) para realizar estudios de opinión en materia electoral, de donde se extrajo resultados para efectuar un análisis descriptivo. En segundo término, son replicados los resultados de votos válidos, para ello, se utiliza la base de datos de la Universidad Mayor de San Andrés (UMSA) con la iniciativa Tu Voto Cuenta (TVC), las cuales están libres para su descarga en formato del programa estadístico SPSS. Por otro lado, para realizar el método de Bootstrap se utiliza el software libre “R”.

Elementos de un diseño muestral probabilístico

Para realizar encuestas preelectorales de intención de voto en las elecciones generales 2020 de Bolivia se ha establecido el uso obligatorio de diseños muestrales probabilísticos, conforme al “Reglamento de elaboración y difusión de estudios de opinión en materia electoral en procesos electorales”¹ del TSE, que pueden ser estratificados y polietápicos, donde se descartan los estudios no probabilísticos. Estos métodos tienen una finalidad en común, que es la estimación del porcentaje de intención de voto de cada candidato perteneciente a un partido político, este porcentaje debe estar acompañado de un margen de error e intervalo de confianza que tienen un papel muy importante en el análisis estadístico. En inferencia estadística, lo ideal es que el margen de error tenga una amplitud mínima, en una primera instancia debe ser reducido en la elaboración del diseño muestral, para esto se debe tener o construir un marco muestral que esté en base al último padrón electoral, el cual contiene el listado de todas las personas mayores a 17 años habilitadas para ejercer su voto.

La construcción del marco muestral comienza al identificar conglomerados naturales que se van a utilizar en la selección muestral, estos pueden ser manzanos, recintos, o asientos electorales. A un conglomerado generalmente se los denomina Unidad de Primaria de Muestreo (UPM). En segunda instancia se debe estratificar el marco muestral en grupos lo más homogéneamente posibles, se toma como elementos las UPMs, los estratos pueden optar en su construcción por variables de interés, por ejemplo, el nivel socioeconómico y la etnicidad, además se puede estratificar por alguna variable de cobertura geográfica. La función de la estratificación es aumentar la precisión de las estimaciones, en otras palabras, reduce el margen de error de los estimadores. Por otro lado, estos estratos deben tener correspondencia con el objetivo de estudio, en este caso la estimación del porcentaje de intención de voto, de esta manera, el estrato debe estar relacionado con la preferencia electoral hacia los candidatos a la presidencia de Bolivia.

Pueden existir estratos implícitos como los geográficos o explícitos como estratos socioeconómicos, etnicidad, nivel educativo, etc. Asimismo, se puede trabajar con una combinación de ambos; sin embargo, como se mencionó, no se debería escoger estratos que no están relacionados con el estudio, por ejemplo, para los estudios de intención de voto, no están relacionados el nivel de contaminación o precipitación. A su vez, el marco muestral y sus conglomerados naturales deben abarcar toda la cobertura geográfica del universo de estudio que es el territorio nacional.

A efectos de la pandemia de la COVID-19 y la cuarentena larga que se impuso el año 2020, las empresas inscritas para realizar estudios de opinión en el TSE tuvieron que implementar nuevas metodologías de relevamiento de información, de esta forma, la mayoría de las empresas optaron por utilizar encuestas telefónicas, otras por enviar un cuestionario en línea a celulares inteligentes, específicamente lo realizó la UMSA con la iniciativa TVC. Sin embargo, las empresas que optaron por la modalidad de encuesta telefónica y en línea, no tuvieron en cuenta la cobertura de uso y tenencia de teléfonos celulares, según estimaciones de la Encuesta a Hogares (EH) realizada por el Instituto Nacional de Estadística (INE), era del 85 % en toda la población mayor a 17 años. Por lo cual, las empresas generalizaron sus resultados a toda la población sin tomar en cuenta que el 15 % restante no usa ni tiene teléfono celular y que generalmente están en área rural dispersa, donde el partido político denominado Movimiento al Socialismo (MAS) siempre ganaba con amplia mayoría.

En la construcción de un marco muestral se presentan problemas que se deben prevenir, los cuales son los errores de cobertura: sobrecobertura, subcobertura y duplicidad. Al observar que el 15 % de la población no fue tomada en cuenta por las empresas se cometió un error de subcobertura. Sin embargo, la UMSA complementó las encuestas en línea con encuestas presenciales en el área rural dispersa. Otro error que puede presentarse en las encuestas telefónicas es la duplicidad de números de celulares, al tener una persona más de una línea de teléfono celular, estos errores pueden causar malas estimaciones de los resultados y disminuir la precisión en la inferencia de resultados, que es medida por el margen de error.

Otra situación a tomar en cuenta, es que las empresas utilizaron un muestreo aleatorio simple en una sola etapa para realizar encuestas telefónicas, esto hizo notar que no se trabajó de manera minuciosa en la construcción de un marco muestral adecuado. En la construcción que realizaron las empresas solo utilizaron el listado de números telefónicos celulares, de esta manera, en el cálculo del margen de error existe un sesgo de cobertura telefónica; ya que este tipo de muestreo arroja varianzas pequeñas, por lo cual, la metodología de encuestas telefónicas no puede medir la precisión verdadera del porcentaje de intención de voto y ocasiona que los intervalos de confianza tengan una amplitud corta que no refleja la realidad.

En un estudio de opinión al hablar de margen de error se utiliza un diseño muestral probabilístico, esta metodología brinda la posibilidad de generalizar los resultados de la estimación de intención de voto para cada candidato a toda la población, este procedimiento va acompañado de una medida de precisión (margen de error) de la estimación del porcentaje mencionado. Sin embargo, en las últimas elecciones los estudios de opinión en materia electoral elaboradas por las empresas habilitadas, utilizaron diseños muestrales polietapicos, pero dejaron de lado la variabilidad en algunas etapas, y solo presentaron la variabilidad de un muestreo aleatorio simple, lo que ocasiona que las estimaciones pierdan precisión al no tomar en cuenta la variabilidad en todas las etapas.

Intervalos de confianza

Al tomar una muestra para estimar el porcentaje de intención de voto () de cada candidato, existirá una diferencia entre la estimación y el valor real que se obtendrá solo el día de las elecciones. Esta diferencia se puede medir con el error cuadrático medio (ECM), y se consigue del cálculo de la variabilidad de las estimaciones con respecto al parámetro (porcentaje real que obtuvo cada candidato), el mismo se descompone en dos términos: la varianza del porcentaje (que su raíz es el error muestral) y el sesgo al cuadrado, como se muestra en la siguiente expresión matemática:

De esta forma, lo que se quiere en el error cuadrático medio (que mide la precisión de un parámetro) es que el sesgo sea cero, sin embargo, puede existir sesgo en las estimaciones a causa de diferentes contingencias que pueden producirse por errores ajenos al muestreo, los cuales se denominan “errores no muestrales”, algunos ejemplos que pueden originarlos son: mala elaboración del cuestionario, no respuesta excesiva, errores en el procesamiento (transcripción de cuestionarios) de la información, errores de cobertura, etc. Al mismo tiempo, un punto deseado es que la varianza del estimador (porcentaje de preferencia hacia un candidato) sea lo más pequeña posible, lo perfecto es que sea cero, así el estimador sería igual al parámetro, todo esto en base a la información obtenida de la muestra estadística; de ese modo, el intervalo de confianza tendrá un margen de error de menor extensión.

Con todo lo mencionado, se entra en el campo de la inferencia estadística, donde un tópico muy importante son los intervalos de confianza (IC), por lo cual, en este intervalo se encuentra el verdadero valor del parámetro, en este caso, el porcentaje que refleja la preferencia hacia un candidato, suponiendo que las elecciones fueran el día que se realice la encuesta. Si bien, se estiman intervalos de confianza para muchos parámetros, a continuación, se presenta el intervalo del porcentaje de intención de voto:

El rango donde se encontrará el verdadero valor tiene una probabilidad denominada nivel de confianza, por el teorema del límite central (TLC) se establece que tiene una distribución normal, el valor de Zα/2 se obtiene al acumular el área bajo la curva normal, Neyman (1937), por ejemplo, si el nivel de confianza que se establece es del 95 %, entonces el valor que acumula este porcentaje es Z=1.96.

En la ecuación 2, la raíz de la varianza que está multiplicada por el valor Z se denomina margen de error, y mide la precisión de la estimación del porcentaje. Si bien, no parece muy complejo calcular este intervalo, aumenta su grado de complejidad cuando el diseño muestral es estratificado y de varias etapas.

Estimación de la desviación estándar del porcentaje (error estándar) por el método de Boostrap

Este método fue originalmente creado por Efron (1979), además esta técnica siguió perfeccionándose con los aportes de otros autores. Efron creó este método e hizo notar que era más eficiente para estimar la varianza de la media en comparación con la técnica Jackknife desarrollada por Maurice Quenouille (1949), igualmente el método de Bootstrap da insumos para calcular un intervalo de confianza.

El método de Bootstrap es utilizado cuando no se conoce la distribución poblacional, y se asume que la muestra seleccionada es la población completa. Por lo siguiente, se presenta la fórmula matemática para estimar el error estándar: sea la desviación estándar y la siguiente sucesión son las estimaciones de las desviaciones estándar de cada remuestra , de esta forma la nueva desviación estándar de las muestras replicadas es:

Donde:

Con esta expresión matemática se aproximará al verdadero valor de la desviación estándar, ya que se desconoce la distribución poblacional de la característica, con remuestras totalmente aleatorias, este método se utiliza generalmente cuando se tiene duda de que las estimaciones originales estén sesgadas. Es de utilidad porque los muestreos de varias etapas tienen también variabilidad en cada etapa, además que la fórmula matemática de la varianza de un muestreo en varias etapas es muy compleja de calcular. Se ha demostrado que el método de Bootstrap ayuda al mejor cálculo de los intervalos de confianza, ya que estima de mejor forma la desviación estándar cuando se tienen expresiones matemáticas complejas.

Margen de error en estudios de opinión

Como se indicó, el margen de error se deriva de un intervalo de confianza y es el rango que mide la precisión de una estimación del porcentaje de la intención de voto por un candidato. Cuando se tiene una población grande, recursos limitados de tiempo y dinero para realizar un censo hacia toda la población, lo mejor es realizar una encuesta por muestreo de tipo probabilístico, también muchos autores establecieron la utilización de un muestreo en varias etapas. En cada etapa se puede seleccionar las distintas unidades de muestreo con diferentes métodos de selección.

En las encuestas de intención de voto algunas empresas mencionan en sus fichas técnicas la utilización de un muestreo complejo polietápico estratificado, sin embargo, no detallan las unidades de muestreo que seleccionarían, ni el tipo de muestreo para la elección de cada unidad muestral. A continuación, se muestra en un diagrama de cómo vendría a ser un muestreo estratificado en dos etapas, la cual contiene una unidad primaria de muestreo UPM y una unidad secundaria de muestreo USM.

Representación de un área estratificada con dos unidades de muestreo (UPMs y USMs)

Al utilizar en un mismo diseño muestral dos métodos de selección conlleva a tener dos tipos de variabilidad, en el diagrama uno se puede seleccionar UPMs y USMs, por lo tanto, la variabilidad del estimador del porcentaje de intención de voto a favor de un candidato está relacionado con la selección en ambas etapas y viene expresada en la siguiente fórmula matemática:

Donde:

: Varianza de la intención de voto del candidato “i” en el estrato h

UPMhi: Unidad primaria de muestreo “i”, en el estrato h

USMhi : Unidad secundaria de muestreo “i”, en el estrato h

La fórmula 3 representa la varianza global de un diseño muestral estratificado de dos etapas, que depende también de los factores de expansión (ponderadores). Si se utiliza un muestreo aleatorio simple, el factor de expansión tendrá menos dificultad en su cálculo, al contrario de un muestreo en varias etapas, donde la no contemplación de ambas variabilidades causa sesgo, y una mala estimación del margen de error. Asimismo, se puede explicar la calibración de un factor de expansión de dos etapas, para reducir los errores no muestrales, pero es un tema amplio que puede estar cómodamente reflejado en otro estudio.

Al observar las fichas técnicas de las empresas que realizaron y difundieron resultados de estudios de opinión inscritos ante el TSE, solo dos entidades calcularon y expusieron los intervalos de confianza y los márgenes de error, sin embargo, solo una puso en acceso libre su base de datos (la UMSA con la iniciativa TVC), esto colabora en el acceso de la información que es un punto a favor de la transparencia, porque se puede analizar la metodología propuesta en la ficha técnica y replicar resultados, de esta forma, diferentes profesionales pueden hacer aportes con investigaciones.

En muchas ocasiones existe la siguiente confusión en la interpretación del margen de error, concretamente en la difusión de los estudios de opinión realizada por los medios de comunicación, ya que en la ficha técnica se indica el margen de error que se utilizó para calcular el tamaño de muestra y todos los medios de comunicación de Bolivia lo difunden, no así el que se obtuvo con la información obtenida de los cuestionarios, que puede variar para cada candidato, lo cual da una medida de precisión verdadera del porcentaje de intención de voto.

De esta forma, para calcular el margen de error a posterior se debe tomar la estimación de ambas variaciones, las cuales se reflejan en la fórmula 3. Este punto es importante, ya que las empresas encargadas de elaborar estudios de opinión (en su mayoría) no presentan los intervalos de confianza de los cuales se puede extraer el margen de error. Como se mencionó, existen dos instituciones que calcularon los intervalos confianza, las cuales son: UMSA con la iniciativa TVC, y la empresa CIESMORI.

Por otra parte, algunas empresas presentan en la ficha técnica la utilización de un muestreo polietápico, sin embargo, para el cálculo de la desviación estándar presentan la fórmula de muestreo aleatorio simple, que no contempla la variabilidad de un muestreo polietápico. Por lo cual, este es un inconveniente, ya que se puede subestimar la variabilidad, dando un margen de error pequeño menor al 3 %, porcentaje permitido en el Reglamento de elaboración y difusión de estudios de opinión en materia electoral. Sin embargo, el porcentaje estipulado en el reglamento no especifica si el margen de error a posteriori debe ser también menor al 3 % para su difusión, que pasaría si un candidato obtuviera después de la recolección de información un margen de error superior al 3 %, ¿la empresa no podría difundir los resultados?, interrogante que debe analizar el TSE, lo que ameritaría añadir correcciones en el reglamento de elaboración de estudios de opinión, de aquí la importancia del cálculo del margen de error a posteriori.

Al observar los informes de resultados² de la página del TSE, existen 7 empresas que realizaron 17 encuestas preelectorales, de las 7 solo dos calcularon intervalos de confianza y márgenes de error, de esta forma, solo el 28 % de las empresas calcularon los intervalos de confianza con base en la información obtenida en el trabajo de campo, por otro parte, ninguna difunde estos intervalos en los medios de comunicación. A su vez, las que calculan los intervalos se los puede observar en la página del TSE, también se puede acceder a las bases de datos de las encuestas de TVC en su página web; para este estudio se utilizó la segunda encuesta³, como se ha dicho, las demás empresas no publicaron sus bases de datos ni el TSE.

Asimismo, TVC realizó encuestas presenciales en área urbana y rural, el tamaño de muestra que utilizó fue excesivamente elevado, 15 537 personas, tamaño costoso para una empresa común. La empresa CIESMORI realizó encuestas telefónicas con un tamaño de muestra de 3170 personas, la observación en esta metodología son los errores de cobertura que presenta el marco muestral (líneas de teléfono celular), porque en Bolivia como se mencionó existe un estimado de 15 % de personas que no tienen acceso a teléfonos fijos ni celulares. Tampoco existe un mapa oficial de cobertura telefónica.

A continuación, se presenta los resultados de votos válidos y como los realizó la UMSA con la iniciativa TVC, la base de datos se encuentra en formato del programa SPSS, con los cuales se replica los resultados, además, TVC añadió un archivo en el formato CSPLAN4, con el cual se puede replicar los intervalos de confianza y los márgenes de error. Se presenta los resultados de la segunda⁵ encuesta de intención de voto que realizó TVC, y fue de manera presencial.

Por lo siguiente, se utiliza el archivo CSPLAN y se estima los márgenes de error para cada candidato. El mencionado archivo contiene las variables que se utilizaron para la estratificación (departamento, área, y asiento electoral), además las variables que se utilizaron para la conglomeración (UPM) y por último el factor de expansión que se utilizó. Se presenta a continuación los intervalos de confianza y los márgenes de error.

En Tabla 1 se observa la estimación de los votos válidos que realizó TVC, con sus márgenes e intervalos de confianza, la mayor amplitud de los intervalos de confianza corresponde a los dos primeros candidatos, y se observa que no son tan precisas las estimaciones. Como se manifestó, no existe una buena cultura estadística en la difusión de resultados, porque en la ficha técnica se coloca el margen de error que se utilizó en el cálculo del tamaño de muestra y se difunde ese mismo margen lo cual no es correcto. En la Tabla 1 se aprecia los márgenes de error del voto válido, que varían para cada candidato, el margen que se utilizó para el cálculo del tamaño de la muestra fue de 0.79 %, que es superado por los márgenes de la Tabla 1, que está en base a la información obtenida en el trabajo de campo, en especial para el candidato Luis Arce del Movimiento al Socialismo con 1.5 %, seguido del Carlos de Mesa candidato de Comunidad Ciudadana que es el segundo con 1.3 %.

A continuación, en el gráfico 2, se presenta resultados que se difundieron por la empresa CIESMORI, correspondiente a la última encuesta preelectoral realizada en el mes de septiembre del 2020⁶, no obstante, la base de datos no es de acceso libre, por lo cual no se puede calcular los márgenes de error para cada candidato de la proyección de votos válidos, la empresa solo calculó los intervalos de confianza de la intención de voto, como la empresa no publica su base de datos no se puede replicar el margen de error de la intención de voto.

Al comparar metodologías de ambas entidades mencionadas se nota que utilizaron dos diseños muestrales distintos, los tamaños de muestra también son distintos, sin embargo, se compara los resultados de votos válidos, donde la diferencia no es extensa, pero sí existen diferencias significativas con los resultados oficiales, en especial con el resultado del candidato del Movimiento al Socialismo Luis Arce, seguido del candidato de Comunidad Ciudadana.

Cabe repetir que TVC de la UMSA realizó, en esta última encuesta preelectoral, el relevamiento de información en cuestionarios de manera presencial y la empresa CIESMORI realizó encuestas telefónicas, sin embargo, pese a las diferencias entre las metodologías se puede apreciar que no hay diferencias significativas entre las estimaciones, pero sí existen diferencias con los resultados oficiales del día de las elecciones generales 2020.

También se podría comparar márgenes de error de la estimación de votos válidos, de estas dos entidades, así analizar la amplitud de los márgenes de error con los resultados oficiales del día de las elecciones generales 2020, especialmente con los del candidato Luis Arce que fue eminente alto, pero lamentablemente la empresa CIESMORI no presenta márgenes de error del voto válido, y tampoco está libre de descarga la base de datos. A continuación, se presenta los intervalos de confianza de la segunda encuesta de TVC comparados con los resultados oficiales.

El gráfico muestra las estimaciones del voto válido y los intervalos de confianza de TVC y los resultados oficiales del día de las elecciones. Se observa que existen diferencias significativas en las estimaciones de los tres primeros candidatos, también los resultados oficiales no están dentro del intervalo de confianza, la diferencia del candidato del MAS es excesivamente grande, de casi el 12 %, que a simple vista se sale del intervalo de confianza. Un punto importante por explicar es la diferencia grande con el valor real, y en qué fallaron estas dos instituciones que están habilitadas para realizar estudios de opinión en materia electoral.

Como se mencionó, TVC realizó encuestas preelectorales, se tomaron como marco muestral la población inscrita en el padrón electoral; y manejó cuestionarios de manera presencial, con una muestra de más de 15 mil personas, fue una muestra demasiado grande porque falló en la estimación para el candidato del Movimiento al Socialismo, igualmente la empresa CIESMORI. Sin embargo, hay otras dificultades que son también evidentes, como la falta de cobertura telefónica que refleja un sesgo en las estimaciones, en suma, los resultados de ambas entidades no varían entre sí.

Por lo siguiente, se presenta el método de remuestreo Boostrap con 200, 1000 y 2000 réplicas o submuestras, esto se realizó en el software libre “R”, la sintaxis se adjunta en anexo. Con este método se estimó el error estándar del porcentaje de voto válido para calcular el margen de error e intervalos de confianza de cada candidato. En la sintaxis del programa R se replicó el diseño muestral; asimismo, se utilizó el factor de expansión, los resultados se presentan a continuación.

En la Tabla 2, se aprecia que existe una diferencia entre los márgenes de error de los dos primeros candidatos en 0.6 % en el candidato Luis Arce, y de 0.5 para el candidato Carlos Mesa, si bien no es un gran porcentaje, se observa un incremento del intervalo superior para el candidato del Movimiento al Socialismo (gráfico 5 en el anexo), entonces solo queda asumir que hubo un error no muestral, por lo cual no se pudo estimar el verdadero valor del porcentaje.

El TSE debe hacer correcciones más exactas al reglamento de elaboración de estudio de opinión; como a la difusión de resultados con sus márgenes de error a posteriori y la publicación de las bases de datos, de esta forma, existirá un autocontrol y regulación por las mismas empresas encuestadoras, por ende, no se difundan estadísticas falsas que traerían efectos en la población y favorecerían a uno u otro candidato.

CONCLUSIONES

Por lo expuesto, se concluye que la mayoría de las empresas no presentan los márgenes de error a posteriori, excepto dos TVC y CIESMORI, cabe destacar que TVC publicó de manera libre su base de datos para que se pueda replicar los resultados e intervalos de confianza en el cual está implícitamente el margen de error, lo que no hizo CIESMORI. Se insiste que los intervalos de confianza se calculen con los datos obtenidos en el operativo de campo.

Al revisar las fichas técnicas de los estudios de opinión, que es de acceso libre en la página de TSE, algunas empresas mencionan la utilización de un muestreo en varias etapas, pero presentan la fórmula de la varianza de un muestreo aleatorio simple, que afecta en primer término al cálculo de los factores de expansión, luego a los intervalos de confianza.

Hubo empresas que realizaron encuestas telefónicas y utilizaron un marco muestral con problemas de: subcobertura, sobrecobertura y duplicidad. El marco muestral que se utilizó es el listado de líneas de teléfonos celulares que no alcanza al total de la población del padrón electoral, conjuntamente existe el problema de la duplicidad de líneas telefónicas. Por otro lado, estas empresas no contemplaron la estimación del Instituto Nacional de Estadística, sobre el uso y tenencia del teléfono celular que solo abarca el 85 % de toda la población. Así pues, este es un aspecto que la empresa CIESMORI no tomó en cuenta y se obtuvo un sesgo para el porcentaje del candidato Luis Arce del Movimiento al Socialismo.

A pesar de que TVC utilizó una muestra grande que constituía más de 15 mil personas en comparación con la empresa CIESMORI que solo encuestó a 3000 mil personas, las diferencias de sus estimaciones no varían significativamente.

Se aplicó el método de Bootstrap y se utilizó la base de datos de TVC, así estimar si hubo algún error en el cálculo del margen de error, después de aplicar el método se observa que el margen aumentó en 0.6 % para el candidato Luis Arce del movimiento al socialismo, pero la diferencia con el verdadero valor es amplia. De esta manera, al recordar la estimación del INE sobre la tenencia de líneas telefónicas (solo de 85 %), se asume que el inconveniente se presenta más que todo en el área rural y donde el movimiento al socialismo gana siempre con altos porcentajes. Conviene subrayar que la iniciativa TVC manejó un muestreo bietápico y lo reflejó en el archivo CSPLAN, de esta forma, se pudo replicar las estimaciones.

Se podría utilizar el método Bootstrap para analizar las estimaciones de los márgenes de error realizados por CIESMORI, pero no se tiene acceso a su base de datos, así corroborar si el problema es que no se toma en cuenta a las personas no tienen teléfono celular, para concluir las empresas deben poner más énfasis en analizar el área rural.

Por todo lo mencionado, se encontró que solo una entidad incide con la transparencia en comparación con todas las empresas inscritas, y es la iniciativa TVC, sin embargo, su estimación del voto válido del candidato Luis Arce no se aproximó al resultado oficial, y restó puntos porcentuales al candidato Carlos Mesa. Para concluir, el TSE debe realizar correcciones al reglamento de elaboración de estudios de opinión, concretamente sobre la difusión de los márgenes de error y publicación de las bases de datos para que las empresas no difundan estimaciones incorrectas, lo que causaría efectos directos e indirectos en la preferencia electoral hacia un candidato (efecto de contagio).

REFERENCIAS

Berumen T. Edmundo (2017), La precisión e incertidumbre en las encuestas electorales, Instituto Nacional Electoral (INE), primera edición INE 2017, Impreso en México, Pag 67-81. https://portal.ine.mx/wp-content/uploads/2019/04/la_precision_de_las_encuestas.pdf

CEPAL (2002), Diseño y construcción de los marcos de muestreo para las encuestas de hogares, noveno taller Lima Perú, junio del 2002. https://repositorio.cepal.org/handle/11362/31784?locale-attribute=es

Cochran William (1977), Sampling Techniques, John Wiley &Sons. https://hwbdocuments.env.nm.gov/Los%20Alamos%20National%20Labs/General/14447.pd

Efron B. (1979), Boostrap Methods: Another Look at The Jackknife, Stanford University, The Annals of Statistics. https://doi.org/10.1214/aos/1176344552

Gallup Organization (1936). Gallup Organization Poll: June 1936. Cornell University, Ithaca, NY: Roper Center for Public Opinion Research. doi:10.25940/ROPER-31103059

Hernández V. Alfonso (2013), Efectos, errores y regulación de las encuestas preelectorales: una política de transparencia para el caso mexicano, CONfines 9/18 junio-diciembre 2013. http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S1870-35692013000200003&lng=es&nrm=iso

Lara Mónica (2017), Los electorados de la democracia costarricense. Percepciones ciudadanas y participación en torno a las elecciones nacionales de 2014, Tribunal Supremo de Elecciones. Instituto de Formación y Estudios en Democracia, 2017, pp.1-161. https://doi.org/10.14201/rlop.22349

Neyman J. (1937), Outline of a Theory of statistical estimation base don the classical theory of probability. Philosophical Transactions of the Royal Society of London. Series A, Mathematical and Physical Sciences, Vol. 236, No. 767 (Aug. 30, 1937), pp. 333-380, published by the Royal Society. https://doi.org/10.1098/rsta.1937.0005

Navarrete V. Juan P. (2016), Morena en las elecciones federales de 2015, Universidad Nacional Autónoma de México, Facultad de Ciencias Políticas y Sociales, Centro de Estudios Políticos. Estudios Políticos num. 40(enero-abril, 2017): 71-103, México D.F., ISNN: 0185-1615. https://doi.org/10.1016/j.espol.2017.03.001

Parás Pablo (2019), Incidencia de la compra de voto en las elecciones mexicanas de 2018: discusión sobre medición, método y retos de los estudios electorales. OPM y Georgetown University.

Sánchez Arturo (1992), Las elecciones de Salinas. Un balance crítico a 1991, México, Plaza y Valdes, 1992, 239 pp.

Quenouille, M. H. (1949). Note on the elimination of insignificant variates in discriminatory análisis, Annals of Eugenics, 14(11):305-308. https://doi.org/10.1111/j.1469-1809.1947.tb02408.x

Ruiz L. Perez M. (1999), Fundamentos de Inferencia Estadística, Editorial AC, Madrid julio 1999.

Anexos

library(DescTools)

library(dplyr)

library(survey)

%% Definir el plan del diseño muestral

en_tvc=svydesign(id=~UPM_CON,strata=~DEPARTAMENTO+AREA2020+AsientoElectoral,weights=~factorf, data=tvc)

summary(en_tvc)

%%estimaciónBootstrap

boot_tvc=as.svrepdesign(design=en_tvc, type="subbootstrap", replicates=200)

boot_valido=as.svrepdesign(design=valido_di, type="subbootstrap", replicates=1000)

boot_valido=as.svrepdesign(design=valido_di, type="subbootstrap", replicates=2000)

svymean(~C_01,boot_tvc)

mean

SE C_01Luis Fernando Camacho Vaca 0.1775684 0.0072

C_01María de la Cruz Bayá Claros 0.0048617 0.0008

C_01Luis Alberto Arce Catacora 0.4287730 0.0108

C_01Chi Hyun Chung 0.0288428 0.0021

C_01Feliciano Mamani Ninavia 0.0044219 0.0008

C_01Jorge Fernando Tuto Quiroga 0.0138634 0.0014

C_01Carlos Diego De Mesa Gisbert 0.3416688 0.0092

Notas

¹https://www.oep.org.bo/wp-content/uploads/2020/10/Reg_Estudios_Opinion_EG_2020.pdf

²https://www.oep.org.bo/elecciones-generales-2020/ dar clic en “estudios de opinión”

³https://tuvotocuenta.org.bo/Descargas

⁴sampling plan file, que español es, archivo de plan de muestreo

⁵https://www.oep.org.bo/wp-content/uploads/2020/10/Tu_Voto_Cuenta_UMSA_2_EG_2020.pdf

⁶https://www.oep.org.bo/wp-content/uploads/2020/10/CIESMORI_2_EG_OCT_2020.pdf

Este artículo es publicado por la Revista Economía y Negocios de la Universidad Nacional Jorge Basadre Grohmann. Este es un artículo de acceso abierto, distribuido bajo los términos de la Licencia Creative Commons Reconocimiento 4.0 Internacional. (https://creativecommons.org/licenses/by/4.0/deed.es).