Vos que sabés computación...: Histogramas

Uso análisis de frecuencia muy seguido. Una especie de

SELECT COUNT(*), campo FROM cosa GROUP BY campo

se logra en shell scripts con

sort | uniq -c

(siempre que consideremos que 'campo' es toda la línea)

El comando uniq toma el input y lo repite en el output, removiendo duplicados. La opción -c indica la cantidad de repeticiones. Como no ordena, tenemos que hacerlo previamente.

Si hiciéramos simplemente uniq -c, nos podrían quedar varios bloques para el mismo valor.

Pero si nuestro input tiene grandes bloques de valores repetidos, un sort de todos contra todos los valores gastaría tiempo en ordenar internamente esos bloques, cuando uniq -c los reduciría rápidamente.

Hoy me soprendí una vez más de la potencia de awk. Mi idea fue hacer un uniq -c inicial, sin sort, y resolver la duplicación de bloques con awk, así:

uniq -c | awk '{h[$2]+=$1} END {for (i in h) print h[i],i}'

O si queremos emular EXACTA y coquetamente el resultado del uniq:

uniq -c | awk '{h[$2]+=$1} END {for (i in h) printf "%7d %d\n", h[i],i}'

Explico:

Para cada línea del uniq -c que es de forma:

Metemos en un array asociativo indexado por "valor" la frecuencia (sumando al valor que ya tenemos).

Cuando llegamos al final (END), mostramos el array.

Hice cuentas con un archivo de 7.9Gb con grandes bloques, y para mi asombro sort no la pasó taaan mal. Sospecho que sort está usando alguna clase de mergeSort para ordenamiento en memoria secundaria.

Comparo los tiempos de hacer un simple uniq -c (que no resuelve nuestro porblema), un sort | uniq -c y mi sugerencia. Asombrosamente, el mío anda más rápido que el uniq -c a solas. Creo que eso está dentro de la tolerancia de la medición, o hubieron factores externos en el server.

uniq.time

real 5m40.97s

user 6m25.65s

sys 0m2.47s

sort.time

real 7m4.77s

user 7m26.90s

sys 0m4.57s

mio.time

real 5m37.56s

user 6m20.91s

sys 0m2.35s

Vos que sabés computación...

viernes, 19 de octubre de 2012

Histogramas

1 comentario:

Seguidores

Archivo del blog

Datos personales