August 12th, 2009
Desde hace un tiempo vengo utilizando Sphinx como herramienta de búsqueda de palabras para el proyecto en el que estoy trabajando, y estos días tuve que implementar la sugerencia de palabras para cuando el usuario escribe un término con errores, al mejor estilo “Did you mean: …” de Google.
La sugerencia de palabras para un buscador es conceptualmente similar a un corrector ortográfico, con la diferencia de que las palabras sugeridas no necesitan estar bien escritas sino que tiene que ser palabras que el usuario vaya a encontrar dentro de los términos conocidos por Sphinx. Esto significa que no me servía chequear las palabras con un diccionario español, lo que necesitaba era un diccionario de palabras indexadas por Sphinx.
Con estas ideas me puse a trabajar en la implementación, que resultó más sencilla de lo esperado:
- Para obtener la lista de palabras se utiliza el mismo indexer de sphinx:
indexer --conf sphinx.con --buildstops palabras.txt 100000
Esto genera el archivo palabras.txt con las “primeras” 100 mil palabras más utilizadas. En mi caso el total llegó sólo a 15 mil.
- Crear un diccionario, para lo cual utilicé Aspell y generé un diccionario master basado en palabras.txt:
aspell --lang=es create master ./dictionary.local < palabras.txt
Lo que queda ahora es ver si las sugerencias funcionan, y como estoy trabajando en Perl lo mejor es recurrir a CPAN, en donde encontré el módulo Text::Aspell y seguí uno de sus ejemplos:
use Text::Aspell;
my $speller = Text::Aspell->new;
die unless $speller;
$speller->set_option('master','./dictionary.local');
my @suggestions = $speller->suggest( $misspelled );
Eso es todo: dada la palabra $misspelled, Aspell me devuelve un array de palabras sugeridas, ordenadas de más certeras a menos. Lo que queda es integrar este código dentro de la aplicación. El código se invoca cuando Sphinx devuelve pocos o ningún resultado y en ese momento, si se obtienen palabras sugeridas, se le ofrece al usuario rehacer su búsqueda con la primera sugerencia.
Y funciona realmente bien, se pueden hacer pruebas en el search de Kedin.es buscando Madona mal escrito: http://kedin.es/search?q=madona.
Posted in Internet, Proyectos | 1 Comment »
June 20th, 2009
Los que entran al sitio “Venganzas del Pasado” en donde habitualmente encuentran los mp3 del programa de Dolina, habrán notado que ahora aparece un aviso de cuenta suspendida.
Todo empezó a mediados de esta semana con un mail de aviso de que el sitio estaba generando mucha carga en el servidor compartido y que lo iban a cambiar de máquina. Hasta ahí, todo bien, alcanzaba con hacer el cambio de DNS y listo.
La sorpresa llegó a las pocas hora cuando la cuenta apareció suspendida. Mail va y mail viene con la gente de soporte y de ventas de avahost.net que lo único que logró es que lo levantaran por unas horas más, pero luego lo volvieron a suspender.
El servicio que tenía contratado ofrecía por 10 dólares una buena capacidad de almacenamiento y, lo más importante para mí, 2.5TB de transferencia mensual, fundamental para poder servir los archivos de audio. Con el tráfico que tiene actualmente el sitio, unas 1500 visitas por día de promedio, estaba consumiendo la mitad de la transferencia mensual ofrecida. Y con ese tráfico estaba generando mucha carga en sus servidores. ¿Cómo se supone que voy a poder consumir todo el ancho de banda que ofrecen si el sitio no es exitoso?
Vamos a ver cómo soluciono el problema, por de pronto tengo que lograr que me den acceso nuevamente para poder sacar la base de datos y luego tratar de contratar un hosting de mejor calidad. Como se suele decir por ahí: lo barato sale caro.
Mientras tanto, el último programa lo pueden bajar de acá:
http://s3.schwindt.org/dolina/2009/lavenganza_2009-06-23.mp3
y si juegan un poco con la fecha pueden bajar el resto.
Posted in Uncategorized | 67 Comments »
October 1st, 2008
El lunes 29 de septiembre participé por primera vez en la sexta edición de Pallermo Valley y la experiencia fue realmente positiva. Al principio me sentía medio raro porque el ambiente era el de un boliche bailable, música, tragos, oscuridad… pero la direfencia estaba en la gente. Me encontré con amigos y algunos ex-Telefónica, todos con muchas ganas de ser parte de la Web 2.0 de Argentina, o de Buenos Aires al menos.
La reunión tuvo dos partes importantes (además de la posibilidad de hacer networking): la presentación de tres proyectos en la modalidad “elevator pitches” y la presentación de consejos para los emprendedores por parte de Alec Oxenford.
La modalidad “elevator pitches” consiste en contar tu idea en lo que dura un viaje en ascensor, que en este caso eran 5 minutos. Luego, un panel de expertos evalúa y critica la idea. Una de esas ideas es la que venimos trabajando desde hace un tiempo largo Juan y yo: zeppia.com. Juan tuvo el valor de hacer la presentación adelante de 300 personas, y el feedback fue positivo. Creo que esto puede ser el puntapié para que el proyecto tome forma definitica y crezca. Hoy también descubrimos con sorpresa que apareció un review muy alagador en un blog importante de España, Loogic.
Tags: zeppia internet
Posted in Internet, Proyectos | 3 Comments »
March 3rd, 2008
¡Lo prometido es deuda! Ya está funcionando Venganzas del Pasado, el archivo de programas radiales de Dolina. Está cargado con los archivos de MP3 que tenía disponibles al día de hoy y va a seguir alimentandose diariamente, aunque faltan automatizar algunas cositas todavía.
La idea es que cualquiera pueda subir comentarios o, mejor, registrarse y colaborar completando cada post diario con información del programa, de manera de que luego se pueda hacer una búsqueda por tags o por temas. Mientras no haya vandalismo el registro va a quedar abierto.
Todos los MP3 están subidos a Amazon S3, con lo cual me garantizo espacio y ancho de banda prácticamente ilimitados, aunque no gratis, con lo cual espero que el costo no se me vaya de control (se aceptan donaciones
).
Espero que lo disfruten y que me hagan llegar sus comentarios.
Posted in Dolina en MP3, Internet | 40 Comments »
February 29th, 2008
Bueno, acá estamos nuevamente con el podcast de Dolina al aire. Las grabaciones de los MP3 de los últimos días ya está funcionando bien en el nuevo servidor (salvo un pequeño problema con la hora de comienzo, que ye está solucionado). También los estoy subiendo a Amazon S3 para luego armar el sitio con todos los programas viejos. Espero poder darles buenas noticias al respecto muy pronto.
Mientras tanto, les comparto el saludo que mandó al programa un oyente de Alemania:
Loading...
Posted in Dolina en MP3 | 3 Comments »
February 8th, 2008
Lamentablemente desde ayer empecé a tener problemas con el “servidor” (en realidad una vieja PC con un Celeron 366Mhz y 160Mb de RAM) que se encarga de grabar el programa de Dolina, convertirlo en MP3 y ponerlo online. Lo malo es que no voy a tener tiempo de reinstalarlo hasta dentro de unos 10 días, con lo cual se van a perder varios programas.
La buena noticia es que decidí, a partir de los numerosos pedidos de los usuarios, armar un repositorio con todos los programas que voy grabando para que la gente lo pueda bajar en cualquier momento. Si estoy muy inspirado tal vez arme una aplicación para que la gente pueda ir anotando de qué se trata cada programa de manera que luego se pueda hacer una búsqueda por tema.
Espero que la ausencia de podcast no sea tan dolorosa. Mientras tanto pueden utilizar este link para descargar lo que pone a dispocisión Radio El Espectador de Uruguay: http://ms1.espectador.com/podcast/espectador/la_venganza_sera_terrible.xml
Saludos.
Posted in Dolina en MP3, Proyectos | 5 Comments »
January 2nd, 2008
Nuestras autoridades han decidido, con tres días de anticipación, cambiar por decreto nuestro huso horario, y en medio de los festejos de fin de año muchos sistemas deben haber quedado desactualizados. Me imagino que en ciertos ambientes, como en el bancario, más de uno habrá tenido que quedarse trabajando el fin de semana para solucionar los problemas que puede traer aparejada semejante medida.
Para los que trabajan en Linux o FreeBSD aquí les dejo un simple “howto” que les permitirá actualizar sus sistemas y dejarlo preparado para que automáticamente se cambie la hora en marzo cuando volvamos a estar en GMT-3:
- Crear un archivo, que puede llamarse por ejemplo AR.zic, con el siguiente contenido:
Rule Argentina 2007 only - Dec 31 00:00 1 D
Rule Argentina 2008 only - Mar 17 00:00 0 -
Zone America/Buenos_Aires -3:00 Argentina AR%sT
- Ejecutar el siguiente comando, que creará el archivo de zona correspondiente:
sudo zic AR.zic
- Crear el link simbólico para que la hora local quede atada a la nueva zona:
sudo ln -s -f /usr/share/zoneinfo/America/Buenos_Aires /etc/localtime
Eso es todo, a partir del paso 3 la hora debería quedar actualizada. Esto fue probado con éxito en Ubuntu 7.10, CentOS 4 y 5, FreeBSD 4 y 6.
¡Y Feliz Año nuevo para todos! (aunque haya sido por decreto).
Posted in Proyectos, Varios | No Comments »
October 30th, 2007
Tal vez no esté tan difundido, pero es posible tener email con dominio propio (es decir, lo que está después de la @, ejemplo: juan@dominiopropio.com.ar) en forma totalmente gratuita y, lo que es mejor, basado en el excelente servicio de GMail. El propósito de este post es explicar básicamente qué se necesita para tenerlo, a saber:
- Un nombre de dominio propio
- Un servidor de DNS
- El servicio de mail de Google
Read the rest of this entry »
Posted in Internet | 19 Comments »
July 6th, 2007
El miércoles pasado un oyente del programa de Dolina, que lo escucha desde Suiza a partir de los mp3 que yo genero “automágicamente”, mandó un mail al programa y Dolina lo leyó al aire:
Loading...
También dejó un comentario en el post anterior que se puede leer acá (ver Daniel Cuello)
Agradezco a todos los que me envían comentarios y sugerencias.
Posted in Dolina en MP3 | 12 Comments »
March 16th, 2007
Cada tanto recibo consultas, a través de comentarios en el blog o directamente por mail, de cómo bajar los archivos MP3 de Dolina. Es por eso que me decidí a hacer un pequeño instructivo que, además, va a servir para difundir mejor la noción de podcast.
La idea es sencilla: instalamos una aplicación que se encarga de verificar la existencia de nuevos MP3s y, si es así, los baja de Internet. Luego, el nuevo archivo MP3 puede escucharse en la PC, grabar un CD o, lo más común, subirlo al reproductor portátil para escucharlo tranquilamente en el viaje al trabajo.
Read the rest of this entry »
Posted in Dolina en MP3, Internet | 54 Comments »