Extraer · Quitar duplicados · Exportar

Extractor de Correos — Extrae Correos de Cualquier Texto

Pega cualquier texto y obtén una lista limpia y sin duplicados de cada dirección de correo.

Pega cualquier texto que contenga direcciones de correo
Pega texto y haz clic en Extraer correos.
Salida
Publicidad

Acerca del Extractor de Correos

Extrae cada dirección de correo de cualquier texto, ya sea pegado de documentos, extraído de páginas web o exportado de apps de mensajería, con una coincidencia por regex que maneja los casos límite que los buscadores ingenuos pasan por alto. Genera la salida como lista separada por comas, lista línea por línea o conjunto sin duplicados. Todo se ejecuta de forma local en tu navegador; no se sube nada.

Qué es la extracción de correos

La tarea es fácil de describir: revisar el texto de entrada, encontrar subcadenas que parezcan direcciones de correo y generar la lista. Las complicaciones son las mismas que en todo el trabajo con regex. Qué cuenta como dirección de correo depende de qué especificación sigas, y la especificación estricta (RFC 5322) es tan permisiva que la coincidencia práctica por regex usa una regla más conservadora.

La definición estricta permite cosas que casi ningún servidor de correo real acepta: partes locales entre comillas, comentarios entre paréntesis, dominios basados en direcciones IP, puntos dentro de partes locales entrecomilladas. La definición pragmática que usa esta herramienta coincide con aquello a lo que los sistemas de correo reales realmente entregan: local@domain.tld donde la parte local son letras, dígitos, puntos, guiones, signos de más y guiones bajos; el dominio son letras, dígitos, guiones y puntos; y el TLD son dos o más letras.

Esto atrapa cada dirección de correo que encontrarás en la práctica, a la vez que filtra falsos positivos como example.@ o @example.com que la especificación estricta técnicamente permite.

Casos de uso reales

Extraer contactos de un documento de notas de reunión. Las notas de una llamada de ventas mencionan a cinco asistentes y tres seguimientos por nombre y correo. Pasar las notas por el extractor saca limpiamente las ocho direcciones y omite las menciones de nombres sin correo.

Sacar direcciones de un correo reenviado. Un hilo de correo con encabezados Para, De, CC, CCO y menciones a lo largo del cuerpo. Extrae todas las direcciones para una revisión de cumplimiento o para agregarlas a un CRM.

Armar una lista de correo a partir de una exportación de un formulario de suscripción. Algunos formularios de suscripción ligeros (formularios de Notion, Google Forms con campos de correo) exportan los envíos como un único bloque combinado de texto por envío. Extrae solo los correos a una lista y elimina duplicados con Eliminar Duplicados.

Auditar un documento grande en busca de exposición indebida de correos. Una revisión de privacidad necesita encontrar cada dirección de correo incrustada en un documento público, un contrato o un archivo web. Extrae la lista, revisa qué es sensible y oculta lo que no debería ser público.

Analizar exportaciones CSV de CRM y herramientas. Cuando un CSV tiene direcciones de correo repartidas en varias columnas (correo del cliente, correo de contacto, correo en CC), copia todo el CSV y extrae. Más rápido que identificar qué columnas combinar.

Recopilar información de contacto legítimamente pública. Páginas de asistentes a congresos, directorios de equipo públicos y listas de contacto similares legítimamente públicas. Extrae una vez y úsalo para contactar. (No lo uses para recopilar spam; respeta la privacidad y las solicitudes de baja.)

Limpiar correos autoconvertidos de apps de chat o mensajería. Al pegarse de Slack o Discord, las direcciones de correo a veces llevan caracteres extra pegados (sintaxis de enlace de markdown, corchetes angulares alrededor, secuencias de escape). El extractor saca solo la subcadena del correo y deja atrás el ruido.

Confirmar que un correo aparece en un hilo de comunicación largo. Buscar y luego extraer es más rápido que escanear con la vista para responder «¿esta persona nos escribió en algún momento?».

Opciones de formato de salida

Tres formatos de salida cubren casi cualquier uso posterior.

Uno por línea. El predeterminado. Fácil de leer, fácil de pegar en herramientas de listas de correo y fácil de seguir manipulando con herramientas basadas en líneas (Ordenar, Eliminar Duplicados).

Separado por comas. Formato en línea adecuado para pegar directamente en el campo Para: de un cliente de correo. La mayoría de los clientes de correo aceptan listas de direcciones separadas por comas.

Separado por punto y coma. Outlook y algunos sistemas de correo corporativos prefieren el punto y coma a la coma. Usa este formato si tu herramienta lo exige.

Cada formato ofrece además una opción de «solo únicos» que elimina los duplicados del resultado antes de generarlo. Por defecto se conservan todas las coincidencias en el orden de entrada, lo que detecta repeticiones que pueden indicar algo interesante (la misma dirección mencionada varias veces en un hilo largo).

Patrones de validación de correo y casos límite

El patrón que usa esta herramienta atrapa el conjunto práctico de direcciones de correo reales y excluye los falsos positivos comunes.

El direccionamiento con signo de más como name+tag@example.com es compatible. Las direcciones con más son válidas y cada vez más comunes. Gmail, Outlook y FastMail las admiten todas.

Las partes locales con puntos como first.last@example.com coinciden. Se permiten tanto un solo punto como varios en la parte local.

Los subdominios en los dominios como name@mail.example.co.uk funcionan. Se admiten dominios de varios niveles y TLD de código de país.

Los guiones en los dominios como name@my-company.com funcionan. Los guiones son válidos en los nombres de dominio según la especificación de DNS.

Lo que no coincide (a propósito): partes locales entre comillas ("john doe"@example.com), dominios con dirección IP (name@[192.168.1.1]), TLD de una sola letra y otros casos límite que casi nunca aparecen en la práctica. Son válidos según RFC 5322 pero los rechaza la mayor parte de la infraestructura de correo real.

La puntuación en los bordes queda excluida de las coincidencias. Una dirección seguida de una coma o un punto en la prosa («contacta name@example.com,») no incluye esa puntuación final en el correo extraído. La dirección es solo name@example.com.

Errores comunes

Texto pegado con saltos de línea. A veces, copiar y pegar desde PDF introduce saltos de línea en medio de las direcciones de correo (example@
company.com
). El extractor no lo ve como un solo correo. Para arreglarlo, pasa primero la entrada por Eliminar Espacios (modo de quitar saltos de línea) y luego extrae.

Direcciones ofuscadas. Algunos sitios muestran los correos con ofuscación deliberada: name [at] example [dot] com o name@example..com o name (at) example (dot) com. El extractor no intenta desofuscar; si no parece un correo real, no se extrae.

Cadenas que parecen correos pero no lo son. github@v1.2 parece un correo pero no lo es (el TLD 2 no es válido). El requisito de TLD del extractor (2 o más letras) filtra la mayoría de estos. x@y.cc sí coincidiría. Existen TLD cortos (.cc, .tv, .io), pero un 2 por sí solo no.

Direcciones de correo Unicode. Las direcciones de correo internacionalizadas (café@münchen.de) son válidas según la especificación, pero raras en la práctica. El extractor actual no las reconoce; las direcciones solo en ASCII son el conjunto admitido. Si necesitas específicamente manejar correos Unicode, usa una herramienta dedicada.

Privacidad y consentimiento. Que las direcciones de correo estén en un texto al que tienes acceso no significa que tengas permiso para escribirles. Respeta las leyes antispam (CAN-SPAM en EE. UU., GDPR en Europa, CASL en Canadá). Extrae solo con fines legítimos.

El Extractor de Correos frente a grep y a una regex propia

Esta herramienta. La más rápida para una extracción puntual en un navegador, sin sintaxis que recordar, con los formatos de salida ya estructurados.

grep con regex. grep -oE '[A-Za-z0-9._+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}' file.txt. Lo mejor para archivos grandes, automatización y cadenas de procesos.

Una regex propia en tu herramienta o script. Necesaria cuando quieres validar los correos (no solo extraerlos), aplicar reglas más estrictas o integrarlo con otro procesamiento.

Cómo funciona la herramienta

Pega el texto en el cuadro de entrada. La herramienta aplica un patrón de regex a toda la entrada y reúne cada coincidencia. Luego se da formato a la salida según el modo que elijas (separada por líneas, por comas o por punto y coma) y, de forma opcional, se eliminan los duplicados. Se informa la cantidad de coincidencias para que puedas comprobar el resultado.

El rendimiento escala de forma lineal con el tamaño de la entrada. Las entradas de varios megabytes se extraen en mucho menos de un segundo.

Consejos de flujo de trabajo

Elimina siempre los duplicados de las listas extraídas. El texto real suele contener duplicados. La opción de salida de solo únicos te ahorra un paso.

Pon los correos en minúsculas antes de seguir procesando. A efectos prácticos, las direcciones de correo no distinguen mayúsculas en la parte local (ningún servidor de correo real rechaza mensajes por las mayúsculas de la parte local). Pasa la lista extraída por Conversor de Mayúsculas (minúsculas) antes de eliminar duplicados si quieres detectar Name@Example.COM y name@example.com como la misma dirección.

Verifica antes de enviar. Los correos extraídos a veces incluyen coincidencias falsas evidentes (erratas, referencias de dominio que parecen correos). Revisa la lista con la vista antes de enviar correo masivo; el costo de un rebote es pequeño, pero el costo de reputación de muchos rebotes es importante.

Combínalo con Ordenar Líneas para revisarlo mejor. El orden alfabético hace que una lista larga de correos extraídos sea más fácil de revisar en busca de valores atípicos y duplicados.

Preguntas frecuentes

¿Encontrará correos en cualquier documento?

Si las direcciones de correo están presentes como texto plano, sí. Los documentos cifrados, los PDF que son solo imagen y los correos ofuscados (por ejemplo, «name [at] example [dot] com») no coinciden.

¿Valida que los correos existen de verdad?

No. La extracción encuentra cadenas que sintácticamente parecen direcciones de correo. Si la dirección existe de verdad o acepta correo es otra operación que requiere consultas de DNS y sondeos por SMTP. No es algo que una herramienta basada en el navegador pueda hacer.

¿Y las direcciones con signo de más?

Compatibles. name+filter@example.com se extrae correctamente como name+filter@example.com.

¿Maneja correos Unicode?

Por ahora, no. El patrón solo reconoce direcciones ASCII. Los nombres de dominio internacionalizados y las partes locales (raros, pero válidos según la especificación) requieren un patrón distinto.

¿Se eliminan los correos duplicados?

Solo si seleccionas la opción de salida de solo únicos. El comportamiento predeterminado conserva todas las coincidencias en el orden de entrada, lo que a veces indica información útil (la misma dirección que aparece 50 veces podría ser el correo del autor del documento y no el de un cliente).

¿Es ético usar esta herramienta para recopilar correos?

Depende de la fuente y de tu propósito. Extraer correos de documentos que tienes permiso para usar está bien. Recopilar correos de páginas web sin permiso y luego enviar correo no solicitado viola las leyes antispam en la mayoría de las jurisdicciones y se considera ampliamente poco ético.

Related

Publicidad

Aprende más sobre el extractor de correos