Pega cualquier lista. Los duplicados desaparecen al instante.
Elimina las líneas duplicadas de cualquier texto. Con distinción de mayúsculas o sin ella, con recorte opcional de espacios y conservación del orden. Pega una lista de correos, entradas de registro, etiquetas o cualquier dato por líneas; recibes una versión sin duplicados en tu navegador. No se sube nada.
Quitar duplicados suena simple: conservar una copia de cada línea única y descartar el resto. Las complicaciones vienen de cómo defines «duplicado». ¿Son example@gmail.com y Example@Gmail.com duplicados? ¿Lo son hello y hello (con un espacio final)? ¿Lo son Hello y HELLO?
Distintas tareas necesitan distintas definiciones, y la definición equivocada produce resultados silenciosamente incorrectos. Esta herramienta expone tres opciones que cubren casi todos los casos reales: coincidencia con distinción de mayúsculas (la opción por defecto: igualdad estricta), coincidencia sin distinción de mayúsculas (trata foo y FOO como iguales) y recorte de espacios (quita los espacios iniciales y finales antes de comparar). Elige la combinación que se ajuste a tus datos.
Limpiar listas de correos. Las exportaciones de boletines, los envíos de formularios de contacto y los extractos de CRM suelen contener duplicados de usuarios que se registraron varias veces. Las direcciones de correo no distinguen mayúsculas por especificación (la parte local técnicamente puede distinguirlas, pero ningún servidor de correo importante lo impone), así que elimina duplicados con la coincidencia sin distinción de mayúsculas activada. Recorta también los espacios. Copiar y pegar desde hojas de cálculo a menudo introduce espacios finales que estropean la deduplicación ingenua.
Eliminar duplicados en entradas de registro. Cuando dos sistemas registran el mismo evento con la misma carga útil, terminas con duplicados emparejados que hay que colapsar en registros únicos. Pega el registro en esta herramienta con la coincidencia con distinción de mayúsculas (los registros pueden tener distinciones de mayúsculas con significado en los identificadores) y la conservación del orden activadas, y luego exporta.
Limpieza de listas de etiquetas. Los campos de etiquetas de las bases de datos, las taxonomías de entradas de blog y las listas de temas de canales de Slack acumulan variantes casi duplicadas con el tiempo: frontend, front-end, Frontend, FRONT-END. Pasa la lista por esta herramienta con la coincidencia sin distinción de mayúsculas para atrapar los duplicados obvios; las variantes de escritura tendrás que corregirlas a mano.
Eliminar filas duplicadas de CSV. Las exportaciones de hojas de cálculo a veces contienen filas duplicadas que sobrevivieron a una fusión o importación. Si tu CSV es lo bastante pequeño para pegarlo (menos de 100 000 líneas), esta herramienta elimina duplicados más rápido que pelear con la función «Quitar duplicados» de Excel, que es consciente de las columnas y se traba con los espacios.
Limpieza de listas de palabras. Las listas de vocabulario, los glosarios, las listas de palabras clave de búsqueda y los diccionarios de etiquetas de contenido se benefician de una deduplicación periódica. La coincidencia sin distinción de mayúsculas suele ser la correcta aquí: no quieres tener SQL y sql en un glosario.
Listas de dominios y direcciones IP. Las listas de permitidos, las listas de bloqueados, las reglas de firewall y los filtros de analítica suelen contener duplicados de años de configuración acumulada. El recorte de espacios es esencial. Los espacios finales invisibles de copiar y pegar estropean la deduplicación ingenua y causan errores sutiles en los filtros.
Limpieza de referencias y citas. Trabajos académicos, documentos internos y listas de lectura. Las URL, los DOI y las cadenas de citas distinguen mayúsculas en algunas partes y no en otras; la deduplicación sin distinción de mayúsculas con revisión manual atrapa los casos comunes sin colapsos falsos.
Tres opciones ortogonales controlan qué cuenta como duplicado. Se combinan: puedes tener las tres activadas, las tres desactivadas o cualquier combinación.
Con distinción de mayúsculas (por defecto). Hello y hello son líneas distintas. Úsalo cuando las mayúsculas tienen significado: archivos de registro con identificadores de mayúsculas mixtas, nombres de variables de código, claves de JSON.
Sin distinción de mayúsculas. Hello y HELLO son la misma línea. Se conserva la primera aparición; las variantes de mayúsculas posteriores se eliminan. Úsalo para correos, etiquetas, nombres de dominio y cualquier lista de lenguaje natural donde el uso de mayúsculas es incidental.
Recortar espacios. Las líneas se comparan después de quitar los espacios, las tabulaciones y otros espacios en blanco iniciales y finales. hello y hello son la misma línea. Casi siempre es la opción correcta, ya que el espacio en blanco invisible es una causa común de los errores de «¿por qué no se detecta este duplicado?».
Conservar el orden. Cuando está activada, la salida aparece en el mismo orden que la primera aparición de cada línea única. Cuando está desactivada, la salida se ordena alfabéticamente. La conservación del orden es la mejor opción por defecto para las listas legibles por humanos; el orden alfabético es mejor para el procesamiento programático posterior.
Espacios finales. La causa más común de «¿por qué no encuentra los duplicados?» es el espacio final invisible. Activa siempre Recortar espacios salvo que tengas un motivo específico para no hacerlo.
BOM y caracteres de ancho cero. Los archivos guardados en algunos editores de Windows contienen una marca de orden de bytes (BOM) al inicio. Las líneas copiadas de la web a veces contienen espacios de ancho cero (U+200B) insertados por píxeles de seguimiento o CMS descuidados. Ambos producen «duplicados» que no coinciden porque la primera aparición tiene el carácter invisible y el resto no (o al revés). La opción Recortar espacios de la herramienta no maneja estos casos en particular por ahora; para los errores tercos de caracteres invisibles, pega la entrada en la herramienta Buscar y Reemplazar y busca \u200B.
Duplicados codificados frente a decodificados. Las URL a veces aparecen en tus datos tanto codificadas con porcentaje como decodificadas: https://example.com/foo%20bar y https://example.com/foo bar. Son la misma URL funcionalmente pero cadenas distintas textualmente. La herramienta las tratará como distintas. Decodifica (o codifica) de forma coherente antes de eliminar duplicados.
Comillas tipográficas frente a comillas rectas. El texto pegado desde Word, Pages o Google Docs a menudo reemplaza las comillas rectas por comillas tipográficas (" → "). Si tus datos mezclan ambas formas, la deduplicación las tratará como distintas. Normaliza antes de eliminar duplicados si esto es un problema conocido.
Tres formas comunes de eliminar duplicados, tres compromisos distintos.
Esta herramienta. La más rápida para listas de texto plano en el navegador, expone la distinción de mayúsculas y el recorte de espacios como conmutadores explícitos, sin instalar software, se ejecuta localmente.
«Quitar duplicados» de Excel. Necesaria cuando hay que eliminar duplicados según columnas específicas de una hoja de cálculo de varias columnas (conservar la primera fila por Correo, ignorar las demás columnas). Sin distinción de mayúsculas por defecto, no recorta los espacios, opaca sobre lo que hace. Confiable para datos con forma de hoja de cálculo, penosa para el texto libre.
El comando uniq. Rápido para archivos enormes, maneja gigabytes sin despeinarse. Pero uniq solo elimina los duplicados adyacentes, así que primero debes usar sort: sort file.txt | uniq. Distingue mayúsculas por defecto; para no distinguirlas necesitas -i; el manejo de los espacios queda en tus manos. La mejor opción para archivos demasiado grandes para pegarlos en un navegador.
Pega texto en el cuadro de entrada. La herramienta lo divide en los saltos de línea, aplica la normalización que elegiste (recortar, pasar a minúscula si está activada la opción sin distinción de mayúsculas) y usa un Set de JavaScript para llevar registro de qué formas normalizadas ya se vieron. Se conserva la primera aparición de cada forma única; las apariciones posteriores se descartan. La salida se muestra en el cuadro de resultados con el texto original (sin normalizar) de cada línea conservada, en el orden de entrada o en orden alfabético según tu elección.
El rendimiento escala de forma lineal con el tamaño de la entrada. Hasta cerca de 1 millón de líneas (unos 50 MB de texto plano) se ejecuta en menos de un segundo en hardware típico; más allá de eso, la memoria del navegador se vuelve el límite.
Muestra siempre la diferencia. Antes de confiar en la salida sin duplicados, verifica que el conteo coincide con lo esperado. Si pegaste 5000 líneas y recibiste 4847, pregúntate si 153 duplicados es plausible. Si está muy lejos, lo más probable es que tus ajustes de coincidencia estén mal (distinción de mayúsculas en la dirección equivocada, espacios no recortados cuando deberían serlo).
Para las listas de correos, pasa siempre a minúscula primero. Las direcciones de correo no distinguen mayúsculas en la práctica. La opción sin distinción de mayúsculas de la herramienta lo maneja, pero para las herramientas posteriores que quizá no lo hagan, pasa la salida sin duplicados por una conversión a minúscula con el Conversor de Mayúsculas.
Para los registros ordenados, conserva el orden. Los datos de series temporales pierden sentido si los alfabetizas. Activa siempre el conmutador de conservación del orden cuando trabajes con datos secuenciales.
Cualquier cosa separada por un carácter de salto de línea (\n en Unix y macOS, \r\n en Windows). Ambos estilos de fin de línea se manejan correctamente. Las líneas vacías se conservan como una sola línea vacía si aparecen en la entrada; las líneas vacías siguientes se eliminan como cualquier otra.
Solo las posteriores. La primera aparición de cada línea única siempre se conserva. Si quieres que desaparezca cada duplicado (de modo que las líneas que aparecen dos veces o más se eliminen por completo), esta no es la herramienta adecuada. Necesitarías una función aparte de «eliminar todos los duplicados incluidos los originales».
La salida aparece en el mismo orden que la primera aparición de cada línea única en tu entrada. Si «apple» aparece en la línea 3 y «banana» en la línea 1, «banana» va primero en la salida.
La herramienta solo coincide con líneas completas. Si la línea 1 es «hello world» y la línea 2 es «hello world today», se tratan como distintas. La detección de duplicados por subcadena o difusa es un problema distinto que requiere otra herramienta.
No. La herramienta trata cada salto de línea como un separador de registros, lo que rompe las celdas de CSV que contienen saltos de línea dentro de campos entre comillas. Para una deduplicación real de CSV con análisis consciente de las comillas, usa una herramienta de hoja de cálculo o una biblioteca de CSV.
Es un límite práctico, no impuesto. La memoria del navegador determina el tope duro, y los navegadores de escritorio modernos pueden manejar varios millones de líneas cortas sin problema. Los navegadores móviles llegan al límite antes.