6月 28

在Linux和Windows平台下查找两列数据中不重复的记录

  • 在Linux中使用Shell查找两列数据中不重复的记录[简便、高效;推荐!]

现有两个文件first.txt和second.txt,内容分别如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
cat first.txt
赵
钱
孙
周
郑
王
cat second.txt
钱
赵
孙
孙
李
吴

首先进行预处理,如下:

1
2
sort first.txt | uniq >first_sort_uniq.txt
sort second.txt | uniq >second_sort_uniq.txt

Continue reading

5月 16

Shell与Perl中的颜色控制

1.控制码
e[0m 关闭所有属性
e[1m 设置高亮度
e[4m 下划线
e[5m 闪烁
e[7m 反显
e[8m 消隐
e[30m–33[37m 设置前景色
e[40m–33[47m 设置背景色
e[nA 光标上移n行
e[nB 光标下移n行
e[nC 光标右移n行
e[nD 光标左移n行
e[y;xH 设置光标位置
e[2J 清屏
e[K 清除从光标到行尾的内容
e[s 保存光标位置
e[u 恢复光标位置
e[?25l 隐藏光标
e[?25h 显示光标
Continue reading

4月 18

在Windows中高效处理文本数据

  1. GNU utilities for Win32

  2. Here are some ports of common GNU utilities to native Win32. In this context, native means the executables do only depend on the Microsoft C-runtime (msvcrt.dll) and not an emulation layer like that provided by Cygwin tools.
    主页
    下载

  3. CoreUtils for Windows

  4. The GNU Core Utilities are the basic file, shell and text manipulation utilities of the GNU operating system. These are the core utilities which are expected to exist on every operating system.
    主页
    下载:EXEBIN

  5. Time For Science中的部分PELR2EXE

  6. Continue reading

3月 09

Time For Science: UNIX tools and other lab tools

Time For Science是一套工具包,主要包括两部分内容:(通过Perl实现的)增强型的Unix系统工具,以及常用生物信息学工具的汇总。除此以外,还有一些Unix的配置文件、绘图的R脚本等。

下面简单介绍其中的几个小工具(详细介绍请点击文末的工具介绍链接):

  • trash.pl

类似于rm,但比rm更安全:它会把文件删除至默认的回收站中,而不是直接删除。

  • tree_of_filestructure.sh

显示目录树,完美支持中文!(不过好像只会现实到最底层的目录,而不会显示最低层目录下的文件。)

  • cut.pl

增强型的cut:可以在输出中对列进行重排。
Continue reading

3月 08

实用的SHELL脚本

  • 实际问题

假设有成百上千个GEO数据文件,每个文件中都有好多行的基因表达数据,文件的第一列是NCBI geneid。现在想从这许多GSE中提取出每个geneid的基因表达量,即根据geneid来对原始数据进行分组。如何实现呢?下面是使用shell的一种解决办法。……【阅读全文】

2月 28

常用的文本处理shell命令

  • 显示属性,查看内容

file:确定文件类型
cat:连接文件并在标准输出上输出
tac:反转显示文件
dog:better than cat
nl:显示时输出行号
more:在显示器上阅读文件的过滤器
less:opposite of more,一次显示一页文本
head:输出文件的开始部分
tail:输出文件的末尾部分
Continue reading