Fix “getopts.pl can not be located in @INC” error in SSPACE_Standard_v3.0.pl

SSPACE是一个常用的Scaffolding软件.当你有新的测序数据时,你可以使用SSPACE将原有的contigs延长,scaffolding等.

在Ubuntu 14.04系统中运行该软件v3.0会出现错误.谷歌也没有发现好的解决方法,最终通过研究源代码,发现这是一个简单的问题,修订源代码之后,终于能够成功运行.

两处修订如下:

[cc lang=”perl”]
#~ require “getopts.pl”;
use Getopt::Std;
[/cc]

[cc lang=”perl”]
#~ &Getopts(‘m:o:v:p:k:a:z:s:b:n:l:x:T:g:r:S:’);
getopt(‘m:o:v:p:k:a:z:s:b:n:l:x:T:g:r:S:’);
[/cc]

致哀:天津保税区危化品爆炸事故

几个匪夷所思的地方:

  1. 你跟我讲空气主要污染物参数正常?
  2. 危化品操作人员未经过培训
  3. 未成年消防队员不幸遇难
  4. 记者热衷报道领导讲话和批示
  5. 危化品仓库附近有万科小区
  6. 市长同志没空参加新闻发布会?

也许,“猛疴去疾”,“重典治乱”远远还在路上。

如果有一天,年轻消防员不再壮烈牺牲,重大安全事故销声匿迹,一定回来看看这篇忘却的纪念。

修复Bio::Tree::Draw::Cladogram 输出EPS BoundingBox错误的问题

使用Bio::Tree::Draw::Cladogram 输出的 EPS 文档在很多 EPS 查看软件(如Windows下面的ACDsee,gsView等)中不能打开,经查是由于 BoundingBox 出现浮点数所致,具体设计的代码为 Cladogram.pm 的 new 方法和 print 方法,简便起见,可以在原先的 443 行代码前面添加两行代码,以解决该问题。

 

如下所示 :


print $INFO "%!PS-Adobe-\n";
$width = int($width + 1);  # BoundingBox should be int
$height = int($height +1);
print $INFO "%%BoundingBox: 0 0 ", $width, " ", $height, "\n";
print $INFO "1 setlinewidth\n";
print $INFO "/$font findfont\n";
print $INFO "$size scalefont\n";
print $INFO "setfont\n";

经测试,修改此处后,生成的 EPS 文档不会再由于该错误无法打开和查看。

在Ubuntu 12.04系统中安装LAMP(网络服务器套件)并设置rewrite

打开终端,输入以下命令,一键完成安装:

sudo apt-get install apache2 php5
libapache2-mod-php5 mysql-server
libapache2-mod-auth-mysql php5-mysql
phpmyadmin

请安装提示根据需要设置密码。

一键打开 Rewrite:

sudo a2enmod rewrite
sudo service apache2 restart

最后一步:

sudo gedit /etc/apache2/site-available/default

将其中的“Allow override NONE”改为“ALLOW OVERRIDE ALL”。

fastq format – sra format

fastq格式与fasta格式相同的一点在于它们都是文本格式,不同之处在于前者提供了测序质量等更多的信息,而后者仅仅能提供序列(前者也提供序列)。

FASTQ format is a text-based format for storing both a biological sequence (usually nucleotide sequence) and its corresponding quality scores. Both the sequence letter and quality score are encoded with a single ASCII character for brevity. It was originally developed at the Wellcome Trust Sanger Institute to bundle a FASTA sequence and its quality data, but has recently become the de facto standard for storing the output of high throughput sequencing instruments such as the Illumina Genome Analyzer.[1]

sra格式则为二进制格式,由NCBI Short Read Archive提供,为高通量测序/下一代测序的“原始记录”。由于采用二进制方式进行压缩,该格式占用空间药效,可能限于经费的原因,NCBI SRA数据库现在仅提供了sra数据的下载。不过同时NCBI提供了SRA toolkit来进行sra格式->fastq格式(sam格式等)的转化。sra格式内部(貌似)以XML database的格式存储数据。

The Sequence Read Archive or Short Read Archive is a bioinformatics database and a collaboration between the European Bioinformatics Institute, the National Center for Biotechnology Information, and the DNA Data Bank of Japan. It provides a public repository for the “short reads” generated by High-throughput sequencing.

据笔者目测,一个约700M的sra文档,经fastq-dump转化后的大小在2.4G左右。

fastq格式示例

 

sra格式的内容 - 二进制文件